基于 SVM 和 TF-IDF 的恶意 URL 识别分析与研究

计算机与现代化

　２０１６年第７期

ＪＩＳＵＡＮＪＩＹＵＸＩＡＮＤＡＩＨＵＡ

总第２５１期

文章编号：１００６－２４７５（２０１６）０７－００９５－０３

收稿日期：２０１５－１２－２９

基金项目：国家自然科学基金资助项目（６１２７２０６７）；广东省自然科学基金团队研究资助项目（Ｓ２０１２０３０００６２４２）作者简介：甘宏（１９７６－），男，江西南昌人，广州城建职业学院副教授，南京大学博士研究生，研究方向：信息安全与云计算技术应用；潘丹（１９８０－），女，广东广州人，讲师，硕士，研究方向：大数据技术与数据库应用。

基于ＳＶＭ和ＴＦ－ＩＤＦ的恶意ＵＲＬ识别分析与研究

甘　宏，潘　丹

（广州城建职业学院，广东广州５１０９２５）

摘要：随着互联网尤其是移动互联网的快速发展，全球范围内出现了越来越多带欺诈和破坏性质的站点。本文通过分析ＵＲＬ的文本特征和站点特征，提出一种基于机器学习的ＵＲＬ检测方案，用ＴＦ－ＩＤＦ算法细化了ＵＲＬ的站点特征，并结合以上特征使用基于ＲＢＦ核的ＳＶＭ进行ＵＲＬ安全检测，得到了９６％的准确率和０．９５的Ｆ１分数。关键词：网络安全；ＵＲＬ检测；ＴＦ－ＩＤＦ；ＳＶＭ

中图分类号：ＴＰ３９３．０８文献标识码：Ａｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００６－２４７５．２０１６．０７．０１９

ＡｎａｌｙｓｉｓａｎｄＲｅｓｅａｒｃｈｏｆＭａｌｉｃｉｏｕｓＵＲＬＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎＳＶＭａｎｄＴＦ－ＩＤＦ

ＧＡＮＨｏｎｇ，ＰＡＮＤａｎ

（ＧｕａｎｇｚｈｏｕＣｉｔｙＣｏｎｓｔｒｕｃｔｉｏｎＣｏｌｌｅｇｅ，Ｇｕａｎｇｚｈｏｕ５１０９２５，Ｃｈｉｎａ）

Ａｂｓｔｒａｃｔ：ＷｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｔｈｅＩｎｔｅｒｎｅｔ，ｅｓｐｅｃｉａｌｌｙｔｈｅｍｏｂｉｌｅＩｎｔｅｒｎｅｔ，ｔｈｅｒｅａｒｅｍｏｒｅａｎｄｍｏｒｅｓｉｔｅｓｔｈａｔｈａｖｅｂｅｅｎｂｒｏｕｇｈｔｏｕｔａｎｄｄｅｓｔｒｏｙｅｄｉｎｔｈｅｗｏｒｌｄ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａＵＲＬｄｅｔｅｃｔｉｏｎｓｃｈｅｍｅｂａｓｅｄｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇ，ｔｈｒｏｕｇｈａｎａｌｙｚｉｎｇｔｈｅｆｅａｔｕｒｅｓｏｆＵＲＬ’ｓｔｅｘｔａｎｄｓｉｔｅｓ．ＴｈｅＵＲＬ’ｓｓｉｔｅｆｅａｔｕｒｅｉｓｒｅｆｉｎｅｄｂｙＴＦ－ＩＤＦａｌｇｏｒｉｔｈｍ，ｔｈｅＵＲＬｓｅｃｕｒｉｔｙｄｅｔｅｃｔｉｏｎｉｓｃａｒｒｉｅｄｏｕｔｗｉｔｈＳＶＭｋｅｒｎｅｌｂａｓｅｄｏｎＲＢＦｋｅｒｎｅｌ，ａｎｄｉｔｏｂｔａｉｎｅｄ９６％ａｕｕｒａｃｙａｎｄ０．９５Ｆ１ｓｏｒｅ．Ｋｅｙｗｏｒｄｓ：ｎｅｔｗｏｒｋｓｅｃｕｒｉｔｙ；ＵＲＬｄｅｔｅｃｔｉｏｎ；ＴＦ－ＩＤＦ；ＳＶＭ

０　引　言

随着计算机网络技术的高速发展，网络犯罪行为也日益严重。根据赛门铁克（Ｓｙｍｅｎｔｅｃ）公司的２０１４

年年度报告［１］

，平均每１１２６个网站中就有一个恶意网站，而每个社交网络中平均包含３８２９个钓鱼网站。这些流氓网站之中存在着各式各样的欺诈犯罪行为，包括出售虚假商品、开展网络钓鱼、传播病毒及木马等，对用户的信息和财产安全造成了巨大的威胁。

业界对此的主要防御手段之一为主动拦截，即在浏览器或软件客户端中加入安全模块，在用户访问恶意网站之前，检测出该ＵＲＬ对应的站点为恶意站点，阻断用户对恶意站点内容的的下载和访问。

相对于传统的黑名单检测和内容检测，学界的研究更多地集中向机器学习方向。即从ＵＲＬ对应的站点和域名信息中挖掘出特征，通过大量标注数据训练出分类器模型，再通过该模型判断未知ＵＲＬ的安全性。本文在已有相关研究基础上，对ＵＲＬ地址进行

分词处理，用ＴＦ－ＩＤＦ算法［２］

计算各个分词的权重作为统计特征，利用ＳＶＭ作为分类判决模型，在Ａｌｅｘａ和Ｕｒｌｂｌａｃｋｌｉｓｔ提供的真实数据中取得了９６％的准确率。

１　研究现状

传统的ＵＲＬ安全检测主要基于黑名单检测。ＵＲＬ黑名单通常由具有公信力的第三方网站根据用户反馈、网络爬虫、站点内容分析等手段生成并发布，其内容为已知的恶意ＵＲＬ列表。Ｗｅｂ应用、浏览器、搜索引擎等可通过黑名单来过滤ＵＲＬ地址并监控用户ＵＲＬ跳转来保护用户上网安全。然而，黑名单列表只能给用户提供最低程度的防护，全球ＵＲＬ总数一直在不断地增长，截止至２０１４年６月，全球已有近

１０亿个注册站点［３］

。期待维护一份黑名单列表能实时更新所有的恶意ＵＲＬ是不现实的，因此，用户很可能在黑名单更新前访问未被黑名单包含的有害ＵＲＬ，遭受相关安全威胁。因此需要更为智能的判决