基于 SVM 和 TF-IDF 的恶意 URL 识别分析与研究

计算机与现代化

 2016年第7期

JISUANJIYUXIANDAIHUA

总第251期

文章编号:1006-2475(2016)07-0095-03

收稿日期:2015-12-29

基金项目:国家自然科学基金资助项目(61272067);广东省自然科学基金团队研究资助项目(S2012030006242)作者简介:甘宏(1976-),男,江西南昌人,广州城建职业学院副教授,南京大学博士研究生,研究方向:信息安全与云计算技术应用;潘丹(1980-),女,广东广州人,讲师,硕士,研究方向:大数据技术与数据库应用。

基于SVM和TF-IDF的恶意URL识别分析与研究

甘 宏,潘 丹

(广州城建职业学院,广东广州510925)

摘要:随着互联网尤其是移动互联网的快速发展,全球范围内出现了越来越多带欺诈和破坏性质的站点。本文通过分析URL的文本特征和站点特征,提出一种基于机器学习的URL检测方案,用TF-IDF算法细化了URL的站点特征,并结合以上特征使用基于RBF核的SVM进行URL安全检测,得到了96%的准确率和0.95的F1分数。关键词:网络安全;URL检测;TF-IDF;SVM

中图分类号:TP393.08 文献标识码:A doi:10.3969/j.issn.1006-2475.2016.07.019

AnalysisandResearchofMaliciousURLRecognitionBasedonSVMandTF-IDF

GANHong,PANDan

(GuangzhouCityConstructionCollege,Guangzhou510925,China)

Abstract:WiththerapiddevelopmentoftheInternet,especiallythemobileInternet,therearemoreandmoresitesthathavebeenbroughtoutanddestroyedintheworld.Inthispaper,weproposeaURLdetectionschemebasedonmachinelearning,throughanalyzingthefeaturesofURL’stextandsites.TheURL’ssitefeatureisrefinedbyTF-IDFalgorithm,theURLsecuritydetectioniscarriedoutwithSVMkernelbasedonRBFkernel,anditobtained96%auuracyand0.95F1sore.Keywords:networksecurity;URLdetection;TF-IDF;SVM

0 引 言

随着计算机网络技术的高速发展,网络犯罪行为也日益严重。根据赛门铁克(Symentec)公司的2014

年年度报告[1]

,平均每1126个网站中就有一个恶意网站,而每个社交网络中平均包含3829个钓鱼网站。这些流氓网站之中存在着各式各样的欺诈犯罪行为,包括出售虚假商品、开展网络钓鱼、传播病毒及木马等,对用户的信息和财产安全造成了巨大的威胁。

业界对此的主要防御手段之一为主动拦截,即在浏览器或软件客户端中加入安全模块,在用户访问恶意网站之前,检测出该URL对应的站点为恶意站点,阻断用户对恶意站点内容的的下载和访问。

相对于传统的黑名单检测和内容检测,学界的研究更多地集中向机器学习方向。即从URL对应的站点和域名信息中挖掘出特征,通过大量标注数据训练出分类器模型,再通过该模型判断未知URL的安全性。本文在已有相关研究基础上,对URL地址进行

分词处理,用TF-IDF算法[2]

计算各个分词的权重作为统计特征,利用SVM作为分类判决模型,在Alexa和Urlblacklist提供的真实数据中取得了96%的准确率。

1 研究现状

传统的URL安全检测主要基于黑名单检测。URL黑名单通常由具有公信力的第三方网站根据用户反馈、网络爬虫、站点内容分析等手段生成并发布,其内容为已知的恶意URL列表。Web应用、浏览器、搜索引擎等可通过黑名单来过滤URL地址并监控用户URL跳转来保护用户上网安全。然而,黑名单列表只能给用户提供最低程度的防护,全球URL总数一直在不断地增长,截止至2014年6月,全球已有近

10亿个注册站点[3]

。期待维护一份黑名单列表能实时更新所有的恶意URL是不现实的,因此,用户很可能在黑名单更新前访问未被黑名单包含的有害URL,遭受相关安全威胁。因此需要更为智能的判决

相关主题
相关文档
最新文档