自动特征提取在P2P网络电视业务识别中的应用
特征提取技术

特征提取技术随着人工智能技术的日益发展,特征提取技术(Feature Extraction Technology)也日益成为机器学习算法的核心。
在实际应用中,特征提取的计算过程是一种从数据中提取有用信息的方法,使机器能够识别和理解数据。
本文将重点讨论特征提取技术,分析其工作原理以及应用于机器学习的重要性。
一、特征提取技术简介特征提取技术是指从数据中提取特定特征的一种技术。
特征提取技术可以把原始数据,即指原始输入数据,转换成机器可以识别和理解的特征值,并从中提取有用的信息。
这些特征值可以有效地把原始数据转换成有用的数据。
特征提取技术的关键在于根据实际情况,确定最有效的特征,并把这些特征转换成能够被机器识别和理解的形式。
例如,人脸识别是一个受到广泛应用的例子,在这种情况下,特征提取技术可以把人脸图像转换成有用的特征值,如眼睛的大小、鼻子的大小等,从而识别出特定的人脸。
二、特征提取技术的工作原理特征提取技术的工作原理如下:1)首先,根据实际需求,利用特征提取技术进行统计,确定有用的特征值。
2)其次,根据需要,对特征值进行编码,以便机器可以识别和理解。
3)最后,用机器学习算法处理特征值,从而达到最终目标。
三、特征提取技术在机器学习中的应用特征提取技术在机器学习中有着重要的作用,它可以把数据中有用的特征值进行提取,从而让机器学习算法更容易识别和理解数据。
在实际应用中,特征提取技术可以实现对图像、文本、声音等多种数据的有效识别和理解,从而达到机器学习的最终目标,例如,可以用来进行图像识别、自然语言处理等。
此外,特征提取技术还可以应用于量化分析领域,如股票市场预测、个人风险分析等等,从而实现有效的风险预测和投资决策。
四、结论特征提取技术可以把原始数据转换成机器理解的特征值,并从中提取有用的信息,从而让机器学习算法更容易识别和理解数据。
特征提取技术已被广泛应用于众多数据处理领域,包括人脸识别、自然语言处理等。
未来,特征提取技术将继续发挥重要作用,并不断进步,能够更好地满足人工智能技术的需求,为人类赋予更多灵活性和智慧。
特征抽取在视频行为识别中的应用与效果评估

特征抽取在视频行为识别中的应用与效果评估随着科技的不断进步,视频行为识别技术在各个领域中的应用越来越广泛。
而特征抽取作为视频行为识别的核心技术之一,对于提取视频中的关键信息起着至关重要的作用。
本文将探讨特征抽取在视频行为识别中的应用,并对其效果进行评估。
首先,我们需要明确特征抽取在视频行为识别中的作用。
视频行为识别是指通过对视频中的行为进行分析和识别,从而实现对行为的理解和判断。
而特征抽取则是将视频中的信息转化为计算机可以理解的形式,即特征向量。
这些特征向量可以包括颜色、纹理、形状、动作等多种特征。
通过对这些特征的提取和分析,可以获得视频中的关键信息,从而实现对行为的识别和分类。
在实际应用中,特征抽取在视频行为识别中发挥着重要的作用。
例如,在视频监控领域,特征抽取可以帮助识别出异常行为,如盗窃、打斗等。
通过提取视频中的运动轨迹和人体姿态等特征,可以快速准确地识别出异常行为,并及时采取相应的措施。
在智能交通领域,特征抽取可以帮助识别交通违法行为,如闯红灯、逆行等。
通过提取视频中的车辆轨迹和行驶速度等特征,可以对交通违法行为进行准确判断,从而提高交通管理的效率和安全性。
然而,特征抽取在视频行为识别中的效果评估也是一个重要的问题。
由于视频行为识别涉及到大量的数据和复杂的算法,评估其效果并不是一件容易的事情。
一种常用的评估方法是使用混淆矩阵。
混淆矩阵可以将识别结果分为真阳性、假阳性、真阴性和假阴性四个类别,并通过计算准确率、召回率和F1值等指标来评估识别效果。
此外,还可以使用交叉验证方法来评估识别效果。
通过将数据集划分为训练集和测试集,并多次进行训练和测试,可以得到更加准确的评估结果。
除了评估方法,特征抽取的效果还受到多种因素的影响。
首先是特征的选择和提取方法。
不同的特征选择和提取方法会对识别效果产生不同的影响。
因此,选择合适的特征选择和提取方法是提高识别效果的关键。
其次是算法的选择和优化。
不同的算法对于不同的视频行为识别任务有着不同的适应性和效果。
视频流处理中的内容识别和提取研究

视频流处理中的内容识别和提取研究随着互联网和移动设备的流行,视频流已经成为了人们获取信息和娱乐的主要渠道之一。
然而,视觉信息的处理和识别一直是计算机领域的一个难点问题。
随着计算机视觉和深度学习技术的不断发展,视频流处理中的内容识别和提取也获得了长足的进展。
一、视频流处理中的内容识别技术内容识别是指通过计算机视觉和机器学习的方法,对视频流中的内容进行自动识别和分类。
这些内容包括人物、场景、物体、语音等等。
一般来说,内容识别技术可以分为两个阶段:特征提取和模式识别。
特征提取是指通过对视频流进行图像处理和分析,提取出其中的关键特征。
这些特征可以包括色彩、纹理、形状、运动等等。
在接下来的模式识别阶段,这些特征会被输入到分类器中,来进行分类和识别。
目前,常用的特征提取方法包括手工设计的特征和基于深度学习的特征。
手工设计的特征通常基于图像的颜色、纹理和形状等视觉特征,然后结合传统的机器学习算法进行分类。
而基于深度学习的特征则采用神经网络来自动地学习图像特征,并通过几层网络来提取更高层次的语义特征。
二、视频流处理中的内容提取技术内容提取是指通过内容识别技术,从视频流中提取出有用的信息。
这些信息可以包括关键帧、文本、语音、人脸等等。
通过内容提取技术,我们可以把一段视频转化为含有各种元素的数据文件。
这些数据文件可以被用于搜索、分类、分析和编辑视频流。
目前,视频流中的内容提取技术主要包括图像检索、文本识别、语音识别和人脸识别等。
图像检索可用于从给定的视频流中检索出与给定图像相似的图像。
文本识别可用于识别视频流中的屏幕文本,并提供OCR效果。
语音识别可用于从视频流中提取出相应的语音信息。
人脸识别可用于从视频流中识别出特定人物的面部特征,并实现类似身份验证的作用。
三、视频流处理中的应用场景视频流处理中的内容识别和提取技术已经被广泛应用于各个领域。
其中一些应用场景包括:1. 视频搜索和推荐。
通过自动化的视频流处理和内容提取技术,可以实现更加准确和高效的视频搜索和推荐服务。
目标特征提取及识别技术

目标特征提取及识别技术
目标特征提取及识别技术是一种用于自动识别和分类图像或视频中的目标的技术。
它通常包括以下步骤:
1. 预处理:对输入的图像或视频进行预处理,以消除噪声、调整亮度和对比度等。
2. 特征提取:从预处理后的图像或视频中提取有用的特征,例如颜色、纹理、形状等。
这些特征可以用于后续的目标识别。
3. 特征选择:根据任务需求,从提取的特征中选择最相关的特征。
这可以通过各种方法实现,例如相关性分析、主成分分析等。
4. 模型训练:使用已标记的数据集来训练一个分类器,该分类器可以根据提取的特征将目标分为不同的类别。
常用的分类器包括支持向量机、神经网络等。
5. 目标识别:使用训练好的分类器对新的图像或视频进行目标识别。
这可以通过将提取的特征输入到分类器中来实现。
目标特征提取及识别技术在许多领域都有广泛的应用,例如自动驾
驶、安防监控、医学影像分析等。
随着深度学习技术的发展,目标特征提取及识别技术也在不断进步和完善。
热点事件发现及事件内容特征自动抽取研究的开题报告

热点事件发现及事件内容特征自动抽取研究的开题报告一、研究背景及意义随着信息化时代的到来,人们可以通过多种方式获取大量的信息,从而使得热点事件越来越多。
然而,这些事件的数量是如此之大,以至于人们无法在短时间内全面了解和掌握这些事件。
因此,需要一种自动化的技术,可以帮助人们及时发现和了解热点事件的内容和特征。
热点事件的发现及内容特征的自动抽取是自然语言处理和机器学习等领域的研究重点。
该领域的研究具有重要的实践意义。
首先,在政治、经济、社会等领域,热点事件的发现和内容特征的自动抽取可以提供重要的参考信息,以帮助人们更好地了解、分析和预测事件的发展趋势,从而采取更为科学的决策。
其次,在新闻媒体、社交网络等领域,热点事件的发现和内容特征的自动抽取可以帮助人们更快速地了解和分享最新的事件信息,从而提高社会传播和交流的效率。
综上所述,热点事件发现及内容特征的自动抽取是一项具有重要意义和广泛应用前景的研究工作。
二、研究目的本研究旨在通过分析和研究现有的文本自动处理技术,设计一种有效的热点事件发现及内容特征自动抽取模型。
该模型可以快速、准确地发现最新的热点事件,并提取出事件的关键信息和特征,以帮助人们更好地了解、分析和预测事件的发展趋势。
三、研究内容本研究主要涉及以下内容:1. 热点事件的定义和分类:明确热点事件的概念和特点,分析和归类不同类型的热点事件。
2. 热点事件发现的技术研究:探讨文本挖掘、信息抽取、机器学习等自动化技术在热点事件发现中的应用,分析各种技术的优缺点。
3. 热点事件内容特征的自动抽取:基于热点事件的特定语境,设计并实现有效的自动抽取算法,将热点事件中的关键信息和特征提取出来。
4. 系统实现:基于所设计的热点事件发现及内容特征自动抽取模型,开发一个完整的系统,并进行实验分析和性能优化。
四、研究方法本研究采用文本挖掘、信息抽取、机器学习等自动化技术,通过分析和研究一定数量的文本数据,设计和实现热点事件发现及内容特征自动抽取模型。
基于无监督机器学习的网络流量分类研究综述

第21卷第6期信息工程大学学报Vol.21No.62020年12月Journal of Information Engineering UniversityDec.2020㊀㊀收稿日期:2020-09-01;修回日期:2020-09-21㊀㊀基金项目:国家重点研发计划资助项目(2017YFB0803201);国家自然科学基金资助项目(61572519)㊀㊀作者简介:王方玉(1993-),女,硕士,主要研究方向为网络安全㊁机器学习㊂DOI :10.3969/j.issn.1671-0673.2020.06.012基于无监督机器学习的网络流量分类研究综述王方玉1,2,张建辉2,卜佑军2,陈㊀博2,孙㊀嘉1,2(1.郑州大学中原网络安全研究院,河南郑州450002;2.信息工程大学,河南郑州450001)摘要:面向海量数据的流量分类技术日趋重要,已成为网络资源调度㊁网络信息安全等领域的基础支撑技术㊂无监督机器学习因其无需手动标记流量数据,具有灵活㊁通用等特性,已成为网络流量分类研究者广泛使用的核心算法;但目前尚缺乏对相关研究成果全面深入的分析,制约了已有算法应用和进一步研究创新㊂围绕无监督机器学习在网络流量分类领域的研究进展,重点总结了无监督机器学习算法在网络流量分类中的研究,并从算法分类采用的协议类型㊁特征参数和结果的有效性进行对比分析;最后针对无监督机器学习算法在流量分类领域的研究方向,在特征提取方法㊁不平衡数据处理方面给出了新的研究思路㊂关键词:无监督机器学习;流量分类;分层学习;聚类算法;隐变量模型中图分类号:TN918.91㊀㊀㊀文献标识码:A文章编号:1671-0673(2020)06-0705-06Unsupervised Machine Learning for Traffic Classification :A SurveyWANG Fangyu 1,2,ZHANG Jianhui 2,BU Youjun 2,CHEN Bo 2,SUN Jia 1,2(1.Department of Zhongyuan Network Security Research Institute,Zhengzhou University,Zhengzhou 450002,China;rmation Engineering University,Zhengzhou 450001,China)Abstract :Massive data-oriented traffic classification technology is increasingly important and has be-come the basic support technology in the field of network resource scheduling,network informationsecurity,etc.Unsupervised machine learning has become a core algorithm widely used by researchers of network traffic classification because it does not require manual identification of traffic data,and is flexible and universal.However,it lacks comprehensive and in-depth analysis of related research re-sults,which has restricted some algorithm applications and further research and innovation.Traffic classification is an important way to realize network management and security,so it plays an impor-tant role in network security management and is the current research hotspot in the field of network information security.It focuses on the research of unsupervised machine learning algorithms in net-work traffic classification,and compares and analyzes the types of protocols,feature parameters andresults used in algorithm classification.Finally,the future research direction of unsupervised machine learning algorithms is put forward,such as refined classification of encrypted traffic in the field of traffic classification.This article has important reference value for the exploration of new ideas,newmethods and new technologies for network traffic classification.Key words :unsupervised machine learning;traffic classification;hierarchical learning;clusteringalgorithm;latent variable model706㊀信息工程大学学报㊀2020年㊀㊀㊀网络流量分类是通过特征识别,把具有相同特征的流量划分为一个集合的过程;其主要目标是识别网络数据所属的网络应用程序,并实时控制网络数据的流向[1]㊂网络流量分类作为理解㊁规划㊁发展和管理网络的基础方法,对开展网络模型研究㊁网络规划设计㊁网络行为分析㊁网络资源调度㊁网络服务质量保障㊁网络异常检测[2]和管理控制的研究工作具有重要意义[3]㊂面对当前网络环境中的海量数据以及网络攻击频发的现状,采用监督学习方式对流量标记需要耗费大量的成本,而且面对海量数据进行数据标记难以实现[4],但是无监督机器学习[5]无需手动标记数据,因此近年来基于无监督机器学习算法解决流量分类的研究越来越多㊂但是与监督学习以及半监督学习在流量分类的综述相比,基于无监督机器学习算法的流量分类研究综述在国内几乎是空白㊂基于上述情况本文总结并介绍了用于网络流量分类的无监督机器学习算法㊂根据无监督机器学习算法的特点和网络流量分类技术的发展,对基于无监督机器学习算法网络流量分类的研究目的进行了介绍,阐述了对网络流量中异常流量㊁加密流量㊁加密恶意流量的分类㊂总结了应用于网络流量分类中的无监督机器学习算法的研究文献,并对文献中流量分类所用的协议㊁分类特征及方法的有效性按照时间发展顺序进行了对比分析㊂最后,对流量分类中当前面临的问题和未来研究方向进行总结和展望㊂1㊀网络流量分类研究目的传统的网络流量内容简单,基于端口的识别方法㊁基于主机行为的识别方法和基于有效负载的识别方法就可对正常流量与异常流量进行有效识别㊂然而随着网络中加密流量比例不断上升,传统网络流量分类方法的适用性较低㊂当前异常流量的识别主要分为加密恶意流量和非加密异常流量,加密流量中不包含任何可识别的数据包内容特征,这样虽然可以防止用户隐私泄露,但是也使恶意软件可利用加密流量通信时躲避安全软件的检测㊂在对加密流量分类的基础上,对加密恶意流量中的恶意代码通信㊁加密信道恶意攻击和恶意加密应用的有效识别也是重要的研究内容㊂基于当前网络流量变化,对流量分类的研究内容总结如图1所示㊂图1㊀网络流量分类研究内容2㊀基于无监督机器学习的网络流量分类㊀㊀面对当前网络流量增长迅猛,安全问题频发的挑战,监督学习[6]需要花费人力标记数据且用传统的标记标签的方法识别流量类别容易出错,识别加密流量的难度更大,因此监督学习的方法越来越不易管理当前高度异构和动态的网络㊂无监督机器学习算法是把无标记流量中具有相似性的样本划分为一个簇的过程,与监督学习算法相比其优势明显㊂因此本节将对常用于网络安全中的应用于网无监督机器学习算法进行总结分类㊂无监督机器学习算法中常用的3类算法分别是:分层学习㊁聚类算法㊁隐变量模型㊂无监督机器学习算法的分类如图2所示㊂图2㊀无监督机器学习算法总结图㊀第6期王方玉,等:基于无监督机器学习的网络流量分类研究综述707㊀2.1㊀面向分层学习的网络流量分类分层学习是从多个线性和非线性激活的层次中学习简单或复杂的特征㊂分层学习主要包括:自编码㊁深度学习等神经网络算法,神经网络主要包括输入层㊁中间层(又称隐藏层)㊁输出层3个部分,每层的神经元只能接受前一层神经元的输出作为自身的输入信号㊂其中卷积神经网络主要包括两种类型,即单层反馈神经网络(Hopfield Neural Network,HNN)和玻尔兹曼机(Boltzmann Machine, BM)㊂在学习模型中,特征是输入数据的可测量属性㊂理想的特征具有信息性㊁识别性和独立性㊂特征学习也称为数据表示学习,是一组可以从输入数据中学习一个或多个特征的技术㊂针对分层学习中的网络流量分类的文献总结如表1所示㊂表1㊀分层学习在网络流量分类中的应用算法协议类型特征有效性时间无监督神经网络[7-9]HTTP IP地址㊁端口㊁协议满足实际应用的精度要求,没有研究卷积神经网络的调参数2016TCP DNS SYN IP地址㊁数据包的长度该文中的deep packet是使用深度学习算法自动从网络流量中提取特征来对流量进行分类的框架㊂来自网络流量的自动特征提取过程可以节省使用专家从流量中识别和提取手工特征的成本,使流量分类更准确㊂2017 TCP\IP数据包头部㊁数据包负载和数据流时间序列此文把加密数据流看为不同时刻的数据包组成的时序向量,提取数据包的头部和负载特征作为识别特征,最后在Android平台应用程序识别实验,验证了方案对于流量识别的有效性㊂2019自编码[10-12]对BaiduWeChatWeibo等应用分类背景流量自动编码器可以实现无监督提取样本特征的原理,并提出了改进的变分自编码,结果显示了模型良好的适应性㊁同时达到了分类精度要求㊂2018FTP㊁P2P字节长度等特征作者采用堆叠自动编码和卷积神经网络对网络流量进行分类,实验结果表明分类具有较高的召回率㊂2019 TCP/UDP数据包的数量㊁字节数㊁包间时间等深度自编码从有效统计特征中提取瓶颈特征,实验结果表明聚类纯度较高2019生成对抗网络[11]TCP HTTP流传输的包长特征㊁方向序列特征和时间序列特征作者提出了对HTTPOS通过修改TCP MSS及HTTP range等选项控制包长度防御网页分类攻击20192.2㊀面向聚类算法的网络流量分类聚类是由若干相似对象形成多个组或簇的过程,主要目的是找到未标记输入数据中的隐藏模式㊂ 簇 的特征是根据数据相似性和距离得到的而非事先已知㊂本质上,聚类时相同类别的距离越小,不同类别间距离越大,聚类效果越好㊂在网络流量分类方面,聚类算法应用广泛㊂常用于流量分类的聚类算法主要包括:最大期望化算法㊁自动分类算法[7,14]㊁K-means算法[14-15]㊁核密度聚类[16]㊁DBSCAN聚类[15]和空间密度聚类[17]等㊂文献[13]扩展了上述方法,通过基于EM的Auto-class 算法,并利用特征选择方法对数据集进行前期预处理,得到较优的流量特征属性集,用来提高该算法的分类准确性[13]㊂文中通过在不同位置采集的数据集对算法进行测试,并评估了最终分类结果与不同的流量特征属性关系,但该算法在实验过程中去掉了数据集中传输包的数量小于3个的网络流,在一定程度上降低了该方法的泛化能力㊂文献[15]提出了一种完全无监督的算法来识别聚合内部的流量类型㊂该算法利用K-means聚类算法,增加了一种自动确定流量聚类数量的机制㊂把聚类簇映射到真实的网络应用是聚类算法的最终目标,映射过程很大程度上影响结果的精确度,如果没有实际网络应用的相关信息㊂网络流量分类中基于聚类算法研究文献中算法分类时的协议类型㊁特征及有效性总结如表2所示㊂2.3㊀面向隐变量模型的网络流量分类隐变量模型是一种统计模型,它把显变量和一组隐变量(或潜变量)联系起来,可以处理较为复杂的分布㊂文献中,当网络存在训练数据中没有的新型未知协议和应用时,流量分类算法准确率很低[18]由于协议与端口之间的关系恶化,识别应用708㊀信息工程大学学报㊀2020年㊀表2㊀网络流量分类中的聚类算法总结表算法协议类型特征有效性时间EM[13]P2P数据包的长度㊁数据包的到达时间㊁标准偏差实验结果显示两种算法都很好,但K-means算法的精确度更高2015Auto-class[7,14]FTP TELNETSMTP DNS HTTPAOL MESSENGER数据包的数量及大小等该算法量化属性对学习的影响,对流量识别的准确度约为86.5%,对一些混合的应用程序识别不太准确㊂对于更多应用程序和流的识别准确性需要进一步研究㊂2005HTTP P2PSMTP IMAPPOP3MSSQL数据包总数㊁平均数据包长度㊁传输的字节数㊁平均数据包到达间隔时间本文考虑了两个以前未用于网络流量分类的无监督聚类算法,即K-means和DBSCAN㊂将它们与之前使用的Auto-class算法进行比较㊂实验结果表明,K-means和DBSCAN都能很好地工作,并且比Auto-class快得多,虽然DBSCAN与K-means比Auto-class相比具有较低的准确度,但DB-SCAN产生更好的聚类㊂2006K-means[13-15]P2P数据包的长度㊁数据包的到达时间㊁标准偏差实验结果显示两种算法都很好,但是K-means算法的精确度更高2015HTTP P2PSMTP IMAPPOP3MSSQL数据包总数㊁平均数据包长度㊁传输的字节数㊁平均数据包到达间隔时间本文考虑了两个以前未用于网络流量分类的无监督聚类算法,即K-means和DBSCAN㊂将它们与之前使用的Auto-class算法进行比较㊂实验结果表明,K-means和DBSCAN都能很好地工作,并且比Auto-class快得多,虽然DBSCAN与K-means比Auto-class相比具有较低的准确度,但DB-SCAN产生更好的聚类㊂2006Web P2P FTP数据包㊁流量的长度㊁端口号㊁往返时间等流的识别准确率高,计算开销低,算法完全是自动配对,聚类的数量㊁准确性和复杂性之间做了良好的平衡2011核密度聚类[16]UDP DNS包的数量㊁传输字节的数量㊁数据包的大小㊁数据包的到达时间等该模型与使用核密度估计和流量包的分类方法相比,该方法的分类准确率更高㊂2016DBSCAN[15]HTTP P2PSMTP IMAPPOP3MSSQL数据包总数㊁平均数据包长度㊁传输的字节数㊁平均数据包到达间隔时间本文考虑了两个以前未用于网络流量分类的无监督聚类算法,即K-means和DBSCAN㊂将它们与之前使用的Auto-class算法进行比较㊂实验结果表明,K-means和DBSCAN都能很好地工作,并且比Auto-class快得多,虽然DBSCAN与K-means比Auto-class相比具有较低的准确度,但DB-SCAN产生更好的聚类㊂2006空间聚类[17]TCP/UDP流数量㊁流的占比㊁流字节总数等子空间聚类算法提高了对流量的精细化分类并且训练数据的需求量低2014层协议越来越费力㊂面对新型协议㊁应用时,由于没有特征匹配而无法识别,会被错误的分类到某一类训练数据的协议类别中,准确度大幅度下降㊂为了解决这个问题,文献[15]在提出了用无监督协议推理的通用架构和数学框架之后,又提出了3种无监督分类技术:字节偏移的产品分布,字节转换的马尔可夫模型和消息字符串的公共子字符串图的内容,用于捕获协议中流量信息的序列和结构㊂文献[21]通过马尔科夫模型[20]提取特征参数,识别流量应用类型,解决了传统分类方法依赖不稳定聚类算法的问题㊂文献[22]提出结合高斯混合模型和隐马尔科夫模型的新的流量分类模型,提高了对网络流量的监管能力㊂实验结果表明提出的新模型的参数选择方式,计算代价低,对协议和应用分类效果好,可实现流量中加密流量的有效识别与分类㊂文献[23]采用人工蚁群算法优化高斯过程,并对非线性的预测误差建模㊂针对当前隐变量模型的网络流量分类的特点以及有效性总结如表3所示㊂表3㊀基于隐变量模型算法的网络流量分类研究总结算法协议类型特征有效性时间马尔科夫过程[19-22]FTP SMTP POP3IMAP HTTPSHTTP SSHTCP单向流的第1个n字节有效负载的离散字节编码解决识别应用层协议已成为越来越多的手动和费力的任务,提出了一种用于无监督协议推理的通用架构和数学框架㊂使用来自3个网络的实际流量跟踪在两个使用设置中比较这些分类器的性能,并证明分类器可以在没有先验知识的情况下成功地分组协议㊂2006 TCP/IP FTP SSH五元组和流量的特性计算马尔可夫链在分布模型中的概率,将一维特征值转化为多维特征参数,使用KL距离划分相似度较高的样本聚成类簇,然后使用密度聚类来计算聚类的中心点,以此来提高分类的准确度㊂2018㊀第6期王方玉,等:基于无监督机器学习的网络流量分类研究综述709㊀续表3㊀基于隐变量模型算法的网络流量分类研究总结算法协议类型特征有效性时间HTTP SSH TLSSTUN FTP有包间时间和包间大小组合的两维状态特征高斯混合模型和隐马尔科夫模型结合的新模型,计算代价低,对加密流量中的协议和应用分类效果好㊂2020FTP P2P WWW降低维度新的分类模型可以减低计算复杂度㊁解决维度的难题和自动寻找核函数最优工作系数㊂可用于流量分类器的特征提取和参数优化㊂2016主成分分析法[24-26]TCP/IP源端口㊁目的端口㊁协议类型㊁服务类型等实验结果显示算法具有较好的性能,并且得出的运算时间随矩阵行数增加而增长,此算法可以检测较长时间的数据㊂2012TCP UDP ICMP流的数量㊁流的平均字节㊁数据包的平均字节和端口的熵等实验结果显示文献中改进的MSPCA的ROC曲线值和准确率值较高,检测性能好20193㊀结束语3.1㊀研究展望由于当前网络结构日趋复杂,流量庞大且保持爆炸式增长的趋势,流量类型因网络应用发展快速更新,基于无监督机器学习的流量分类研究面临严峻挑战,尤其在以下几个方面值得进一步探索研究:3.1.1㊀网络流量特征提取方法有效的特征提取方法是提高流量分类准确率的重要手段㊂网络流量特征提取方法主要有基于内容特征㊁基于数据流特征以及基于网络连接行为特征等3类常见的方法;对于非加密的流量可以选取基于内容的特征匹配的方式,对于加密的流量则较多选用数据流特征和网络连接行为的特征的方法㊂当前网络应用频繁更新,导致了流量特征提取方法存在的困难日益增多,因此本节提出了网络流量特征提取方法的后续研究方向:①人工特征提取瓶颈基于内容特征匹配的流量分类方式,是最为常用和可靠的,但是它面临人工特征提取难的问题[27]㊂特征严重依赖研究人员的专业知识,存在特征对于流量区分度低或者特征过于庞杂难以有效使用,特征无法达理想的流量分类效果㊂②特征学习面临样本干扰的挑战基于内容特征的流量分类方式不适合对加密流量分类,研究人员引用深度学习算法;基于网络连接行为可自动化学习流量的隐藏特征,并取得了良好的流量分类效果㊂深度学习算法的学习函数不是连续的,分类时存在样本干扰现象,而采用样本对抗训练的方法,解决样本干扰产生的分类错误率过高等问题,是未来值得探索的研究点㊂③多方式结合对流量特征全面学习目前对于网络流量的特征处理的方式中,人工提取特征在流量识别时可靠性高,但人工特征设计难,花费的代价高;深度学习可自动化学习流量中更本质㊁更深层次的隐藏特征,深度学习函数的不连续性会带来样本干扰的问题㊂因此,在网络流量的特征多样化特点下,结合人工提取内容特征和自动化提取流量隐藏特征的方法,是解决流量分类特征提取问题的一个新方向㊂3.1.2㊀基于不平衡数据处理的研究由于现实场景中恶意流量的占比远小于正常流量;恶意样本的验证和收集依赖于安全人员的专业知识,即使可以依靠专门的人员收集,但相比正常样本收集难度较大,用于训练的恶意流量样本远小于正常样本,从而产生了数据集不平衡的问题㊂而在训练数据时,数据集不平衡容易造成模型不准确的问题,同时还会影响学习算法的性能[28]㊂因此流量分类的研究中对于不解决不平衡数据而得出的准确率,是没有意义的准确率;如何解决数据集中样本不平衡问题是当前流量分类领域的重要研究点㊂3.2㊀总结无监督机器学习作为机器学习领域最热门的研究方向之一,吸引着越来越多的工业界和学术界的研究者应用于网络流量分类研究,并取得了大量的研究成果㊂本文分析了网络流量分类研究状况和发展趋势;介绍了当前流量分类的研究内容;总结了近些年常用于解决网络流量分类的无监督机器学习算法,然后分别从分层学习㊁聚类算法㊁隐变量模型3个方向对流量分类中不同协议㊁不同特征的分类效果对比分析;最后总结了网络流量分类所面临的问题,给出了开展研究的新思路㊂710㊀信息工程大学学报㊀2020年㊀参考文献:[1]ERNST B,CHRISTIAN C,M M.Data traffic monitoringand analysis[M].European Cooperation in Science and Technology,2013:145-162.[2]WANG Zhanyi.The application of deep leaving on traffi-cation[M].BlackHat USA,2015:1-10.[3]赵双,陈曙晖,基于机器学习的流量识别技术综述与展望[J].计算机工程与科学,2018,40(10):1746-1756. [4]张蕾,崔勇,刘静,等.机器学习在网络空间安全研究中的应用[J].计算机学报,2018,41(9):1943-1975. [5]熊刚,孟姣,曹自刚,等.网络流量分类研究进展与展望[J].集成技术,2012,1(1):32-42.[6]CARELA-ESPANOL V,BUJLOW T,BARLET ROS P.Isour ground-truth for traffic classification reliable[C]//Proc of Passive And Active Network Measurement,2014: 98-108.[7]孙晓晨.基于半监督学习的网络流量分类技术研究[D].北京,北京邮电大学,2017.[8]ZANDER,S,NGUYEN T,ARMITAGE,G.Automatedtraffic classification and application identification using machine learning[C]//IEEE Conference on Local Com-puter Networks30th Anniversary(LCNᶄ05),2005: 250-257.[9]ERMAN J,MAHANTI A,ARLITT M.Qrp05-4:Internettraffic identification using machine learning[C]//IEEE Globecom2006,2006:1-6.[10]李玎.基于深度学习的网络流量识别关键技术研究[D].郑州:信息工程大学,2018.[11]TUDOSIU P,VARSAVSKY T,SHAW R,et al.Neuromorphologicaly preserving Volumetric data encoding using VQ-VAE[J].arXiv:2002.05692v1:2020.[12]PARTHASARATHY D,BÄCKSTRÖM K,HENRIKS-SON J,et al.Controlled time series generation for auto-motive software-in-the-loop testing using GANs[J].arX-iv:2002.06611v2.[cs.LG]2020.[13]Singh,Hardeep.2015Fifth International Conference onAdvanced Computing&Communication Technologies-Performance Analysis of Unsupervised Machine LearningTechniques for Network Traffic Classification[C]//FifthInternational Conference on Advanced Computing&Communication Technologies.IEEE,2015:401-404.[14]ERMAN J,ARLITT M,MAHANTI A.Traffic classifica-tion using clustering algorithms[C]//MineNet 06:proc.2006SIGCOMM workshop on mining network data.New York,NY,USA:ACM Press,2006:281-286. [15]FINAMORE A,MELLIA M,MEO M.Mining unclassi-fied traffic using automatic clustering techniques[C]//Proceedings of Third International Traffic Monitoring andAnalysis(TMA),2011:150-163.[16]AGUIAR C,LEITE D.Unsupervised Fuzzy EIV:evolvinginternal-external Fuzzy Clustering[J].arXiv:2003.12381v1[cs.AI]2020.[17]周文刚,陈雷霆,董仕..基于谱聚类的网络流量分类识别算法[J].电子测量与仪器学报,2013,27(12):1114-1119.[18]潘珍如.基于主成分分析和草图的网络异常流量检测研究[D].天津:天津理工大学,2019. [19]MA,J.Unexpected means of protocol inference[C]//Proceedings of the6th ACM SIGCOMM conference onInternet measurement,2006:313-326.[20]何中阳,杨白薇,李鸥,刘洋.基于隐马尔可夫模型的协议识别技术[J].信息工程大学学报,2011,12(5):596-600.[21]赵英,韩春昊.马尔科夫模型在网络流量分类中的应用与研究[J].计算机工程,2018,44(5):291-295.[22]YAO Z J,GE J G,WU Y L.Encrypted traffic classifica-tion based on Gaussian mixture models and HiddenMarkov Models[J].Journal of Network and ComputerApplications,2020(pre-publish):102711. [23]田中大,李树江,王艳红,等.高斯过程回归补偿ARI-MA的网络流量预测[J].北京邮电大学学报,2017,40(6):65-73.[24]丁美美.基于主成分分析的网络流量异常检测研究[D].北京:北京交通大学,2017.[25]高忠石,苏旸,柳玉东.基于PCA-LSTM的入侵检测研究[J].计算机科学,2019,46(S2):473-476,492. [26]张新超,董建锋,张婧.主成分分析在网络流量异常检测中的应用研究[J].信息网络安全,2012(1):29-31,35.[27]鲁刚,郭荣华,周颖,等.恶意流量特征提取综述[J].信息网络安全,2018(9):1-9.[28]蒋宗礼,史倩月.面向不平衡数据的分类算法[J].计算机系统应用,2019,28(8):120-128.(编辑:颜峻)。
自监督特征提取方法

自监督特征提取方法介绍如下:
自监督学习是一种无需标注数据的学习方法,在图像、语音和自然语言处理等领域中得到广泛应用。
自监督特征提取方法是自监督学习的一个重要应用,其目的是通过自监督学习提取出数据中的有用特征,以便于后续的任务处理。
以下是一些常用的自监督特征提取方法:
1.基于重建的自监督学习方法:通过将数据进行随机扰动,再通过网络进行重构,提
取出数据中的关键特征。
2.基于对比的自监督学习方法:通过将数据切分为多个部分,再通过网络学习判断不
同部分之间的相似性或差异性,以提取关键特征。
3.基于生成式对抗网络的自监督学习方法:通过让生成器网络生成类似于真实数据的
样本,再通过判别器网络判断生成的样本是否真实,以提取数据中的特征。
4.基于时序信号的自监督学习方法:通过对时序信号进行逐帧预测或逐帧重构,提取
出时序信号中的关键特征。
5.基于自编码器的自监督学习方法:通过将数据进行编码和解码,以重构输入数据,
并从中提取出关键特征。
总之,自监督特征提取方法可以帮助我们在没有标注数据的情况下提取出有用的特征,为后续的任务处理提供便利。
不同的自监督特征提取方法适用于不同的数据类型和应用场景,需要根据具体情况进行选择。
几款基于P2P技术的网络电视应用软件比较

一
下 载 地 址 :t : ww ol eo . ht / p / w. i dwn nn
n t s f 3 9 7h m e / ot 9 0 .t / 一
二、 直播( QQ QQL v) ie
“ QQ 直 播 ” 一 款 P P网 络 电 视 直 播 是 2
软 件 , 频 质 量 高 、 畅 , 目内 容 丰 富 , 视 流 节 界
面 和 QQ 游 戏相 似。 入 了 房 间 和 聊 天 的 功 加
卞 载 地 址 :t : w wol eo n h p / w . i dw . t/ nn
n 七 s f 0 7 .t e / 。 4 6 0 h m
能 , 界面如下 : 其 下 载 地 址 ;t : w ^ ・nn d wn hc / 。 h e 。 ・ p/
P Lv 是 一 款 用 于互 联 网上 大 规 模 视 P je
( 下页) 转
、 8
劳聋抚s姆蟹》20 卑 6 06 暮
维普资讯
麻 烦 也 是 可 想 而 知 的 。迅 雷 最 新 版 本 已 经 文 件 路 径 为 “: 2 0k sa. p ( 图 ) 名 即 可 。 c v0 6 vcnk ” 如 k 是 说 通 过 迅 雷 下 载 的 大家 根 据 实 际 情 况 修改 即可 。 所有文件 , 只要 文 件 下 载 到 本 地 硬 盘 后 , 迅
维普资讯
软 件 天 地
责 编 :海 任 辑安 峰
几 款 基 于 P P技 术 的网 络 电视 应 用 软件 比较 2 =
:≯ …
0
”
.
l l {
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
层的源端 口、 目的端 口来进行规律分析 。
( 2)通过 净荷特征描述P P 2 网络电视业务特征 根据 网络应 用 的数据 包 中各 种应 用在 不 同的数 据包 位置都 有一些特 有的固定 的特 征字 的原 理 ,使 用~定算 l 法从大量数据包净核 中提取 出净荷特征 ,再根据净荷特征 来描述P P 2 网络电视业务 的特征 。 ( 3)从网络流量特征描述P P 2 网络电视业务特征 许 多P P网络 电视业务运行 时收 发数据包 都有~定的 2 规 律性, 比如在 固定 时间内 向固定服务器 发送T 包 以保 CP 证终端与服务器的正常连接 ;同时存在T 数据包 ̄ U CP I DP ]
、 、
~ 一
度的数据包是否有一定 的变化范围以及最大连接数等。接下 来,进一步对数据包净荷进行分析,主要对起— —— —— — —
——— 一 —
一
位置的净荷进行分析,归纳其规律性,提取净荷特征,并可 以在此基础上根据有关知识归纳其上层协议的粗略结构。最
后 , 建立 特 征库 ,把 提 取 出的 特征 入 库 。
间 间 隔 。对 于 某 些 帧 长 度 固定 的 业 务 , 还 可 提 取 其 帧 长 度 作 为一 个 特 征 。
() 1识别法 2端: 3 利用此方 法可 以识 别 出采 用固定T / DP的端 1进 CP U 3 : 行传输的P P 2 应用。
可 用 实 验 方 法 来 分 析 其 端 口特 征 。对 于 固定 端 口业
对于P P网络 电视 业务 ,因为其有固定 的服务器提供 2 节 目单 、媒体 流,所 以可提取服 务器I地 址。另外可分析 P 其 为集中式P P 2 还是 混合式P P 2 ,并记录服 务器I 地址 。 P 对于S p r e r 用实验方 式不 能全 部列举,没有提取 的 u e— e, P
数 据截获 厂I —— _— — 业务 识别 r— — 业 _ —— 务控制
L———— —————— ——一 一 一
图1 2 网络 电视业务识别系统 图 P P
( 2)特 征提 取方法详细介绍
意义。
对 于流状 态特征 ,可提 取是否 同时存在T CP、UDP
~ 技= CP、UD 流量 的比例,还有不 同 新= 术一 一 业= 流量, 以及不 同业务 的T .新= P 务一
PP 2 网络电视业务 的最 大连接数, 以及在软 件客户端不进
行操作 的情 况下,客户端 自动 i 务器 发送T 连接 的时 NJ  ̄ E CP
符 串。此外 ,还 可以分析 其T 、U 协议结 构。 CP DP
() 4 双向识别法 当某个方 向的流被识 别为P P 2 流,其反方 向的流必然
也是P P 。 2流
数据包,且存在软 件开始运行时,主要 为T 数据包,运 CP
行期 间为少量 T 数 据包 夹杂在 大量 UD CP P数据包 中的情 况; 限定 的允许 连 接个 数等 。且 其规律 具有 一定 的收 敛
使用P PI络 电视 业务的用户 数量 庞大,在实验环境 2 ̄
下列举 P P 11 地址没 有意义 ,无法 为双 向识 别法提供 2 流 ̄ P 9
固定特征 。
性,可 以通过在不 同环境 下收集数据,然后对 数据进 行分
析 得 出 其 规律 。
3 PP 2 业务 的主要识别方法及 P P 2 网络 电 视业务 的可提取特征
法 得 出规 律 。
主要为识别系统提供特征库,如图 1 所示 。
4 5 2 0 .6广 东 通 信 技 术 0 80 ’
维普资讯
新= l .新二 务 技l 术 业
交替是否具有一定的规律性,数据包长度是否 固定,变化长
1
l 蔫世
*
4 自动特征提取方 法
( )特征提取 方法在P P 1 2 网络 电视业务识 别系统 中
的作 用
务 ,可直接提取其 固定端 口号作为端 口特征;对 于非固定 端 口但端 口变化范 围不 大的软件,可提取其端 口范围作为 端 口特征;对于非 固定端 口且端 口变化范 围过大 的软 件无
()P 1 I地址识别 法 I地 址识别可 以分类 出集中式P P P 2 中的 目录服务器 以 及混合 式P P中的 目录服务器 以及混 合式P P中的S p r 2 2 u e—
P e, 以及 某 些 恶 意 的P P 户 。 er 2用
() 5 流状态特征识别法 在 J层通过对 流量特 征进行一定的提取来识; 2 应 P %P P 用 。P P 用的流量特征理论上 具有一 定的可统计性 ,原 2应
则上此方法可 以识 别一切大规模 的P P 2 流量,但是 目前仍
然无法精确判断 出具体 的协议 类型 。基于这种识别方 法,
理 论 上 提 出 了基 于 数 学 方 法 以及 神 经 网 络 方 法 对 P P 用 2 应
业务进行识别,但是 实践 上仍 然处于停滞阶段,并没 有实
际 的使 用 。
维普资讯
一 一 一 .新 亚 虿 新 技 术 一
维普资讯
析。针对UD 数据包, 则重 点提 取I层 的总长 度以及传输 P P
() 3 深层数据报识别法 由于某些 P P 2 应用引入动态端 口,只能通过扫描 高层 协议 来探 ̄ P P D 2 数据报 。对于 一些P P 用,有时甚至要 2应 通过 几个特征代码综合起 来才能对其进行识别 。这种 方法 的识别准确度非 常高,但是针对加 密的P P 2 数据流 ,深层 数据报识 别法就会 显得束手无策了。 对 于 P P网络 电视 业务 来说 ,其特 征代 码通 常在 深 2 层 数据报的起始或结 束位置 ,中间是媒体流且大部分不 加 密,因此可通过对大量 的深层 数据报的统计来确定特征字