一种P2P流量识别方法的研究

合集下载

P2P流量识别技术的研究

P2P流量识别技术的研究

如果从 Pe 的角度而言,2 er P P系统存在 以下特 点: er @Pe 知道其他 P e 在网络 中的位置 ( I 地 er 如 I ) 址 、 口号等) 而在传统 电信网络只有通过运营商 端 , 设备 ( H R、 N 如 L D S等) 才能找到用户; er  ̄P e 同时
具有 Ci t Sre 的特 点 ,这 也是 它 与 CS架 构 ln 和 evr e / 最 显著 的 区别 , 络 中的 节 点 (er既 可 以 获取 其 网 pe)
P P流 量识别 技 术及 研 究进 展 , 后对 P P流 量识别 技术 的发 展提 出了看 法 。 2 最 2
关 键词 : 2 ; 量识 别: 口识别 P P流 端
中图分 类 号 :P 9 T 33
文献标 识 .7 2( l)1 260 2
K y r s P PTr伍 CIe t c to ; o t d n i c t n e wo d : 2 ; a ni ain P r I e t ai d i f i f o
0 引 言
种分布式网络,其中的参与者共享它们所拥有部分
或全 部 资源 ( 处 理 能力 、 储 能力 、 络 能力 等 ) 如 存 网 ,
之 j( 二 如互 联 网) ④ 多个 P e 可 以组成 为一 个 Pe ; er er 组 , er Pe 的这 种 属 性一 方 面 可 以符 合 人类 社 会 的群 组特性, 同时也降低了技术实现难度 。
Ab ta t T i p p r ec ie ed f io n h r ceit s f 2 , n o tep it f e ra ay i i s r c: h s a e sr s h e nt n a dc aa tr i P P a df m on p e n lss t d b t i i sc o r h o s

带背景流的P2P流量识别技术研究

带背景流的P2P流量识别技术研究

带背景流的P2P流量识别技术研究欧阳玲;宋克【摘要】The Diversity and complexity of Peer hosts in P2P application systems and P2P application traffic make P2P traffic identification approach based on only typical feature inaccurate. We propose a novel multi-phase identification method to reveal P2P traffic from traffic aggregation. Our method is based on a set of heuristics derived from the robust properties of P2P traffic. Experiments indicate the classification accuracy of our proposed method can reach 99. 7%, while the false positive is lower than 0. 3%.%针对P2P (peer- to peer,对等体网络)应用系统中对等体主机的行为特征与P2P业务流量特征多样化、复杂化,使得单纯利用一种典型特征的P2P流量分类技术的识别精度不高的问题,提出了一种新的P2P流量多阶段识别方法;该方法根据P2P应用流量的一系列固有特征,可以从聚合网络流中识别P2P流量;通过实验表明,该方法P2P流识别精度可达99.7%,同时错误分类精度0.3%.【期刊名称】《计算机测量与控制》【年(卷),期】2011(019)010【总页数】3页(P2562-2563,2570)【关键词】P2P;聚合流量;典型特征;流量分类【作者】欧阳玲;宋克【作者单位】中原工学院,河南郑州 450052;国家数字交换系统工程技术研究中心,河南郑州 450005【正文语种】中文【中图分类】TP393.00 引言近几年来,P2P作为一项全新的Internet技术得到飞速发展,不断涌现出新型的P2P协议及应用软件,如国外的BitT-orrent、eDonkey、Skype,国内的迅雷、PPLive、QQ等,P2P给网民带来方便快捷的同时,已成为当前网络带宽的“杀手级”应用,其上传/下载比趋近于1,造成传统xDSL网络的上行链路极易拥塞,并且存在许多安全隐患。

P2P网络流量识别技术的研究

P2P网络流量识别技术的研究

1引 言
Itme 的 迅速 发 展带 动 了 网 络 带 宽 的 快 速 增长 , 大 的 ne t 广
网 络 使 用 者 喜 欢 使 用 各 类 P P和 点 对 服 务 器 技 术 2 ( ert P e o
对 于 以 上情 况 , 制 P S 控 2 P这 类 应 用 流 量 , 决 P S 解 2 P带 来 的 网络 拥 塞 。最 简 单 的方 法就 是 禁 止 P P和 P S 2 2 P的应 用 . 但 目前 P P和 P S 2 2 P的 应 用 已经 被 非 常 多 的 用 户所 喜 爱 。 一旦 禁
tef w. is ae ec b sapia o d terltdtc n lge nP e ev r e r P P , a s fsv r pc rfc h o Th p rd sr e p l t na h eae eh oo is e rt S re&P e ( 2 ) a l i o ea t ia ta l p i ci n o o n ys e l y l i
【 关键 词】流 量 识 别 P P 深度 包检 测 2 连 接 模 式
中 图分 类 号 : P 9 文 献 标 识码 : 文章 编 号 :0 8 1 3 ( 0 0 0 — 0 3 T 33 A 10 — 7 9 2 1 )6 6 —
The S v y o P a c I ntfc to e ha im ur e fP2 Tr f de i ai e eo me to ne ta d bo d a d n t rs P e o P e (2 )a d P S p L a o saei- sr c : t te rpd d v lp n fItme n ra b n ewok , e rt er P P n 2 P a p ct n r h i n

基于校园网的P2P流量识别技术研究

基于校园网的P2P流量识别技术研究

因此 , 大多数人都会把文件下载在后 台进行着 , 甚
至 为 了下 载 一个 更 大 的文 件 整 天 都 开 着 电脑 . 电
收 稿 日期 :0 1 30 2 1 - -2 0
有 很多不 足 , 对 P P应 用 分 类 的 能 ) 男 , 18 . , 吉林 梨树人 , 计算 机应 用技术 专业 , 硕士 , 研究 方向为计算机网络技术方面的研究.
流 量是 否 属 于 P P流 量 , 后 对 该 流 量 进 行 控 2 然 制. 这是 一种 在 国外 研 究 的基 础上 逐 步 发 展 起来
1 基 于流量特征 的检测技术
P P应用 作 为一种 充 分利 用客 户 端 资 源 的新 2 型应 用 , 在传 输层 表 现 出来 的流 量 特 征 相 对 于 它 其 它应用 , HFP 兀’、 N 如 r 、 P D S等 有许 多不 同 的地 T 方. 在实 际应 用 中我 们 还 发 现 P P的两 个 重 要 特 2 点 , 个 是 不 分 时段 性 , 个 是持 续 性 . 2 一 一 P P文 件
的方案 , 是一 种启 发式 的流 量检 测方法 . 根据 各 它 种 应用 的连 接数 , I 连 接模 式 , 下 行 流 量 单 P的 上 比例 关 系 , 据 包 发 送 频 率 等 指 标 来 辨 别 P P 数 2
应 用.
下载几乎没有高峰期和低谷期之分 , 由可想而 理 知. 一般一个文件都有上百兆大小 , 下载这个文件
第 5期
李金 宝: 基于校园网的 P P流量识别技术研究 2
应用分类对于服务质量的保障是非常重要的 ; 由 于不对称路 由和丢包 、 重传现象的存在 , 导致无法 精确确定流量特征 , 从而有可能对 P P流量检测 2 的精确度造成影响.

P2P流量识别和管控技术分析

P2P流量识别和管控技术分析
P 2P
流 量 识 别 和 管控
技术分析
_ 马 少 武 唐 雄 燕 姜智 峰 张 辉
_ 中国 网 通 集 团研 究 院
摘要 : 基于
P 2P
北 京 市 西 城 区 金 融 大街 2
l

10 0 0 3 2
模 式 的业 务 和 应 用 给 互 联 网 的发 展 带 来 了 巨 大 影 响


本 文 在 简 要分 析 了 现 网
-
特 征 字 如 果在数 据 包 的 相 应 位 置 能够找 到 这 些 特
征 字就 可 以 判 断 数据 包属 于 哪 种 类 型 的 网 络应 用
由此 可 以 大 致 判 别 出

M G C P


数 据 流 所 对应 的 应 用 业 务 类 型 能够 发 现 未 知
P 2P
此 方法 的 优 点 是
以 上 P 2 P 业 务还 可 以 分 为 基 于 T C P 和 U D P 的
P 2 P 业 务两 大 类
。 『 I

应用

具 有对 新 P 2 P 应 用 的 感

a
tu r e
特 征 值进行应

k
t
In
p e c tio n
)
用 层 流量 识 别
网 络应 用 的 数 据 包 中

各种 应 用 在
a
常用 端


口 检 测法 即利 用 P 2 P
应 用 发 展 的 初期使
不 同的 数据 包 位 置 都有

些 特有 的 固 定 的 S i g n
tu
r e
些 固 定 端 口 进行控制 和数 据 的 通 信 原 理 进 行检 如早 期 e D o n k

基于神经网络集成的P2P流量识别研究

基于神经网络集成的P2P流量识别研究

P Pf w dtc o d l sdv l e yuigcr l i —ae etr e c o ( F ) a o tm t 2 o e t nmo e i ee p db s or a o b sdfa esl t n C S l rh o l ei o n e tn u ei gi
第3 0卷
第 3期
南 京
邮 电 大 学 学 报
( 自 然 科
学 版

Vo . No. 130 3
21 0 0年 6月
Jun l f a igU i r t o ot adT l o muia os N t a Sine ora o m n nv sy f s n e cm nct n( a rl cec ) N e i P s e i u
Re e r h o 2P Tr f c I e tfc to s d o s a c fP a i d n i a i n Ba e n i Ne r lNe wo k En e b e u a t r s m l
X U e , ANG uo p ng W ANG H W S . i , Ru. h n , c ua ZHAo n Da
e ta tP x r c 2P o c a a t rsis.a tlzn i ns mb e n u a ewo k y d n mi i h e n e r — l f w h r ce tc i nd u iii g sx e e l e r ln t r sb y a c weg td i tg a to t d. T r ug e pe me tl c mp rs n bewe n h s r p s d mo e a ta iin l i n meho ho h x r i n a o a o t e t i p o o e d l nd r d t a meho , i o t ds

一种基于流特性描述的P2P流量模糊识别方法

一种基于流特性描述的P2P流量模糊识别方法

b i p y i e tfe y r ,po t — P.The p pe pp i sf z y m a he e sm l d n ii d by ke wo ds r s I a r a le u z t matc h o y t P is t e r o P2 t a fc i e iia i r f i d ntfc ton,a d p e e sa ki d o z y Re og ii n M e ho s d on Fl w a a t r n r s nt n fFu z c n to t d ba e o Ch r c e — itcDe c i to ( s i s rp i n FCD) .FCD u z e og to t d a a y e a u e t r a afr t n f z y r c nii n me ho n l z sc pt r d ne wo k d t is ,a d t e e c i e ior l e o e s s Su e ue l h n d s rb s un f m y k y pr c s e . bs q nty,t a r a a y e it i to a t t f he p pe n l z s d s rbu i n ls a e o
键 性 流 量 中数 据 包 的 分 布情 况 , 到 它 们 的 隶 属 度 函数 , 为评 判 时 的评 语 集 , 后 用 模 糊 评 判 方 法 判 定 它 是 否 属 得 作 最
于 某种 网络 应 用 . 中 以著 名 的 网络 游 戏 魔 兽 世 界 为 例 进 行 实验 , 文 实验 结 果 说 明 , F D 模 糊 识 别 方 法 可 以识 别 用 C 出 该种 网络 游 戏 , 且 准确 率 较 高 . 而

p2p流量识别

p2p流量识别

3、peer交换数据识别
Peer之间的若干种消息交互中,唯一可被用来 作为识别依据的是握手消息。
0x13 BitTorrent protocl Reserved(8) Info_hash(20) Peer_id(20)
握手时互发的TCP包
分析TCP数据流的第一个包含有效数据的TCP数据 包,如果它的TCP负载部分第一个字节是0x13(十进制 的19),第2到20字节为字符串“BitTorrent protocol”, 则可以认为此数据包是一个BitTorrent握手消息。
DHT数据包识别关键字
消息 find_node get_peers announce_pee r ping
请求关键字 “find_node” “target” “find_hash” “Info_hash” “token” “ping”
回应关键字 “nodes” “token””values” “nodes” _ _
种子文件
通过分析发现,种子文件通常以“d8:announce” 开始,之后紧跟tracker URL,并且在之后的某位置 会出现“info”和“piece”(用于计算文件的HASH校验)。 通过扫描以上特征足以精确的发现种子下载的传输 过程。
2、peer和tracker交互识别
提交状态报告(HTTP GET请求)
.torrent
发送请求 响应 pieces
A
Peer(leecher)
pieces pieces
ቤተ መጻሕፍቲ ባይዱ
Peer(seed)
C
B
Peer(leecher)
1、种子文件传输识别
HTTP GET 请求 用户 HTTP 回应 在回应的头部会出现种子传输的特征值。 Content-Type字段的值是application/x-bittorrent或者 是application/bittorrent,则表明该HTTP会话传输的是种子 文件。 出现漏识:如它的值会为text/plain。 种子下载服务器
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

摘 要 :本 文先介 绍 了 目前主 流 的 P 2 P 流 量识别 方 法及 其优 缺 点 ,通过 实际捕 包分析 了B T协议 的 交互过程 及特 点 。 分析 选取 流量 特征 中的 平均 包长 度、流 持 续 时间、上 下行 流 量 包数 比、 目的端 口等 4个特征 ,结合 支持 向量机 方法对 网 络流 量 的进行识 别 。实 验结 果显 示 ,该 方法能 够有 效地 检测 网络 流量 中的 P 2 P 流 量。 关键 词 :P 2 P;流 量识 别 ;流行 为特征 ;支持 向量 机
计算机光盘软件与应用
工 程 技 术
C o m p u t e r C D S o f t w a r e a n d A p p l i c a t i o n s
2 0 1 3年第 0 1 期

种P 2 P 流量识别方法 的研 究
4 0 0 0 6 5 )
Hale Waihona Puke 杜 江 ,龙 涛 ( 重庆 邮 电大学通信 与信 息工程 学院 ,重庆
得 了不错 的分 类效 果 。 因此 本文通 过 流行 为特 征 的分析提 取 ,结合支 持 向量机 为 网络 流量特 征建 立 识别分 类模 型 。
1 协议 特征 分析
B T 网络 主要 由种 子文 件 、 目录 服务 器 、种子 提供 站 点和 内容 发布 者/ 下载 者共 5 部 分组 成 。 B T协 议规 范把提 供下 载 的文 件 虚拟 分成 大 小为 2 K B 的整 数 次方 的数 据 块 ,把每 个块 的 索引信 息和 哈希 验证 码写 入种 子文 件 中 。 发布 者将 种 子 文件 放 在种 子 发布 站 点供 下 载者 下 载 。B T 协议 主要 包括 3 个 部分 :种子 文件 的格 式 、  ̄ a c k e r 协议 和 端w k e 协 议 。B T协 议工 作 时的 交互过 程及 特 征为 B T协 议数 据流特 征 分析 提供 了基 础 。 常见 的 P 2 P应 用 中 由于 其 传输 的是 大流 量 的文件 或者 视频 流等 数据 , 因此其 传输 的 包 长 度与传 统 的 H T T P等协 议存 在着较 大 的差 异 。 一条 流 从开 始到 结束 , P 2 P应 用与 非 P 2 P应 用在 流持 续 时间上 存 在显 著差 异 。 P 2 P网络 中对 等节 点和 传统 应用 中的服 务器 不 同,一个 对等 节 点 同时与大 量 的节 点相连 接 , 每 个对 等 节 点既是 资源 的下载者 又是 资源 的提 供者 , 其 上行 流量 和 下行 流量 的 比值 基本相 当, 这 和传统 的 C / S模 式 的传输 方 式存 在者 巨大的 区别 。在常 见 的 We b应 用 中 ,通 常服 务 器是使用 固定的端 口来接收客户端的连接请求进行数据
Q( 口 ) = 口 f 一÷ 口 f 口 Y f Y ( f )
f =1 厶 i . J=1
隐藏技术的广泛使用使得基于 D P I的检测方法不能满足 识 别 技术 的需 要 。因此 , 新 兴 的基 于 流行 为特 征和机 器 学 习的 方法成 为研 究 热点 徐鹏 等 在摩 尔数 据集 上使用 支 持
中图分类号:T P 3 9 3 . 0
文献标识码 :A
文章编号 :1 0 0 7 — 9 5 9 9 ( 2 0 1 3 )0 1 — 0 0 8 6 — 0 2
随着 P 2 P网络技 术u 的迅猛 发展 ,P 2 P流量 已经 逐渐
成 为整 个互 联 网流量 的重 要组 成部 分 。 中 国工程 院副 院长
向量机 的机 器 学 习方法 对 P 2 P 类 别 的样 本 进行 识别 ,取
这 是一 个在 不等 式约 束下 的二 次 函数寻优 问题 , 存 在 唯一解 。解 上述 问题 后得 到 的最优 分类 函数 是
厂( . ) = s g n { ( w’ . 一 b } = s g n { 2 支 持 向 量
( 。 功一 b ’ )
其中 s g n( )为符 号 函数 ,x i 是支 持 向量 ,a ’ 是 与其 对应的 L a g r a n g e 乘 子 ,b 是分类 阀值 。 对 于线 性不 可分 问题 ,引入 正 的松 弛 因子 来允许 错 分 样本 的存 在 。这 时,约 束变 为 【 ( w . t ) 一 6 卜l + g o , i 一 1 , … , 一 ,

邬贺铨的报告指 出,中国的 P 2 P传输的数据流, 约为欧美 国家的数倍 。 P 2 P应用所带来的 P 2 P软件带宽极大地挤占 互 联 网其它 应用 、 著作权 侵犯 等 问题 的负 面影 响也慢 慢 显
露 出来 。网络 的 安全性 、可 管理性 及传 统应 用 的可用 性 等 都 受 到 了挑 战 , 这 就需 要对 P 2 P流 量 的识 别提 出有效 的方 案。 端 口识别 技术 在早 期 P 2 P应用 采 用 固定端 口时应 用广 泛 ,但 随着 随机端 口应 用 的增 多逐渐 失去 了效果 。 深 层数 据包识别技术[ 2 】 通 过 协 议 分 析 的方 法 对 数 据 包 检 测 解 析 来 提取 P 2 P应 用 的特 征 关键 字 串。 但 随着 各种 加密 技术 和
2 支持 向量机
支 持 向量 机 【 3 】 是 基 于 统 计 学 原理 的一 种 机 器 学 习 的 方法, 在 线性 可分情 况 下可 以构 造 出最优分 类超 平面 。分 类超 平 面方程 为 : w. x — b =0 其 中分 类 间隔值 为 2 / 1 1 wl I 。使 I l wl I 达到 条件 的最 小 的超 平 面就 是最优 分类 超平 面 ,使用 L a g r a n g e乘 子方 法 解 这 个 约 束 最 优 问 题 , 即 设 定 约 束 条 件 一 和 口 ≥ 0 , i =1 , . . . , n ,然 后对 q求 解 下列 目标 函数 Q ( a )的最 大值 :
相关文档
最新文档