实时流数据分析的关键技术及应用

摘要i

ABSTRACT iii 目录vii 插图索引xv 表格索引xv

第一章绪论1

1.1研究背景及意义 (1)

1.2研究内容 (2)

1.2.1分布式流数据的在线聚合查询 (2)

1.2.2基于流数据模式匹配的长期预测方法 (3)

1.2.3分布式流处理在实时交通中的应用 (3)

1.3本文创新点 (4)

1.4本文组织结构 (4)

第二章研究现状与关键技术7

2.1流数据与流数据处理 (7)

2.2分布式处理系统概况 (8)

2.3分布式流数据关键技术 (9)

2.3.1分布式流数据分析 (10)

2.3.2分布式流数据处理 (14)

2.4分布式流数据系统实例分析 (17)

2.4.1Apache S4系统 (17)

2.4.2Twitter Storm系统 (18)

2.4.3Spark Discretized Stream系统 (20)

2.4.4分布式流数据系统比较分析 (21)

2.5小结 (21)

—vii—

上海交通大学博士学位论文实时流数据分析的关键技术及应用

第三章分布式流数据的在线聚合查询23

3.1引言 (23)

3.2知识背景 (24)

3.2.1Actor模型 (24)

3.2.2在线聚合 (25)

3.2.3应用Actor模型举例 (25)

3.2.4MapReduce Online处理过程 (26)

3.3系统概述 (28)

3.3.1分布式流数据随机采样 (28)

3.3.2多层次查询处理模型 (30)

3.3.3处理拓扑结构 (32)

3.3.4故障容错 (35)

3.4统计分析 (35)

3.5实验结果评估 (37)

3.5.1实验环境配置 (37)

3.5.2窗口缓存数据量的评估 (39)

3.5.3置信区间与误差范围的分析 (39)

3.5.4多查询语句性能分析 (40)

3.5.5可扩展性评估分析 (42)

3.5.6在流数据处理方面与Spark系统比较 (44)

3.6小结 (46)

第四章分布式流数据中的模式匹配与预测47

4.1引言 (47)

4.2基于单台机器的模式匹配模型 (49)

4.2.1模型总体介绍 (49)

4.2.2模式抽取 (49)

4.2.3模式匹配模型 (51)

4.2.4预测结果融合 (55)

4.3基于分布式集群的模式匹配 (57)

4.3.1分布式模型总体介绍 (57)

4.3.2数据预处理 (58)

4.3.3模式分区 (59)

—viii—

上海交通大学博士学位论文目录

4.3.4分布式模式匹配处理 (60)

4.3.5模式更新 (62)

4.4单机实验评估 (64)

4.4.1实验环境配置 (64)

4.4.2性能评估 (64)

4.5分布式模式匹配实验评估 (70)

4.5.1实验环境配置 (70)

4.5.2分区策略性能评估 (71)

4.5.3模式匹配方式评估 (72)

4.6小结 (76)

第五章分布式流处理在实时交通中的应用77

5.1引言 (77)

5.2问题描述 (78)

5.3系统综述 (79)

5.4图模型初始化 (80)

5.4.1图分区 (80)

5.4.2图捷径维护 (81)

5.5SSSP查询处理 (82)

5.5.1查询处理算法 (83)

5.5.2查询处理优化 (84)

5.5.3查询算法停止机制 (87)

5.6导航路径实时更新 (89)

5.6.1捷径更新 (89)

5.6.2路径更新RSP处理 (89)

5.6.3并发控制 (94)

5.7实验结果分析 (95)

5.7.1仿真数据评估 (96)

5.7.2实际数据评估 (104)

5.8相关研究与比较 (106)

5.9小结 (107)

—ix—

上海交通大学博士学位论文实时流数据分析的关键技术及应用

第六章总结与展望109

6.1本文总结 (109)

6.2未来展望 (110)

参考文献111致谢127攻读博士学位期间发表的学术论文目录129

—x—

表格索引

2–1分布式流数据系统比较分析 (21)

3–1SQL查询举例 (25)

3–2HOP与S4性能比较(ms) (28)

3–3字母标识与描述 (30)

3–4多查询注册表 (33)

3–5多查询合成拓扑结构举例 (34)

4–1Adaboost算法的符号描述与解释 (56)

4–2不同距离度量预测结果比较 (65)

4–3不同过滤因子预测结果比较 (66)

4–4两种模式权重策略预测结果比较 (67)

4–5多步预测模型与迭代单步预测结果数值 (68)

4–6基于Adaboost算法融合结果分析 (69)

4–7预测模型运行时间比较 (70)

5–1描述符号与解释 (78)

5–2查询遍历事件属性表 (83)

5–3实验图数据集 (97)

5–4实验参数 (97)

—xi—

插图索引

1–1本文组织方式 (5)

2–1流数据处理系统并行化操作 (8)

2–2分布式流数据系统架构类型 (15)

2–3S4系统架构 (18)

2–4Storm系统架构 (19)

2–5Storm任务拓扑例子 (19)

2–6D-Stream系统架构与优化 (20)

3–1Actor模型举例 (26)

3–2MapReduce Online性能分析 (27)

3–3在线聚合系统框架图 (29)

3–4分布式流数据随机采样模型图 (29)

3–5分布式流数据Join操作 (32)

3–6多查询合成拓扑结构 (35)

3–7窗口缓存数据量的结果评估 (39)

3–8误差范围结果评估 (40)

3–9误差范围的准确度评估 (41)

3–10置信区间的性能评估 (41)

3–11置信区间的准确度评估 (42)

3–12多查询语句的性能评估 (43)

3–13多查询语句的优化提高效果 (43)

3–14扩展性评估 (44)

3–15基于不同节点的性能比较 (45)

3–16基于不同数据频率的性能比较 (45)

4–1模式匹配距离 (48)

4–2模型总体介绍 (50)

4–3模式合并融合实例 (52)

—xiii—

上海交通大学博士学位论文实时流数据分析的关键技术及应用

4–4多个候选模式的多步预测模型 (53)

4–5多步预测模型的预测举例 (55)

4–6分布式集群的模式匹配 (58)

4–7多层次数据模式抽取 (59)

4–8分布式模式匹配与预测 (61)

4–9KD-树的构建举例说明 (62)

4–10四台服务器的CPU负载轨迹 (65)

4–11四台服务器的模式长度评估 (67)

4–12多步预测与迭代单步预测结果 (68)

4–13预测算法结果比较 (69)

4–14集群节点个数的不同分区策略性能评估 (72)

4–15模式分区个数的不同分区策略性能评估 (73)

4–16在线预测任务个数的不同分区策略性能评估 (73)

4–17集群节点个数的不同匹配策略性能评估 (74)

4–18模式分区个数的不同匹配策略性能评估 (75)

4–19在线预测任务个数的不同匹配策略性能评估 (75)

5–1CANDS系统框架图 (80)

5–2图分区实例 (81)

5–3查询处理详细过程 (82)

5–4路径更新冲突实例 (95)

5–5并发控制结果评估 (95)

5–6集群节点个数的SSSP性能评估 (98)

5–7路径长度的SSSP性能评估 (99)

5–8分区个数的SSSP性能评估 (100)

5–9不同图的SSSP性能评估 (100)

5–10不同集群节点的RSP性能评估 (101)

5–11不同SSSP查询个数的RSP性能评估 (101)

5–12边的更新频率的的RSP性能评估 (101)

5–13边采样与峰值更新的RSP性能评估 (102)

5–14不同图的RSP性能评估 (103)

5–15查询的不同的比率的性能评估 (103)

5–16实际数据的SSSP查询性能评估 (104)

—xiv—

上海交通大学博士学位论文插图索引

5–17实际数据的RSP查询更新性能评估 (105)

5–18实际数据的SSSP与RSP查询性能提高 (106)

—xv—

第一章绪论

1.1研究背景及意义

近年来，随着互联网、物联网[1,2]的发展，数据采集和传输技术的进步[3]，大规模的数据[4,5]在短时间内持续地产生，这些数据具有高速、无限、不确定性等特征，是大

量、连续、快速、随时间变化的数据流序列。面对这些流数据，处理系统需要实时地处理

接收的数据，并及时输出分析结果。

传统的分析方法[6,7]是把数据库或者文件存储中的数据加载到内存中，对数据计算后得到分析结果，但是这种批处理方式在流数据中难以实现[8]。

·流数据是持续产生的，并具有无限数量，而传统分析方法需要把流数据都加载到内存中才能进行分析。在数据量大和内存限制的情况下，传统分析方法无法执行。

·传统的批处理方式在处理流数据时，一旦接收到数据，就对数据采用一次批处理任务。对于源源不断产生的流数据，如此频繁的批处理任务对系统开销将非常大。

·传统方法根据需求可以对数据循环扫描，但是在流数据中，分析方法一般采用单遍扫描，即每个数据只被处理一次。

·在流数据中，数据具有时效性，持续查询（Continuous Queries）会对最近某个窗口的数据进行分析，而传统方法无法支持这种滑动窗口式查询。

由此可见，如何快速地处理和分析大规模流数据是目前计算系统面对的挑战。

流数据处理在现实生活中应用广泛。例如金融业应用、互联网、物联网等，通过对采集到的数据进行实时数据计算和分析，然后动态生成用户需要的信息；再如及时更新交易

统计，实时展现用户的点击率以及生成实时的热门话题等。下面我们具体分析流数据的一

些应用场景：

（一）流数据在金融业的应用

在金融领域，交易系统每天都会产生大量的数据，这些数据产生速度快，时效性短。

在金融投资领域，高频交易和量化交易每时每刻都有大量的流数据，并在各个系统中传输

和实时处理。IBM使用InfoSphere流系统实时分析金融数据特征，并提供实时复杂数据分

析[9]，针对金融领域，微软研究院实现了一个流数据管理系统[10]，对金融数据进行复杂

任务处理，并提供持续查询，监控，管理与挖掘等分析功能。

流数据的实时分析可以给金融银行系统提供实时分析与决策，如：

·异常检测[11]：针对商品诈骗、异常信用卡交易、非法集资、基金诈骗、非法交易等，流数据可以跟踪交易情况实时发现异常行为；

—1—

万方数据