视频中人体动作识别关键技术研究

目录

摘要 (i)

Abstract (iii)

第一章绪论 (1)

1.1 课题的背景与意义 (1)

1.2 人体动作识别问题定义和描述 (3)

1.3 相关研究工作 (5)

1.3.1 人体动作表示 (5)

1.3.2 人体动作分类 (18)

1.3.3 行为视频数据库 (22)

1.4 论文主要工作及组织结构 (23)

1.4.1 人体动作识别框架 (23)

1.4.2 论文创新点 (27)

1.4.3 论文组织结构 (29)

1.5 本章小结 (30)

第二章基于时空条件信息的静止视频运动前景检测 (31)

2.1 引言 (31)

2.2 相关研究工作 (31)

2.3 基于时空条件信息的背景减 (32)

2.3.1 时空条件信息背景减原理 (32)

2.3.2 从视觉显著性时空域计算时空条件信息 (34)

2.3.3 利用邻域加权时空条件信息(NWSCI)提高背景减精度 (35)

2.4 图像分块加速策略 (35)

2.5 模型初始化及数据更新 (36)

2.6 时空条件信息运动目标检测算法流程 (37)

2.7 实验结果及分析 (38)

2.7.1 检测精度分析 (38)

2.7.2 算法复杂度分析 (40)

2.8 本章小结 (41)

第三章基于黎曼流形的静止视频人体动作表示 (42)

3.1 引言 (42)

3.2 相关研究工作 (42)

3.3 STS局部特征及协方差描述子 (44)

3.3.1 STS降维方法 (44)

3.3.2 基于体内点辐射距离的STS局部特征提取方法 (45)

3.3.3 LsSTS局部特征协方差描述子 (47)

3.3.4 尺度不变LsSTS局部特征 (47)

3.4 黎曼流形空间上的人体动作表示 (49)

3.4.1 协方差描述子与黎曼流形 (49)

3.4.2 黎曼流形人体动作表示算法 (51)

3.4.3 算法复杂度分析 (51)

3.5 实验 (52)

3.5.1 人体动作识别框架 (52)

3.5.2 数据集 (53)

3.5.3 视频分割处理 (53)

3.5.4 实验结果及分析 (55)

3.6 本章小结 (56)

第四章运动视频中摄像机运动不变视频局部特征提取 (58)

4.1 引言 (58)

4.2 常用视频局部特征 (58)

4.3 摄像机运动对视频局部特征检测及描述的影响 (60)

4.4 摄像机运动不变视频局部特征检测与描述 (62)

4.4.1 基本原理 (63)

4.4.2 总体框架 (65)

4.4.3 空域局部特征提取 (66)

4.4.4 局部特征运动轨迹提取 (69)

4.4.5 基于低维子空间的前景局部特征检测 (73)

4.4.6 摄像机运动不变视频局部特征描述 (78)

4.4.7 与现有视频局部特征提取方法对比分析 (79)

4.5 实验 (80)

4.5.1 实验设计 (80)

4.5.2 验证误检测问题 (83)

4.5.3 验证误匹配问题 (85)

4.5.4 基于CMI-VLF的人体动作识别 (88)

4.6 本章小结 (89)

第五章基于局部特征时空编码的运动视频人体动作表示 (91)

5.1 引言 (91)

5.2 BoF模型的局限 (91)

5.3 视频局部特征时空编码 (92)

5.3.1 时空编码模型 (92)

5.3.2 多尺度时空编码模型 (93)

5.3.3 局部约束时空编码模型 (94)

5.3.4 时空编码模型优点 (94)

5.4 基于局部特征时空编码的人体动作识别 (95)

5.4.1 人体动作识别框架 (95)

5.4.2 构建子时空域 (96)

5.5 实验 (97)

5.5.1 测试数据集 (97)

5.5.3 实验结果及分析 (98)

5.6 本章小结 (99)

第六章基于局部约束组稀疏表示的人体动作分类 (100)

6.1 引言 (100)

6.2 稀疏表示基础理论 (100)

6.2.1 稀疏表示引论 (100)

6.2.2 稀疏表示数学模型 (101)

6.3 稀疏表示分类原理 (103)

6.4 局部约束组稀疏表示分类模型 (106)

6.4.1 组稀疏编码模型 (106)

6.4.2 局部约束组稀疏表示分类模型 (107)

6.5 基于LGSRC的人体动作分类 (108)

6.5.1 基于LGSRC的人体动作分类框架 (108)

6.5.2 LGSRC编码系数求解 (111)

6.6 实验 (113)

6.6.1 实验设置 (113)

6.6.2 实验结果 (113)

6.6.3 对比分析 (114)

6.7 本章小结 (117)

第七章结论与展望 (118)

7.1 总结 (118)

7.2 展望 (119)

致谢 (121)

参考文献 (122)

作者在学期间取得的学术成果 (136)

附录A 背景运动轨迹低维子空间证明 (138)

表目录

表2.1 目标检测评价结果 (39)

表2.2 检测时间对比(单位:ms) (40)

表3.1 Weizmann 视频分割段、视频段动作识别结果 (56)

表3.2 与现有方法在Weizmann数据库上平均识别率比较 (56)

表4.1 四种局部特征轨迹提取算法计算时间 (73)

表4.2 基于RANSAC的背景轨迹检测算法 (76)

表4.3 Weizmann仿真视频上的视频局部特征检测精度对比结果 (84)

表4.4 视频局部特征描述子匹配误差对比 (87)

表4.5 CMI-VLF、3DHarris、Cubiods人体动作识别结果对比 (88)

表4.6 CMI-VLF、3DHarris、Cubiods在UCF数据集上识别结果 (89)

表5.1 与BoF模型对比结果 (98)

表5.2 与SPM模型进行对比 (99)

表6.1 LGSRC系数求解算法 (112)

表6.2 LGSRC在Weizmann数据集上人体动作识别平均精度 (113)

表6.3 LGSRC在KTH、UCF sports数据集上人体动作识别平均精度 (114)

表6.4 LGSRC与KNN投票分类在Weizmann数据集上对比结果 (114)

表6.5 LGSRC与KNN投票在KTH、UCF sports数据集上对比结果 (114)

表6.6 LGSRC与SRC投票分类在Weizmann数据集上识别结果 (115)

表6.7 LGSRC与SRC投票在KTH、UCF sports数据集上识别结果 (115)

表6.8 LGSRC+MLSTC+CMI-VLF与其他算法对比结果(单位:%) (117)

图目录

图1.1 智能视频监控系统 (2)

图1.2 Kinect用于人机交互游戏[9] (2)

图1.3 利用发光标记点捕获人体动作[11] (6)

图1.4 利用标记点轨迹进行人体动作分析[3] (7)

图1.5 人体前景序列[36] (8)

图1.6 前景区域分块像素比特征[36] (8)

图1.7 基于HMM的人体动作序列建模[3] (8)

图1.8 星状骨骼的轮廓描述子[37] (9)

图1.9 MHI特征[39] (9)

图1.10 人体时空形状(STS)特征[43] (9)

图1.11 HOG特征[45] (10)

图1.12 Laptev的时空兴趣点特征[51] (11)

图1.13 Dollár的局部时空特征[52] (11)

图1.14 现有时空兴趣点特征误检测问题[65] (12)

图1.15 SSTIP检测结果[65] (13)

图1.16 基于BoF的图像表示 (14)

图1.17 BoF模型用于图像目标识别算法流程 (15)

图1.18 基于BoF模型的人体行为识别框架 (16)

图1.19 LCC与SC对非线性流形重建结果对比[73] (16)

图1.20 VQ、SC、LLC编码原理对比[74] (17)

图1.21 空间金字塔匹配模型[75] (17)

图1.22 用于人体动作识别的双层SPM[65] (17)

图1.23 HMM、CRF、HCRF模型结构图 (20)

图1.24 Weizmann数据集示例 (23)

图1.25 KTH数据集示例 (23)

图1.26 UCF数据集示例 (23)

图1.27 静止视频中人体动作识别框架 (24)

图1.28 运动视频人体动作识别框架 (25)

图1.29 基于视频分割序列集的人体动作分类框架 (26)

图1.30 论文研究内容间逻辑关系 (29)

图2.1 Jug视频上背景差分、SCI、NWSCI检测结果 (33)

图2.2 视觉显著性原理 (34)

图2.3 视觉显著性时空域模型 (34)

图2.4 时空条件信息运动目标检测算法框架图 (37)

图2.5 图像分块加速检测算法框架图 (37)

图2.6 运动目标检测结果 (38)

图3.1 人体前景结果 (42)

图3.2 人体运动的MHI和MEI特征[118] (43)

图3.3 人体运动的STS特征[43] (43)

图3.4 行人检测中的协方差描述子 (44)

图3.5 采用协方差矩阵描述STS的原理图 (45)

图3.6 LsSTS局部特征提取示意图 (47)

图3.7 空间尺度归一化示意图 (48)

图3.8 Weizmann数据中人体动作LsSTS协方差矩阵表示结果 (49)

图3.9 黎曼流形中两点间距离计算示意图 (50)

图3.10 黎曼流形及切空间[44] (50)

图3.11 基于黎曼流形的人体动作表示算法流程图 (51)

图3.12 留一交叉验证方法(LOOCV)示意图 (52)

图3.13 视频分割示意图 (54)

图3.14 重叠稠密采样方式视频分割示意图 (55)

图4.1 HOG/HOF时空兴趣点特征描述子[133] (59)

图4.2 3DSIFT时空兴趣点特征描述子[64] (60)

图4.3 HOG3D时空兴趣点特征描述子[63] (60)

图4.4 现有时空局部特征在Multi-KTH数据集上的误检测结果 (61)

图4.5 SSTIP流程图[65] (61)

图4.6 SSTIP在Multi-KTH数据集上检测结果[65] (62)

图4.7 摄像机运动情况下的图像局部特征运动轨迹 (63)

图4.8 摄像机成像模型 (63)

图4.9 摄像机运动不变视频局部特征提取原理图 (65)

图4.10 常用图像兴趣点特征检测算法所检测的空域局部特征 (67)

图4.11 Shi and Tomasi角点检测结果 (67)

图4.12 尺度不变Shi and Tomasi角点检测结果 (69)

图4.13 KLT轨迹跟踪结果 (69)

图4.14 SIFT跟踪轨迹结果 (70)

图4.15 采用简单稠密光流估计的局部特征轨迹 (71)

图4.16 基于TVL1光流得到的局部特征运动轨迹 (72)

图4.17 UCF sports数据集上提取的局部特征运动轨迹 (73)

图4.18 PCA在高斯噪声和非高斯噪声情况下主成分估计结果 (74)

图4.19 三种子空间检测算法效果对比 (77)

图4.20 特征轨迹在背景子空间上的重构误差 (77)

图4.21 RANSAC算法在自拍摄数据集上检测结果 (78)

图4.22 Weizmann数据集图像模拟摄像机运动结果 (81)

图4.23 自拍摄人体动作测试视频 (82)

图4.24 Weizmann数据集模拟摄像机运动视频中的视频局部特征检测结果 (83)

图4.25 自拍摄视频中的视频局部特征检测结果 (84)

图4.26 Multi-KTH数据上检测结果对比 (85)

图4.27 Weizmann仿真数据中某视频局部特征的 (86)

图4.28 自拍摄视频中相同人体动作视频局部特征描述子对比 (87)

图4.29 CMI-VLF在UCF数据集的检测结果示例 (89)

图5.1 不同时空位置分布情况下,BoF表示结果 (92)

图5.2 不同时空位置分布情况下,时空编码表示结果 (93)

图5.3 基于时空编码的动作识别算法框架 (96)

图5.4 多层金字塔模型 (99)

图6.1 稀疏性示意图 (101)

图6.2 信号在过完备字典下的稀疏表示示意图(4稀疏情况) (102)

图6.3 极小化L1范数导致稀疏解的几何说明[171] (102)

图6.4 人脸图像稀疏系数分布结果[97] (104)

图6.5 人脸测试图像在各类别上的重构误差[97] (105)

图6.6 基于1 -graph的模式识别原理[97] (106)

图6.7 组稀疏编码原理图 (106)

图6.8 基于LGSRC的人体动作视频分类总体框架 (109)

图6.9 基于LGSRC的静止视频人体动作分类框架 (109)

图6.10 基于LGSRC运动视频人体动作分类框架 (110)

图6.11 SRC与LGSRC分类原理对比 (116)

附录图1 摄像机成像模型 (139)

附录图2 物体运动模型 (141)

相关主题
相关文档
最新文档