基于张量分解的视觉显著性算法研究

目录

第一章绪论 (1)

1.1 视觉显著性的计算模型概述 (2)

1.2 图像的张量描述与分析概述 (3)

1.3 论文的主要研究内容与章节安排 (4)

第二章研究背景与国内外研究现状 (5)

2.1 视觉显著性的计算模型 (5)

2.1.1 视觉注意机制 (5)

2.1.2 显著性的计算模型 (6)

2.2 张量子空间学习方法 (7)

2.2.1 向量数据的子空间学习方法 (7)

2.2.2 张量数据的子空间学习方法 (7)

2.3 本章小结 (8)

第三章基于增量信息的显著性模型 (9)

3.1 视觉编码方式概述 (9)

3.1.1 独立成分分析 (9)

3.1.2 稀疏编码 (10)

3.2 基于增量信息的视觉显著性模型 (11)

3.2.1 时空域中心邻域结构 (12)

3.2.2 模型建立 (12)

3.3 增量编码长度显著性模型的求解 (14)

3.3.1 高斯条件信息熵 (14)

3.3.2 基于稀疏编码长度的信息熵 (15)

3.3.3 显著性物体的判定 (16)

3.3.4 算法流程 (16)

3.4 实验结果与分析 (17)

3.4.1 数据集与评价方式 (17)

3.4.2 参数选择 (19)

3.4.3 自然图像的显著性 (19)

3.4.4 视频序列的显著性 (21)

V

3.5 本章小结 (23)

第四章基于最优秩-稀疏张量分解的显著性模型 (24)

4.1 张量的基本运算与分解 (24)

4.1.1 张量的基本运算 (24)

4.1.2 张量分解方法 (25)

4.2 图像的张量特征描述 (27)

4.2.1 图像特征的天然张量结构 (27)

4.2.2 图像特征的张量组织方式 (28)

4.3 最优秩-稀疏张量分解模型 (29)

4.3.1 模型建立 (30)

4.3.2 模型简化 (32)

4.3.3 模型求解 (33)

4.4 基于最优秩-稀疏分解的视觉显著性模型 (35)

4.4.1 基于ICA的图像张量化描述 (35)

4.4.2 基于最优秩-稀疏分解的显著性模型 (36)

4.5 实验结果与分析 (37)

4.5.1 眼动数据的预测 (38)

4.5.2 视频前景提取 (39)

4.5.3 序列图像去噪 (40)

4.5.4 人脸图像分析 (41)

4.6 本章小结 (42)

第五章总结与展望 (44)

5.1 主要工作与创新点 (44)

5.2 后续研究工作 (44)

参考文献 (46)

致谢 (51)

攻读硕士学位期间已发表或录用的论文 (52)

VI

图录

图2-1视觉显著性示例图 (5)

图3-1图像分块不同编码方式下的基 (9)

图3-2显著性模型流程示意图 (11)

图3-3空间中心邻域结构、时空域中心邻域结构示意图 (12)

图3-4两种不同求解方式流程示意图 (17)

图3-5左:显著性区域数据集;右:眼动数据集 (18)

图3-6高斯条件信息熵参数选择 (19)

图3-7基于稀疏编码长度的信息熵参数选择 (20)

图3-8显著性区域检测实验结果比较 (21)

图3-9时空域高斯条件信息熵的结果 (22)

图3-10非稳健跟踪窗下视频的时空域显著性 (22)

图3-11视频中的视觉显著性 (23)

图4-1张量的矩阵化 (25)

图4-2两种常见的张量分解方法 (26)

图4-3时空域HOG特征的天然张量结构 (28)

图4-4区域特征(HOG,网格SIFT)的天然张量结构 (28)

图4-5不同光照、视角、类别人脸图像的张量组织 (29)

图4-6最优秩-稀疏张量分解的原理示意图 (31)

图4-7基于最优秩-稀疏张量分解的显著性模型 (37)

图4-8最优秩-稀疏分解算法实例 (38)

图4-8眼动数据集的实验结果对比 (39)

图4-9高动态背景下最优秩-稀疏分解算法前景提取实验结果 (40)

图4-10脑部MRI数据的降噪结果 (41)

图4-11CMU PIE 数据库人脸数据 (42)

图4-12.最优秩-稀疏分解算法低维重构人脸数据 (43)

VII

表录

表3-1算法流程:高斯条件信息熵| 基于稀疏编码的信息熵 (17)

表3-2显著性区域检测不同算法性能(AR与AuC)比较 (21)

表4-1最优秩-稀疏算法流程 (36)

表4-2眼动数据不同算法性能(AuC)比较 (39)

表4-3脑部MRI数据的降噪 (41)

VIII

第一章绪论

人类视觉系统具有实时高效的信息处理能力:我们无时无刻都在进行物体识别、场景分析等任务,而这一过程似乎不费吹灰之力。事实上,视觉信号的信息量远远超出了我们的想象;于此同时,人类视觉系统的对于这些复杂的视觉信号的处理则是一个更加复杂的过程。举例而言,当我们眺望远景之时,人眼实际的可辨识范围(视场)仅仅是以视网膜为原点、眼球光轴为中心轴的、角度约为1.5度圆锥体区域[1]。可见,即便是单幅图像的感知,也必然涉及到频繁的眼球运动和视觉处理过程。这一过程在阅读文字时尤为明显,当读者阅读到这个语句之时,回顾本段开头恐怕就得借助于眼球的运动了。

大多数人并没有清晰认识到这一事实:生物视觉系统的认知并不是被动的接受过程,而是一个主动选择、分析、再选择的过程。这一不断地选择过程,被称为生物视觉系统的选择注意机制,也就是视觉显著性。进一步,这种选择过程又有内在(covert)和外在(overt)两种体现方式[2]。内在的选择过程,即我们对于“注意到的东西”的感知;外在的选择过程,即我们人眼的运动过程。尽管其内在机理尚不明确,这两种体现方式是密切相关的。本文通篇考虑的是不带有主观目的的选择注意过程。此时,一般可以认为这两种表现形式是等价的。

所谓注意选择机制,又称视觉显著性,即在时空域大量信息中选择特定感兴趣区域的过程。尽管在大多数时间并不为人所注意,这种能力是生物视觉系统信息处理的关键和重要步骤,使得视觉系统能够以较小的代价处理大量冗余、复杂的视觉信号。换言之,视觉显著性提供了一种对于视觉数据的高效筛选方法。故此,对于视觉显著性的考察,尤其对于其计算模型的考察,是十分必要的。视觉显著性的计算模型,不仅能为生物视觉系统内在机理提供佐证,而且能应用于计算机视觉大多数问题中,包括物体检测、图像分类等等。

那么,哪些因素影响或者决定着这一选择机制呢?这一机制的生理学基础仍然是学界争论和研究的热点。从实验上看,物体引起注意力的属性包括(但不仅限于)颜色、纹理、亮度、对比度、方向性、运动特性等等[2]。这些属性本身差异甚远,甚至部分属性并没有明确的生理学支持。在这些属性的背后,视觉显著性的真正成因仍然有待讨论。现阶段,大多数研究人员同意这么一个观点:视觉显著性是视觉系统编码机制的副产品。这也正是本文研究的出发点。

生物视觉的结构似乎与这种筛选相背离,视觉显著性压缩了信息量;而生物

- 1 -

相关主题
相关文档
最新文档