在线草图识别研究综述

合集下载

认知地图综述PPT38页

认知地图综述PPT38页
认知地图综述
41、实际上,我们想要的不是针对犯 罪的法 律,而 是针对 疯狂的 法律。 ——马 克·吐温 42、法律的力量应当跟随着公民,就 像影子 跟随着 身体一 样。— —贝卡 利亚 43、法律和制度必须跟上人类思想进 步。— —杰弗 逊 44、人类受制于法律,法律受制于情 理。— —托·富 勒
国外相关文献综述
(一)林奇对认知地图组成要素的研究
美国城市规划教授林奇在1960年出版的《城市意象》一书中, 详细介绍了美国三个城市—波士顿、洛杉矶和泽西市市民的 认知地图,其理论和方法很快在美国及世界其他地区被推广 应用
他在城市意象理论中提出构成认知地图的5要素(标志物、节 点、区域、边界、道路)
国外相关文献综述
Thomdye认为人类在形成和使用认知地图时用到了三类知识:(1) 地界标知识,这是关于位置的特定特征的信息,以及那些既源于 表象性表征又基于命题性表征的信息;(2)路线道路知识,这涉及 从一个位置移动到另一个位置的具体路径,以及那些既基于程序 性知识又基于陈述性知识的信息;(3)测量性知识,这涉及对地界 标间距离的估计,正如它们可能出现在测量地图上的那样,而且 这些可以用表象性和命题性的方式表征。
国外相关文献综述
程序性知识是指导如何行动的知识,其在头脑中的表征是通过产生 式来完成。一个产生式就是一个“如果—那么”规则。当“如果” 得到满足,“那么”就得以执行。
当然很多产生式构成了一个产生式系统,产生式系统通过许多子目 标,控制产生式的流向。程序性知识分为自动化的程序性知识和有 意识的程序性知识。构建认知地图的目标就是经过系统的训练,由 有意识的认知地图成为自动化的认知地图。
认知地图概念的发展
3、当代阶段(1980年代至今),信息加工理论的加入 20世纪80年代以来认知地图概念体系经历了由静态向动

图像语义分析与理解综述

图像语义分析与理解综述

*国家自然科学基金资助项目(N o .60875012,60905005)收稿日期:2009-12-21;修回日期:2010-01-27作者简介 高隽,男,1963年生,教授,博士生导师,主要研究方向为图像理解、智能信息处理、光电信息处理等.E-m a i:l gao j un @hfut .edu .cn .谢昭,男,1980年生,博士,讲师,主要研究方向为计算机视觉、智能信息处理、模式识别.张骏,女,1984年生,博士研究生,主要研究方向为图像理解、认知视觉、机器学习.吴克伟,男,1984年生,博士研究生,主要研究方向为图像理解、人工智能.图像语义分析与理解综述*高 隽 谢 昭 张 骏 吴克伟(合肥工业大学计算机与信息学院合肥 230009)摘 要 语义分析是图像理解中高层认知的重点和难点,存在图像文本之间的语义鸿沟和文本描述多义性两大关键问题.以图像本体的语义化为核心,在归纳图像语义特征及上下文表示的基础上,全面阐述生成法、判别法和句法描述法3种图像语义处理策略.总结语义词汇的客观基准和评价方法.最后指出图像语义理解的发展方向.关键词 图像理解,语义鸿沟,语义一致性,语义评价中图法分类号 T P 391.4I m age Se m antic Anal ysis and Understandi ng :A R eviewGAO Jun ,XI E Zhao ,Z HANG Jun ,WU Ke -W ei(S chool of C o m puter and Infor m ation,H e fei University o f T echnology,H efei 230009)ABSTRACTSe m antic ana l y sis is the i m portance and diffi c u lty of high -level i n terpretati o n i n i m age understandi n g ,i n wh ich there are t w o key issues of tex-t i m age se m an tic gap and tex t descri p ti o n po lyse m y .Concentrating on se m antizati o n o f i m ages onto logy ,three soph i s tica ted m et h odolog ies are round l y rev ie w ed as generati v e ,d iscri m ina ti v e and descriptive gra mm ar on the basis of conc l u d i n g i m ages se m antic fea t u res and context expression .The ob jective benchm ark and eva l u ation for se m an tic vocabu lary are i n duced as w e l.l F i n ally ,the summ arized directions fo r furt h er researches on se m antics i n i m age understand i n g are discussed i n tensively .K ey W ords I m age Understanding ,Se m antic G ap ,Se m an tic Consistency ,Se m an tic Evalua ti o n1 引 言图像理解(I m age Understandi n g ,I U )就是对图像的语义解释.它是以图像为对象,知识为核心,研究图像中何位置有何目标(what is w here)、目标场景之间的相互关系、图像是何场景以及如何应用场景的一门科学.图像理解输入的是数据,输出的是知识,属于图像研究领域的高层内容[1-3].语义(Se -第23卷 第2期 模式识别与人工智能 V o.l 23 N o .2 2010年4月 PR &A I A pr 2010m antics)作为知识信息的基本描述载体,能将完整的图像内容转换成可直观理解的类文本语言表达,在图像理解中起着至关重要的作用.图像理解中的语义分析在应用领域的潜力是巨大的.图像中丰富的语义知识可提供较精确的图像搜索引擎(Searching Eng i n e),生成智能的数字图像相册和虚拟世界中的视觉场景描述.同时,在图像理解本体的研究中,可有效形成/数据-知识0的相互驱动体系,包含有意义的上下文(Context)信息和层状结构(H ierarchica-l S truct u red)信息,能更快速、更准确地识别和检测出场景中的特定目标(如,识别出场景中的/显示器0,根据场景语义知识可自动识别附近的/键盘0).尽管语义分析在图像理解中处于非常重要的位置,但传统的图像分析方法基本上全部回避了语义问题,仅针对纯粹的图像数据进行分析.究其原因主要集中于两方面:1)图像的视觉表达和语义之间很难建立合理关联,描述实体间产生巨大的语义鸿沟(Se m antic Gap);2)语义本身具有表达的多义性和不确定性(Am bigu ity).目前,越来越多的研究已开始关注上述/瓶颈0,并致力于有效模型和方法以实现图像理解中的语义表达.解决图像理解中的语义鸿沟需要建立图像和文本之间的对应关系,解决的思路可大致分为三类.第一条思路侧重于图像本身的研究,通过构建和图像内容相一致的模型或方法,将语义隐式地(I m p lici-t l y)融入其中,建立/文本y图像0的有向联系,核心在于如何将语义融于模型和方法中.采用此策略形成的研究成果多集中于生成(Generati v e)方式和判别(D iscri m inati v e)方式中.第二条思路从语义本身的句法(G ra mm ar)表达和结构关系入手,分析其组成及相互关系,通过建立与之类似的图像视觉元素结构表达,将语义描述和分析方法显式地(Exp lici-t l y)植入包含句法关系的视觉图中,建立/图像y文本0的有向联系.核心在于如何构建符合语义规则的视觉关系图.第三条思路面向应用,以基于内容的图像检索(I m age Retrieval)为核心,增加语义词汇规模,构建多语义多用户多进程的图像检索查询系统.解决语义本身的多义性问题需要建立合理的描述规范和结构体系.Princeton大学的认知学者和语言学家早在20世纪80年代就研究构建了较合理统一的类树状结构.如今已被视为视觉图像研究领域公认的语义关系参考标准,用于大规模图像数据集的设计和标记中,有效归类统一了多义性词语.此外,一些客观的语义检索评价标准也在积极的探索过程中.本文将对上述两个图像语义理解中的问题进行方法提炼和总结.针对语义鸿沟问题,介绍已有模型和方法的处理策略.还采用较完备的图像语义/标尺0(B ench m ark)解决语义的主观多义性.2图像内容的语义分析图像内容描述具有/像素-区域-目标-场景0的层次包含关系,而语义描述的本质就是采用合理的构词方式进行词汇编码(Encodi n g)和注解(Annota-tion)的过程.这种过程与图像内容的各层描述密切相关,图像像素和区域信息源于中低层数据驱动,根据结构型数据的相似特性对像素(区域)进行/标记0(Labeli n g),可为高层语义编码提供有效的低层实体对应关系.目标和场景的中层/分类0(C ategor-i zati o n)特性也具有明显的编码特性,每一类别均可视为简单的语义描述,为多语义分析的拓展提供较好的原型描述.本节将针对前述的语义鸿沟问题介绍常用的图像语义表示方法和分析策略.2.1语义化的图像特征图像内容的语义分析借鉴文本分析策略.首先需要构建与之相对应的对象,整幅图像(I m age)对应整篇文档(Docum ent),而文档中的词汇(Lex icon)也需要对应相应的视觉词汇(V isua lW ord).视觉词汇的获取一般通过对图像信息的显著性分析提取图像的低层特征,低层特征大多从图像数据获取,包括简单的点线面特征和一些特殊的复杂特征,再由鲁棒的特征表达方式生成合适的视觉词汇,视觉词汇一般具有高重用性和若干不变特性.点特征提取以图像中周围灰度变化剧烈的特征点或图像边界上高曲率的点为检测对象,根据灰度或滤波函数确定区域极值点(如H arris角点[4]等),并拓展至不同掩膜下的尺度空间中(如高斯-拉普拉斯、高斯差分等),分析极值点的稳定特性,得到仿射不变的H arris二阶矩描述符[5].线特征描述图像中目标区域的外表形状和轮廓特性,这类轮廓线特征以C anny算子等经典边缘检测算法为基础,集中解决边缘曲线的描述、编组以及组合表达等问题.边缘上的双切线点和高曲率点可连接形成有效的边缘链或圆弧,根据聚类策略或某些规则完成线片段编组,形成线特征的视觉词汇[6-8].区域是图像上具有灰度强相关性的像素集合,包含某种相似属性(如灰度值、纹理等),相对于点线特征,面特征有更丰富的结构信息.区域特征以点特征为中心,采用拉普192模式识别与人工智能23卷拉斯尺度下的H arris或H essian仿射区域描述,对特征尺度上的椭圆仿射区域内的初始点集进行参数迭代估计,根据二阶矩矩阵的特征值测量点邻的仿射形状[4,9].另一种策略分析视觉显著区域对象(如直方图、二值分割图等)的熵值统计特性,得到最佳尺度下的最稳定区域,满足视觉词汇的高重用性[10-11].鲁棒特征表达对提取的特征进行量化表示.点特征一般仅具有图像坐标.线特征则充分考虑邻域边缘点的上下文形状特性,以边缘上采样点为圆心,在极坐标下计算落入等距等角间隔区域的边缘像素直方图.椭圆形面特征描述主要以尺度不变特征变换(Sca le I nvariant Fea t u re Transfor m,SI FT)[12-13]为主,SI FT特征对每个高斯窗口区域估计方向直方图,选择峰值作为参考方向基准,计算4@4网格区域内8个方向的梯度直方图,任何区域均可转换为4@4@8 =128维特征向量.该特征对图像尺度、旋转具有不变性,对亮度和视角改变也保持一定稳定性.通过对特征向量的聚类,得到最原始的特征词汇,形成的语义化图像特征也称为/码书0(Codebook)[14].2.2图像语义的上下文表达图像的语义信息描述主要包含外观位置信息和上下文信息,前者如2.1节所述,可表示成/码书0.上下文信息不是从感兴趣的目标外观中直接产生,而来源于图像邻域及其标签注解,与其他目标的外观位置信息密切相关.当场景中目标外观的可视程度较低时,上下文信息就显得尤为重要.B ieder m an将场景中不相关目标关系分为5种,即支撑(Support)、插入(I nterpositi o n)、概率(Proba-b ility)、位置(Positi o n)和大小(Size)[15-16].五类关系均包含/知识0,不需要知道目标信息就可确定支撑和插入关系,而后三类关系对应于场景中目标之间的语义交互关系,可缩短语义分析时间并消除目标歧义,通常称为/上下文特征0(C ontex t Features),譬如一些相对复杂的特征描述(如全局G ist特征[17-18]、语义掩码特征等)融入场景上下文信息,本身就包含语义(关联)信息,是语义分析的基础.如今有很多研究开始挖掘B ieder m an提出的三类语义关系,可分为语义上下文、空间上下文和尺度上下文[19].语义上下文表示目标出现在一些场景中,而没有出现在其他场景中的似然性,表示为与其他目标的共生(Co-O ccurrence)关系,可采用语义编码方式[20-21],也可由共生矩阵判断两类目标是否相关[22-23],此类上下文对应B ieder m an关系中的/概率0关系.空间上下文表示目标相对于场景中其他目标出现在某个位置上的似然性,对应于/位置0关系.空间上下文隐式地对场景中目标的/共生0进行编码,为场景结构提供更加具体的信息,只需确定很少的目标,就可通过合理的目标空间关系降低目标识别的误差,消除图像中的语义歧义[24-25].尺度上下文表示目标在场景中可能的相对尺度范围,对应于/大小0关系.尺度上下文需处理目标之间的特定空间和深度关系,可缩小多尺度搜索空间,仅关注目标可能出现的尺度.尺度上下文在二维图像中较为复杂,目前仅用于简单的视觉分析系统中[26-27].目前大多数上下文方法主要分析图像中的语义上下文和空间上下文.语义上下文可从其他两种上下文中推理获取,与场景中的目标共生相比.尺度和空间上下文的变化范围较大,而共生关系的知识更易获取,处理计算速度更快.融入上下文特征的图像语义形成了全局和局部两种分析策略,即基于场景的上下文分析和基于目标的上下文分析.前者从场景出发[15,27],将图像统计量看作整体,分析目标和场景之间的高频统计特性,获取全局上下文信息,如马路预示着汽车的出现.后者从目标出发[25,28],分析目标间的高频统计特性,获取局部上下文信息,如电脑预示着键盘的出现.总之,上下文特征包含了更丰富的知识,有助于为图像理解提供更准确的语义信息.2.3语义分析的生成方法生成方法基于模型驱动,以概率统计模型和随机场理论为核心,遵循经典的贝叶斯理论,定义模型集合M,观察数据集合D,通过贝叶斯公式,其模型后验概率p(M|D)可以转换为先验概率p(M)和似然概率p(D|M)的乘积.生成方法一般假设模型遵循固定的概率先验分布(如高斯分布等),其核心从已训练的模型中/生成0观察数据,测试过程通过最大似然概率(M ax i m ize L i k e lihood)得到最符合观察数据分布的模型预测似然(Pred icti v e Like li h ood).图像语义分析的生成方法直接借用文本语义分析的图模型结构(G raph ica lM ode ls),每个节点定义某种概念,节点之间的边表示概念间的条件依赖关系,在隐空间(Latent Space)或随机场(Rando m Field)中建立文本词组和视觉描述之间的关联,生成方法无监督性明显,具有较强的语义延展性.2.3.1层状贝叶斯模型图模型的节点之间由有(无)向边连接,建立视觉词汇和语义词语之间的对应关系.朴素贝叶斯理论形成的经典Bags-o-f W ords模型是层状贝叶斯模1932期高隽等:图像语义分析与理解综述型的雏形,该模型将同属某类语义的视觉词汇视为/包0,其图结构模型和对应的视觉关系描述如图1(a)所示,其中灰色节点为观察变量,白色节点为隐变量,N 为视觉词汇的个数,通过训练建立类别语义描述c 和特征词汇w 之间的概率关系,选取最大后验概率p (c |w )对应的类别作为最终识别结果.(a)朴素贝叶斯(b)概率隐语义分析(c)隐狄利克雷分配(a)N a Çve bay es(b)P robab ili stic latent se m antic ana l y si s (c)L atent D irich let a llocati on图1 有向图语义描述F i g .1 Se m antic i nterpre tati on of directed g raphs朴素贝叶斯模型试图直接建立图像和语义之间的联系,但由于视觉目标和场景的多样性导致这种稀疏的离散分布很难捕捉有效的概率分布规律,因此H o f m ann 借鉴文本分析中的概率隐语义分析(Probab ilistic Latent Se m antic Ana l y sis ,pLSA )模型[29-30],将/语义0描述放入隐空间Z 中,生成相应的/话题0(Top ic)节点,其基本描述如图1(b )所示.D 为M 个图像d 组成的集合,z 表示目标的概念类别(称为/Top ics 0),每幅图像由K 个Topics 向量凸组合而成,通过最大似然估计进行参数迭代,似然函数为p (w |d )的指数形式,与语义词汇和图像的频率相关.模型由期望最大化(E xpec ta tion M ax i m ization,E M )算法交替执行E 过程(计算隐变量后验概率期望)和M 过程(参数迭代最大化似然).决策过程的隐变量语义归属满足z*=arg m ax z P (z |d ),pLSA 模型通过隐变量建立特征与图像间的对应关系,每个文本单元由若干个语义概念按比例组合,本质上隐空间内的语义分布仍然是稀疏的离散分布,很难满足统计的充分条件.隐狄利克雷分配(LatentD ir ich let A llocation ,LDA )模型[31-32]在此基础上引入参数H ,建立隐变量z 的概率分布.在图像语义分析中,变量z 反映词汇集合在隐空间的聚类信息,即隐语义概念,参数H (通常标记为P )则描述隐语义概念在图像空间中的分布,超参A (通常标记为c)一般视为图像集合D 中已知的场景语义描述.如图1(c )所示,由参数估计和变分(V aria tiona l)推理,选取c =arg m ax c P (w |c ,P ,B )作为最终结果.LDA 中不同图像场景以不同的比例P 重用并组合隐话题空间全局聚类(G l o ba lC l u ster),形成/场景-目标-部分0的语义表达关系.LDA 中的隐话题聚类满足De Finetti 可交换原理,其后验分布不受参数次序影响,不同隐话题聚类相互独立,无明显的结构特性.一种显而易见的策略就是在此模型基础上融入几何或空间关系,即同时采用话题对应的语义化特征的外观描述和位置信息,这样不同话题的分布大体被限定于图像场景的某个区域,如天空总是出现在场景的上方等,减小模型决策干扰.如L i 等人[14,33]在LDA 模型中融入词汇的外观和位置信息,并将语义词汇描述c 划分为视觉描述词汇(如sky )和非视觉描述词汇(如w i n d)两类,由词汇类别转换标签自动筛选合适的词汇描述.模型采用取样(Sa mp li n g)策略对从超参先验中生成的视觉词汇和语义标签进行后验概率学习,模型中包含位置信息的语义特征显式地体现了空间约束关系,具有更好的分析效果.(a)无结构(b)全互连结构(c)星状结构(a)U nstructured(b)Fu ll structure (c)Sta r struct u re图2 Part -based 模型表示图F i g.2 R epresen tati on for Part -based m ode lsLDA 模型已明确地将隐空间的/话题0语义进行合理聚类,建立与视觉词汇聚类的对应关系.隐话题聚类隐式地对应场景或目标的某些部分(parts),是一种较原始的par-t based 模型.真正的par-t based模型侧重/目标-部分0之间的语义关联表达,不仅具有较强的结构特性,而且直接概念化隐空间的语义聚类,每个part 直接显式对应语义描述(如人脸可分为眼睛、鼻子、嘴等不同部分).如图2所示,一般通过人工设定或交叉验证的方式固定重要参数(如隐聚类个数、part 个数等)并混合其概率密度,其中固定参数的D ir i c h let 生成过程是一种有限混合./星群0(Conste llati o n)模型[34-35]是其中的典型,根据不194模式识别与人工智能 23卷同区域的外观位置信息描述,确定P 个部分的归属及其概率分布,将目标和背景似然比分解为外观项、形状项、尺度项以及杂项的乘积,依次计算概率密度值(一般是高斯分布或均匀分布),并E M 迭代更新参数,最后通过似然比值判断目标的语义属性.部分间的约束关系体现于形状项中,可以假设为全互连结构(Fu ll Str ucture)或星状结构(S tar S tructure),其结构信息体现于高斯分布的协方差矩阵中(满秩或稀疏矩阵),有助于提高语义分析的准确性.固定参数的D irichlet 生成过程是无限混合模型的一种特例,可通过合适的随机过程,很好表达无限混合(I nfi n ite M i x t u re)模型,自动确定混合个数.这种/非参0(Non -Para m etric)模型可捕捉到概率空间的隐性分布,不受特定的概率密度函数形式表达限制.整个D irich let 过程可拓展至层次结构(H ierar -ch ical D irichlet Process ,HDP).H DP 具有明显的结构特性,可以很容易对应于图像中的/场景-目标-部分0层次结构,其混合组成很显式地表达了不同目标实体间的语义包含关系.Sudderth 在HDP 的基础上,引入转换函数(Transfor m ed Function),生成转换D irichlet 过程(T ransfor m ed D irichlet Process ,TDP),每组的局部聚类不再直接/复制0全局聚类参数,而是通过不同转换函数生成变化多样的局部变参,更符合目标多变特性[36-37].层状贝叶斯模型是当前处理图像语义问题的关注热点,其模型特有的参数化层次结构信息参照文本处理直接对应图像中的语义实体,通过图模型的参数估计和概率推理得到合适的语义描述.模型本身的发展也具有一定的递进关系,即/Bags -o-f W ord模型y pLSA 模型y LDA 模型y par-t based 模型y HDP 模型y TDP 模型0等,分析得到的结果具有层次语义包含关系.2.3.2 随机场模型随机场模型以均值场(M ean F ield)理论为基础,图中节点变量集合{x i |i I V }通常呈4-邻域网格状分布,节点之间的边{(x i ,x j )|i ,j I V;(x i ,x j )I E }体现隐性关联,由势函数W ij (x i ,x j )表示,一般具有含参数H 的近高斯指数分布形式,每个隐节点x i 一般对应一个观察变量节点y i ,由势函数W i (x i ,y i )表示.如图3所示,观察节点可对应图像的像素点,也可对应图像中的某个区域或目标语义化特征描述(如2.1节所述),隐变量则对应语义/标记0或/标签0l .随机场模型具有丰富的结构场信息,节点间上下文关联很强,通常分析像素标记解决图像分割问题.近年来,其特定的约束关系(如桌子和椅子经常关联出现)也被用于图像区域化语义分析中,隐节点集的语义标签对应不同的语义化特征和势函数取值,最大化随机场的能量函数得到的标记赋值,就是最终的区域语义标记属性.随机场模型具有较成熟的计算框架,融合其上下文关联信息的层次贝叶斯/生成0模型是分析图像语义的主流趋势[14,33-35,38-40].图3 随机场模型及其图像语义描述F ig .3 R andom field m ode l and its se m antic descr i pti on2.4 语义分析的判别方法判别方法基于数据驱动,根据已知观察样本直接学习后验概率p (M |D ),主要通过对训练样本的(弱)监督学习,在样本空间产生合适的区分函数,采用形成的分类器或结构参数,完成对特定的特征空间中点的划分(或闭包),形成某些具有相似特性的点的集合.这些共性可直接显式对应图像理解中的若干语义信息,如目标和场景的属性、类别信息等,通常以主观形式体现于观察样本中,其本质就在于学习并获取区分不同语义信息的知识规则(如分类器等).由于语义信息主观设定(如判别几种指定类别),因此判别方法主要侧重观察样本(语义)的处理分析,而非观察样本(语义)的获取.判别方法是包含经典的机器学习方法,精确度较高且易于实现,常用于目标检测识别识别.其策略主要包括最近邻分析、集成学习和核方法.2.4.1 最近邻方法最近邻(k -N earestN e ighbo r ,kNN )方法是基于样本间距离的一种分类方法.其基本思想是在任意空间中、某种距离测度下,寻找和观测点距离最接近的集合,赋予和集合元素相似的属性集合.在图像理解中,就是在图像特征空间寻找和近似的特征描述集,将已知的语义作为分析图像的最终结果.最近邻方法非常简单,但对样本要求较高,需要很多先验知1952期 高 隽 等:图像语义分析与理解综述识,随着大规模语义标记图像库的出现(如后 3.2节所述),最近邻方法有了广阔的应用前景,Torra l b a 等人[41]建立80万幅低分辨率彩色图像集合和相应的语义标记,图像集涵盖所有的视觉目标类别,以W ord N et语义结构树(如后3.1节所述)的最短距离为度量,采用最近邻方法分别对其枝干进行投票,选取最多票数对应最终的语义标签输出.也可直接在图像空间中计算像素点的欧式距离,得到与分析图像相类似的语义空间布局(Con fi g uration).Russe ll 等人[42]利用最近邻方法找出与输入图像相似的检索集,通过含有标记信息的检索图像知识转化到输入图像中,完成场景到目标的对齐任务.语义聚类法还被用于视频数据库中[43],具有较好的结果.2.4.2集成学习集成学习将各种方法获得的模型在累加模型下形成一个对自然模型的近似[44-45],将单一学习器解决问题的思想转换为用多个学习器来共同解决问题.Boosti n g是集成学习方法的典型.其基本思想是每次迭代t生成一个带权重A t的弱分类器(W eaker C lassifier)h t,加大误分样本的权重,保证后续学习对此类样本的持续关注,权重A t表示该弱分类器h t 的重要性,分类效果好的权重大,效果差的权重小.其集成学习的结果就是弱分类器的加权组合E T t=1Ex i I DA t h t(x i)构成一个分类能力很强的强分类器(Strong C lassif-i er),完成简单的二值或复杂的多值分类[46-47].集成学习方法经常用于图像理解的语义分类中,其样本数据集既可以是区域块也可以是滤波后的基元乃至包括上下文和空间布局信息.其分类结果具有很明显的语义区分度.多语义分类中经常出现多类共享的情况,因此,联合Boosti n g的提出极大地减少了分类器的最佳参数搜索时间,使单一弱学习器具有多类判别能力[48-51].同时,近年来多标签多实例(M ult-i Instance M u lt-i Labe l Learn i n g,M I M L)的集成学习策略[52]也倍受学者关注,图像理解中的语义划分问题可通过M I M L转化为单纯数据下的机器学习问题,其输出的分类结果就是对既定语义的编码结果.2.4.3核方法核方法(Kernel)是在数据集中寻找合适的共性/基0,由/基0的混合组成共性空间,与图像理解中的低层基元表示异曲同工.使用核方法可将低维输入空间R n样本特征映射到高维空间中H,即5B R n y H,将非线性问题转换为线性问题.其关键是找到合适的核函数K保持样本在不同空间下的区分关系,即K(x i,x j)=5(x i)#5(x j).它能够在学习框架和特定知识之间建立一种自然的分离来完成图像有意义的表达[53-54].支持向量机(S VM)是常用的核方法之一.它以训练误差作为优化问题的约束条件,以置信范围值最小化作为优化目标,在核函数特征空间中有效训练线性学习分类器,通过确定最优超平面(H yper Plane)及判别函数完成高维空间点的分类.SVM方法在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,在图像理解中,能有效解决不同环境、姿态以及视角下的广义目标识别分类问题,是目前最为通用的分类模型[55-58].针对多语义分类问题,Farhad i等人[59]将目标的语义属性细分为部分、形状及材质等,相同或相似的语义对应的样本集表明了某种特有的共性关系,采用L1测度对数回归和线性SVM方法学习不同语义类别的判别属性,其多语义属性的不同划分决定了指定目标的唯一描述,具有很强的语义可拓展性.判别模型是通过模型推理学习得出的后验概率,对应不同类别目标的后验概率或对应图像前景和背景的不同后验概率来划定判决边界,进而完成目标识别,指导图像理解.判别模型在特征选取方面灵活度很高,可较快得出判别边界.2.5图像句法描述与分析人对图像场景理解的本质就是对图像本身内在句法(G ra mm ar)的分析.句法源于对语句结构研究,通过一系列的产生式规则将语句划分为相互关联的若干词汇(组)组合,体现句法内词汇之间的约束关系.图像句法分析直接研究图像语义,随着20世纪70年代句法模式识别的提出,Otha就试图构建统一的基于视觉描述的知识库系统,利用人工智能相关策略进行场景语义推理.但由于视觉模型千变万化,方法针对性很强,句法分析方法曾一度没落.当前图像语义分析的一部分研究重心又重新转向图像句法.由于句法分析本身已较为成熟,因此如何建立和句法描述相对应的图像视觉描述非常关键.2.5.1图像与或图表达图像I内的实体具有一定的层次结构,可用与或图(And-O r G raph)的树状结构表示,即解析树pg.如图4所示,同属一个语义概念的实体尽管在外观上具有很大差异,但与或图表达相似,与节点表示实体的分解(D ecom position),如/场景y目标0, /目标y部分0等,遵循A y BCD,的句法规则,或节点表示可供选择的结构组成,遵循A y B|C|D,196模式识别与人工智能23卷。

文献综述汇报课件ppt

文献综述汇报课件ppt

课题目的意义:
在快节奏的信息化时代,办公空间的功能变的更加多元化,现代开敞式办公空 间不再是静止、孤立、冷漠的状态,而是更加注重人在空间中的行为、心理因 素;注重空间的生态化和可持续发展;注重人与人之间的互动和交流。遵循“以 人为本”的原则,改善人们的工作环境。
主要设计(研设计过程中要不断的与业主进行沟通,深刻了解客户的 想法与理念,出现问题要及时拿出解决方案。
预期成果:
预期的阶段成果
准备阶段
结合设计主题完成场地的测绘和设计方案的构思,方案确定与 修改。
预期的阶段成果
设计阶段
按时完成总体的规划设计,总体的规划设计进行深入的检查,以确保完成的 设计是最终成果。 总体的规划设计主要包括方案设计和cad平面图、立面图、效果图的绘制。
设计(研究)方案:
研究的方法:
1、调查研究实例:走进市场,参观著名 的设计公司的设计实例,研究他们设计 的办公空间的优点,在自己设计风格的
基础上加以借鉴与提升。
2、运用网络,收集资料:大量收集与本 设计相关的文献资料,仔细的阅读与分 析;运用已经掌握的信息跟文献资料,比
较分析;
3、实际操作:通过与该公司负责人的沟 通,确定设计的风格,进行设计定位,
如果说住宅是温暖的、亲情的、具有休息意味的地方,那么办公室则是理性的 工作场所,是竞争和级别分明的地方。 在办公室的装饰中,需要考虑办公室本身的功能性,以及众多的办公设备,同 时需要注意的是装饰设计不被硬性、教条的模式所约束,应当力求营造理性的、 合乎人性化的现代办公室氛围。 通过老师的指导,我将毕业设计初步定位为办公空间设计,设计对象为某设计 公司。 应公司负责人的要求,我将设计风格定位为现代风格。 该公司位于商业繁华地段的综合大厦7楼,占地面积400多平米。在考虑公司 性质的基础上,我在平面规划中遵循实用、功能需求和人性化管理充分结合的 原则。

异构CAD系统集成技术综述

异构CAD系统集成技术综述

计算机辅助设计与图形学学报操作,NMC是指中性建模命令.SM口to—NMC转换器负责把每个由本地用户触发执行的系统建模操作转化成为中性建模命令,并立即将其通过网络发送至其他站点;NMC—to-SM0转换器则负责接收从其他站点发送来的中性建模命令,并立即把它转换成为一个或者多个本地的系统建模操作在本地执行.为了有效地支持SMoto.NMC转化器和NMC—to—SMO转化器的实现,他们使用面向对象技术,以类和对象的形式来表示中性建模命令.每条中性建模命令都表示为一个类,这个类具有相应的属性和函数,其中属性的设计旨在使其能够满足所有主流CAD系统进行相应建模操作重构的需要.图4异构CAD系统在线集成框架文献[29—33]工作的另一个特点是提出了在异构CAD系统之间实时交换特征修改和删除操作的方法.与完整特征模型交换不同,除了特征建模操作之外,CAD系统之间的在线集成同时需要能够支持特征修改和特征删除操作的实时交换,这是同步协同设计的需要.实现特征修改和特征删除操作实时交换的难点在于,如何有效地进行异构CAD系统中被修改或删除对象的匹配.对此,他们提出了基于中性建模命令历史的解决方法:在每个站点(CAD系统)上分别建立一个中性建模命令队列(NMCList),其中每一个队列项存储由流经本站点的中性建模命令ID和相对应的本地建模操作对象指针所组成的关联对(AssociatedPari),利用存储在每个队列项中的关联对把流经本站点的中性建模命令和相对应的本地建模操作对象关联起来.借助在各站点建立起来的中性建模命令队列,就能够根据本地被操作(被修改或者被删除)的对象找出其他站点上需要进行同步操作(修改或者删除)的对象,进而有效地实现特征修改和特征删除操作的交换.基于上述方法,李珉等开发了一个由Pro/E,Solidworks和MDT组成的实时协同设计平台,通过对其中每个系统开发并内置SMDto—NMC和NMC—to—SMO转换器,实现了3个异构CAD系统之间的实时功能互操作.该平台能够支持多个用户使用上述3个CAD系统进行实时协同的零件设计和装配建模,并且已经被扩展为Webservices,用于支持离线的参数化特征模型交换[34|.图5所示为在Pro/E和MDT之间基于中性命令进行特征建模操作实时交换的一个实例.文献[35—37]从透明协作的群组通信机制、协作用户与协作任务管理、协同感知与人人交互等方面对CAD系统在线集成与协同工作进行了探讨,其中关于异构CAD协同方面采用了与文献[21]类似的标准宏命令方法.图5特征建模操作实时交换结果翥一||一旧一一。

杏林动画综述模板

杏林动画综述模板

本科毕业创作、设计报告书题目作品:三维动画综述:浅析虚拟现实中的三维动画制作作者:张志国专业:动画指导教师:宋翠君完成日期:2014.05.30原创性声明本人声明:所呈交的毕业创作、设计是本人在导师指导下进行的研究成果。

除了文中特别加以标注和致谢的地方外,作品和作品综述中不包含其他人已发表或撰写过的研究成果。

参与同一工作的其他同志对本研究所做的任何贡献均已在作品综述中作了明确的说明并表示了谢意。

签名:日期:2013.05.30 本创作、设计使用授权说明本人完全了解南通大学有关保留、使用毕业创作、设计的规定,即:学校有权保留毕业创作、设计及送交毕业创作、设计复印件,允许毕业创作、设计被查阅和借阅;学校可以公布毕业创作、设计的全部或部分内容。

(保密的论文在解密后应遵守此规定)学生签名:指导教师签名:日期:2013.05.30南通大学杏林学院毕业创作、设计立题卡注:1、此表一式三份,学院、教研室、学生档案各一份。

2、课题来源是指:1.科研,2.社会生产实际,3. 其他。

3、课题类别是指:1.毕业论文,2.毕业设计。

4、教研室意见:在组织专业指导委员会审核后,就该课题的工作量大小,难易程度及是否符合专业培养目标和要求等内容提出具体的意见和建议。

5、学院可根据专业特点,可对该表格进行适当的修改。

作品:边检虚拟现实教学系统综述:浅析虚拟现实中的三维动画制作课题审核评议结论该课题符合动画专业培养目标的要求,课题难易适中,有一定的份量。

课题由郑曦老师拟定,从我院的教学情况及该指导教师的教学和专业研究水平看,已具备完成该课题所需条件。

建议该课题内容与所选学生的专业学习相吻合,使学生的专业创作与专业理论研究兴趣相符合,在课题的研究过程中,要以动画专业毕业创作及综述报告的规范要求指导学生,使本课题研究在创作和理论方面均具有一定的学术水平。

评议组组长签字:2012年10月20 日南通大学杏林学院毕业创作、设计任务书题目作品:边检虚拟现实教学系统综述:浅析虚拟现实中的三维动画制作学生姓名吴德运专业动画班级动画091班学号0921073021起讫日期2012年11月——2013年5月指导教师郑曦职称讲师发任务书日期2012 年11 月12 日注:此表为参考表格,学院可根据专业特点,对该表格进行修改。

综述论文工作计划(通用6篇)

综述论文工作计划(通用6篇)

综述论文工作计划(通用6篇)博士研究生在学制三年期内按照个人培养计划要求提前学完全部课程,各门必修课程的考试成绩均在良+以上并其他课程考试通过者;有较强的科学研究能力,在本专业或相关专业内取得较好的科研成果;学位论文已完成者;可申请提前毕业。

1、博士研究生申请提前毕业须具备以下科研条件之一:(1)申请提前毕业的博士生须在“核心期刊”或“专业期刊”上发表论文不少于3篇,要“其他刊物”上发表学术论文不少于2篇;在“核心期刊”、“专业期刊”上发表学术论文不少于4篇。

(2)在可检索的国际学术刊物上了表2篇以上学术论文。

(3)在本学科领域内取得重大科研成果,获得全国性科学成果奖。

2、申请时间:每年3月25日以前办理申请提前一年、10月25日以前办理申请提前半年毕业研究生的手续,过期不再办理。

3、经审批同意办理提前毕业手续的.博士生(已列入该年度毕业分配计划),但因故不能提前毕业者,不得撤消提前毕业的申请,未能进行学位论文答辩或答辩未通过者,按结业处理,颁发结业证书。

详细事宜按照《中国传媒大学关于研究生提前毕业的暂行规定》执行。

1、博士生学习年限为三到四年。

原则上第一、第二学期修完培养计划所规定的公共课和专业课程,第三学期进行学科综合考试,第四学期进行学位论文开题报告,第六学期进行学位论文答辩。

2、至第六学期结束时博士生已完成课程学习、学科综合考试、学位论文开题报告,但未完成学位论文答辩者,必须按常规学制时间(三年)离校,待学位论文准备好后再申请回校答辩。

博士生学位论文的答辩需在六年内完成。

相关事宜请按照《关于博士研究生申请学位论文延期答辩和有关研究生学籍管理的若干补充规定》执行。

为规范论文写作,我院根据学校有关文件精神,结合本院各学科的特点,我院已经于20某某年1月制定了《福建师范大学外国语学院本科生毕业论文写作指南》以及“论文格式范例”,对本科生论文写作中的选题、论文要求、论文结构、论文质量、评分标准、打印格式、参考文献的写法等做了详细的规定和指导。

计算机图形学文献综述

计算机图形学文献综述

计算机图形学论文学 号: 11001010123专 业: 信息与计算科学 班 级: 110010101 姓 名: 王俊才 指导教师: 傅由甲一.摘要计算机图形学(Computer Graphics,简称CG)是一种使用数学算法将二维或三维图形转化为计算机显示器的栅格形式的科学。

简单地说,计算机图形学的主要研究内容就是研究如何在计算机中表示图形、以及利用计算机进行图形的计算、处理和显示的相关原理与算法。

计算机图形学作为计算机科学与技术学科的一个独立分支已经历了近40年的发展历程。

一方面,作为一个学科,计算机图形学在图形基础算法、图形软件与图形硬件三方面取得了长足的进步,成为当代几乎所有科学和工程技术领域用来加强信息理解和传递的技术和工具。

计算机图形学在我国虽然起步较晚,然而它的发展却十分迅速。

我国的主要高校都开设了多门计算机图形学的课程,并有一批从事图形学基础和应用研究的研究所。

在浙江大学建立的计算机辅助与图形学国家重点实验室,已成为我国从事计算机图形学研究的重要基地之一。

关键词:实现2D/3D 图形的算法,纹理映射,发展简史,发展趋势二、计算机图形学中运用到的技术算法(1)OpenGL 实现2D/3D 图形的算法OpenGL(全写Open Graphics Library)是个定义了一个跨编程语言、跨平台的编程接口的规格,它用于三维图象(二维的亦可)。

OpenGL是个专业的图形程序接口,是一个功能强大,调用方便的底层图形库。

OpenGL是个与硬件无关的软件接口,可以在不同的平台如Windows 95、Windows NT、Unix、Linux、MacOS、OS/2之间进行移植。

因此,支持OpenGL 的软件具有很好的移植性,可以获得非常广泛的应用。

由于OpenGL是图形的底层图形库,没有提供几何实体图元,不能直接用以描述场景。

但是,通过一些转换程序,可以很方便地将AutoCAD、3DS/3DSMAX等3D图形设计软件制作的DXF和3DS模型文件转换成OpenGL 的顶点数组。

知识图谱可视分析研究综述

知识图谱可视分析研究综述

知识图谱可视分析研究综述
刘玉华;翟如钰;张翔;王毅刚;周志光
【期刊名称】《计算机辅助设计与图形学学报》
【年(卷),期】2023(35)1
【摘要】知识图谱是一种以图谱形式描述客观世界中存在的各种实体、概念及其关系的技术,广泛应用于智能搜索、自动问答和决策支持等领域.可视分析技术可以将抽象的知识图谱映射为图形元素,帮助用户直观地感知和分析数据,从而提高知识图谱的构建和表达,也为知识图谱在各个领域的应用提供了有力支持.文中对知识图谱可视分析相关工作进行调研和整理,从知识图谱可视化表现形式、知识图谱构建过程中常用的可视分析方法以及面向应用领域的知识图谱可视分析技术3个方面进行综述;进一步,总结和讨论知识图谱可视分析面临的挑战,并对其未来的发展趋势进行展望.
【总页数】14页(P23-36)
【作者】刘玉华;翟如钰;张翔;王毅刚;周志光
【作者单位】杭州电子科技大学数字媒体与艺术设计学院;浙江财经大学信息管理与人工智能学院
【正文语种】中文
【中图分类】TP391.41
【相关文献】
1.国际新闻传播学界话语分析研究的知识图谱
——基于SSCI文献计量的可视化分析2.中国高速远程滑坡知识图谱可视化分析研究3.国内学习分析研究现状与发展趋势——基于文献计量分析法和知识图谱可视化方法4.智力及发展性障碍者行为功能分析研究的知识图谱分析——基于2010年以来Web of Science刊载文献的可视化分析5.基于知识图谱的颗粒破碎可视化分析研究
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

优先出版 计 算 机 应 用 研 究 第32卷
--------------------------------
基金项目:国家自然科学基金(61202129);“核高基”科技重大专项(2013ZX01045-004-002).
作者简介:吴玲达(1962-),女,上海人,博士,教授,博导,主要研究方向为空间信息获取与处理,多媒体信息系统与虚拟现实技术,Email:wld@nudt.edu.cn ;
邓维(1986-),男,博士研究生,主要研究方向为空间信息获取与处理,多媒体信息系统;张友根(1984-),男,博士,讲师,主要研究方向为多媒体信息系统,
人机交互;杨超(1981-),男,博士,助理研究员,主要研究方向为多媒体信息系统,虚拟现实.

在线草图识别研究综述
吴玲达1,邓 维1,张友根2,杨 超1
(1.装备学院 复杂电子系统仿真实验室,北京 101416;2.国防信息学院 信息系统系,武汉 430010)

摘 要:在线草图识别是一种重要的信息处理和人机交互技术,识别任务包括对单个草图符号进行分类和理解无约束手
绘图形两类。综述了在线草图识别研究现状,重点关注近10年的研究成果,内容包括识别时机、单笔画处理、单个图
符识别、图文分离和无约束笔画成组等,最后就今后的发展和关键问题进行了总结。
关键词:草图;草图识别;笔画成组;人机交互
中图分类号:TP391

Review of online sketch recognition
WU Ling-da1, DENG Wei1, ZHANG You-gen2, YANG Chao1
(1. Science & Technology on Complex Electronic System Simulation Laboratory, Equipment Academy , Beijing 101416, China;
2. Dept. of Information Systems, Academy of National Defense Information , Wuhan 430010, China )

Abstract: Online sketch recognition is an important technology in information processing and computer-human interaction. This
paper provides a review of online sketch recognition; mainly focusing on research in the latest 10 years. The content contains
recognition occasion; stroke segmentation and recognition; sketched symbol recognition; graphical/textual stroke classification;
and stroke grouping. At last; conclusions and future development of online sketch recognition are discussed.
Key Words: sketch; sketch recognition; stroke grouping; computer-human interaction (CHI)

0 引言
手绘草图输入技术最早可追溯到20世纪60年代,
Sutherland研发了第一个交互式图形系统Sketchpad[1]。70年代
出现了对草图识别的研究[2]。但由于技术的限制,效果不尽人
意。80年代初期,鼠标的商业化带来了WIMP交互风格的快速
发展,使草图识别和基于草图的人机交互受到了忽视。到90年
代初期,ICDAR(International Conference on Document Analysis
and Recognition)大会的召开,以及Rubine等人在SIGGRAPH
会议上的工作[3],使得人们再次看到了基于草图的交互技术的
应用前景。特别是伴随着智能终端等硬件设备的快速普及,以
及众多手写识别系统的成功应用,以草图识别和手写识别为核
心的基于草图的交互技术受到了国内外的广泛研究[4,[5]。

1 问题与挑战

草图(sketch),又称手绘图,自古以来就是人类自然沟通
的一种重要方式[6]。草图识别(sketch recognition),就是完成从
笔迹空间到认知空间的映射,即在某个特定应用领域内赋予草
图具体的语义表达。和传统图形图像工具相比,它具有自然、
简便、易学易用等优点,可表达不完备模糊概念,有利于创造

性思维的快速表达。
草图识别技术的应用非常广泛,如辅助教学、设计建模、
标图作业等。中佛罗里达州大学的LaViola教授等设计了一系
列数学、工程学辅助系统,包括数量数学、布尔代数、离散数
学、几何画图、物理教学、电路分析、力学教学等。SBIM
(Sketch-Based Interfaces and Modeling)会议每年就基于草图的
建模技术进行讨论并公布一些最新成果。GIS领域普遍需要在
地形图或航空影像上进行标图或检索作业,手绘标图以及集成
了语音识别等技术的新型人机交互为该作业提供了新的选择。
首先形式化定义以下术语:
笔画:用户落笔到抬笔间,笔尖所移动的轨迹。它是用户
输入的最小单位,最常见的笔画形式是由二维坐标点组成的序
列,一些硬件设备还提供压力、倾角等信息。
基本图元:简称图元,是图形的最小组成单元,如直线、
弧、圆、椭圆等。通常用户绘制的一个笔画会包括一个或多个
图元。
图符:具有固定领域语义的图形符号,可分为单笔画图符
和多笔画图符。
从不同的角度看,草图识别有二维与三维,在线(联机)
与离线(脱机),符号化草图与非符号化草图(线条素描图)
[7]
文章预览已结束
获取全文请访问
http://www.arocmag.com/article/02-2015-07-002.html

相关文档
最新文档