Appearance based behavior recognition by event driven selective attention
融合有效掩膜和局部增强的遮挡行人重识别

融合有效掩膜和局部增强的遮挡行人重识别
王小檬;梁凤梅
【期刊名称】《计算机工程与应用》
【年(卷),期】2024(60)11
【摘要】在监控系统中行人经常会被各种障碍物遮挡,使得遮挡行人重识别仍然是一个长期存在的挑战。
最近一些基于Transformer和外部语义线索的方法都改善了特征的表示和相关性能,但仍存在表示弱和语义线索不可靠等问题。
为解决上述问题,提出了一种基于Transformer的新方法。
引入了一种有效的掩膜生成方式,可靠的掩膜可以使模型不依赖外部语义线索并实现自动对齐。
提出了一种基于平均注意力分数的序列重建模块,可以更有效地关注前景信息。
提出了局部增强模块,获得了更鲁棒的特征表示。
比较了所提方法和现有的各种方法在Occluded-Duke,Occluded-ReID,Partial-ReID,Market-1501数据集上的性能。
Rank-1准确率分别达到了72.3%、84.8%、86.5%和95.6%,mAP精度分别为62.9%、83.2%、76.4%和89.9%,实验结果表明所提模型性能较其他先进网络有所提升。
【总页数】9页(P156-164)
【作者】王小檬;梁凤梅
【作者单位】太原理工大学信息与计算机学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.融合网格掩膜和残差坐标注意力的行人重识别
2.融合空间相关性和局部特征转换器的遮挡行人重识别
3.融合人体姿态估计与非局部注意力机制的遮挡行人重识别
4.基于软掩膜前景分割和多信息融合重排序的行人重识别方法
5.基于姿态引导特征增强的遮挡行人重识别
因版权原因,仅展示原文概要,查看原文内容请购买。
Consumerbuyer Behavior

Primary groups Secondary groups
aspirational groups Indirect groups Reluctant groups
Reference groups
Initiator
User Buying decisio n
Influencer
Buyer
Decider
Marketing stimuli
Other stimuli
Buyer’s black box
Hale Waihona Puke Buyer’s responses Product and service selection Brand selection Dealer choice Reseller selection Repurchase intervals Purchase amount
Product Price Place Promotion
Economic technological Political Cultural
Buyer Buyer characteristics decision process
A model of buyer behavior
What
How
Buyer’s behaviors
Principle-oriented consumers (buy based upon their views of the world) Status-oriented buyers (on the actions and opinions of others) Action-oriented buyers (driven by their desire for activity, variety, and risk taking)
基于多模态视频描述的中国手语识别

山东农业大学学报(自然科学版),2021,52(1):143-148VOL.52NO.12021JournalofShandongAgriculturalUniversity(NaturalScienceEdition)doi:10.3969/j.issn.1000-2324.2021.01.025
基于多模态视频描述的中国手语识别袁甜甜,杨学天津理工大学聋人工学院,天津300384摘要:计算机视觉是目前我国新一代人工智能科技发展的重要方向,手语识别因其在连续性、复杂场景干扰等问题上的困难,导致其研究不仅可以解决听障人对无障碍信息沟通的真实需要,还可极大的促进视频理解及分析领域的快速发展,从而在安防、智能监控等方面也有很好的落地应用。通过比较国内外多种基于视频描述和分析的手势识别方法,给出了视频手语识别和基于深度学习的视频描述的策略分析。对使用原始视频帧、视频光流和目前先进的姿态估计技术等方法进行了比较,进而提出适用于中国手语视频数据的多模态描述策略、训练模型架构及时空注意力模型。使用具有深度信息辅助的视频描述及训练方法,通过实验验证BLEU-4值可达52.3,较前期使用的基础方法提高约20%。但由于该方法所使用的深度信息在现实情况下并不容易获得,因此研究由手机或电脑摄像头获取的普通RGB视频的描述及识别方法是未来的发展方向。关键词:手语识别;视频描述;多模态中图法分类号:TP387文献标识码:A文章编号:1000-2324(2021)01-0143-06ChineseSignLanguageRecognitionBasedonMultimodalVideo
CaptioningYUANTian-tian,YANGXueTechnicalCollegefortheDeaf/TianjinUniversityofTechnology,Tianjin300384,ChinaAbstract:ComputervisionisanimportantdirectioninthedevelopmentofnewgenerationArtificialIntelligencetechnologyinourcountryatpresent.Becauseofitsdifficultiesincontinuityandcomplexsceneinterference,theresearchofsignlanguagerecognitioncannotonlysolvetherealneedsofdeafpeopleforbarrier-freeinformationcommunication,butalsogreatlypromotetherapiddevelopmentofvideounderstandingandanalysis,soithasagoodlandingapplicationinsecurity,intelligentmonitoringandsoon.Bycomparingmanygesturerecognitionmethodsbasedonvideodescriptionandanalysis,thestrategiesofsignlanguagerecognitionandvideodescriptionbasedondepthlearningaregiven.Themethodsofusingoriginalvideoframe,videoopticalstreamandadvancedattitudeestimationtechnologyarecompared,andthenamulti-modaldescriptionstrategysuitableforChinesesignlanguagevideoisproposed,andthetrainingmodelarchitectureandattentionmodelareproposed.Usingthevideodescriptionandtrainingmethodassistedbydepthinformation,theexperimentalresultsshowthattheBLEU-4valuecanreach52.3,whichisabout20%higherthanthatofthebaselinemethod.However,becausethedepthinformationusedinthismethodisnoteasytoobtaininreality,itisthefuturedirectiontostudythedescriptionandrecognitionmethodofordinaryRGBvideoobtainedbymobilephoneorcomputercamera.Keywords:Signlanguagerecognition;videocaptioning;multimode
基于CNN人脸识别模型的大学生课堂行为分析研究

基于CNN人脸识别模型的大学生课堂行为分析研究1. 引言1.1 背景介绍大学生课堂行为分析是一项具有重要意义的研究课题。
了解大学生在课堂环境中的行为习惯、学习表现和态度,对于提高教学质量、优化课堂管理都有着重要作用。
基于CNN人脸识别模型的大学生课堂行为分析研究,可以通过抓取实时课堂视频数据,对学生的表现进行准确识别和评估,为教师提供更加客观、科学的课堂反馈,有助于推动教学方式的创新和提高教学效果。
本研究旨在结合人脸识别技术和大学生课堂行为分析方法,探索基于CNN人脸识别模型的大学生课堂行为分析新模式,为提高教学质量和促进教学改革提供科学依据。
【200字】1.2 研究意义人脸识别技术已经在各个领域取得了显著的进展,包括安全监控、人脸解锁、人脸支付等。
而将人脸识别技术应用于大学生课堂行为分析,具有重要的研究意义和实际应用价值。
通过人脸识别技术可以实现对大学生在课堂中的行为进行自动化监测和记录,为教师和学校管理者提供客观的数据支持,有助于更准确地评估学生的学习状态和行为表现。
通过识别学生的面部表情和表情变化,可以深入分析学生在课堂中的情绪状态,为教师及时发现并解决学生在学习过程中的困惑和压力,提高学习效果。
人脸识别技术还可以用于课堂点名和考勤管理,减轻教师繁重的工作负担,提高教学效率。
本研究对促进大学生学习过程的智能化、个性化和高效化具有重要意义。
1.3 研究目的本研究的目的是通过基于CNN人脸识别模型的大学生课堂行为分析研究,探讨如何利用先进的人脸识别技术来提高课堂教学效果和管理水平。
具体来说,本研究旨在通过分析大学生在课堂上的行为特征,如专注度、互动频率等,来评估他们的学习态度和教学效果。
我们还将探讨如何通过人脸识别技术实时监测学生的课堂表现,提高教师对学生学习状态的把握,提供个性化的教学服务。
通过这一研究,我们希望能够为大学课堂教学和管理提供新的思路和方法,促进教育信息化的发展,提升学生的学习体验和成绩水平。
AED-Net——异常事件检测网络

Contents lists available at ScienceDirect
Engineering
Research Artificial Intelligence—Article
AED-Net: An Abnormal Event Detection Network
Some methods have been suggested to deal with abnormal event detection. For example, Ref. [10] proposes a method based on histograms of the optical flow orientation descriptor. As the handcrafted feature descriptor in this case was constructed based on human experience, it did not represent the feature in a training process. Thus, it performs worse than current deep learning
(/licenses/by-nc-nd/4.0/).
1. Introduction
Video studies have attracted an increasing amount of attention from researchers in the computer vision community in recent years. Lately, research into topics such as object tracking [1–3], gait recognition [4,5], and activity recognition [6–8] have achieved competitive results and demonstrated promise for the future.
基于卷积神经网络与注意力模型的人体步态识别

基于卷积神经网络与注意力模型的人体步态识别汪涛;汪泓章;夏懿;张德祥【摘要】步态识别是非接触式生物识别领域中一个比较前沿的课题,它主要是利用行走过程中个体步态之间的差异来识别人的身份.近年来,随着可穿戴传感器在人体信息采集中的广泛应用,利用惯性传感器采集步行过程中的线性加速度以及角速度进而实现步态特征提取是该领域中一个研究热点.为了提取更加有效的步态识别特征,利用基于注意力机制的卷积神经网络来进行步态特征的深度学习,其主要流程是先对原始数据进行预处理,接着利用卷积神经网络对处理后的数据提取步态特征,然后利用注意力机制对步态特征进行加强,最后再分类.实验结果证明了本文方法的优越性.【期刊名称】《传感技术学报》【年(卷),期】2019(032)007【总页数】7页(P1027-1033)【关键词】步态识别;深度学习;注意力机制;神经网络;步态周期【作者】汪涛;汪泓章;夏懿;张德祥【作者单位】安徽大学电气工程与自动化学院;安徽大学电气工程与自动化学院;安徽大学电气工程与自动化学院;安徽大学电气工程与自动化学院【正文语种】中文【中图分类】TP391.4步态是指人们行走时所表现的姿态,不同于人脸、指纹、虹膜等,步态是唯一可以在远距离非接触状态下获得的生物特征。
每个人的步态都有一定的差异性,所以可以用作不同身份的识别。
步态分析始于上世纪60年代[1],根据所依赖的传感器类型,目前步态识别主要分为以下三类:基于图像传感器、基于压力传感器以及基于加速度传感器。
基于图像传感器的步态识别主要受到拍摄的角度、光照和遮挡等因素的影响,识别的难度较大[2]。
压力传感器则需要被识别人在压力感知的场地上行走,或者穿上装有压力传感器的鞋,才能进行步态信息的采集,因此在实际生活中限制较大、成本较高[3]。
而加速度传感器可以安放在人体的多个部位,数据采集简单而高效[4]。
过去的几十年里,步态识别领域开展了大量研究工作,已经取得了不少进展[5-8]。
基于眼动特征的人机交互行为意图预测模型
基于眼动特征的人机交互行为意图预测模型梁永强;王崴;瞿珏;杨洁;刘晓卫【摘要】针对自适应人机界面对用户行为意图预测的需求,提出一种基于眼动特征的人机交互行为分类及意图预测方法.通过建立简化的界面模型,将用户的行为意图分为5类,设计视觉交互实验收集相关行为意图状态下的眼动特征数据,利用SVM(Support Vector Machine)算法建立分类预测模型,结合差异性分析方法选取眼动特征分量,最终确定连续3个采样注视点的位置X坐标、Y坐标、注视时间、眼跳幅度以及瞳孔直径共15个分量作为特征参数可以获得较好的预测效果,其预测精度可达90%以上.【期刊名称】《电子学报》【年(卷),期】2018(046)012【总页数】9页(P2993-3001)【关键词】自适应界面;眼动特征;交互意图;支持向量机【作者】梁永强;王崴;瞿珏;杨洁;刘晓卫【作者单位】空军工程大学防空反导学院,陕西西安710051;空军工程大学防空反导学院,陕西西安710051;空军工程大学防空反导学院,陕西西安710051;西北工业大学航空学院,陕西西安710072;空军工程大学防空反导学院,陕西西安710051;空军工程大学防空反导学院,陕西西安710051【正文语种】中文【中图分类】TP391.41 引言眼睛是心灵的窗户,人对外界信息的感知,80%以上是通过视觉通道进行的,人机交互中利用视觉行为数据推测用户操作意图是有事实根据的.自适应人机界面是人机交互研究的热点,其核心是通过收集各种数据对用户的操作行为进行分析和推断[1].目前自适应人机界面的思想主要应用于个性化推荐系统[2,3],依据用户的兴趣偏好和实时关注点动态推荐相应页面.随着视线追踪技术的发展,利用眼动仪获取的眼动生理数据越来越准确和可靠,眼动技术正广泛应用于心理学[4]、医学[5]、航空航天[6]、交通[7]以及智能交互[8]等领域.基于视觉行为可以反映人心理状态的基本事实,本研究旨在探究眼动数据与用户行为意图之间的关联模式,从而为自适应人机界面的触发规则提供相关理论和实证依据.近年来,依据视觉行为预测用户交互意图的研究有很多.其中,一类是利用鼠标的移动近似代替用户视线移动行为,文献[9]提出了一种基于鼠标光标轨迹来预测用户鼠标指向目标的方法,结果发现其预测精度与目标距离和目标周围干扰物数量有关.文献[10]在类似的研究中发现目标位置和光标采样率是影响预测精度的主要因素.文献[11]以光标方位角、速度、加速度为特征参数,运用神经网络算法实现了光标指点目标的预测,并指出该方法可以减少鼠标操作时间.另一类则是利用眼动数据分析用户操作行为进而推测其交互状态.Hsu[12]通过研究对比不同飞行员在飞行任务下的眼动数据,发现经验丰富的飞行员比起新手有更长的固定注视时间和更多的注视次数,并且有稳定和更短的扫视路径,这一研究结果可以为飞行员心理负荷的评估和预测提供依据.赵其杰等[13]研究了一种基于头眼行为的交互意图检测方法,利用视觉检测头部粗略确定兴趣区域,再由眼睛注视精确定位目标区域,从而确定出交互意图.卢万譞等[14]则提出了一种基于眼动数据的网络搜索行为预测方法,通过实验采集用户在网络搜索过程中的眼动数据,结合眼动数据可视化,利用学习算法对用户操作意图进行预测,结果表明,利用眼动数据可以有效预测网络搜索行为.操雅琴等[15]综合使用主观情感、眼动指标和生理指标,利用SVM建立其与行为意图之间的关系模型,结果很好的预测了用户的网络行为.此外,很多学者在多通道人机交互中提出用视线追踪代替鼠标光标移动,用眨眼等视觉行为代替鼠标点击操作,此类概念部分已应用于VR交互设备[16].这些新型交互技术的核心基础是对用户操作行为意图与眼动特征关系的准确把握,因此,基于眼动特征的用户意图感知和行为预测具有重要的研究意义.本文基于自适应界面对用户操作行为意图感知预测的需求,通过分析前人研究成果,设计视觉行为实验,收集操作者者在特定视觉行为状态下的眼动数据,利用SVM神经网络学习算法对特定行为意图下的眼动数据进行特征提取,从而构建基于眼动特征的交互行为意图预测模型,测试对比不同参数及不同数量样本下算法的预测准确性,从而为自适应界面交互意图感知和行为预测提供依据.2 问题描述和模型假设不管是应用软件显示界面还是工控[17]、核电[18]、雷达监视界面[19]以及飞行器显控界面,其某一时刻的静态界面通常包含比较丰富的信息,这些信息往往会被划分为不同类别区或者不同功能区,不同区域需要被分配操作者不同时刻的视觉注意.视觉任务有时要求操作者监视整个界面,掌握全局态势,有时则要求操作者针对特定任务区域进行精细跟踪,获得局部准确信息.图1所示为某飞行器某一时刻的界面状态,可以看出整个界面包含的信息十分繁杂,视觉搜索中可能会严重分散操作者的注意,导致操作效率低下甚至出错.实际上,大多数时刻操作员往往只需要掌控界面的某一局部信息,如在飞机迫降的过程中操作者主要关注最近机场页面(如图1椭圆圈出部分),此时若是系统可以自动获取操作者的关注需求,自动对这一界面局部加以凸显或者隐藏其他无关界面,必然可以降低干扰从而提高操作效率,这也是目前自适应用户界面需要解决的问题.获取操作者的人机交互意图是自适应界面实现的前提,本文认为眼动特征数据可以较好地反映人的心理状况,如对某一特定区域的高注视率说明操作者对该区域感兴趣,或者这个区域包含复杂信息,视觉加工比较困难.根据上述应用背景,以及本文针对自适应界面用户交互意图预测的研究目的,下面将建立简化的模型并提出部分假设.2.1 功能区划分通过简化模型,本文将图形界面等分为4个矩形功能区,如图2所示,定义功能区集合为:AOI=(F0,F1,F2,F3,F4),我们定义F0为整个界面区域,则任意时刻操作者的视觉行为状态可被描述为:关注功能区F0、关注功能区F1、… 、关注功能区F4总共5种状态,定义视觉行为状态集合为:vision_STATE=(care_F0,care_F1,…,care_F4).本研究的目的是建立眼动特征与5种视觉行为状态的匹配关系,例如,若vision_state=care_F1,则功能区F1为操作者当前的兴趣区,在满足自适应界面触发条件后可以改变功能区F1的尺寸或背景颜色从而达到降低操作者认知负荷或者提高操作效率的目的.2.2 眼动特征基本假设(1)眼睛某一时刻注视点位置可以反映人的注意兴趣.由于视网膜的分辨能力由中央凹向外缘急剧下降,因此视觉系统某一时刻只能处理视野中心1~2°的信息,视觉任务中视觉系统依靠快速的注视转移,以此来使中央凹重新定位到视野中的另一个点上,从而获得清晰的视觉感知.基于这一基本事实,本文认为眼睛某一时刻注视点位置是反映操作者注意兴趣的必要条件.(2)注视点停留时间大于某一阈值可以反映人正在关注注视点所在位置.有效的注视点要求视网膜中央凹对准注视目标超过200ms,考虑到视觉任务的处理耗时,操作者的视觉注意处于用户界面局部区域并进行任务加工时,注意转移速度慢,注视点停留时间可能会更长,因此本研究认为注视点停留时间大于某一阈值也可以反映操作者正在关注注视点所在位置区域.(3)眼跳幅度小于某一阈值可以反映人正在关注扫视点所在区域.眼跳幅度可以理解为眼睛采样空间的稀疏程度,幅度大小直接影响采样的精度,具体到视觉任务中可以推测眼跳幅度与视觉行为的精细程度有关,操作者在掌控界面全局进行视觉粗加工时(浏览状态)注意转移跨度大,可能对应较大的眼跳幅度,反之,在进行界面局部精跟踪时,注意转移跨度小,可能会有有较小的眼跳幅度.因此本研究认为眼跳幅度小于某一阈值可以反映人正在关注扫视点所在局部区域.(4)瞳孔直径大小可以反映人的视觉行为处于不同的认知状态.瞳孔直径大小与人的视觉认知加工密切相关,一方面它可以反映人的心理活动变化,另一方面它也是衡量认知负荷的一个重要指标.本研究认为,视觉粗加工和精加工对应不同的认知负荷,其次,界面不同功能区的视觉信息之间也具有认知负荷差异性.因此瞳孔直径大小可以反映人的视觉行为处于不同的认知状态.2.3 基于眼动数据的视觉状态分类根据模型定义的5种操作状态,本文的核心工作目的是实时利用眼动特征数据对操作者的行为状态进行分类预测.因此,本文首先设计视觉交互实验收集每种状态下的眼动数据,接着对5种状态下的眼动指标数据进行差异性分析,选取差异性显著的眼动指标作为分类特征,利用神经网络算法对分类器进行训练,并测试其分类效果.最后通过改变分类特征采样点个数以及调整特征分量组合对比每种情况下的分类预测效果,并给出相应推荐方案.3 实验设计3.1 被试选择18名空军工程大学在读大学生为被试,所有被试均为男性,年龄18~22岁(SD=3.08),被试均为右利手,视力或矫正视力正常,无色盲、色弱等特征,所有被试均要求有一定的电脑使用经验.3.2 实验界面实验界面由4部分组成,对应简化模型的4个功能区,如图4所示,功能区(左上)模拟雷达目标搜索界面,功能区(右上)模拟表格显示界面,功能区(左下)模拟图标搜索点击界面,功能区(右下)模拟菜单状态显示界面.所有界面元素(文字、图标、图形符号)不针对任何现存显示界面,均为实验需求模拟制作.3.3 实验任务及程序实验为了收集被试在关注界面特定功能区时的眼动数据,被试均要求完成5项实验任务,每项实验任务均提前告知被试操作要求.任务1中实验界面4个功能区呈现动态随机变化,要求被试监视整个界面,并随时报告界面的动态变化情况,尽可能保证被试的视觉行为状态处于关注整个界面,即vision_state=care_F0.任务2中要求被试完成界面功能区F1(左上)的视觉搜索任务,被试通过搜索左侧同心圆区域内的特定图符,并与右侧提供的个数进行比较判断,实验过程中要求被试按指定顺序报告右侧每种图符个数是否正确,任务2尽可能保证被试vision_state=care_F1.任务3中被试要完成功能区F2(右上)中的表格查询任务,主试向被试通过口语下达查询目标,被试获得答案后立刻向主试报告,要求被试完成10次查询任务,从而尽可能保证被试vision_state=care_F2.任务4则要求被试完成图标的搜索点击任务,主试先通过计算机屏幕向被试呈现目标图标,被试记住目标之后随即呈现实验界面,要求被试在功能区F3(左下)内搜索并点击所有目标图标,整个任务过程尽可能确保被试vision_state=care_F3.任务5中,主试通过口语形式向被试指示目标菜单名称,被试需要在功能区F4(右下)中查询判断目标菜单状态,并迅速以口语形式向主试报告判断结果,其中绿色为打开状态,灰色为关闭.要求被试完成10次目标菜单状态的查询判断任务,从而尽可能使被试vision_state=care_F4.3.4 实验装置实验设备包括联想PC一台,RED5型号眼动设备一套,最高采样频率500Hz,主机显示分辨率为1280×1024像素,屏幕亮度调整为300cd/m2,被试眼睛与屏幕的距离约为60cm,屏幕中央与被试的眼高基本水平.实验界面由Experimental软件呈现,眼动数据由软件自动记录,并利用BeGaze软件进行眼动数据分析.4 实验结果4.1 眼动数据差异性分析统计5种任务(5种视觉行为状态)下的眼动数据,根据需求,本文拟统计每种情况下的注视停留时间注视点X坐标平均值坐标平均值平均眼跳持续时间平均眼跳速度平均眼跳幅度以及平均瞳孔直径并对结果进行差异性分析,结果如表1所示.对表1数据进行百分比归一化处理后绘制五种任务下的散点折线图如图5所示.从表1可以看出,五种任务条件下的注视停留时间(F(4,68)=16.69,p<0.001)、注视点X坐标平均值(F(4,68)=31.37,p<0.001)、注视点Y坐标平均值(F(4,68)=36.62,p<0.001)、平均眼跳幅度(F(4,68)=22.26,p<0.001)以及平均瞳孔直径(F(4,68)=3.80,p<0.05)差异显著,而平均眼跳持续时间(F(4,68)=3.15,p>0.05)和平均眼跳幅度(F(4,68)=2.58,p>0.05)差异不明显.从图5的散点折线图也可以直观看出这一差异性.表1 眼动数据及差异性FDFXFYSVSDAmpAP任务126984035372.534.14.334.00任务234944423570.934.22.784.37任务3510114423374.432.45.103.97任务432142468873.932.51.413.58任务5317116365175.232.98.893.56F16.6931.3736.623.152.5822.263.80p0.0000.0 000.0000.3720.1590.0000.004图6提供了5种任务下的注视点X坐标、Y坐标以及瞳孔直径随时间变化的曲线图,可以看出每种任务(状态)下这些眼动特征分量呈现不同的水平和趋势,依据单个眼动特征难以区分操作者在不同时刻的行为状态.4.2 眼动特征根据4个假设条件,结合眼动数据差异性分析,由于单个注视点具有不稳定性,本文拟选定连续的3个注视采样点位置X坐标和Y坐标、注视时间、眼跳幅度以及瞳孔直径共15个分量(见表2)作为分类5种眼动行为状态特征参数.表2 眼动特征分量眼动特征X坐标Y坐标注视时间眼跳幅度瞳孔直径注视点i-1FXi-1FYi-1FDi-1Ampi-1PDi-1注视点iFXiFYiFDiAmpiPDi注视点i+1FXi+1FYi+1FDi+1Ampi+1PDi+1表2中FXi和FYi分别表示第i个注视采样点的X和Y坐标,FDi表示第i个采样点的注视时间,Ampi表示第i个采样点与第i-1个采样点之间的眼跳幅度,PDi表示第i个采样点瞳孔直径.4.3 SVM算法支持向量机(SVM)是一种类似多层感知器网络或径向基函数网络的广泛应用于模式识别和非线性回归的学习算法.SVM的理论基础是统计学习理论的结构风险最小化的近似实现,具体来说是学习机器在测试数据上的误差率以训练误差率和一个依赖于VC维数(Vapnik-Chervonenkis dimension)的项的和为界,对于可分模式情况,SVM对于前一项的值为0,并使后一项最小化.其具有计算简单、理论完善、求解有效、通用性以及鲁棒性等优点.4.4 SVM模型建立及MATLAB实现首先需要从原始数据中把训练集和测试集提取出来,接着对数据进行归一化处理,采用的归一化映射法则如下:归一化的效果是将原始数据映射到[0,1]区间,之后用训练集对SVM进行训练,最后用得到的模型来预测测试集分类标签.本文中选取能较好反映5种状态的18名被试的总共300组典型数据作为训练集,再选取另外的200组数据作为测试集.设置5种交互状态下类别标签分别为(0;1;2;3;4).MATLAB运行结果如下:Accuracy = 90% (180/200) (classification)图7的15个特征分维可视化图可以看出,单个眼动特征无法直接区分出交互的5种状态,这也说明单个或少数的特征不是分类预测的充分条件.图8的分类预测结果显示,测试集90%以上的数据预测是准确的,而大多数分类预测出错的情况是将其他几类错误地预测为第0类,即:vision_state=care_F0 (关注整个界面),这显然是在情理之中的,因为第0类的特征分量中X、Y坐标特征与其余四类均存在部分重叠的情况.5 讨论与分析5.1 眼动指标选择对分类预测准确率的影响上一节的分析过程中,主要根据经验和差异性分析选取了连续三个采样注视点的位置X坐标和Y坐标、注视时间、眼跳幅度以及瞳孔直径共15个分量作为分类特征,本节我们考察不同眼动指标组合以及不同采样点个数对分类预测准确率的影响.并且我们将注视点的X坐标和Y坐组合进行讨论,将二者作为注视点的位置特征.表3列举了采样注视点个数为3时的眼动指标组合对应的分类预测准确率.可以看出整体上眼动指标个数越多,分类预测的准确率越高,而且还可以发现,注视点的位置坐标(X坐标& Y坐标)对分类预测准确率的贡献较大,这也说明注视点的位置在很大程度上可以反应操作者的注视兴趣区,但由于实际操作中注视点位置存在不稳定性,因此必须借助其他眼动指标增强分类预测的可靠性.调整眼动指标之间的组合以及改变指标个数均对分类预测的准确性有影响,本文利用差异性分析的方法选取的5个特征分量,分类预测准确率达到了90%以上,说明这种方法是有效的,实际应用中特征指标的选取还需要根据应用对象进行探索.表3 不同组合特征下的分类预测准确率眼动指标组合准确率注视时间&眼跳幅度39.4%眼跳幅度&瞳孔直径52.3%注视时间&瞳孔直径47.7%(X坐标&Y坐标)&注视时间68.9%(X坐标&Y坐标)&眼跳幅度72.4%(X坐标&Y坐标)&瞳孔直径78.7%(X坐标&Y坐标)&注视时间&眼跳幅度82.1%(X坐标&Y坐标)&注视时间&瞳孔直径84.1%(X坐标&Y坐标)&眼跳幅度&瞳孔直径83.2%注视时间&眼跳幅度&瞳孔直径57.9%(X坐标&Y坐标)注视时间&眼跳幅度&瞳孔直径90.0%从图9可以看出,只选择1个采样注视点时,分类预测的准确率不足70%,而选择2个采样注视点时准确率达到了85%左右,3个及3个以上的采样注视点的分类预测准确率均达到了90%以上.由于注视点的不稳定性,单个注视点存很大的随机性,因此其预测的准确率较低.同样可以看出注视点个数达到3个以上时,准确率没有没有明显提升,这说明依靠增加采样注视点个数去提高分类预测精度是存在一定限度的.5.2 关于SVM的参数c和g的选取讨论本文中SVM模型中svmtrain的惩罚参数c和核函数g是根据经验值选取的,并且分类预测精度也得到了比较满意的结果,是否存在某种意义下的最优参数c和g是值得讨论的,由于本研究的测试集标签已知,因此可以采取c和g在某一范围内离散取值的思想,从而得到测试集分类预测准确率最高的c和g为最佳参数.此外,通过一种交叉验证的方法(Cross Validation),即CV方法,可以找到一定意义下的最佳参数c和g,这种情况可以保证最佳参数c和g使训练集达到最高分类准确率,但不能保证测试集也能达到最高的分类预测准确率.本文中利用CV方法得到的最佳参数是c=2,g=1,测试集的分类预测准确率为90.0%,可见在CV方法下得到结果只能是某种意义下最优的.5.3 眼动特征可以有效预测交互意图基于眼动数据可以反应人的心理状况,本文成功利用眼动特征分类预测了简化的界面模型和理想的5种交互行为意图.目前,一些眼动交互的研究和应用中主要是通过注视点的位置坐标表征操作者的意图兴趣,但由于人的注视点位置具有不稳定性,因此预测精度不尽人意.文献[15]综合使用主观评价指标、眼动指标和生理指标对用户网页浏览行为意图进行了很好的预测,但主观评价的方式不具有实时性,因此不完全适用于自适应人机界面.本文确定的眼动特征指标选择3个连续的注视点作为分析对象,避免了单一注视点的不稳定性,此外眼动特征指标的选择中除了包含可以直接反应操作者意图兴趣的注视点坐标特征外,还包含了注视时间、眼跳幅度以及瞳孔直径这3种间接反应操作者行为意图的眼动特征指标,因此分类预测模型的实时性和准确性都比较好.6 结论本文提出了人机交互中基于眼动特征的操作者交互行为意图预测模型,通过收集实验数据利用SVM算法验证表明该方法可以有效地预测操作者的交互行为状态,进一步反应出其交互意图.选取连续3个采样注视点总共15个眼动指标特征可以获得较好的预测精度.下一步工作中将考虑针对某一具体界面,在眼动数据的基础上加入上下文关系及鼠标键盘事件,进而探讨更为通用的人机交互操作者意图预测方法.参考文献【相关文献】[1] 葛列众.工程心理学[M].上海:华东师范大学出版社,2017.163-164.[2] 宋巍,刘丽珍,王函石.基于兴趣偏好的微博用户性别推断研究[J].电子学报,2016,44(10):2522-2529.SONG Wei,LIU Li-zhen,WANG erinterface preferences for gender inference on microblog[J].Acta Electronica Sinica,2016,44(10):2522-2529.(in Chinese)[3] 陈杰,刘学军,李斌,等.一种基于用户动态兴趣和社交网络的微博推荐方法[J].电子学报,2017,45(4):898-905.CHEN Jie,LIU Xue-jun,LI Bin,et.al.Personalized microblogging recommendation based on dynamic interests and social networking of users[J].Acta Electronica Sinica,2017,45(4):898-905.(in Chinese)[4] Keith Rayner.Eye movements and attention inreading,scene perception,and visual search[J].Quarterly Journal of Experimental Psychology,2009,62(8):1457-506.[5] Drew T,Evans K,Võ M L,et rmatics in radiology:what can you see in a single glance and how might this guide visual search in medical images[J].Radiographics,2013,33 (1):263-274[6] Hasse C,Bruder C.Eye-tracking measurementsand their link to a normative model of monitoring behaviour[J].Ergonomics,2015,58(3):1-13.[7] Katagiri N,Marumo Y,Tsunashima H.Controllerdesign and evaluation of lane-keeping-assistance system for motorcycles[J].Journal of Mechanical Systems for Transportation & Logistics,2009,2(1):43-54.[8] 高军峰,司慧芳,余彬,等.基于脑电样本熵的测谎分析[J].电子学报,2017,45(8):1836-1841.Gao Jun-feng,Si Hui-fang,Yu Bin,et.Al.Liedetection analysis based on the sample entropy on EEG[J].Acta Electronica Sinica,2017,45(8):1836-1841.(in Chinese)[9] Murata A.Improvement of pointing time bypredicting targets in pointing with a PC mouse[J].International Journal of Human computer Interaction,1998,10(1):23-32.[10] Hertzum M,Hornbã K.The effect of targetprecu ing on pointing with mouse and touchpad[J].International Journal of Human computer Interaction,2013,29(5):338-350. [11] Biswas P,Langdon P M.Multi-modal targetprediction[A].8th International Conference on Universal Access in Human-Computer Interaction[C].Heraklion,Crete,Greec:Springer International Publishing,2014.313-324.[12] Hsu C K,Lin S C,Li W C.Visual movement andmental-workload for pilot performance assessment[A].International Conference on Engineering Psychology and Cognitive Ergonomics[C].Cham:Springer International Publishing,2015.356-364.[13] 赵其杰,邵辉,卢建霞.基于头眼行为的交互意图检测方法[J].仪器仪表学报,2014,35(10):2313-2320.Zhao Qi-jie,Shao Hui,Lu Jian-xia.Identificationmethod of interaction intention based on head and eye behaviors[J].Journal of Psychological Science,2014,35(10):2313-2320.(inChinese)[14] 卢万譞,贾云得.基于眼动数据的网络搜索行为预测方法[J].北京航空航天大学学报,2015,41(05):904-910.Lu Wan-xuan,Jia Yun-de.Predicting web searchbehavior based on gaze data[J].Journal of Beijing University of Aeronautics and Astronautics,2015,41(05):904-910.(in Chinese) [15] 操雅琴,郭伏,屈庆星.基于多模式测量的网站用户行为意图预测模型[J].东北大学学报(自然科学版),2014,35(11):1669-1672.Cao Ya-qin,Guo Fu,Qu Qing-xing.Predictionmodels of website users’ behavioral intentions based on multi-mode measurement[J].Journal of NortheasternUniversity(Natural Science),2014,35(11):1669-1672.(in Chinese)[16] Cameirão M S,Faria A L,Paulino T,et al.Theimpact of positive,negative and neutral stimuli in a virtual reality cognitive-motor rehabilitation task:a pilot study with stroke patients[J].Journal of Neuroengineering & Rehabilitation,2016,13(1):70.[17] 杭久成,何卫平.浅析数控机床触摸屏人机交互界面设计[J].机械制造,2008,(03):23-26.Han Jiu-cheng,He Wei-ping.Analysis onhuman-computer interaction interface design of CNC machine tool[J].Machinery,2008,(03):23-26.(in Chinese)[18] 李鹏程,张力,戴立操,黄卫刚.核电厂数字化人-机界面特征对人因失误的影响研究[J].核动力工程,2011,32(01):48-52.Li Peng-cheng,Zhang Li,Dai Li-cao,Huang Wei-gang.Effects of digital human-machine interaction characteristics on human error in nuclear plants[J].Nuclear Power Engineering,2011,32(01):48-52.(in Chinese)[19] 王建峰,王崴,高虹霓,等.威力镜头对雷达界面动态目标点击的可用性研究[J].航天医学与医学工程,2017,30(4):277-282.Wang Jian-feng,Wang Wei,Gao Hong-ni,ability study of power-lens for click of dynamic targets in radar interface[J].Space Medicine & MedicalEngineering,2017,30(4):277-282.(in Chinese)。
基于CSI的行为识别研究综述
14 2018,54(5)
Computer Engineering and Applications 计算机工程与应用
基于 CSI 的行为识别研究综述
王正杰,杨伟丽,王 喆,侯玉珊,郭银景
WANG Zhengjie, YANG Weili, WANG Zhe, HOU Yushan, GUO Yinjing
根据识别动作幅度大小将csi在动作识别的研究分为宏运动和微运动两表1基于csi的动作识别相关的典型研究作者nandakumarr等32hanc等6wangg9wangy等8zengy等7wangw等10zhengx等12系统名称无wifallwiheareeyesapsensecarmsmokey实验设备戴尔华硕pcintel53002笔记本intel53002路由器usrpn210platformandwifi设备2联想笔记本无线接入点linksyse2500智能设备ap微光器件等配有intel5300nic的联想x200两个商用appcap识别动作pushpullpunchlever跌倒talking9种固定位置活动和8种步行活动动作详情图1跑步走路坐下开冰箱摔拳击单手推刷牙无动作吸烟动作分解为6个动作如图2实验场景房间的桌子上背包内部视距和非视距会议室实验室宿舍包括视距非视距办公室两个大小不同的公寓视距和非视距室内4个不同位置视距收集训练数据的实验室未经训练的室内环境即大堂和小办公室视距和非视距公寓视距和非视距发表期刊或会议eprintarxivieeeinfocomacmmobicomacmmobicomacmworkshoponhottopicsinwirelessacmmobicomieeeinfocom王正杰杨伟丽王喆等
自适应注意力选择与脉冲耦合神经网络相融合的沙漠车辆识别
Z h a n g J i n j i a n a n d Gu Xi a o d o n g
( De pa r t me n t o f El e c t r o n& En gi n e e r i n g,Fu d a n Un i v e r s i t y,S h an gh ai 2 0 0 4 3 3 )
v i s ua l a t t e n t i o n mo de l w hi c h us e s i nf or ma t i on o f ba c kgr o un d,i ma ge c o l o r s a nd i nt e ns i t y t o g e n e r a t e a
c o m bi n e s wi t h hi e r a r c h i c a l d i s c r i mi na n t r e gr e s s i o n( H DR ) t r e e . Th e e x p e r i me n t a l r e s ul t s s ho ws t ha t c o m pa r e d wi t h t he m o r p ho l o gy a n d t he SV M m e t h od s, t h e r e c o gn i t i o n r a t e o f pr o p os e d a pp r o a c h i n c r e a s e s 5 . 8 a n d 1 5 . 4 r e s pe c t i v e l y.
De s e r t Ve hi c l e De t e c t i o n Us i ng Ad a p t i v e Vi s u a l At t e nt i o n a nd Pu l s e Co u pl e d
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
AppearanceBasedBehaviorRecognitionbyEventDrivenSelectiveAttention
ToshikazuWadaTakashiMatsuyamaDepartmentofIntelligenceScienceandTechnologyGraduateSchoolofInformatics,KyotoUniversityYoshidaHon-machi,Sakyo,Kyoto,606-8501,JAPAN
AbstractMostofbehaviorrecognitionmethodsproposedsofarsharethelimitationsofbottom-upanalysis,andsingle-objectassumption;thebottom-upanalysiscanbeconfusedbyerroneousandmissingimagefeaturesandthesingle-objectassumptionpreventsusfromanalyzingimagese-quencesincludingmultiplemovingobjects.Thispaperpresentsarobustbehaviorrecognitionmethodfreefromtheselimitations.Ourmethodisbestcharacterizedby1)top-downimagefeatureextractionbyselectiveatten-tionmechanism,2)objectdiscriminationbycolored-tokenpropagation,and3)integrationofmulti-viewpointimages.Extensiveexperimentsofhumanbehaviorrecognitioninrealworldenvironmentsdemonstratethesoundnessandrobustnessofourmethod.
1IntroductionMotionunderstandingisessentialforwidevarietiesofvisionapplications,suchasvisualsurveillance,humanin-terfaceandvirtualreality.Motionunderstandingproblemscanbecategorizedintothefollowingthreelevels:Physicalmotionanalysis:Measurethetimesequenceof3Dor2Dobjectlocationsandshapes.Objectbehaviorrecognition:Classifyobjectmotionsintoasetofbehaviorpatterns(i.e.classes),whichemergefromconstraintsonobjectpropertiesandsurroundingphysicalenvironments.Objectactionunderstanding:Reasonabouttheobjectintentionfrommotions,e.g.gesture,signlanguage,flagsemaphore,andsoon.Inthispaper,weaddresstheobjectbehaviorrecognitionproblem.Ingeneral,thevisualobjectbehaviorrecognitioncon-sistsof1)imagefeatureextractionand2)temporalse-quenceanalysisofextractedfeatures.Mostofthemethodsproposedsofar(e.g.[1],[2],[3],[4])employHiddenMarkovModel(HMM)forsequenceanalysis.HMMrealizesflexiblematchingbetweenthedetectedfeaturesequenceandgivenmodelsequencesbyfindingtheoptimalstatetransitionpathwhichmaximizesamatchingmeasure(probability)undertheassumptionofMarkovproperty.Sincethestatetransitionsareobtainedbytheoptimization,currentstatesinHMMarehidden.Thesesystemssharethefollowinglimitations:Feature ExtractionSequence AnalysisHMM, etc(a)Feature ExtractionSequence AnalysisNondeterministicFiniteAutomatonEvent Detectionin Focusing Region(b)Figure1:Behaviorrecognitionsystem.(a):Bottom-upsystem,(b):Bottom-upandTop-downsystem.1Bottom-upanalysis:FeatureextractionisfollowedbysequenceanalysisasshowninFigure.1(a).Thismeansseverelimitationonstabilityandrobustness;erroneousandmissingfeaturewillconfusesequenceanalysisandcausefatalerrors.2Single-objectassumption:Numberofobjectsineachimageframeisassumedtobeoneorzero.Thisassump-tionlimitstheapplicability;multipleobjectbehaviorscannotbeclassifiedsimultaneously.Theselimitationspreventsthesystemsfromrecognizingmultipleobjectbehaviorsinasingleimagesequence,whichisessentialforvisualsurveillancetasks.Toremovetheselimitations,weproposethefollowingmethods:1Selectiveattentionmechanism:Featuresequenceanal-ysisandfeatureextractionaredesignedas:Sequenceanalysis:NondeterministicFiniteAutoma-ton(NFA:describedinsection2)isemployedasase-quenceanalyser.NFAisasimplestatetransitionmodelwhichallowsstatetransitionsfromasinglestatetomul-tiplestatesforaninput.ThereasonwhyweuseNFAinsteadofHMMare:
1.ActivestatesofNFAarenothidden,i.e.,theycanbemonitoredatanytime.Basedonthisproperty,wecandesigntop-downfeatureextractionreferringactivestates.2.WecantrackallpossiblefeaturesequencesbyusingNFA,i.e.,multi-contextbehavioranalysiscanbereal-ized.Featureextraction:ImagefeaturesareextractedinspecifiedimageregionswhichvarieswithactivestatesofNFA.Thiscanberegardedasatop-downfeatureex-traction.Wecalltheabovebehaviorrecognitionmechanismse-lectiveattentionmechanism(Figure.1(b)).2Objectdiscriminationmechanism:Inselectiveatten-tionmechanism,however,multiplestatesaresimultane-ouslyactivatedforasingleobjectbehaviorandthenum-berofobjectscannotberecognized.Toeliminatethisdrawback,thefollowingmechanismisalsoemployed:Theactivatedstatesaremarkedbycoloredtokens,whereacolorcorrespondstoanobject.Bypropagat-ingcoloredtokensonactivatedstates,differentobjectbehaviorsarediscriminated.Basedontheseideas,wecanrealizearobustmulti-behaviorrecognitionsystem.However,theappearancebasedbehaviorrecognitionmethodssharealimitationthat3Dobjectbehaviorsalongviewingdirectionaredegeneratedon2Dimageplaneandhardlyrecognized.Toremovethislimitation,wefurtherextendtheabovemethodformulti-viewpointimages.Inthefollowingsections,behaviorrecognitionmethod,multi-viewpointextension,practicaldesignandexperimen-talresultsaredescribed.