多特征/多维度分析法简介

合集下载

一种基于多维度特征参数的睡眠质量评估方法及装置[发明专利]

一种基于多维度特征参数的睡眠质量评估方法及装置[发明专利]

专利名称:一种基于多维度特征参数的睡眠质量评估方法及装置
专利类型:发明专利
发明人:罗语溪,张婷婷,宋迎杰,连佳铠
申请号:CN202110224051.2
申请日:20210301
公开号:CN112842279B
公开日:
20220308
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于多维度特征参数的睡眠质量评估方法及装置,所述方法包括:采集用户睡觉时前额两导联处的脑电波信号;提取所述脑电波信号在时域维度、频域维度以及非线性维度的特征参数,生成多维度特征参数;将所述多维度特征参数输入至预设的睡眠分析模型中,以使所述睡眠分析模型根据所述多维度特征参数生成所述用户的睡眠分析结果;根据所述睡眠分析结果评估所述用户睡眠质量。

通过实施本发明实施例能够睡眠质量评估的准确性。

申请人:中山大学
地址:510275 广东省广州市海珠区新港西路135号
国籍:CN
代理机构:广州三环专利商标代理有限公司
更多信息请下载全文后查看。

基于多维度多特征模型的语域变异研究综述

基于多维度多特征模型的语域变异研究综述

基于多维度多特征模型的语域变异研究综述作者:王雪娇来源:《文教资料》2013年第20期摘要: Douglas Biber创建的多维度多特征模型(Multi-dimensional/Multi-featureanalysis)是迄今为止涉及语言特征最多、分类最细致的研究语域变异的方法,在国内外逐渐被广大学者所认可并得到了广泛应用。

关键词:多维度多特征模型语体语域变异1988年,Biber创建了多维度多特征分析模型(Multi-dimensional/Multi-featureanalysis),以语料库和计算机统计技术为基础,通过分析语言特征的“共现”(co-occurring)模式,对语域变异进行多维度分析,揭示各语体之间的差异。

自建立以来,多维度多特征模型在语料库语言学研究中逐渐受到重视并占有独特的地位。

一、多维度多特征模型的建立1988年,Biber在其论著Variation across Speech and Writing中,从英国LOB语料库(Lancaster-Oslo/Bergen Corpus)和LLC语料库(London-Lund Corpus)中选取了23种口笔语语域的文本,对文本中的67种语言特征进行了调查。

通过因子分析法,他对这些语言特征在口笔语语域中的共现情况加以分析,并确立了最终的五个维度:信息性/参与性、叙述性/非叙述性、指代明确性/指代有赖场景、说服性、抽象性/非抽象性。

二、国外研究概况Biber(1992)运用其多维度框架对索马里语的口笔语语域进行了分析。

该研究从26种口笔语语域中选取了279篇语料分析其65种语言特征的分布,并用因子分析法统计出其五个维度值。

与其他语言的分析结果相同,该研究表明仅凭一个维度无法充分描述口笔语语域间的关联。

此外,Biber总结了以往研究,发现任何语言都有一个或更多的口语维度。

这些维度不能完全确定口笔语之间的差异,但是它们与我们通常所认为的口笔语语域有关。

多标记特征选择算法的综述

多标记特征选择算法的综述

㊀第52卷第4期郑州大学学报(理学版)Vol.52No.4㊀2020年12月J.Zhengzhou Univ.(Nat.Sci.Ed.)Dec.2020收稿日期:2020-04-27基金项目:国家自然科学基金项目(61672331,61806116);山西省重点研发计划项目(201803D421024,201903D421041);山西省自然科学基金项目(201801D221175);山西省高等学校优秀成果培育项目(2019SK036);山西省高等学校青年科研人员培育计划;山西省高等学校科技创新项目(201802014);山西省研究生创新项目(2019SY005);山西省省筹资金资助回国留学人员科研项目㊂作者简介:姚二亮(1994 ),男,山西忻州人,博士研究生,主要从事粗糙集㊁多标记学习研究,E-mail:1310222154@;通信作者:李德玉(1965 ),男,山西曲沃人,教授,主要从事粒计算㊁机器学习研究,E-mail:lidy@㊂多标记特征选择算法的综述姚二亮1,㊀李德玉1,2(1.山西大学计算机与信息技术学院㊀山西太原030006;2.山西大学计算智能与中文信息处理教育部重点实验室㊀山西太原030006)摘要:特征维度灾难是多标记学习重要挑战之一,为此已有大量多标记特征选择算法被提出㊂将已有方法进行归类,对研究现状和进展进行综合论述,对于多标记特征选择方法的进一步研究具有重要意义㊂首先,将多标记特征选择算法从4个角度进行归类,对一些代表方法和理论进行详细介绍;然后,分别阐述各类算法的优缺点及适用场景;最后对多标记特征选择的进一步研究方向进行总结㊂关键词:多标记学习;维度灾难;降维;特征选择中图分类号:TP18㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)04-0016-12DOI :10.13705/j.issn.1671-6841.20201220㊀引言现实领域中,很多场景下样本不仅仅对应单一语义㊂例如图像标注领域[1],一幅图片可能具有多个标注概念;文本分类领域[2],一件新闻事件可能同时具有多个主题;生物工程领域[3],一个蛋白质可能同时具有多种生物功能㊂传统单标记监督方法已不能很好地解决多语义问题,为此多标记学习框架被提出㊂不同于单标记学习,多标记学习中一个样本对应一个非空标记集合,其丰富的标记概念往往需要高维的特征空间描述,因此特征维度灾难已是多标记学习的重要挑战之一[4]㊂在多标记学习中,特征高维问题一方面使得学习算法具有较高的时间和空间复杂度,另一方面,也降低了学习器的精度和泛化能力,甚至造成过拟合现象㊂为此已有大量多标记降维方法被提出㊂同单标记学习一样,多标记降维方法大致分为两类,一类为多标记特征抽取方法[5-7],另一类为多标记特征选择方法㊂特征抽取是指对原始特征空间进行特定组合(线性组合)将其映射到一个低维空间,该类方法通常可以有效降维并取得不错的分类效果,但是不能保留原始特征的物理意义,对应分类过程不具有解释性㊂而现实领域中的很多问题,往往需要更好的解释性,例如医疗领域,好的解释性有助于医生更好地运用模型;金融领域,好的解释性有助于金融公司了解为用户推荐基金的原因㊂相较于特征抽取,特征选择方法不仅可以有效去除特征空间中冗余㊁无关特征,而且可以保留原始特征的物理意义,具有更好的解释性,为此多标记特征选择已成为一项重要研究课题㊂近年来,已有大量多标记特征选择算法被提出,在很大程度上降低了维度灾难对于多标记学习的影响㊂与单标记特征选择不同,多标记特征选择需要综合考虑特征与多个标记之间的关系,同时需要考虑标记之间的相关性㊂对多标记特征选择的研究主要包括,怎样构建合适的特征选择框架和怎样定义特征与标记集相关性的度量㊂现有的多标记特征选择可以从4个角度进行归类㊂1)从数据转换角度,现有多标记特征选择算法可分为:转化法㊁直接法㊂转化法是指将多标记问题转化为单标记问题,进而可直接运用已有单标记特征选择方法㊂直接法是指对现有特征选择方法进行改进,例如构建新的多元度量㊁运用矩阵稀疏范数等方法㊂2)从特征选择过程与学习器的联系出发,考虑到多标记特征选择是否依赖于特定学习器,现有多标记㊀第4期姚二亮,等:多标记特征选择算法的综述特征选择算法可分为:过滤式㊁包裹式㊁嵌入式三种㊂3)从不同标记特征子集的共享程度出发,考虑到不同标记可能拥有不同的特征子集,现有多标记特征选择算法可分为:标记共享式㊁标记粒化式㊁标记专属式三种㊂4)从数据的应用场景出发,考虑到现实多标记数据会存在动态更新现象,现有多标记特征选择算法可分为:非增量式㊁增量式㊂本文将从以上4种不同角度对多标记特征选择方法进行归类论述,并具体介绍各类方法的相关理论及具体方法,分析各类方法优缺点,进而对多标记特征选择方法的进一步研究进行总结㊂1㊀数据转化多标记数据可通过不同方式转为单标记数据,包括将多标记问题转为多个二分类问题或将多标记问题转为一个多分类问题,这些转化方法已在多标记分类中得到很好应用,可以直接运用已有单标记分类算法解决多标记分类问题㊂多标记特征选择同样也可以转化为具体的单标记特征选择㊂从数据转化角度分析,现有多标记特征选择算法可归为:基于标记幂集的多标记特征选择(label powerset multi-label feature selection, LP_MLFS);基于二值相关的多标记特征选择(binary relevance multi-label feature selection,BR_MLFS);非转化多标记特征选择(directed multi-label feature selection,Direct_MLFS)㊂1.1㊀基于标记幂集的多标记特征选择最直接的转化方法为标记幂集方法(label power set,LP)[8],这类方法的主要思想是将多标记数据中的每一种标记组合看作一种类别,将多标记数据转化为一个多类别单标记数据,例如表1到表2的转化;然后运用单标记特征选择算法选出重要特征子集㊂接下来,首先介绍LP以及它的改进方法PPT(pruned problem transformation),然后介绍一些基于LP的多标记特征选择方法㊂表1㊀多标记数据Table1㊀Multi-label data样本A1A2A3l1l2l3 x10.10.20.1100 x20.20.10.3100 x30.10.10.2001 x40.20.30.1010表2㊀多类别数据Table2㊀Multi-class data样本A1A2A3类别x10.10.20.11 x20.20.10.31 x30.10.10.22 x40.20.30.13㊀㊀LP最初被提出用于解决多标记分类,这种转化方法有效考虑了标记相关性,但是也存在两个比较大的问题㊂一类问题是,该方法转化所得数据类别数与标记个数呈指数关系,并且类别往往不平衡,分类效果不太理想㊂另一类问题是,由于训练集数量有限,并非所有可能的组合类别都出现在训练集中,因此LP的预测结果仅局限于训练集中已出现类别,不具有好的泛化能力㊂针对LP在转化过程中数据类别数与标记个数呈指数关系的问题,文献[9]提出一种新的转化方法PPT,该方法运用剪枝策略,在LP的基础上,通过设置最小类别数阈值,过滤掉出现频率小的类别数据,有效避免了LP方法中类别多㊁类别不平衡问题㊂基于LP转化方法,已有大量多标记特征选择算法被提出㊂文献[10]在音乐情感识别多标记任务中,首先基于LP方法将多标记数据转化为单标记数据,然后运用单标记卡方检验方法对转换后数据进行特征选择,实验展示了该方法的有效性㊂文献[11]提出一种基于PPT转化的多标记特征选择算法,首先应用PPT 转化策略将多标记数据转为单标记数据,然后基于互信息运用启发式搜索策略对转化后数据进行特征选择,实验验证了该方法的有效性㊂文献[12]将PPT转化策略和ReliefF算法相结合构建了一种新的多标记特征选择算法㊂1.2㊀基于二值相关的多标记特征选择二值相关(binary relevance,BR)法可以将多标记数据转化为多个二分类数据[1],已在多标记分类中得到有效运用,也被运用于多标记特征选择㊂需要注意的是,本文所介绍的BR方法在文献[13]中归为external7181郑州大学学报(理学版)第52卷approach BR方法,本文将从标记是否共享特征的角度详细介绍㊂基于BR转化的多标记特征选择主要思想是,首先将多标记数据转为多个二分类数据;然后运用单标记特征选择算法对每个二分类数据进行特征排序;最后根据某种融合策略对所得多个排序序列进行融合,得出合适的特征排序或特征子集㊂文献[14]提出了随机 k-标记集 (random k-label sets,RAKEL)多标记分类方法㊂作者首先基于BR转化策略将多标记数据转化为多个二分类数据;然后运用卡方检验得出每个二分类数据的特征排序;最后运用融合策略选出最终的特征子集,有效提高了RAKEL算法的分类效率㊂文献[15]分别应用BR和LP策略对多标记数据进行转换,运用信息增益和ReliefF度量对特征进行评价,并给出了4种算法的对比结果,分析了不同算法和不同度量的优势与缺点㊂1.3㊀非转化多标记特征选择将多标记数据转化为单标记数据,再运用已有特征选择方法对转化后的单标记数据进行特征选择,转化过程往往会造成一些信息的损失或转化本身会存在一些问题,直接对多标记数据进行特征选择是一种更加自然的方法[16-22]㊂这类方法主要思想是运用或构建多元变量相关性度量或借助一些矩阵稀疏化方法等㊂文献[16]首次将ReliefF算法应用于多标记特征选择㊂文献[17]对ReliefF度量进行改进以便适用于多标记特征选择,该方法不同于上面所介绍的转化类方法,不需要将多标记数据转化为单标记数据,而是引入汉明距离作为样本之间不相似性度量,去计算样本之间的最近邻样本,进而使ReliefF算法能有效对多标记数据进行特征选择㊂文献[18]提出一种基于多元互信息多标记特征选择(pairwise multivariate mutual information,PMU)算法,该方法首先给出了高维联合熵的近似计算方法;然后运用多元互信息度量特征子集与标记集之间的相关性,运用前向贪心策略对特征进行排序,并根据给定选择特征个数获得了对应的特征子集㊂文献[19]提出一种快速多标记特征选择算法,首先从理论上分析了PMU算法中基于互信息的特征得分函数具有较高时间复杂度,提出三种加速策略:丢弃得分函数中非必要计算项;重用预计算熵项;识别有效标记对㊂实验展示了该算法相比于其他多标记特征选择算法具有更高效率㊂文献[20]提出一种新的基于互信息的多标记特征选择算法,定义了一种新的得分函数,相比于PMU中只考虑二阶交叉信息,该函数能够考虑任意程度的交叉信息㊂文中也从理论上分析了考虑低阶交叉信息的得分函数为何可以获得有效的特征子集,实验结果也表明考虑高阶交叉信息的得分函数反而具有较高计算成本和更低的分类性能㊂PMU算法在处理大规模多标记时,会随标记规模增加而不能很好地考虑特征间的冗余性,很容易引入冗余特征㊂文献[21]给出一种新的特征度量准则,有效避免处理大规模标记时,偏重于考虑最大化相关性,而不能很好地考虑最小冗余性的问题,提出了一种处理大规模标记的多标记特征选择㊂与传统的多标记特征选择方法相比,该方法在处理大规模多标记数据时取得了更好的效果㊂文献[22]基于帕累托优势概念提出一种快速的多标记特征选择算法,将多标记特征选择问题作为多目标优化问题,首先运用对称不确定性(symmetrical uncertainty,SU)度量每个特征与每个标记的相关性,依据帕累托优势概念,特征集被划分为可支配特征集和非支配特征集,将非支配特征集作为约简子集㊂现有的多标记特征选择方法大多属于非转换式方法,接下来本文会从特征选择过程与学习器的联系角度进行更多的介绍㊂1.4㊀各类方法对比无论是基于转化还是直接的多标记特征选择,都在一定程度上降低了特征维度,提高了算法的效率和精度㊂为了更好地阐述这些方法,表3对各类方法的优缺点进行了详细介绍㊂2㊀特征选择过程与学习器的联系考虑到多标记特征选择是否依赖于特定学习器,多标记特征选择算法可分为:过滤式(filter)㊁包裹式(wrapper)㊁嵌入式(embed)㊂2.1㊀过滤式多标记特征选择过滤式多标记特征选择不依赖具体学习器,过滤式方法一般分为两类:第1类方法是选择合适的评价指㊀第4期姚二亮,等:多标记特征选择算法的综述㊀㊀表3㊀LP_MLFS㊁BR_MLFS㊁Direct_MLFS方法对比Table3㊀The comparison of LP_MLFS㊁BR_MLFS㊁Direct_MLFS 方法优势缺点LP_MLFS思想简单,实现容易完成转化后,可以直接运用现有的任何单标记特征选择方法转化后的数据类别的数量很大,会严重影响特征选择效果不能真正反映多标记数据之间的真实分布BR_MLFS思想简单避免了LP转化方法类别组合数大的问题可以直接运用现有的任何单标记特征选择由于将多标记数据转为多个二分类数据,因此特征选择过程耗时融合策略对于最终的结果影响大不能考虑标记之间相关性Direct_MLFS无须转化,保持了原始数据的真实分布考虑了标记之间的相关性避免了转化方法带来的问题对于多元变量之间的度量是比较复杂的不能有效利用现有的成熟算法标度量每个特征关于标记集的重要性,得出特征排序,根据预先设定的最小阈值或特征个数,选出对应特征子集;第2类方法是选择合适的评价指标,运用相应的搜索策略选出一个特征子集,无须预先设定最小阈值或特征个数㊂第1类方法关键在于特征排序的好坏,且需要预先设定所选特征个数,这类方法常用评价标准主要有卡方㊁信息增益㊁互信息等㊂具体一些方法如下㊂文献[23]基于信息增益提出了一种多标记特征选择方法,该方法首先计算每个特征和标记集之间的信息增益大小,以此度量每个特征的重要度;然后给定最小重要度阈值,进而选出特征子集㊂文献[24]基于最大相关性最小冗余性(minimum redundancy maximum relevancy,mRMR)原则提出一种新的多标记特征选择方法,该方法运用互信息分别度量候选特征与标记集之间的相关性㊁候选特征与已选特征之间的冗余性,然后基于mRMR原则给出最终特征重要性度量㊂根据预先设定要选择的特征个数,运用所定义度量基于前向增量式搜索策略选出特征子集㊂该方法充分地考虑了特征之间的冗余性,剔除了更多的冗余特征㊂文献[25]基于邻域互信息提出一种多标记过滤式特征选择方法,该方法从最大㊁平均㊁最小三个不同粒度的样本间隔定义了三种多标记邻域互信息,同样根据预先设定特征子集个数,选出合适的特征子集㊂相比于已有基于互信息的多标记特征选择方法,该方法最大优势在于处理数值型数据时无须进行离散化处理,避免了离散化所带来的信息损失㊂第2类方法可直接选出特征子集,无须预先设定特征个数,这类方法主要基于粒计算理论,具体的特征评价标准有依赖度㊁邻域依赖度㊁模糊依赖度和辨识能力等,主要方法有互补属性约简㊁基于变精度粗糙集的多标记特征选择㊁基于邻域粗糙集的多标记特征选择㊁基于模糊粗糙集的多标记特征选择等㊂文献[26]基于粗糙集理论构建了多标记可变精度属性约简方法,称为δ-置信度约简,它可以正确捕获标签间隐含的不确定性㊂此外,还引入了与δ-置信度约简相关的可分辨矩阵,基于可分辨矩阵来计算δ-置信度约简,进而得出多标记决策表的约简子集㊂该方法在理论和应用方面都具有重要意义㊂文献[27]针对多标记分类任务,运用粗糙集理论系统分析了标记的不确定性,提出了保持标记不确定性不变的多标记特征选择方法㊂首先通过分析表明经典粗糙集中的依赖度并不能有效度量标记的不确定性;然后从标记不确定角度构建了多标记粗糙集模型,定义粗糙决策函数表示样本可能具有的标记集,细致决策函数表示样本确定具有的标记集,并结合这两种决策函数定义了特征的依赖度函数,提出了一种启发式多标记特征选择算法,即互补决策约简(complementary decision reduct,CDR)㊂CDR具有很强的理论保证,可以直接处理多标记数据,实验也展示了该方法的优越性㊂文献[28]针对多标记分类任务,构建了多标记邻域粗糙集模型,给出新的下近似定义去刻画特征对于标记集的分类能力,设计了一种启发式多标记特征选择算法㊂算法基于邻域关系,因此可以直接对数值型多标记数据进行特征选择,而无须进行离散化㊂文中在5个数值型多标记数据上进行对比实验,验证了该算法的有效性㊂9102郑州大学学报(理学版)第52卷文献[29]从标记关系出发对多标记数值型数据进行特征选择,首先定义了属性-标记矩阵概念;然后运用标记集上的模糊相似关系去刻画标记关系,给出了新的模糊上下近似㊁依赖度定义,并设计了一种前向启发式多标记特征选择算法㊂该方法将标记关系引入到多标记特征选择中,并从理论上分析了标记关系随属性集的粒度变化,实验验证了挖掘标记关系在多标记特征选择中的有效性㊂文献[30]提出一种新的模糊粗糙集模型用于多标记特征选择㊂文中指出运用模糊粗糙集对多标记进行特征分析的瓶颈在于难以找到目标样本的真正异类样本,这直接影响模糊上下近似的鲁棒性㊂文中首先定义每个样本的得分向量,以评估相对于目标样本而言是异类样本的概率;然后利用局部采样来构造样本之间的稳健距离㊂文中定义了候选属性的重要度度量,并设计了一种贪心前向特征选择算法,实验验证了该算法的有效性㊂文献[31]从样本和标记两个角度共同去刻画特征的区分能力㊂针对多标记特征选择任务,对模糊粗糙集框架下的模糊辨识关系重新定义,利用最大样本模糊辨识度量特征可区分的样本对个数,和最大标记模糊辨识度量特征可区分的样本对所对应的标记个数,引入调和系数将两种度量结合,设计了一种新的启发式多标记特征选择算法㊂文中从两个不同的角度度量特征的区分能力,可以在保持或提高分类性能的基础上有效降低特征维度㊂2.2㊀包裹式多标记特征选择包裹式多标记特征选择方法主要思想是从特征集合中选择可使学习器性能最佳的特征子集㊂由于特征子集组合种类随特征个数增加而指数性增长,因此从所有特征组合中进行搜索是一个NP-hard问题㊂为此一般会选取一些时间复杂度低的搜索策略,例如启发式策略或是演化算法等㊂文献[32]提出了基于朴素贝叶斯的多标记分类(multi-label naive bayes classification,MLNB)算法㊂为了提高算法的效率,文中首先运用主成分分析法(principal component analysis,PCA)进行特征抽取,在降维后的数据上将MLNB作为包裹式分类器,排序损失RankLoss和汉明损失HammingLoss作为适应度函数,运用遗传算法搜索策略对多标记数据进行特征选择㊂文献[33]首次将文化基因算法(memetic algorithm)应用到多标记特征选择方法中,统一了多标记特征选择与局部优化设计有关的特定问题,解决了关于染色体进行选择的局部优化问题㊂考虑到计算成本随特征和标记个数指数性增长,文中运用近似互信息降低增加操作(add operation,ADD)和删除操作(delete oper-ation,DEL)的计算负担㊂相比于基于遗传算法的特征选择,该方法可有效防止过早收敛,并提高了计算效率㊂文献[34]将多标记特征选择作为一种多目标优化问题,其目的是寻找一组帕累托非支配解㊂文中运用改进的多目标粒子群算法进行优化,采用概率编码运算符表示粒子,将汉明损失(HammingLoss)和特征数量作为算法的适应度函数㊂为保证粒子群优化(particle swarm optimization,PSO)算法能够收敛到帕累托前沿,采用自适应均匀变异来扩展所提算法的搜索能力;为提高算法的性能,文中也设计了一种基于差分学习的局部研究策略来探索搜索空间稀疏区域㊂针对基于进化算法(evolutionary algorithm,EA)的多标记特征选择,文献[35]首次提出一种无参种群初始化方法,该方法可以作为进化算法的预处理㊂文中首先引入条件互信息,设计了一种得分函数计算每个特征的重要度,进而生成初始种群;然后将生成的种群作为基于EA的多标记特征选择方法的输入㊂该方法提高了传统基于EA的多标记选择方法的分类性能㊂2.3㊀嵌入式多标记特征选择在嵌入式特征选择中,学习器训练与特征选择在同一个优化框架内完成,两者不可独立,一般嵌入式多标记特征选择式方法可分为两类:一类为基于树模型的特征选择方法,树节点的划分特征所组成的集合就是选择出的特征子集;另一类是在回归模型中引入惩罚项进行特征选择,基于不同的假设,一般的方法是使用l2,1或l1范数对模型进行正则化㊂文献[36]提出了基于树模型的多标记特征选择方法(multi-label C4.5,ML C4.5),该方法中首先训练多标记分类树模型;然后基于树顶端特征分类能力强㊁树底端特征分类能力弱的原则,选择出合适的特征子集,该方法在训练分类模型的同时选出了合适的特征子集㊂文献[37]提出了一种凸半监督多标记特征选择算法㊂文中首先将未标记数据的标记初始化为零,选用㊀第4期姚二亮,等:多标记特征选择算法的综述最小二乘损失函数和l2,1正则项进行模型训练和稀疏特征选择;之后,将置信度高的未标记训练数据保存,并在下一轮迭代中将其视为已标记数据进行训练;最后,将获得的稀疏系数矩阵用于特征选择㊂该方法可以有效运用未标记数据进行特征选择,与现有的涉及特征分解的多标记特征选择算法不同,该算法只需要解决几个线性方程组㊂因此可应用于大规模多标记数据㊂文献[38]提出了一种基于l2,1范数正则化的多标记特征选择,该方法考虑了标记相关性,为避免原始标记空间噪音干扰,首先运用矩阵压缩的方法将原始标记空间压缩到一个低维空间;然后在压缩后的标记空间上构建回归模型,基于l2,1范数行式稀疏的性质构建了一种嵌入式多标记特征选择㊂文献[39]针对多标记学习提出一种基于流形正则化判别式特征选择(manifold regularized discriminative feature selection,MDFS)算法,MDFS结合流行假设,首先诱导出与原始特征空间具有相同局部结构的低维嵌入,引入线性映射函数去构建原始特征与低维嵌入之间的联系;考虑到标记之间的共现关系,MDFS引入标记流行正则化去捕获全局标记关系;最后引入l2,1范数正则化实现特征选择㊂实验验证了MDFS具有较好的效果,引入标记相关性使MDFS的性能有了总体提高㊂2.4㊀三种方法优缺点对比以上分别介绍了过滤式㊁包裹式㊁嵌入式的关键思想和代表方法,为更好地认识各类方法,表4给出了各类方法优缺点的具体描述㊂表4㊀过滤式㊁包裹式和嵌入式方法对比Table4㊀The comparison of filter,wrapper and embedded方法优势缺点过滤式不依赖特定分类器,选择出的特征子集对于不同分类器适用性更强除了特定评价指标外,往往需要设定选择特征个数若考虑特征之间的冗余性,往往需要计算多个特征之间的组合包裹式对于特定分类器,可以选出更好的特征子集无须运用或构建特征评价标准依赖特定分类器,所选特征子集不一定适用于其他分类器特征组合多,搜索空间大,算法复杂度高嵌入式无须反复评价特征子集重要性,效率高特征选择在学习过程中完成,可有效提高分类器训练效果获得的特征子集并不一定适用于其他分类器3㊀不同标记共享特征子集的程度多标记学习中每个标记具有不同的语义,因此每个标记可能对应不同的特征描述㊂针对多标记特征选择,从不同标记共享特征子集的程度,存在三种不同假设:1)所有标记共享相同特征子集;2)不同的标记享有不同的特征子集;3)将标记依据某种度量划分为多个标记粒,同一个粒内的标记享有相同的特征子集,不同粒内的标记享有不同特征子集㊂基于这三种不同假设,多标记特征选择算法可分为三类:标记共享式㊁标记专属式㊁标记粒化式㊂3.1㊀标记共享式标记共享式多标记特征选择方法,假设所有标记共享相同特征子集,图1给出标记共享方法的直观示意㊂3.2㊀标记专属式标记专属式多标记特征选择方法,考虑到每个标记应有不同刻画,对每个标记单独进行特征选择,选出每个标记专属特征子集,在图2给出标记专属式方法的直观示意㊂文献[40]首次提出了标记专属特征的概念,认为每个标记具有其自身的特征,称这些特征为专属特征㊂文章提出了一种基于专属特征的多标记学习(multi-label learning with label specific features,LIFT)算法㊂LIFT首先对每个标记的正负类样本分别聚类,利用聚类结果分析得出每个标记的专属特征;然后利用专属特征对每个标记训练一个二分类模型㊂LIFT利用专属特征更好地刻画了每一个标记概念,取得了不错的分12。

多维数据综合分析系统及其分析方法与制作流程

多维数据综合分析系统及其分析方法与制作流程

图片简介:本技术公开的属于数据分析技术领域,具体为一种多维数据综合分析系统,该多维数据综合分析系统包括数据存储数据库、基站数据库、数据关联模块、数据分析模块、数据表格图形绘制模块和数据标记模块,该多维数据综合分析系统的分析方法的具体步骤如下:S1:获取话单文件、账单文件和取证文件获取并存储在数据存储数据库内,通过特定的模型和算法,在巨量的话单、账单、电子取证信息中进行数据关联碰撞,分析出符合条件的数据,通过特有的显示模型提供给用户分析线索;能够对被调查人员进行多方位的数据行为刻画,对比分析出被调查人员在某些特定时间/事件内的联系对象、活动轨迹、资金交易、交易对象等信息。

技术要求1.一种多维数据综合分析系统,其特征在于,该多维数据综合分析系统包括数据存储数据库、基站数据库、数据关联模块、数据分析模块、数据表格图形绘制模块和数据标记模块;所述数据分析模块包括话单分析单元、账单分析单元和综合分析单元;所述数据存储数据库、基站数据库之间相互建立联系,所述数据存储数据库存储话单文件、账单文件和取证文件,所述数据关联模块收集时间信息、空间信息和事件信息;所述话单文件、账单文件和取证文件存储到数据存储数据库内,所述数据存储数据库的输出端与数据关联模块连接,所述数据关联模块的输出端与数据分析模块连接,所述数据分析模块的输出端与数据表格图形绘制模块连接,所述数据表格图形绘制模块的输出端与数据标记模块连接。

2.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述话单文件包括通话记录、基站信息和离线地图。

3.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述账单文件包括交易记录和银行信息。

4.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述取证文件为电子取证信息。

5.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述话单分析单元、账单分析单元的输出端与综合分析单元连接,所述综合分析单元经过用户授权进行分析操作。

建设浸润式课程文化滋养多元化发展潜能

建设浸润式课程文化滋养多元化发展潜能

建设浸润式课程文化滋养多元化发展潜能作者:叶薇芳来源:《基础教育参考》2017年第24期上海市华东师大一附中实验小学是一所随着教育改革的脚步发展起来的颇具特色的现代化学校。

自20世纪80年代以来,学校坚持以“为学生提供适合他们发展的教育”为办学理念,以“调整课程结构、强化科技教育、开发学生潜能、创建办学特色”为教育改革的突破口,在深入调研、分析校情的基础上,直面教育发展的新形势、现实问题和新挑战,坚持“以项目为中心”的实践导向和“以问题为中心”的创新导向,积极营造自主探究、互动高效、快乐体验的浸润式课程文化氛围,满足学生的内在发展需求,滋养多元化发展潜能,全面提升课程教学质量。

一、“四多与四有”:优化课程框架结构在深入推进课程教学改革过程中,学校以《基础教育课程改革纲要(试行)》为指导,以有效学习为核心,以学生需求为导向,着力建构多层次、多种类、高质量的学校课程体系,打造“为学生提供适合他们发展的教育”的浸润式课程文化。

浸润式课程文化建设的魅力在于系统生态性。

为了构建浸润式课程文化系统,学校从三方面提升课程领导力:其一,理解和把握课程方案,严格执行课程计划,提升学校课程规划能力;其二,开发和利用课程资源,提高创造性落实课程方案的能力;其三,有效开展课堂评价,提升课程更新与评价的能力。

在此基础上,逐步形成了具有“多特征、多维度、多元化、多形式”特征的课程体系。

浸润式课程文化建设的魅力在于结构有机性。

在具体实施过程中,学校强调学科课程、活动课程和环境课程之间有机结合,同时还关注学科课程、活动课程和环境课程内部的有效协同。

在学科课程方面,加大基础型课程的执行力度,强调规范;加宽拓展型课程的拓展广度,增加门类;加强探究型课程的研究深度,选择项目。

如学校先后自主研发了《科学与未来》《健身与锻炼》《小剪刀,大艺术》《纺锦织绣》等十多本校本教材及相应课程,丰富了学生的课堂活动,彰显了学校的办学特色。

又如,学校以“创智天地,生态乐园”为主题,坚持课程建设的自主创新、课题选择的科学前沿、内容取舍的生活趣味等原则。

结合多维度特征的病理图像病灶识别方法

结合多维度特征的病理图像病灶识别方法

目前,通过病理检查对癌症进行诊断是一种常用的方法,它能够提供明确的疾病诊断,指导病人的治疗。

对病理图像进行人工分析本身是一件非常有挑战性的工作,一张病理切片通常包含数百万个细胞[1],一名病理科医生一天需要分析许多病理图像,这给他们带来很大的工作负担,疲劳阅片现象时有发生[2-3]。

同时,该领域内专家的培养速度赶不上病例的增加速度,将有限的、珍贵的人力资源大量投入到重复的病理图像的识别诊断中是非常可惜的。

通过卷积神经网络[4](Convolutional Neural Network,CNN)快速识别病理图像中的病变区域是本文的主要研究内容。

CNN是一种高效的学习方法,局部连接和权值共享的特点降低了网络模型的复杂程度,减少了需要学习的参数。

将计算机辅助诊断应用于数字病理图像已经结合多维度特征的病理图像病灶识别方法胡伟岸1,邹俊忠1,郭玉成2,张见1,王蓓11.华东理工大学信息科学与工程学院,上海2002372.清影医疗科技(深圳)有限公司,广东深圳518083摘要:长时间的病理图像人工诊断会使医生产生视觉疲劳,误诊和漏诊情况容易发生。

针对以上现象,提出一种结合卷积神经网络中多维度特征的方法,快速准确识别出病理图像中的病灶区域。

使用感兴趣区提取及图像裁剪获得小尺寸图块数据;使用染色校正的方法以解决图块染色不均,对比度弱等问题;搭建深度学习模型,使用多组深度可分离卷积提取不同尺度的特征,加入残差连接以避免梯度消失,联合不同维度的特征信息以提高特征利用率。

实验结果表明,染色校正能够提高预测准确率,上述模型具有参数少、鲁棒性强的特点,最终对病理图像病灶的识别均能达到较高的准确率,假阳性及假阴性均较低,未来将具有广泛的应用前景。

关键词:多维度;深度学习;卷积神经网络;深度可分离;染色校正;病理图像;病灶文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2001-0126Lesion Recognition Method of Pathological Images Based on Multidimensional FeaturesHU Wei’an1,ZOU Junzhong1,GUO Yucheng2,ZHANG Jian1,WANG Bei11.School of Information Science and Engineering,East China University of Science and Technology,Shanghai200237,China2.Tsimage Medical Technology,Shenzhen,Guangdong518083,ChinaAbstract:Time-consuming artificial diagnosis of pathological images will cause visual fatigue of doctors,while both mis-diagnosis and missed diagnosis are easy to occur.In response to the above phenomena,a method combining multidimen-sional features of convolutional neural network is proposed to quickly and accurately identify lesion in pathological images. ROI extraction and image cutting is used to obtain small-scale block data.The method of stain correction is used to solve the problems of uneven staining and weak contrast in block data.A deep learning model is built,using several depthwise separable convolution to extract features of different dimensions,adding residual connection to avoid gradient disappear-ance,combining the feature information of different dimensions to improve feature utilization.The experimental results show that stain correction can improve prediction accuracy and the above model has the characteristics of few parameters and strong robustness.At the same time,the accuracy of lesion recognition in pathological images can reach a high level, while both false positive rate and false negative rate are low,so it will have a broad application prospect in the future.Key words:multidimensional;deep learning;convolutional neural network;depthwise separable;stain correction;patho-logical image;lesion基金项目:国家自然科学基金(61773164);上海市自然科学基金(16ZR1407500)。

语料库语言学语汇编V20

语料库语言学语汇编V20
Pedagogic corpus
教学语料库
Phraseology
短语学、短语
Phraseological uni t/seque nee
短语单位/序列
Phraseological profile
短语概貌
Plain text
纯文本
POSgram
赋码序列、码串
POS seque nee
赋码序列、码串
POS taggi ng/Part-of-Speech taggi ng
搭配词;搭配
Collocability
搭配强度、搭配力
Collocati on
搭配、词语搭配
Collocati onal stre ngth
搭配强度
Collocati onal framework/frame
搭配框架
Collocational profile
搭配概貌
Collocati onal n etwork
一次词
Header/Text head
文本头、头文件
Hidden Markov model (HMM)
隐马尔科夫模型、隐马模型
Historical corpus
历时语料库
HowNet
知网
ICTCLAS
中科院汉语分词系统
Idiom prin ciple
习语原则、成语原则
Idiomaticity
习语性、地道程度
多维分析、多维度分析法
Meaning by collocati on
搭配辨义
Metadata
元信息
MF/MD approach/multi-feature/multi-dime nsi onal an alysis

多特征融合的图像分类方法研究

多特征融合的图像分类方法研究

多特征融合的图像分类方法研究一、前言图像分类是计算机视觉领域的一个重要研究领域。

它通常可以归纳为两个主要任务:第一是图像分割,第二是分类。

其中,分类任务则是根据不同的特征对不同的图像进行分类。

目前,已经有许多研究表明,多特征融合技术在图像分类任务中是非常重要的。

在本文中,我们将介绍一种基于多特征融合的图像分类方法,并对其进行详细的研究和分析。

二、多特征融合的图像分类方法多特征融合技术是一种将多种不同类型的特征结合在一起以提高分类精度的方法。

在图像分类任务中,不同的特征通常可以划分为以下几类:1.颜色特征颜色特征指的是图像中不同像素的颜色分布情况。

通常使用直方图统计不同颜色的出现次数,进而构建不同颜色的特征向量。

2.纹理特征纹理特征指的是图像中不同区域的纹理分布情况。

通常使用局部二值模式(LBP)或方向梯度直方图(HOG)等方法来提取纹理特征。

3.形状特征形状特征指的是图像中不同物体的形状以及物体之间的位置关系。

通常使用边缘检测或轮廓识别等方法来提取形状特征。

以上三种特征在图像分类中都是非常常见的特征。

而多特征融合技术则是将不同的特征结合在一起,以提高分类准确率。

通常有以下几种融合方法:1.特征串联特征串联是将不同特征的特征向量拼接在一起的方法,得到一个更长的特征向量。

这种方法虽然简单,但容易带来过拟合问题。

2.特征加权平均特征加权平均是将不同特征的特征向量进行加权平均,得到一个综合的特征向量。

权重可以使用学习算法或者手工设置。

3.特征堆叠特征堆叠是将不同特征的特征向量分别输入给不同的分类器,最后将所有分类器的分类结果进行结合的方法。

这种方法比较复杂,但可以有效地避免过拟合问题。

4.特征选择特征选择是从多个特征中选择一些最相关的特征输入到分类器中。

这种方法可以减少特征向量的维度,提高分类效率和准确率。

以上四种多特征融合方法在图像分类中都有广泛应用。

具体应用时需要根据不同的任务和数据,选择适当的方法融合不同的特征。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
De . c 2011
多特征 / 多维度分析法 简介

( 州工 业职 业技 术 学院 徐 I

徐 州 210) 200
信 息 管理 学 院 ,江 苏

要 :多特征 / 多维度分析 法, 通过分析语言特征的共现模式, 确定语域变异的维度, 对不同语篇类
型 进行 多维度 的 比较 分析 , 以求全 面地揭 示语体 之 间的 差异 。
a ayi 模 型 , n ls ) s 即多 特 征/ 维 度 分 析 法 , 于 描 述 多 用 口语 和 书面语 体裁 间 的语 篇关 系 。 种方 法使 用标 这 准化 的 以计 算 机 为基 础 的文本 语 料 库 和 自动 识 别
量 , 本研 究 中 即大量 语 言 特征 的频 率 , 在 被简 化 为
词 ; ) 问 词 ; ) 词 形 式 ; ) 动语 态 ; ) 格 (疑 D (名 E (被 F ( 属 G
形 式 ; ) 属 特 征 ; ) 词 短语 , 容 词 和副 词 ; ) (从 H (介 I 形 ( J
词 汇专 一 性 ; ) 汇 类 别 ;L情 态 ;M) 门动 词 ( 词 K () ( 专
据 中概括 或 总结 的一些领 域 。也 就是 说 , 每个 因子
代表 了高 度共 享差 异 的一 个 领域 , 一组 以高频率 共
现 的语言 特征 。这 些 因子是 原始 变量 的线 性组 合 , 从所 有变 量 的相关 矩 阵得 出。 下列 表列 出 了每个 因

维度 的确 立依 据
维 度 都包 括 两 组特 征 , 组 带 有正 负 荷值 , 一 一组 带 有 负负荷 值 。 因子 负荷 的正 和 非偏 好 结 构 ; ) 致 ; ) 定 。 ( 缩 (一 0 (否 P
如 此 分类 反 映 了每个 特征 的语 法 功 能而 非 语 篇 功
维 度 的 确 立 最 初 是 通 过 对 英 国 L n atr a cs — e
子下各 个 语 言特征 的 因子负荷 。 一个 因子负荷表 示
该语 言特 征 与相应 的语 用功 能有 多大 程度 的联 系 。 它 反 映 了各 语 言特 征 与 因子 整体 间共 现关 系 的密 切性 。 接着 用 因子分 析法 处理 大量 的数 据 , 显示 出那 些语 法特 征在 篇章 中趋 于共 现 。 组共 现的特 征被 每 称 为变异 的一 个维 度 。 通过对 口语语 域 和书 面语 语
能, 每个 特 征被 描述 为文 本 中 的功能 符号 。基 于 这
互 补分 布 。 代表 的功 能意 义是相 对 的 。 所
二 、 ie 对各维 度 的描述 Bb r
通 过研 究 4 1 8 篇语 料 中 的 6 语 言特征 的分 7个
布 特 征 , ie 定 义 并 阐释 了 6个 主 要 维 度 。表 格 Bb r 21及 22分别 列 出 了在 维 度一 和维 度 二上 有较 大 . .

技术来 计 算频 率显 著 的词 汇和语 法 特征 。 这些 特征
的共 现模 式 可 以通 过 多变 量 统计 方 法 来 分析 确认 文本 中语 言变 异 的功 能维 度 , 提供 有 关这 些 维度 并 的体 裁 之间关 系 的全 面描 述 。

小 组派 生变量— — 因子 。 一个 因子代 表原始 数 每
根 据 每 一维 度 上 “ 现 ” 共 性语 言 特 征 共 同 的功
能 意义 ,可对 每 一维 度 代表 的功能 意 义做 出解 释 。
每个 语 言特 征 的 因子负 荷值 从 一 . + ., 1 0到 1 负荷 值 0
越 高说 明该 特征 与这一 维度 的联 系越 密切 。 多数 大
语 料 库语 言 学 家 D u lsB b r 1 8 o ga ie 于 9 8年 建
立 的 MD MF Mut- i nin l Mut-etr / f l dme s a/ i o l fa e i u
特征 提供 了一个 确定 英语 功 能维度 的坚 实基础 。
因子 分 析是 多特 征/ 维度 分析 法研 究 文本 差 多 异 的主要 统计工 具 。在 因子分 析 中 , 量 的原始 变 大
关 键 词 :多特 征 ; 多维 度 ; 现模 式 共 中 图分类 号 : ~ HO 0 文献 标 识码 : A 文章 编号 :6 3 3 3 ( 0 1 1 — 0 9 0 17 — 2 1 2 1 )2 0 4 — 3
语 法 范畴 的特征 可 以具有 相 同 的功能 。 因此 , 些 这
第3 第1 卷 2期
21 年 1 01 2月
赤 峰 学 院 学 报 (科 学 教 育 版 )
Ju n l f h e g nv r t si c o ra o i n i s y(c n e&e u a o ) C f U ei e d ctn i
V0. .2 1 3 No 1
域 的 多维 度 定 量分 析 .我们 确 立 了 6个 主要 的维
度。
先确 认 一 系列具 有功 能关 联 的 6 7个语 言 特征 。根 据 其语 法 类 别将 这 些 特征 分 为 1 6大语 法 范畴 : ) ( A
时 态语 态 标识 语 ; ) 间地 点 副词 ; ) (时 B ( 代词 和 代 动 C
O l— egn语 料 库 ,简称 为 L B语 料 库 及 L n s B re o O o— dn L n o — u d英 语 口语 语 料 库 的 6 7项 语 言 特 征 的分 布进 行 量化 分析 后定 义 的。 O L B语料 库包 括 5 0篇 0
文本 样 本 . 篇约 2 0 每 0 0字 , 自 1 选 5种体 裁 。 二个 第 是 L n o — u d语 料库 。该语 料库 搜 集 了 8 o dn L n 7个英 语 口语 文本 .约 5 O万 词 。代 表 了 6大主要 言 语情 境。 通 过 调 查 以前 对 口语/ 面 语 差 异 的 研 究 , 书 首
相关文档
最新文档