属性相关分析

合集下载

分析方法验证中专属性相关问题的探讨

分析方法验证中专属性相关问题的探讨

分析方法验证中专属性相关问题的探讨对于专属性,中国药典给出的定义是在其他成分(如杂质、降解产物、辅料等)可能存在下,采用的分析方法能正确测定出被测物的能力。

具体的操作方法是加标或者强制降解比较测定结果。

描述看似很详细,但缺少具体操作的描述,也没有说明规定的理由,这就会导致日常验证中弄不清技术要求和法规要求的区别,或过于严格,或为了应付检查而做的过于简单,或按照自己浅显的理解做错,造成最终的结果不尽人意。

为了对专属性的要求有更好的理解,下面就对专属性的相关问题进行相应的探讨。

O1峰纯度专属性验证中都要求考察峰纯度,确认主成分峰为单一成分的峰。

峰纯度的原理是工作站根据光谱匹配度来衡量峰纯度,即峰上各个时间点采集到的光谱归一化处理后几乎一样,具体操作是用DAD检测器进行峰纯度扫描,一般峰纯度因子超过990即认为该峰是单一成分的峰。

但利用光谱进行纯度检测也有一定的局限性:首先如果混合物中组分的光谱相似,那么各个时间点采集到的混合光谱几乎是一致的,也会得到很高的纯度匹配因子;另外如果主成分响应过高,导致峰顶点处的光谱由于响应高而变形,纯度因子就会很低;如果主峰中包含的杂质响应过低,各个时间点采集到的光谱只有主成分的光谱,纯度因子就会很高。

所以峰纯度检测不是确定检测峰是否是纯峰的绝对证明,建议最好采用1CMS确认和采用代表性样品(过期样品更好)进行峰纯度确认。

02强制降解强制降解试验也称破坏性试验,其试验目的明确。

强制降解试验可预测原料药的稳定性或影响制剂的纯度、有效性和安全性。

强制降解一般认为样品降解量应在5~20%之间,一般10%o但是由于样品自身的性质问题很多时候会出现不产生降解或者降解剧烈的问题,这时候就需要对破坏时间和强度进行调整,尤其是对于降解不出来杂质的物质,需要在原降解条件基础上加热或者增加破坏时间来达到降解要求。

另外强制降解的物料平衡是极为头痛的问题之一,由于物料平衡主要是考察分析方法能否将所有杂质有效检出,所以含量测定没有必要进行物料平衡的考察,物料平衡的接受范围问题,至今没有统一的规定,其实也很难统一,需要具体情况具体分析,根据样品中各组份性质、降解率大小、强制降解杂质的结构、质量标准中杂质限度要求等因素综合考虑,建议为95.0~105.0%较为合适,有些企业制定为98.0%~102.0%,只考虑HP1C方法本身误差,没有考虑未知杂质的结构、介质PH等因素对测定的影响,接受标准过于严格,有些企业对于制剂考虑到辅料影响,制定为90.0%~110.0%,又过于宽松,失去物料平衡考察的意义。

属性数据分析

属性数据分析

7
第一节 属性数据与列联表
以数据集sales为例: proc freq data=sales; tables purchase*income; run; Tables语句可加的选项: nopercent norow nocol out=数据集名
8
第二节 关联性分析
一、概述
(一)关联性的卡方检验 H0:行列变量无关联 H1:行列变量有关联 (二)fisher精确检验法 适合于小样本 (三)Mentel-Haenszel检验法(有序关联性检验) H0:行列变量无有序关联 H1:行列变量有序关联
属 性 变 量 列
3
第一节 属性数据与列联表
列联表
高收入 购买量 <100元 购买量 >=100元 合计 81 74 155 中等收入 90 42 132 低收入 98 46 144 合计 269 162 431
4
第一节 属性数据与列联表
二、用分析员应用作双向频数统计 以数据集sales为例,在调入数据集后 在下拉菜单选: 1.statistics=>table analysis 2.purchase=>row gender,income=>column 3.OK
对于sales2可用weight语句: Proc freq data=tj01.sales2; tables inclev*purchase / chisq ; weight count; Run;
14
第二节 关联性分析
对于不是2 ×2列联表要给出fisher精确 检验,可加语句: exact pchi; Proc freq data=tj01.sales2; tables inclev*purchase / chisq ; weight count; exact pchi; Run;

基于属性相关分析的大学生体质检测比较研究

基于属性相关分析的大学生体质检测比较研究
的增 益 , 客 观评 价 了甘 肃 工 业职 业技 术 学 院体 育教 育 的 开展 情 况 。 关键 词 : 《 国 家学 生体 质健 康 标准 》 ; 三年 制 高职 ; 属 性 相 关分 析 ; 信 息 增益 分 析方 法
中 图分 类号 : G8 0 — 3 文 献标 识 码 : A
随 着《 国 家学生体质健康标准》 [ 1 自2 0 0 7 年4 月起在全 国各级各类学校全面实施, 对大学生体育教学提出了 新的要 求, 怎样进一步总结大学生体质检测中的内在规律, 结合《 国 家学生体质健康标准》 指导大学生体育工作的有效开展, 就 成为体育教学和研究的一个重要的任务。 许多学者对照《 国 家学生体质健康标准》 及此前的 《 学生 体质健康标准( 试行方案) 》 进行了研究, 文献[ 2 ] 通过对大学 生的身高标准、 体重、 肺活量、 坐位体前屈、 台阶试验、 立定跳 远等测试项目 进行《 学生体质健康标准( 试行方案) 》 ( 简称 《 老标准》 ) 与 《 国家学生体质健康标准》 ( 简称《 新标准》 ) 的 评 价比 较, 探讨了 《 新标准》 在测试项目 、 权重系数、 评价等级、 评分标准等方面的合理性与科学性。提出《 新标准》 中测试 内 容虽然丰富, 但选测项目 仍然分类不清问题。文献[ 3 ] 以 广东省部分高校学生为调查对象和测试对象, 通过问卷调查 和实验方法, 探讨影响 《 国家学生体质健康标准》 测试结果的 主 客观因 素问 题。 文献[ 4 ] 对江 南大学学生体质健康标准测 试指标进行了 三学年跟踪研究, 提出了体质健康标准成绩总 体呈偏态分布、 评分结 果明显偏高问题。 其它研究者如文献
1 0 7
根据属性 A的这种划分的期望信息称为属性 A的熵
E ( A ) =∑

属性数据分析资料

属性数据分析资料

属性数据分析一属性变量和属性数据通常所指属性数据(categorical data),是说反映事物属性的数据,也称为定性数据或类别数据,它是属性变量取的值。

属性变量可能是表示事物属性,取值为事物属性的量反映事物的客观属性,例如变量“性别”取值为男,女;又如变量是中医所分人的体质,取值为平和,气虚,阳虚,阴虚,瘀血,痰湿,湿热,气郁,特凛。

对事物表态的量表达人们主观对事物的评论,例如变量是“某人对某个政策的态度”,取值是赞成,中立和反对;又如变量是“人对医疗效果的评价”,取值为特好,好,一般,差,很差。

区间值变量取值为多个互不重叠区间:例如变量是“顾客的购买水平”,取值分为[0,100),[100,200),[200,300)和300以上。

“属性变量”是反映事物的客观属性或对事物表态,以及区间值变量,它是一种变量,它取的值之间不能做加,减,乘,除等运算,而且所取的值只能是有限个,属性变量取的值也称为属性变量的“水平”。

二属性数据表示形式属性变量有4种表示形式:原始属性变量形式、指示变量形式(调查数据常用)、频数形式和列联表。

例1 某连锁超市要检验商品销售情况与陈列方式是否相关,随机抽取了10家门店,分别以C B A 、、共3种方式陈列(即第一个属性变量是“陈列方式”,取值A 、B 、C ),各门店销售情况分为 “high ”及“low ”两类(即第二个属性变量是“销量”,取值“high ”和“low ”)。

这两个属性变量的统计资料4种形式如下:属性变量形式的样本是把各个属性变量的1次观测值排成1行;例如例1中属性变量“销量”和“排列方式”的第1个观测值(第1个门店)的观测值是“high ”和“B ”,就把“high ”、“B ”排在第一行,见下表表 超市数据属性变量形式指示变量形式是列出各个属性变量的所有值,对每个值建立一个变量,例如例1中两个属性变量取值“high ”、“low ”、“A ”、“B ”、“C ”;建立5个指示变量:sl ,sh,ma,mb,mc.每次观测中,属性变量的哪个值出现了,就在对应列中用1表示,否则用0表示;例如对于超市数据建立5个变量后:sh 表示变量销售额高,sl 表示变量销售额低,ma 表示排列方式是A ,mb并表示排列方式是B,mc表示排列方式是C。

相关性分析方法(Pearson、Spearman)

相关性分析方法(Pearson、Spearman)

相关性分析⽅法(Pearson、Spearman)
有时候我们根据需要要研究数据集中某些属性和指定属性的相关性,显然我们可以使⽤⼀般的统计学⽅法解决这个问题,下⾯简单介绍两种相关性分析⽅法,不细说具体的⽅法的过程和原理,只是简单的做个介绍,由于理解可能不是很深刻,望⼤家谅解。

1、Pearson相关系数
最常⽤的相关系数,⼜称积差相关系数,取值-1到1,绝对值越⼤,说明相关性越强。

该系数的计算和检验为参数⽅法,适⽤条件如下:(适合做连续变量的相关性分析)
(1)两变量呈直线相关关系,如果是曲线相关可能不准确。

(2)极端值会对结果造成较⼤的影响
(3)两变量符合双变量联合正态分布。

2、Spearman秩相关系数
对原始变量的分布不做要求,适⽤范围较Pearson相关系数⼴,即使是等级资料,也可适⽤。

但其属于⾮参数⽅法,检验效能较Pearson系数低。

(适合含有等级
变量或者全部是等级变量的相关性分析)
3、⽆序分类变量相关性
最常⽤的为卡⽅检验,⽤于评价两个⽆序分类变量的相关性。

根据卡⽅值衍⽣出来的指标还有列联系数、Phi、Cramer的V、Lambda系数、不确定系数等。

OR、RR也是衡量两变量之间的相关程度的指标。

卡⽅检验⽤于检验两组数据是否具有统计学差异,从⽽分析因素之间的相关性。

卡⽅检验有pearson卡⽅检验,校正检验等,不同的条件下使⽤不同的卡⽅检验⽅
法,⽐如说满⾜双⼤于(40,5)条件的情况下要使⽤pearson卡⽅检验⽅法,另外的情况下要使⽤校正卡⽅检验⽅法。

说的不多,只是想在⼤家使⽤相关⽅法的时候清楚他们之间的差别,以及不同⽅法的适⽤条件是什么。

探究游戏角色属性的分析方法

探究游戏角色属性的分析方法

探究游戏角色属性的分析方法在许多电子游戏中,角色属性是游戏设计的重要组成部分,它决定了玩家在游戏中所扮演角色的能力和特点。

在游戏中,角色属性往往包括力量、敏捷、耐力、智力、精神等多个方面,而玩家可以根据自己的游戏风格和喜好选择不同属性的角色来进行游戏。

对于游戏角色属性的分析方法,不仅对游戏设计师和开发者具有重要意义,也对玩家有着实际的指导作用。

一、收集数据在分析游戏角色属性之前,首先需要收集大量的数据。

数据来源可以包括游戏内部的角色属性数值、玩家游戏数据、以及相关的游戏论坛、社交媒体等平台上的玩家讨论和意见。

通过数据的收集,可以更加全面地了解玩家对于不同角色属性的偏好和评价,同时也可以发现玩家在游戏中的实际行为和选择。

二、建立模型通过收集的大量数据,可以建立游戏角色属性的分析模型。

模型的建立可以采用数学统计方法,例如回归分析、因子分析等,来挖掘角色属性之间的关联性和影响因素;也可以采用机器学习方法,例如神经网络、决策树等,来发现玩家对于不同角色属性的偏好和行为模式。

建立模型的目的在于对游戏角色属性进行更加深入和全面的分析,可以帮助游戏设计师和开发者更好地了解玩家的需求和喜好。

三、游戏设计通过建立的模型,游戏设计师和开发者可以根据玩家的喜好和行为模式,进行游戏角色属性的设计和调整。

在游戏设计中,可以通过增加或减少特定属性的数值,改变不同属性之间的关联性,或者设计特定游戏关卡和任务来强化或削弱特定属性的影响。

通过这种游戏设计的方式,可以提高游戏的可玩性和趣味性,吸引更多玩家的参与和喜欢。

四、玩家指导对于玩家来说,了解角色属性的分析方法可以帮助他们更好地选择和搭配自己喜欢的游戏角色。

通过了解游戏设计师和开发者对于角色属性的设计理念和玩家的需求,可以让玩家在游戏中更加有针对性地进行角色属性的选择和培养。

玩家也可以通过角色属性的分析方法,更好地理解游戏系统和规则,提高自己在游戏中的竞技和娱乐水平。

探究游戏角色属性的分析方法

探究游戏角色属性的分析方法

探究游戏角色属性的分析方法游戏角色属性是玩家在游戏中控制角色的重要组成部分,不同的角色属性会影响游戏玩法和策略选择。

如何进行有效的游戏角色属性分析,成为了许多游戏研究者和玩家关心的话题。

本文将围绕这一话题展开探讨,探究游戏角色属性的分析方法,以期为游戏玩家和研究者提供一些思路和方法。

一、游戏角色属性的基本概念游戏角色属性是指游戏中不同角色所具备的一些基本特性,例如生命值、攻击力、防御力、速度等。

这些属性通常会影响角色在游戏中的表现,也是玩家在选择和控制角色时需要进行考虑的因素。

在许多游戏中,角色属性的不同组合会导致不同的游戏体验,因此对游戏角色属性进行分析是十分重要的。

1. 统计分析法统计分析法是一种通过数据统计和分析来研究游戏角色属性的方法。

通过对游戏中所有角色的属性数据进行收集和整理,可以得到不同属性的平均值、标准差等统计指标,进而了解不同角色属性的分布情况和变化规律。

这对于玩家在选择角色时可以提供一些客观的参考信息,也对于游戏研究者进行游戏平衡性分析和角色设计提供了数据支持。

实证分析法是一种通过实际游戏操作和实验来观察和分析游戏角色属性的方法。

通过组织实验和对比不同角色的属性表现,可以得到一些实际的游戏体验和结果。

这对于玩家来说可以帮助他们更加直观地了解不同角色的属性影响,对于游戏设计者来说可以帮助他们更好地调整和优化角色属性设计。

3. 专家评审法专家评审法是一种通过专家意见和经验来评价游戏角色属性的方法。

游戏中的角色设计者、玩家和研究者等都可以被视为专家,他们可以通过自己的经验和知识对游戏角色属性进行评价和建议。

通过专家评审,可以得到一些深入的、专业的意见,有助于完善游戏角色属性设计。

4. 用户调查法用户调查法是一种通过问卷调查和用户反馈来了解游戏角色属性的方法。

通过向大量游戏玩家收集用户反馈和意见,可以得到一些广泛的、多样的意见和建议。

这对于游戏开发者来说是一种了解用户需求和喜好的重要手段,可以帮助他们更好地满足玩家的需求,提高游戏的品质。

属性分析报告

属性分析报告

属性分析报告1. 引言属性分析是一种将样本数据中的各种属性进行深入研究和分析的方法。

通过属性分析,我们可以发现不同属性之间的关联性,从而更好地了解数据的特点和规律。

本报告将对属性分析的概念、方法和应用进行详细介绍,并以实例进行说明。

2. 属性分析概述属性分析是数据分析的重要组成部分,它对于理解数据的特点和规律具有至关重要的作用。

属性分析主要通过以下几个步骤进行:1.收集数据:首先,需要收集样本数据,确保数据的真实性和完整性。

2.数据清洗:对收集到的数据进行清洗,包括去除重复值、处理缺失值、处理异常值等。

3.属性选取:根据分析的目的,选择相应的属性进行分析。

4.属性关联性分析:通过统计方法、数据挖掘等技术手段,分析不同属性之间的关联性。

5.结果呈现:将分析结果以可视化的方式展示出来,以便更好地理解数据的特点和规律。

3. 属性分析方法属性分析可以采用多种方法进行,根据不同的数据类型和分析目的,选择相应的方法进行分析。

常用的属性分析方法包括:1.描述性统计分析:描述性统计分析是对数据进行表述和总结的方法,它可以通过计算中心趋势、离散程度、分布特征等指标,对数据进行全面的描述和概括。

2.相关性分析:通过计算不同属性之间的相关系数,可以分析不同属性之间的关联程度。

常用的相关系数包括皮尔逊相关系数、斯皮尔曼相关系数等。

3.回归分析:回归分析可以找出自变量和因变量之间的关系,通过建立回归模型,可以预测因变量的取值。

4.聚类分析:聚类分析是将数据按照某种相似性指标进行分类的方法,通过分析不同属性之间的聚类情况,可以发现数据的内在特点和规律。

5.主成分分析:主成分分析是一种降维技术,通过线性变换将原始的属性空间转换为新的属性空间,从而减少属性的数量,并保留数据的主要特征。

4. 属性分析应用属性分析在各个领域都有广泛的应用,下面以几个实例说明属性分析的应用场景:4.1 金融领域在金融领域,属性分析可以帮助银行进行风险评估和信用评级。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

在机器学习、统计学、模糊逻辑和粗糙集等领域提出了许多属性相关分析的方法。

属性相关分析的基本思想就是针对给定的数据集或概念,对相应属性进行计算已获得(描述属性相关性)的若干属性相关参量。

这些参量包括:信息增益、Gini 值、不确定性和相关系数等。

采用属性相关分析方法,以帮助滤去统计无关或弱相关的属性并保留(与挖掘任务)最相关的属性。

包含属性(维)相关分析的定性概念描述就称为分析定性概念描述(analytical characterization )。

包含属性(维)相关分析的对比定性概念描述也就称为分析对比定性概念描述(analytical comparison)。

直观上讲,若一个属性(维)的取值可以帮助有效地区分不同类别的数据集(class ,那么这个属性(维)就被认为是与相应类别数据集密切相关的。

例如:一个汽车的颜色不太可能用于区分贵贱汽车(类别);但是汽车的型号、品牌、风格可能是更相关的属性。

此外即使同一个属性(维),其不同抽象层次的概念对不同类别数据集的分辨能力也不同。

例如:在出生日期(birth date)维中,birth day 和birth month 都不太可能与雇员的工资相关;而只有birth decade(年龄)可能与雇员的工资相关。

这也就意味着属性(维)相关分析应该在多层次抽象水平上进行,只有最相关的那个层次的属性(维)应被包含到数据分析中。

当属性相关分析应用在聚类算法时,它根据数据在每个属性上的分布情况来删除稀疏的属性和数据,最终达到降维和缩小数据集的目的;当属性相关分析应用在离群数据挖掘时,它根据数据在每个属性上的稀疏程度删除稠密的属性和数据,通过删除稠密属性和数据,也能达到降维和缩小数据集的目的。

利用属性相关分析,首先,可以删除在所有维组合中都处于稠密区域的数据,由于这些数据不可能出现在稀疏区域内,因此他们也不可能出现在离群子空间中;第二,利用属性相关分析删除不相关属性,不相关属性是指在这个属性中所有的数据都分布在稠密区域内,容易知道由稠密区域构成的维不可能成为构成离群子空间的维,因此,不相关属性可以删除。

关于属性相关分析,在机器学习、统计、模糊和粗糙集理论等方面都有许多研究。

属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。

这种度量包括信息增益、Gini 索引、不确定性和相关系数。

这里,我们介绍一种方法,它将信息增益分析技术(诸如在学习决策树 ID3 和C4.5 算法中提供的 )和基于多维数据分析的方法集成在一起。

该方法删除信息量较少的属性,收集信息量较多的属性,用于概念描述分析。

信息增益计算如何工作?
设 S 是训练样本的集合,其中每个样本的类标号是已知的。

事实上,每个样本是一个元组,一个属性用于确定训练样本的类。

例如,属性 status 可以用于定义每个样本的类标号或者是“graduate”,或者是“undergraduate”。

假定有 m 个类。

设 S 包含 si 个 Ci 类样本,i = 1, ..., m 。

一个任意样本属于类 Ci 的可能性是 si / s ,其中s 是集合S 中对象的总数。

对一个给定的样本分类所需的期望信息是:
∑=-=m i S S
i m i S S s s s I 1221log ),...,,(
具有值{a1,a2,...,av}的属性 A 可以用来将 S 划分为子集{ S1,S2,...,Sv },其中,Sj 包含 S 中A 值为 aj 的那些样本。

设 Sj 包含类 Ci 的sij 个对象。

根据 A 的这种划分的期望信息称作 A 的熵。

它是加权平均:
∑=++++=v j mj j mj j s s I s s s A E 111)...(...)(
A 上该划分的信息增益定义为 :
)(),...,()(21A E s s s I A Gain m -=
在这种相关分析方法中,我们可以计算定义 S 中样本的每个属性的信息增益。

具有最高信息增益的属性是给定集合中具有最高区分度的属性。

通过计算信息增益,我们可以得到属性的秩评定。

这种秩评定可用于相关分析,选择用于概念描述的属性。

概念描述的属性相关分析执行步骤如下:
1. 数据收集:通过查询处理,收集目标类和对比类的数据。

对于类比较,目标类和对比类都由用户在数据挖掘查询中提供。

对于类特征,目标类是要特征化的类,而对比类是不在目标类中的可比较数据。

2. 使用保守的 AOI 进行预相关分析:这一步识别属性和维的集合,选择的相关性度量用于它们。

由于维的不同层次对于给定的类具有很不相同的相关性,原则上,定义维概念层的每个属性都应当包含在相关分析中。

通过删除或泛化具有大量不同值的属性(如,name 和 phone ),面向属性的归纳(AOI )可以用来进行一些预相关分析。

对于概念描述,具有大量的不同值的属性多半没有意义。

保守一点,这里进行的 AOI 使用的属性分析阈值要合理的大,使得更多的(但非所有的)属性在进一步相关分析(下面的步骤 3)中被考虑。

这样使用 AOI 得到的关系称作挖掘任务的候选关系。

3. 使用选定的相关分析度量删除不相关和弱相关属性:使用选定的相关分析度量,评估候选关系中的每个属性。

此步所用的相关性度量可以建立在数据挖掘系统中,或由用户提供。

例如,可以使用上面介绍的信息增益度量。

根据计算的属性与数据挖掘任务的相关性,对属性排序(即确定秩)。

然后删除与类描述任务不相关或弱相关的属性。

可以设置一个阈值来定义“弱相关”。

其结果为初始目标类工作关系和初始对比类工作关系。

4. 使用 AOI 产生概念描述:使用一组不太保守的属性泛化阈值进行 AOI 。

如果类描述任务是类特征,这里只包含初始目标类工作关系。

如果类描述任务是类比较, 初始目标类工作关系和初始对比类工作关系都要包含在分析中。

基于改进光流和HMM 的人脸表情识别研究
本文利用特征化与比较中所用的属性相关分析成功对人脸表情特 征子区域进行了相关性分析,对多个子区域特征进行了相关度由高到底的排序, 从众多特征中做出了选择。

在判断一个样本属于哪个类时,用这个样本或类的属性(特征)判断,但是一般样本或类有多个属性,对于我们来说,确定哪些属性应该包含在类特征分析中是比较困难的。

如果包含的属性太少,会造成特征不完整;如果包含的属性太多,也会降低系统的性能,甚至加入干扰信息。

我们希望对任何一个样本以属性值分类,现在的问题是选择哪些属性作为分类属性。

属性分析就是要解决这一类问题。

属性的相关性要根据属性区分一个类和其他类的能力来评估。

属性相关分析的基本思想是计算某种度量,用于量化属性与给定类或概念的相关性。

这种度量有很多,如信息增益、Gini 索引、不确定性和相关系数等。

选择一个样本空间S ,根据已有的知识给每一个样本赋予一个类标号。

设共有m 个类m i C i ,...,2,1,=,样本有属性D C B A ,,,等等,我们希望对任何一个样本以属性分类。

在样本数很大时一个任意样本属于类i C 的可能性是s s i /,其中s 是集合S 中对象的总数。

对一个给定的样本分类所需的期望信息是: ∑=-=m i S S
i m i S S s s s I 1221log ),...,,(
属性A 可以依据值},...,,{21v a a a 在样本空间上产生一个划分,设将S 划分为v 个子集},...,,{21v S S S ,其中,j s 包含S 中A 值为j a 的那些样本。

设j s 包含类i C 的ij S 个样本。

根据A 的这种划分的期望信息称作A 的熵。

它是加权平均:
∑=++++=v j mj j mj j s s I s s s A E 111)...(...)(
A 上该划分的获得的信息增益定义为:
)(),...,()(21A E s s s I A Gain m -=
运用这种相关性分析方法,我们可以计算出定义S 中样本的每一个属性的信息增益。

具有最高信息增益的属性是具有最高区分度的属性。

通过计算信息增益,可以得到属性的秩评定。

这种秩评定可用于相关分析,选择用于概念描述的属性。

将上文中检测出的特征子区域作为属性,在这些属性中要挖掘出具有较好区分度的属性,分别计算各个子区域特征的信息增益,从而对每个属性按此划分的信息增益排序可得每个属性的区分能力由大到小的排列顺序。

具体步骤为选择若干组表情序列表情变化最为显著时的图片,分别测量各子区域的属性值如嘴部子区域可测量嘴长、嘴宽等。

接着计算每个属性值的熵,进而得到期望信息以及信息增益。

信息增益可以作为特征向量构造时各子区域的权值。

眉眼区域和嘴部区域为最典型的部分,这些区域的选取是基于表情的度量结果,他们被证明是变化最显著的区域。

综合以上分析,本文在将眉眼、嘴部、额 头和腮部区域独立的划分出来。

相关文档
最新文档