基于特征选择的大数据集分析

REGION INFO 数字地方

摘要：随着高科技和网络技术的不断发展，社会已经进入了大数据时代。论文指出，相比以往，现如今全球信息总量呈爆发式增长，速度达到每两年翻番。面对如此大规模的数据信息，如何对它们进行管理和分析已是当务之急，为保证分析结论的准确性和有效性，数据质量不容忽视，它是构架数据仓库的重要组成部分，是分析结果的重要前提。

关键词：特征选择；大数据；数据分析

一、大数据引发的改变

（一）大数据的内涵。人们常用四个“V”来简单描述大数据的四个主要特点，即：多样性、体量、速度、价值。多样性指的是大数据的数据类型各异，可分为结构性和非结构性；体量指的是数据数量，要想得到可靠结果，必须有大量的分析数据做依托；速度指的是数据处理能力必须很强，所用时间必须很短；价值指的是大数据的商业发展前景广阔。

（二）大数据主要来源。大数据信息主要来自四个方面，一是国家信息统计得出的数据，比如国家统计局、安全局等通过互联网实时获得的各种信息，包含日常生活、国防安全、国际政治、经济发展、社会安全等；二是各企业自身的日常经营数据信息，比如淘宝、京东等交易信息；三是人们购买商品的物流信息，四是人人之间的日常沟通信息，如微信、微博等。

（三）大数据赋予我们预测未来的能力——数据分析。数据分析有着非常强大的作用，它不仅对国家的发展指明了方向，同时对企业洞悉市场走向，明确客户要求提供了数据保障。数据分析最重要的就是对数据质量进行研究，这就要求数据信息必须完整无断层，信息前后一致无相悖，信息传达及时并准确无误，只有满足这些特点，得出的结论才有说服力[1]。

一般来说，数据分析按层次来分共有五种，一是将数据直截了当进行展示，简单直观得出结论；二是利用计算机算法对数据进行整理得出结论；三是利用语义分析，对数据信息进行整理归类得出结论；四是对数据信息进行有把握预测得出结论；五是对数据信息进行资料化管理得出结论。

二、大数据的发展

（一）大企业的技术战略。大数据是电子信息化技术进步的完美体现。如托夫勒《第三次浪潮》中所述，IBM的主机吹响了信息化革命的号角，“大数据”则奏响了第三次浪潮的乐章。

（二）大数据适用范围

1.?Bloom?filter。适用范围：主要应用于三方面，一是充当词典角色；二是判断数据的重复性；三是找出集合中的相交数据。

2.?Hashin。适用范围：搜索、查找、删除相关数据。

3.堆。适用范围:海量数据前n大，并且n比较小，堆可以放入内存。

4.数据库索引。适用范围：大范围数据的修改。

5.外排序。活用范围：对数据信息按一定规则进行排列并减少重复信息。

6.?trie树。适用范围:数据信息非常多，相似性高，但种类小可以放入内存。

7.分布式处理mapreduce。适用范围:数据信息内容丰富，但是效据种类小可以放入内存。

（三）数据分析的杀手锏

1.模块化EMC?Appliance?处理多种数据类型。随着科技不断进步，EMC又推出了新的软件工具来应用在Greenplum?SQL/数据库中，比如Hadoop软件工具和模块化DCA。与此同时，在相同设备里面，Hadoop部署也将得到应用。通过Hadoop，EMC彻底解决了许多大数据分析方面的难题比如网络点击数据、非结构数据，模块化DCA因其对数据存储容量大，保留时间长，所以对相关设备起到监测作用。

2.?Hadoop和MapReduce提炼大数据。Hadoop是一个大规模数据处理框架，它的作用主要是对那些结构化、半结构化或者非结构化的大数据进行储存和计算，以便为人们所利用。它被广泛应用在网络世界中的日常社交活动，而MapReduce是解决大数据相关问题的重要途径，它的解决过程是将一个大问题划分成若干小问题，这些小问题随之对应到相应的节点上进行处理计算，然后对所有的计算结果进行汇总得出结论。

3.?IEM提供运维和分析数据仓库。因具有扩展能力强的特点，Smart?Analytic?System被广泛应用在各行各业。例如呼叫中心一般是聘请许多工作人员来处理大量客户的电话反馈，他们利用Smart?Analytic?System，形成DB2数据库，再加上之前配备好的Cognos?BI模块，在RISC上计算得到结论。

三、结语

大数据分析意义深远，它不仅对国家发展起到积极作用，同时也是各个企业在市场竞争中脱颖而出的重要因素，根据大数据分析结论，政府部门可以更好的为其日后各方面建设提供强有力的数据支持，少走弯路错路，使社会环境更好更快地向前发展，人民生活更加富足。H

参考文献

[1]李玲俐.数据挖掘中分类算法综述[J].重庆师范大学学报:自然科学版,2011,28(4):44-47.

（基金项目：江苏省计划生育科学技术研究所自主科研项目（B M2018033）；孕前健康检查数据挖掘特征选择研究（X2017005））（作者单位：江苏省计划生育科学技术研究所）

基于特征选择的大数据集分析

徐宁许豪勤张磊

◆

信息系统工程 │ 2019.1.20

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

浅议灰色关联度分析方法及其应用

科技信息 SCIENCE&TECHNOLOGY INFORMATION 2010年第17期 1关联度的概念关联度是事物之间、因素之间关联性大小的量度。它定量地描述了事物或因素之间相互变化的情况，即变化的大小、方向与速度等的相对性。如果事物或因素变化的态势基本一致，则可以认为它们之间的关联度较大，反之，关联度较小。对事物或因素之间的这种关联关系，虽然用回归、相关等统计分析方法也可以做出一定程度的回答，但往往要求数据量较大、数据的分布特征也要求比较明显。而且对于多因素非典型分布特征的现象，回归相关分析的难度常常很大。相对来说，灰色关联度分析所需数据较少，对数据的要求较低，原理简单，易于理解和掌握，对上述不足有所克服和弥补。 2关联度的计算灰色关联度分析的核心是计算关联度。一般说来，关联度的计算首先要对原始数据进行处理，然后计算关联系数，由此就可计算出关联度。 2.1原始数据的处理由于各因素各有不同的计量单位，因而原始数据存在量纲和数量级上的差异，不同的量纲和数量级不便于比较，或者比较时难以得出正确结论。因此，在计算关联度之前，通常要对原始数据进行无量纲化处理。其方法包括初值化、均值化等。 2.1.1初值化。即用同一数列的第一个数据去除后面的所有数据，得到一个各个数据相对于第一个数据的倍数数列，即初值化数列。一般地，初值化方法适用于较稳定的社会经济现象的无量纲化，因为这样的数列多数呈稳定增长趋势，通过初值化处理，可使增长趋势更加明显。比如，社会经济统计中常见的定基发展指数就属于初值化数列。 2.1.2均值化。先分别求出各个原始数列的平均数，再用数列的所有数据除以该数列的平均数，就得到一个各个数据相对于其平均数的倍数数列，即均值化数列。一般说来，均值化方法比较适合于没有明显升降趋势现象的数据处理。 2.2计算关联系数设经过数据处理后的参考数列为： {x0(t)}＝{x01，x02，…，x0n} 与参考数列作关联程度比较的p个数列(常称为比较数列)为： {x1(t)，x2(t)，…，x p(t)}＝ x11x12…x1n x21x22…x2n ………… x p1x p2…x pn 上式中，n为数列的数据长度，即数据的个数。从几何角度看，关联程度实质上是参考数列与比较数列曲线形状的相似程度。凡比较数列与参考数列的曲线形状接近，则两者间的关联度较大；反之，如果曲线形状相差较大，则两者间的关联度较小。因此，可用曲线间的差值大小作为关联度的衡量标准。将第k个比较数列(k＝1，2，…，p)各期的数值与参考数列对应期的差值的绝对值记为： Δok(t)=x0(t)-x k(t)t＝1，2，…，n 对于第k个比较数列，分别记n个Δok(t)中的最小数和最大数为Δok(min)和Δok(max)。对p个比较数列，又记p个Δok(min)中的最小者为Δ(min)，p个Δok(max)中的最大者为Δ(max)。这样Δ(min)和Δ(max)分别是所有p个比较数列在各期的绝对差值中的最小者和最大者。于是，第k个比较数列与参考数列在t时期的关联程度(常称为关联系数)可通过下式计算： ζok(t)=Δ(min)+ρΔ(max) ok 式中ρ为分辩系数，用来削弱Δ(max)过大而使关联系数失真的影响。人为引入这个系数是为了提高关联系数之间的差异显著性。0＜ρ＜1。可见，关联系数反映了两个数列在某一时期的紧密程度。例如，在使Δok(t)＝Δ(min)的时期，ζok(t)＝1，关联系数最大；而在使Δok(t)＝Δ(max)的时期，关联系数最小。由此可知，关联系数变化范围为0＜ζok(t)≤1。显然，当参考数列的长度为n时，由p个比较数列共可计算出n×p个关联系数。 2.3求关联度由于每个比较数列与参考数列的关联程度是通过n个关联系数来反映的，关联信息分散，不便于从整体上进行比较。因此，有必要对关联信息作集中处理。而求平均值便是一种信息集中的方式。即用比较数列与参考数列各个时期的关联系数之平均值来定量反映这两个数列的关联程度，其计算公式为： r ok=1 n n i=1 Σζok(t) 式中，r ok为第k个比较数列与参考数列的关联度。不难看出，关联度与比较数列、参考数列及其长度有关。而且，原始数据的无量纲化方法和分辩系数的选取不同，关联度也会有变化。 2.4排关联度由上述分析可见，关联度只是因素间关联性比较的量度，只能衡量因素间密切程度的相对大小，其数值的绝对大小常常意义不大，关键是反映各个比较数列与同一参考数列的关联度哪个大哪个小。当比较数列有p个时，相应的关联度就有p个。按其数值的大小顺序排列，便组成关联序。它反映了各比较数列对于同一参考数列的“主次”、“优劣”关系。灰色关联度分析方法的运用之一，就是因素分析。在实际工作中，影响一个经济变量的因素很多。但由于客观事物很复杂，人们对事物的认识有信息不完全性和不确定性，各个因素对经济总量的影响作用不是一下子就能够看清楚的，需要进行深入的研究，这就是经济变量的因素分析。运用灰色关联度进行因素分析是非常有效的，而且特别适用于各个影响因素和总量之间不存在严格数学关系的情况。例1：利用关联度分析方法研究某公路施工企业工资序列（表1）。表1某公路施工企业工资序列表单位：千元根据表1中数据，以工资总额为参考数列x0(t)，以计时工资x1(t)、档案工资x2(t)和承包工资x3(t)为比较数列，计算三种工资对于工资总额的关联度。第一步，对各数列作均值化处理。工资总额和三种工资的均值分别为：浅议灰色关联度分析方法及其应用孙芳芳 (濮阳市公路管理局河南濮阳457000) 【摘要】灰色关联度是灰色数学中的一种方法，用来研究事物相互关联、相互作用的复杂因素的影响作用，确定影响事物的本质因素，使各种影响因素之间的“灰色”关系清晰化。本文介绍了灰色关联度在实际工作中的分析方法和步骤，为定量描述事物或因素之间相互变化的情况提供了理论依据。【关键词】灰色关联度；分析方法；综合评价；应用年份工资总额计时工资档案工资承包工资 200313974.23831.06587.23556.0 200415997.64228.07278.04491.6 200517681.35017.07717.44946.9 200620188.35288.69102.25797.5 200724020.35744.011575.26701.0 x i軃18372.34821.78450.05098.6○公路与管理○ 880

大数据复习提纲

1、线性判别函数的正负和数值大小的几何意义正（负）表示样本点位于判别界面法向量指向的正（负）半空间中；绝对值正比于样本点到判别界面的距离。 2、感知器算法特点收敛性：经过算法的有限次迭代运算后，求出了一个使所有样本都能正确分类的W，则称算法是收敛的。感知器算法是在模式类别线性可分条件下才是收敛的。感知器算法只对线性可分样本有收敛的解，对非线性可分样本集会造成训练过程的震荡，这也是它的缺点。 3、聂曼-皮尔逊判决准则、最小最大判决准则等区别聂曼-皮尔逊判决准则主要用于某一种判决错误较另一种判决错误更为重要情况；最小最大判别准则主要用于先验概率未知的情况。 4、马式距离较之于欧式距离的优点优点：马氏距离不受量纲的影响，两点之间的马氏距离与原始数据的测量单位无关。由标准化数据和中心化数据(即原始数据与均值之差）计算出的二点之间的马氏距离相同。马氏距离还可以排除变量之间的相关性的干扰。缺点：夸大了变化微小的变量的作用。受协方差矩阵不稳定的影响，马氏距离并不总是能顺利计算出。尺度不变性；考虑了模式的分布 5、关联规则的经典算法有哪些 Apriori 算法；FP-tree；基于划分的算法 Apriori算法、GRI算法、Carma 6、分类的过程或步骤答案一：ppt上的 1、模型构建（归纳）通过对训练集合的归纳，建立分类模型。 2、预测应用（推论）根据建立的分类模型，对测试集合进行测试。答案二：老师版本的训练样本的收集训练集的预处理、模型的选择、模型的训练（问老师后理解整理） 7、分类评价标准

1）正确率（accuracy）就是被分对的样本数除以所有的样本数，通常来说，正确率越高，分类器越好； 2）错误率（error rate) 错误率则与正确率相反，描述被分类器错分的比例，error rate = (FP+FN)/(P+N)，对某一个实例来说，分对与分错是互斥事件，所以 accuracy =1 - error rate； 3）灵敏度（sensitive） sensitive = TP/P，表示的是所有正例中被分对的比例，衡量了分类器对正例的识别能力； 4）特效度（specificity) specificity = TN/N，表示的是所有负例中被分对的比例，衡量了分类器对负例的识别能力；5）精度（precision）精度是精确性的度量，表示被分为正例的示例中实际为正例的比例， precision=TP/（TP+FP）；6）召回率（recall）召回率是覆盖面的度量，度量有多个正例被分为正例， recall=TP/(TP+FN)=TP/P= sensitive，可以看到召回率与灵敏度是一样的。正确率：它表示的预测结果正确比例。包括正例和负例。精确度：它表示的是预测是正例的结果中，实际为正例的比例。召回率：它表示的是实际为正例样本中，预测也为正例的比例。综合指标：F1=2*精确率*召回率/精确率+召回率，它实际上精确度和召回率的一个综合指标。 8、支持向量机及常见的核函数选择 SVM的目的是寻找泛化能力好的决策函数，即由有限样本量的训练样本所得的决策函数，在对独立的测试样本做预测分类时，任然保证较小的误差。本质：求解凸二次优化问题，能够保证所找到的极值解就是全局最优解。支持向量机的标准：使两类样本到分类面的最短距离之和尽可能大支持向量机基本思想：通过训练误差和类间宽度之间的权衡，得到一个最优超平面支持向量机是利用分类间隔的思想进行训练的，它依赖于对数据的预处理,即在更高维的空间表达原始模式。通过适当的到一个足够高维的非线性映射，分别属于两类的原始数据就能够被一个超平面来分隔。支持向量机的基本思想可以概括为：首先通过非线性变换将输入空间变换到一个高维空间，然后在这个新空间中求取最优线性分类面，而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络，其输出是若干中间层节点的线性组合，而每一个中间层节点对应于输入样本与一个支持向量的内积，因此也被叫做支持向量网络。

灰色关联分析(算法步骤)

灰色关联分析灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法，其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密，它反映了曲线间的关联程度[1]。灰色系统理论是由著名学者邓聚龙教授首创的一种系统科学理论(Grey Theory)，其中的灰色关联分析是根据各因素变化曲线几何形状的相似程度，来判断因素之间关联程度的方法。此方法通过对动态过程发展态势的量化分析，完成对系统内时间序列有关统计数据几何关系的比较，求出参考数列与各比较数列之间的灰色关联度。与参考数列关联度越大的比较数列，其发展方向和速率与参考数列越接近，与参考数列的关系越紧密。灰色关联分析方法要求样本容量可以少到4个，对数据无规律同样适用，不会出现量化结果与定性分析结果不符的情况。其基本思想是将评价指标原始观测数进行无量纲化处理，计算关联系数、关联度以及根据关联度的大小对待评指标进行排序。灰色关联度的应用涉及社会科学和自然科学的各个领域，尤其在社会经济领域，如国民经济各部门投资收益、区域经济优势分析、产业结构调整等方面，都取得较好的应用效果。 [2] 关联度有绝对关联度和相对关联度之分，绝对关联度采用初始点零化法进行初值化处理，当分析的因素差异较大时，由于变量间的量纲不一致，往往影响分析，难以得出合理的结果。而相对关联度用相对量进行分析，计算结果仅与序列相对于初始点的变化速率有关，与各观测数据大小无关，这在一定程度上弥补了绝对关联度的缺陷。[2] 灰色关联分析的步骤[2] 灰色关联分析的具体计算步骤如下：第一步：确定分析数列。确定反映系统行为特征的参考数列和影响系统行为的比较数列。反映系统行为特征的数据序列，称为参考数列。影响系统行为的因素组成的数据序列，称比较数列。设参考数列（又称母序列）为Y={Y(k) | k= 1,2,Λ,n}；比较数列（又称子序列）X i={X i(k) | k = 1,2,Λ,n},i= 1,2,Λ,m。第二步，变量的无量纲化由于系统中各因素列中的数据可能因量纲不同，不便于比较或在比较时难以得到正确的结论。因此在进行灰色关联度分析时，一般都要进行数据的无量纲化处理。

数据挖掘试题(单选)

单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 2. 以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision, Recall B. Recall, Precision A. Precision, ROC D. Recall, ROC 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 5. 什么是KDD？ (A) A. 数据挖掘与知识发现 B. 领域知识发现 C. 文档知识发现 D. 动态知识发现 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7. 为数据的总体分布建模；把多维空间划分成组等问题属于数据挖掘的哪一类任务？(B) A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 8. 建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 9. 用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法？ (D) A变量代换 B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？ (A) A 第一个 B 第二个 C 第三个 D 第四个 14.下面哪个不属于数据的属性类型：(D) A 标称 B 序数 C 区间 D相异 15. 在上题中，属于定量的属性类型是：(C) A 标称 B 序数 C区间 D 相异 16. 只有非零值才重要的二元属性被称作：( C )

大数据时代下的数据挖掘试题和答案及解析

A. 变量代换 B. 离散化海量数据挖掘技术及工程实践》题目、单选题(共 80 题) 1) ( D ) 的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A. 数据清洗 B. 数据集成 C. 数据变换 D. 数据归约 2) 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题 (A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3) 以下两种描述分别对应哪两种对分类算法的评价标准 (A) (a) 警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b) 描述有多少比例的小偷给警察抓了的标准。据相分离 (B) 哪一类任务 (C) A. 根据内容检索 B. 建模描述 7) 下面哪种不属于数据预处理的方法 (D) A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务 (C) 5) A. 频繁模式挖掘 C. 数据预处理 B. D. 当不知道数据所带标签时，分类和预测数据流挖掘可以使用哪种技术促使带同类标签的数据与带其他标签的数 6) A. 分类 C. 关联分析建立一个模型， B. D. 聚类隐马尔可夫链通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 C. 预测建模 D. 寻找模式和规则

C.聚集 D. 估计遗漏值 8) 假设12 个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时，15 在第几个箱子内(B) A. 第一个 B. 第二个 C. 第三个 D. 第四个 9) 下面哪个不属于数据的属性类型：(D) A. 标称 B. 序数 C.区间 D. 相异 10) 只有非零值才重要的二元属性被称作：( C ) A. 计数属性 B. 离散属性 C.非对称的二元属性 D. 对称属性 11) 以下哪种方法不属于特征选择的标准方法：(D) A. 嵌入 B. 过滤 C.包装 D. 抽样 12) 下面不属于创建新属性的相关方法的是：(B) A. 特征提取 B. 特征修改 C. 映射数据到新的空间 D. 特征构造 13) 下面哪个属于映射数据到新的空间的方法(A) A. 傅立叶变换 B. 特征加权 C. 渐进抽样 D. 维归约 14) 假设属性income 的最大最小值分别是12000元和98000 元。利用最大最小规范化的方法将属性的值映射到0 至 1 的范围内。对属性income 的73600 元将被转化为：(D) 15) 一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130 人，四年级110 人。则年级属性的众数是：(A) A. 一年级 B. 二年级 C. 三年级 D. 四年级 16) 下列哪个不是专门用于可视化时间空间数据的技术：(B) A. 等高线图 B. 饼图

灰色关联分析

2 灰色关联分析方法在实际问题中，许多因素之间的关系是灰色的，人们很难分清哪些因素是主导因素，哪些因素是非主导因素；哪些因素之间关系密切，哪些不密切。灰色关联分析，为我们解决这类问题提供了一种行之有效的方法。一、灰色关联分析概述我们知道，统计相关分析是对因素之间的相互关系进行定量分析的一种有效方法。但是，我们也注意到相关系数具这样的性质： xy yx r r =，即因素y 对因素x 的相关程度与因素x 对因素y 的相关程度相等。暂且不去追究因素之间的相关程度究竟有多大。单就相关系数的这种性质而言，也是与实际情况不太相符的。譬如，在国民经济问题研究中，我们能将农业对工业的关联程度与工业对农业的关联程度等同看待吗？其次，由于地理现象与问题的复杂性，以及人们认识水平的限制，许多因素之间的关系是灰色的，很难用相关系数比较精确地度量其相关程度的客观大小。为了克服统计相关分析的上述种种缺陷，灰色系统理论中的灰色关联分析给我们提供了一种分析因素之间相互关系的又一种方法。灰色关联分析，从其思想方法上来看，属于几何处理的范畴，其实质是对反映各因素变化特性的数据序列所进行的几何比较。用于度量因素之间关联程度的关联度，就是通过对因素之间的关联曲线的比较而得到的。设x 1，x 2，…，x N 为N 个因素，反映各因素变化特性的数据列分别为｛x 1(t)｝，｛x 2(t)｝，…｛x N (t)｝，t=1，2，…，M 。因素j x 对i x 的关联系数定义为 min max max ()1,2,3,,(1)()ij ij k t t M t k ξ?+?= =?+? (5)式中，ξij (t)为因素j x 对i x 在t 时刻的关联系数； max min ()|()()|,max max (),min min ();ij i j ij ij j j j j t x t x t t t ?=-?=??=?k 为介于[0，1]区间上的灰数。不难看出，△ij (t)的最小值是min ?，

数据分析的特征选择实例分析

数据分析的特征选择实例分析 1.数据挖掘与聚类分析概述数据挖掘一般由以下几个步骤： (l)分析问题:源数据数据库必须经过评估确认其是否符合数据挖掘标准。以决定预期结果，也就选择了这项工作的最优算法。 (2)提取、清洗和校验数据:提取的数据放在一个结构上与数据模型兼容的数据库中。以统一的格式清洗那些不一致、不兼容的数据。一旦提取和清理数据后，浏览所创建的模型，以确保所有的数据都已经存在并且完整。 (3)创建和调试模型:将算法应用于模型后产生一个结构。浏览所产生的结构中数据，确认它对于源数据中“事实”的准确代表性，这是很重要的一点。虽然可能无法对每一个细节做到这一点，但是通过查看生成的模型，就可能发现重要的特征。 (4)查询数据挖掘模型的数据:一旦建立模型，该数据就可用于决策支持了。 (5)维护数据挖掘模型:数据模型建立好后，初始数据的特征，如有效性，可能发生改变。一些信息的改变会对精度产生很大的影响，因为它的变化影响作为基础的原始模型的性质。因而，维护数据挖掘模型是非常重要的环节。聚类分析是数据挖掘采用的核心技术，成为该研究领域中一个非常活跃的研究课题。聚类分析基于”物以类聚”的朴素思想，根据事物的特征，对其进行聚类或分类。作为数据挖掘的一个重要研究方向，聚类分析越来越得到人们的关注。聚类的输入是一组没有类别标注的数据，事先可以知道这些数据聚成几簇爪也可以不知道聚成几簇。通过分析这些数据，根据一定的聚类准则，合理划分记录集合，从而使相似的记录被划分到同一个簇中，不相似的数据划分到不同的簇中。 2.特征选择与聚类分析算法 Relief为一系列算法，它包括最早提出的Relief以及后来拓展的Relief和ReliefF，其中ReliefF算法是针对目标属性为连续值的回归问题提出的，下面仅介绍一下针对分类问题的Relief和ReliefF算法。 2.1 Relief算法 Relief算法最早由Kira提出，最初局限于两类数据的分类问题。Relief算法是一种特征权重算法(Feature weighting algorithms)，根据各个特征和类别的相关性赋予特征不同的权重，权重小于某个阈值的特征将被移除。Relief算法中特征和类别的相关性是基于特征对近距离样本的区分能力。算法从训练集D中随机选择一个样本R，然后从和R同类的样本中寻找最近邻样本H，称为Near Hit，从和R不同类的样本中寻找最近邻样本M，称为NearMiss，然后根据以下规则更新每个特征的权重：如果R和Near Hit在某个特征上的距离小于R和Near Miss 上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，如果R和Near Hit 在某个特征的距离大于R和Near Miss上的距离，说明该特征对区分同类和不同类的最近邻起负面作用，则降低该特征的权重。以上过程重复m次，最后得到各特征的平均权重。特征的权重越大，表示该特征的分类能力越强，反之，表示该特征分类能力越弱。Relief算法的运行时间随着样本的抽样次数m和原始特征个数N的增加线性增加，因而运行效率非常高。具体算法如下所示：

灰色关联分析法原理及解题步骤教学提纲

灰色关联分析法原理及解题步骤

灰色关联分析法原理及解题步骤 ---------------研究两个因素或两个系统的关联度（即两因素变化大小,方向与速度的相对性）关联程度——曲线间几何形状的差别程度灰色关联分析是通过灰色关联度来分析和确定系统因素间的影响程度或因素对系统主行为的贡献测度的一种方法。灰色关联分析的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密 1>曲线越接近,相应序列之间的关联度就越大,反之就越小 2>灰色关联度越大，两因素变化态势越一致分析法优点它对样本量的多少和样本有无规律都同样适用,而且计算量小,十分方便,更不会出现量化结果与定性分析结果不符的情况。灰色系统关联分析的具体计算步骤如下 1》参考数列和比较数列的确定参考数列——反映系统行为特征的数据序列比较数列——影响系统行为的因素组成的数据序列 2》无量纲化处理参考数列和比较数列（1）初值化——矩阵中的每个数均除以第一个数得到的新矩阵

（2）均值化——矩阵中的每个数均除以用矩阵所有元素的平均值得到的新矩阵（3）区间相对值化 3》求参考数列与比较数列的灰色关联系数ξ（Xi）参考数列X0 比较数列X1、X2、X3…………… 比较数列相对于参考数列在曲线各点的关联系数ξ（i）称为关联系数，其中ρ称为分辨系数，ρ∈（0，1），常取0.5.实数第二级最小差，记为Δmin。两级最大差，记为Δmax。为各比较数列Xi曲线上的每一个点与参考数列X0曲线上的每一个点的绝对差值。记为Δoi(k)。所以关联系数ξ（Xi）也可简化如下列公式： 4》求关联度ri 关联系数——比较数列与参考数列在各个时刻（即曲线中的各点）的关联程度值，所以它的数不止一个，而信息过于分散不便于进行整体性比较。因此有必要将各个时刻

北邮_大数据技术课程重点总结

大数据技术 1.什么是数据挖掘，什么是机器学习：什么是机器学习关注的问题：计算机程序如何随着经验积累自动提高性能；研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能；通过输入和输出，来训练一个模型。 2.大数据分析系统层次结构：应用层、算法层、系统软件层、基础设施层 3.传统的机器学习流程预处理-》特征提取-》特征选择-》再到推理-》预测或者识别。手工地选取特征是一件非常费力、启发式（需要专业知识）的方法，如果数据被很好的表达成了特征，通常线性模型就能达到满意的精度。 4.大数据分析的主要思想方法 4.1三个思维上的转变关注全集（不是随机样本而是全体数据）：面临大规模数据时，依赖于采样分析；统计学习的目的——用尽可能少的数据来证实尽可能重大的发现；大数据是指不用随机分析这样的捷径，而是采用大部分或全体数据。关注概率（不是精确性而是概率）：大数据的简单算法比小数据的复杂算法更有效关注关系（不是因果关系而是相关关系）：建立在相关关系分析法基础上的预测是大数据的核心，相关关系的核心是量化两个数据值之间的数理关系，关联物是预测的关键。 4.2数据创新的思维方式可量化是数据的核心特征（将所有可能与不可能的信息数据化）；挖掘数据潜在的价值是数据创新的核心；三类最有价值的信息：位置信息、信令信息以及网管和日志。数据混搭为创造新应用提供了重要支持。数据坟墓：提供数据服务，其他人都比我聪明！数据废气：是用户在线交互的副产品，包括了浏览的页面，停留了多久，鼠标光标停留的位置、输入的信息。 4.3大数据分析的要素大数据“价值链”构成：数据、技术与需求（思维）；数据的价值在于正确的解读。

灰色关联分析法原理及解题步骤

数据挖掘试题

For personal use only in study and research; not for commercial use 单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3. 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 4. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6. 使用交互式的和可视化的技术，对数据进行探索属于数据挖掘的哪一类任务？（A） A. 探索性数据分析 B. 建模描述 C. 预测建模 D. 寻找模式和规则 11.下面哪种不属于数据预处理的方法？(D) A变量代换B离散化 C 聚集 D 估计遗漏值 12. 假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 13.上题中，等宽划分时（宽度为50），15又在哪个箱子里？(A) A 第一个 B 第二个 C 第三个 D 第四个 16. 只有非零值才重要的二元属性被称作：( C ) A 计数属性 B 离散属性C非对称的二元属性 D 对称属性 17. 以下哪种方法不属于特征选择的标准方法：(D) A嵌入 B 过滤 C 包装 D 抽样 18.下面不属于创建新属性的相关方法的是：(B) A特征提取B特征修改C映射数据到新的空间D特征构造 22. 假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A 0.821 B 1.224 C 1.458 D 0.716 23.假定用于分析的数据包含属性age。数据元组中age的值如下（按递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，30，33，33，35，35，36，40，45，46，52，70, 问题：使用按箱平均值平滑方法对上述数据进行平滑，箱的深度为3。第二个箱子值为：(A) A 18.3 B 22.6 C 26.8 D 27.9 28. 数据仓库是随着时间变化的,下面的描述不正确的是(C) A. 数据仓库随时间的变化不断增加新的数据内容; B. 捕捉到的新数据会覆盖原来的快照; C. 数据仓库随事件变化不断删去旧的数据内容; D. 数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合. 29. 关于基本数据的元数据是指: (D) A. 基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B. 基本元数据包括与企业相关的管理方面的数据和信息;

灰色关联度分析解法及详细例题解答

1.地梭梭生长量与气候因子的关联分析下表为1995年3年梭梭逐月生长量（X0）、月平均气温（X1）、月降水量（X2）、月日照（X3）时数和月平均相对湿度（X4）的原始数据，试排出影响梭梭生长的关联序，并找出主要的影响因子。灰色系统理论提出了灰色关联度的概念，它是提系统中两个因素关联性大小的量度，关联度的大小直接反映系统中的各因素对目标值的影响程度。运用灰色关联分析法进行因素分析的一般步骤为：第一步：确定分析数列。确定反映系统行为特征的参考数列和影响系统行为的比较数列。反映系统行为特征的数据序列，称为参考数列。（Y）设参考数列（又称母序列）为Y = {Y （k）| k = 1，2，Λ，n}；影响系统行为的因素组成的数据序列，称比较数列。（X）比较数列（又称子序列）Xi = {Xi（k）| k = 1,2,Λ,n}，i = 1，2，Λ，m。第二步，变量的无量纲化由于系统中各因素列中的数据可能因量纲不同，不便于比较或在比较时难以得到正确的结论。因此为了保证结果的可靠性，在进行灰色关联度分析时，一般都要进行数据的无量纲化处理。第三步，计算关联系数。X 0（k）与x i （k）的关联系数记，则，称为分辨系数。ρ越小，分辨力越大，一般ρ的取值区间为(0,1),具体

取值可视情况而定。当时，分辨力最好，通常取ρ = 。 ξi（k）继比较数列xi的第k个元素与参考数列xo的第k个元素之间的关联系数。第四步，计算关联度因为关联系数是比较数列与参考数列在各个时刻（即曲线中的各点）的关联程度值，所以它的数不止一个，而信息过于分散不便于进行整体性比较。因此有必要将各个时刻（即曲线中的各点）的关联系数集中为一个值，即求其平均值，作为比较数列与参考数列间关联程度的数量表示，关联度ri公式如下：第五步，关联度排序关联度按大小排序，如果r1 < r2，则参考数列y与比较数列x2更相似。在算出Xi（k）序列与Y（k）序列的关联系数后，计算各类关联系数的平均值，平均值ri就称为Y（k）与Xi（k）的关联度。本题解答过程：第一步：数据处理 X 0（k）= {，，，，13，，18，，，，8，1 } X 1（k）= {，，10，，，，，，22，18，， } X 2（k）= {17，，，，，，，，，，， } X 3（k）= {，，，137，，，，，，84，， } X 4（k）= {81，79，75，75，77，79，83，86，83，82，81，82}

基于电网运行大数据的在线分布式安全特征选择

基于电网运行大数据的在线分布式安全特征选择黄天恩1, 2,孙宏斌1,2,郭庆来1,2 ,温柏坚3,郭文鑫3(1. 清华大学电机工程与应用电子技术系,北京市100084;2. 电力系统及发电设备控制和仿真国家重点实验室,清华大学,北京市100084;3. 广东电网有限责任公司电力调度控制中心,广东省广州市510600)摘要:简述大数据环境下,电网安全特征选择的现状与问题三提出了一种基于电网特征量相关性分组二适应于电网运行大数据的在线分布式安全特征选择方法,该方法能在线挖掘出关键的电网安全运行特征三首先阐述了单个计算节点上电网安全特征选择方法,接着提出了基于电网特征量分组的分布式安全特征选择方法;由于电网特征量分组情况会对特征选择结果产生较大影响,故提出了基于电网特征量相关性分组的策略,尽量使得同一组内的电网特征量相关性较大,不同分组间的电网特征量相关性较小三IEEE 9节点系统和广东实际省网系统算例验证了该方法的实用性和有效性,表明了该方法能够快速挖掘出电网运行的薄弱点,帮助电网运行人员准确地把握电网安全运行特征,同时也对比了该方法相比传统方法在计算准确性和计算速度方面的优势三关键词:热稳定安全域;多维空间;多约束;分段线性近似收稿日期:2015-04-24;修回日期:2015-09-08三国家重点基础研究发展计划(973计划)资助项目(2013CB228203) ;国家自然科学基金创新研究群体科学基金资助项目(51321005);中国南方电网有限责任公司科技项目(GDKJ00000058) 三0一引言随着智能电网的发展与电网自动化程度的提高,电力系统运行与控制中数据来源十分广泛,有来自电气信息采集系统(CIS ) 二广域测量系统(WAMS )和能量管理系统(EMS )等电网内部数据,也有来自气象信息系统二地理信息系统(GIS )等电网外部数据 [1] 三这些电力系统运行与控制中产生数据有如下特点:①数据规模越来越大, 数据洪流由传统意义上的GB 上升到TB ,PB 水平;②数据类型丰富,包含结构化二半结构化和非结构化的数据;③数据快速产生,从而数据处理需要达到快速二实时的要求;④数据的价值密度低,由于数据规模大二类型多二产生速率快,对发电企业二电网公司和用户有着巨大的潜在价值,但价值密度却不高三不难发现,电力系统运行与控制中产生的数据具有信息通信技术(ICT )行业大数据典型的 4V 特征,即规模性(volume ),多样性(variet y ),高速性(velocit y ) 和价值性(value )[2] , 这些数据中蕴含着复杂的相关性,传统数据处理技术在数据存储二查询和分析等方面遇到瓶颈,所以亟须研究电力系统大数据环境下的数据挖掘与处理技术[ 3-4] 三随着交直流电网的快速发展以及可再生能源的不断接入,大电网运行方式时变性和复杂性日益增强,其安全运行的特征和规律越来越难以把握,极大地增加了电网运行风险和控制难度三近些年来国内外一系列的电网安全运行事故[5-6] 都说明:电网运行人员要依托电网安全稳定分析技术[7-9] ,充分掌握电网安全运行的特征和规律,迅速二精确地明晰电网薄弱点[10] ,才能避免电网运行事故的发生三文献中有利用相量测量单元(PMU )和故障录波器(DFR ) 等实际量测大数据[11-12] ,分析电力系统安全稳定问题和故障原因;而本文关注到电力系统中海量的计算资源,故可以利用电网安全稳定分析中的仿真大数据,采用大数据机器学习与数据挖掘的方法,在线挖掘出电网运行的关键安全特征三特征选择和特征抽取是典型的两种数据降维技术三特征选择将原始的高维特征空间,通过某种标准筛选出一个最优或最有效的特征子集,剔除冗余特征,从而达到降低维数的目标三而特征抽取是将原始的高维特征空间,通过特定的变换投影到数据特征相对容易表达的低维特征空间[ 13-14] 三在电力系统运行与分析中,特征选择方法更为广泛接受三一方面,由于量测和仿真数据规模较大,维数较高,特征选择方法计算复杂度相对较低;另一方面,特征选 2 3Vol.40No.4Feb.25,2016 DOI :10.7500/AEPS20150424003

灰色关联分析算法步骤

灰色关联分析算法步骤 SANY标准化小组 #QS8QHH-HHGX8Q8-GNHHJ8-HHMHGN#

灰色关联分析灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法，其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密，它反映了曲线间的关联程度。是由着名学者教授首创的一种系统科学理论(GreyTheory)，其中的灰色关联分析是根据各因素变化曲线几何形状的相似程度，来判断因素之间关联程度的方法。此方法通过对动态过程发展态势的量化分析，完成对系统内时间序列有关几何关系的比较，求出参考数列与各比较数列之间的灰色关联度。与参考数列关联度越大的比较数列，其发展方向和速率与参考数列越接近，与参考数列的关系越紧密。灰色关联分析方法要求可以少到4个，对数据无规律同样适用，不会出现量化结果与结果不符的情况。其基本思想是将评价指标原始观测数进行无量纲化处理，计算关联系数、关联度以及根据关联度的大小对待评指标进行排序。灰色关联度的应用涉及社会科学和自然科学的各个领域，尤其在社会经济领域，如各部门投资收益、区域经济优势分析、等方面，都取得较好的应用效果。关联度有绝对关联度和相对关联度之分，绝对关联度采用初始点零化法进行初值化处理，当分析的因素差异较大时，由于变量间的量纲不一致，往往影响分析，难以得出合理的结果。而相对关联度用相对量进行分析，计算结果仅与序列相对于初始点的变化速率有关，与各观测数据大小无关，这在一定程度上弥补了绝对关联度的缺陷。灰色关联分析的步骤灰色关联分析的具体计算步骤如下：第一步：确定分析数列。确定反映系统行为特征的参考数列和影响系统行为的比较数列。反映系统行为特征的数据序列，称为参考数列。影响系统行为的因素组成的数据序列，称比较数列。设参考数列（又称母序列）为Y={Y(k)|k=1,2,Λ,n}；比较数列（又称子序列） X i={X i(k)|k=1,2,Λ,n},i=1,2,Λ,m。第二步，变量的无量纲化由于系统中各因素列中的数据可能因量纲不同，不便于比较或在比较时难以得到正确的结论。因此在进行灰色关联度分析时，一般都要进行数据的无量纲化处理。第三步，计算关联系数 x0(k)与x i(k)的关联系数