用数据挖掘方法识别碳酸盐岩岩性

数据挖掘领域的十大经典算法原理及应用

数据挖掘领域的十大经典算法原理及应用国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。 1.C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法.C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1)用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。

C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。 2. The k-means algorithm即K-Means算法 k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机，英文为Support Vector Machine，简称SV 机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面

数据挖掘简介

数据挖掘综述

数据挖掘综述摘要：数据挖掘是一项较新的数据库技术，它基于由日常积累的大量数据所构成的数据库，从中发现潜在的、有价值的信息——称为知识，用于支持决策。数据挖掘是一项数据库应用技术，本文首先对数据挖掘进行概述，阐明数据挖掘产生的背景，数据挖掘的步骤和基本技术是什么，然后介绍数据挖掘的算法和主要应用领域、国内外发展现状以及发展趋势。关键词：数据挖掘，算法，数据库 ABSTRACT：Data mining is a relatively new database technology, it is based on database, which is constituted by a large number of data coming from daily accumulation, and find potential, valuable information - called knowledge from it, used to support decision-making. Data mining is a database application technology, this article first outlines, expounds the background of data mining , the steps and basic technology, then data mining algorithm and main application fields, the domestic and foreign development status and development trend. KEY WORDS: data mining ,algorithm, database 数据挖掘产生的背景上世纪九十年代．随着数据库系统的广泛应用和网络技术的高速发展，数据库技术也进入一个全新的阶段，即从过去仅管理一些简单数据发展到管理由各种计算机所产生的图形、图像、音频、视频、电子档案、Web页面等多种类型的复杂数据，并且数据量也越来越大。在给我们提供丰富信息的同时，也体现出明显的海量信息特征。信息爆炸时代．海量信息给人们带来许多负面影响，最主要的就是有效信息难以提炼。过多无用的信息必然会产生信息距离(the Distance of Information-state Transition，信息状态转移距离，是对一个事物信息状态转移所遇到障碍的测度。简称DIST或DIT)和有用知识的丢失。这也就是约翰·内斯伯特(John Nalsbert)称为的“信息丰富而知识贫乏”窘境。因此，人们迫切希望能对海量数据进行深入分析，发现并提取隐藏在其中的信息．以更好地利用这些数据。但仅以数据库系统的录入、查询、统计等功能，无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。更缺乏挖掘数据背后隐藏知识的手段。正是在这样的条件下，数据挖掘技术应运而生。数据挖掘的步骤在实施数据挖掘之前，先制定采取什么样的步骤，每一步都做什么，达到什么样的目标是必要的，有了好的计划才能保证数据挖掘有条不紊的实施并取得成功。很多软件供应商和数据挖掘顾问公司投提供了一些数据挖掘过程模型，来指导他们的用户一步步的进行数据挖掘工作。比如SPSS公司的5A和SAS公司的SEMMA。数据挖掘过程模型步骤主要包括：1定义商业问题；2建立数据挖掘模型；3分析数据；4准备数据；5建立模型；6评价模型；7实施。 1定义商业问题。在开始知识发现之前最先的同时也是最重要的要求就是了

大数据挖掘常用方法

数据挖掘常用的方法在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。

(3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。

碳酸盐岩岩性识别技术综述

碳酸盐岩岩性识别技术综述岩性识别是碳酸盐岩储层测井评价的首要任务。以测井资料为主，综合运用微观岩心分析技术、宏观岩相分析技术，对碳酸盐岩储层的岩性、沉积成岩环境进行研究，并划分出岩石的主要类型。（一）岩性识别技术复杂岩性碳酸盐岩储层，其岩石骨架的主要矿物成分是方解石和白云石，通常还含有一些粘土矿物、有机质、石膏、盐岩、黄铁矿、硅质等，它们虽然含量不多，但对储层的影响及对测井信息的贡献都较大。因此，利用测井资料或者与其它资料相结合对其进行有效识别是十分必要的，以下是中国石油常用的两个单项技术。 1.测井交会图矿物成分识别技术 u技术原理：利用碳酸盐岩矿物成分在测井曲线上的响应差别，通过2条或多条对特定矿物敏感的测井曲线做交会图的方法，可以有效识别复杂岩性岩石的骨架、粘土矿物等组分。常用的测井资料包括：岩性密度、补偿中子、声波时差、光电系数、热中子俘获截面、自然伽马能谱等。 u技术特点： ○1以常规测井资料组合应用为主； ○2需要岩石物理标准解释图版做支撑； ○3矿物成分最优化测井解释。 u技术指标： ○1资料点在标准图版上的分布应符合剖面岩性特点； ○2资料点在标准图版上的分布应符合剖面物性范围； ○3有取芯段的岩性、物性资料点检验标准图版应在资料点分布范围之内。

u 适用范围：孔隙型、溶孔型碳酸盐岩地层。 u 实例： ○ 1中子-声波交会图技术识别灰岩和白云岩利用中子-声波时差交会法，能较好地识别白云岩和灰岩骨架。右图中2330-2333m 井段的蓝色点，全部落在灰岩线上，而2341m-2345m 井段红色点却大部分掉在灰岩线与白云岩线之间，仅少数点落在白云岩线上，说明该井上部地层岩性主要为纯灰岩，下部主要为灰质云岩，较纯的白云岩并不多。 ○ 2光电吸收指数-密度交会图技术识别灰岩和白云岩：利用白云岩光电吸收指数值低于灰岩，而密度值却明显高于灰岩的特点，采用光电吸收指数值与密度交会可以较好地识别灰岩和白云岩。左图中， 2322-2340m 井段的红色点，全部落在白云岩线上，而2341m-2345m 井段的蓝色点却大部分掉在灰岩线与白云岩线之间。说明该井上部地层岩性主要为纯白云岩，下部主要为灰质云岩。 2.岩心分析与测井资料相结合矿物成分识别技术 u 技术原理：岩心分析提供了一种直接测定岩石骨架矿物成分的方法，包括利用岩石学显微镜、扫描电镜、阴极发光、微量元素分析、同位素分析等技术。它能够从微观角度，考察复杂岩性碳酸盐岩的岩石学特征、储集空间类型、物性特征及地球化学特征。将它与常规测井，声电成像、偶极子阵列声波及核磁等特殊测井方法相结合，以岩心资料刻度测井资料，就能够对地层的岩性、储渗特性及含油性进行综合识别和评价。 u 技术特点：

测井资料交会图法在火山岩岩性识别中的应用

文章编号　1004Ο5589(2003)02Ο0136Ο05 测井资料交会图法在火山岩岩性识别中的应用赵　建　高福红吉林大学地球科学学院,长春130026 摘　要　在火山岩储层研究中,岩性识别显得越来越重要。在评述目前常用的岩性识别方法后,重点以测井资料交会图法为例,以松辽盆地徐家围子断陷升平气田深层白垩系营城组火山岩为对象,优选出密度测井、自然伽玛测井、声波测井、电阻率、钍铀等测井项目的数据进行交会,编制出测井曲线交会图版,并以此为依据识别出该区的火山岩主要岩性有:安山岩、玄武岩、流纹岩和凝灰岩等。识别结果与实际情况相吻合。关键词　火山岩　岩性识别　交会图中图分类号　P588.1 文献标识码　A 收稿日期　2002Ο11Ο04;改回日期　2003Ο03Ο20 作者简介　赵　建(1976-),男,河南周口人,硕士研究生,从事含油气盆地研究. 通讯作者简介　高福红(1962-),女,辽宁朝阳人,副教授,从事沉积学和含油气盆地研究. Application of Crossplots B ased on Well Log Data in Identifying Volcanic Lithology Jian Zhao ,Fuhong G ao College of Earth Sciences ,Jili n U niversity ,Changchun ,130061Chi na Abstract Lithologyical identification is becoming increasingly important in the study of volcanic rock reser https://www.360docs.net/doc/b315855871.html,mon methods in identifying volcanic lithology are introduced briefly here.The volcanic rocks of Y ingcheng Formation in Shengping G as Field are used as examples and well log crossplots are compiled based on the following data :density log ,gamma 22ray log ,acoustic log ,resistivity log ,thorium and uranium log.By this means ,andesite ,basalt ,rhyolite and tuff are identified.The identification result is well coincident with the lithological fact in the area. K ey w ords volcanic rock ,lithology identification ,crossplot 1　概　述火成岩油气藏目前已成为世界油气田勘探开发的一个新领域。在美国、前苏联、古巴和墨西哥等很多国家都有这类油气藏被发现[1]。我国大多数油田也相继发现有这类储层。例如在准噶尔盆地西北缘的石炭系和二叠系中发现了一批火山岩油藏,而且探明的地质储量相当可观;二连盆地白垩系地层中、黄骅凹陷北堡地区、苏北地区等相继发现了火山岩储层油气藏。目前,在松辽盆地北部营城组火山岩地层油气勘探也取得了较好的效果。所有这些都展示了火山岩良好的勘探前景。对这类特殊的储层进行研究时,要进行火山岩岩性识别。识别含油气盆地中的火山岩岩性最直接有效的方法是岩心分析,但是考虑到油田上的生产效益,深层钻井取心成本很高,因此不可能在每口井中都取心,加上过去的老井在钻探过程中,遇到火山岩层时常常又不够重视,所以取心更是很少。因此利用间接的方法进行岩性识别成了必然。在不同的地区,由于喷发方式和所处的构造不同,火山岩的岩性具有很大差异,岩石类型多样化,结构、构造复杂化。比如在我国中部的石西地区火世界地质　G lobal G eology ,2003,22(2):136～140

学习18大经典数据挖掘算法

学习18大经典数据挖掘算法本文所有涉及到的数据挖掘代码的都放在了github上了。地址链接: https://https://www.360docs.net/doc/b315855871.html,/linyiqun/DataMiningAlgorithm 大概花了将近2个月的时间，自己把18大数据挖掘的经典算法进行了学习并且进行了代码实现，涉及到了决策分类，聚类，链接挖掘，关联挖掘，模式挖掘等等方面。也算是对数据挖掘领域的小小入门了吧。下面就做个小小的总结，后面都是我自己相应算法的博文链接，希望能够帮助大家学习。 1.C4.5算法。C4.5算法与ID3算法一样，都是数学分类算法，C4.5算法是ID3算法的一个改进。ID3算法采用信息增益进行决策判断，而C4.5采用的是增益率。详细介绍链接：https://www.360docs.net/doc/b315855871.html,/androidlushangderen/article/details/42395865 2.CART算法。CART算法的全称是分类回归树算法，他是一个二元分类，采用的是类似于熵的基尼指数作为分类决策，形成决策树后之后还要进行剪枝，我自己在实现整个算法的时候采用的是代价复杂度算法，详细介绍链接：https://www.360docs.net/doc/b315855871.html,/androidlushangderen/article/details/42558235 3.KNN(K最近邻)算法。给定一些已经训练好的数据，输入一个新的测试数据点，计算包含于此测试数据点的最近的点的分类情况，哪个分类的类型占多数，则此测试点的分类与此相同，所以在这里,有的时候可以复制不同的分类点不同的权重。近的点的权重大点，远的点自然就小点。详细介绍链接：https://www.360docs.net/doc/b315855871.html,/androidlushangderen/article/details/42613011 4.Naive Bayes(朴素贝叶斯)算法。朴素贝叶斯算法是贝叶斯算法里面一种比较简单的分类算法，用到了一个比较重要的贝叶斯定理，用一句简单的话概括就是条件概率的相互转换推导。详细介绍链接：https://www.360docs.net/doc/b315855871.html,/androidlushangderen/article/details/42680161 5.SVM(支持向量机)算法。支持向量机算法是一种对线性和非线性数据进行分类的方法，非线性数据进行分类的时候可以通过核函数转为线性的情况再处理。其中的一个关键的步骤是搜索最大边缘超平面。详细介绍链接：https://www.360docs.net/doc/b315855871.html,/androidlushangderen/article/details/42780439 6.EM(期望最大化)算法。期望最大化算法，可以拆分为2个算法，1个E-Step期望化步骤,和1个M-Step最大化步骤。他是一种算法框架，在每次计算结果之后，逼近统计模型参数的最大似然或最大后验估计。

《大数据时代下的数据挖掘》试题和答案与解析

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

大数据时代的数据挖掘

大数据时代的数据挖掘大数据是2012的时髦词汇，正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论，是因为隐藏在大数据后面超千亿美元的市场机会。大数据时代，数据挖掘是最关键的工作。以下内容供个人学习用，感兴趣的朋友可以看一下。智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现，是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程，它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等，高度自动化地分析企业的数据，做出归纳性的推理，从中挖掘出潜在的模式，帮助决策者调整市场策略，减少风险，做出正确的决策。数据挖掘的定义技术上的定义及含义数据挖掘（Data Mining ）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。这里所说的知识发现，不是要求发现放之四海而皆准的真理，也不是要去发现崭新的自然科学定理和纯数学公式，更不是什么机器定理证明。实际上，所有发现的知识都是相对的，是有特定前提和约束条件，面向特定领域的，同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。n x _s u x i a n g n i n g

数据挖掘中十大经典算法

数据挖掘十大经典算法国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法：C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法，其实参加评选的18种算法，实际上随便拿出一种来都可以称得上是经典算法，它们在数据挖掘领域都产生了极为深远的影响。 1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点，并在以下几方面对ID3算法进行了改进： 1) 用信息增益率来选择属性，克服了用信息增益选择属性时偏向选择取值多的属性的不足； 2) 在树构造过程中进行剪枝； 3) 能够完成对连续属性的离散化处理； 4) 能够对不完整数据进行处理。 C4.5算法有如下优点：产生的分类规则易于理解，准确率较高。其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效。 2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法，把n的对象根据他们的属性分为k个分割，k < n。它与处理混合正态分布的最大期望算法很相似，因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量，并且目标是使各个群组内部的均方误差总和最小。 3. Support vector machines 支持向量机，英文为Support Vector Machine，简称SV机（论文中一般简称SVM）。它是一种監督式學習的方法，它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里，在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大，分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der Walt 和Barnard 将支持向量机和其他分类器进行了比较。 4. The Apriori algorithm Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里，所有支持度大于最小支持度的项集称为频繁项集，简称频集。 5. 最大期望(EM)算法在统计计算中，最大期望（EM，Expectation–Maximization）算法是在概率（probabilistic）模型中寻找参数最大似然估计的算法，其中概率模型依赖于无法观测的隐藏变量（Latent Variabl）。最大期望经常用在机器学习和计算机视觉的数据集聚（Data Clustering）领域。 6. PageRank PageRank是Google算法的重要内容。2001年9月被授予美国专利，专利人是Google创始人之一拉里?佩奇（Larry Page）。因此，PageRank里的page不是指网页，而是指佩奇，即这个

大学数据挖掘期末考试题

:号学题目-一 - -二二三四五六七八九十总成绩复核得分阅卷教师 :名姓班级业专院学院学学科息信与学数题试试考末期期学季春年学一320数据挖掘试卷课程代码：C0204413课程：数据挖掘A卷一、判断题（每题1分，10分） 1. 从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。（） 2. 数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。（） 3. 在聚类分析当中，簇内的相似性越大，簇间的差别越大，聚类的效果就越差。（） 4. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似。（） 5. DBSCAN是相对抗噪声的，并且能够处理任意形状和大小的簇。（） 6. 属性的性质不必与用来度量他的值的性质相同。（） 7. 全链对噪声点和离群点很敏感。（） 8. 对于非对称的属性，只有非零值才是重要的。（） 9. K均值可以很好的处理不同密度的数据。（） 10. 单链技术擅长处理椭圆形状的簇。（）二、选择题（每题2分，30分） 1. 当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（） A. 分类 B.聚类 C.关联分析 D.主成分分析 2. （）将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值，它是一种凝聚层次聚类技术。 A. MIN（单链） B.MAX（全链） C.组平均 D.Ward方法 3. 数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。 A分类B预测C关联规则分析D聚类 4. 关于K均值和DBSCAN的比较，以下说法不正确的是（） A. K均值丢弃被它识别为噪声的对象，而DBSCAN —般聚类所有对象。 B. K均值使用簇的基于原型的概念，DBSCAN使用基于密度的概念。 C. K均值很难处理非球形的簇和不同大小的簇，DBSCAN可以处理不同大小和不同形状的簇 D. K均值可以发现不是明显分离的簇，即便簇有重叠也可以发现，但是DBSCAN会合并有重叠的簇 5. 下列关于 Ward 'Method说法错误的是：（） A. 对噪声点和离群点敏感度比较小 B. 擅长处理球状的簇 C. 对于Ward方法，两个簇的邻近度定义为两个簇合并时导致的平方误差 D. 当两个点之间的邻近度取它们之间距离的平方时，Ward方法与组平均非常相似 6. 下列关于层次聚类存在的问题说法正确的是：（） A. 具有全局优化目标函数 B. Group Average擅长处理球状的簇 C. 可以处理不同大小簇的能力 D. Max对噪声点和离群点很敏感 7. 下列关于凝聚层次聚类的说法中，说法错误的事：（） A. 一旦两个簇合并，该操作就不能撤销 B. 算法的终止条件是仅剩下一个簇 2 C. 空间复杂度为O m D. 具有全局优化目标函数 8规则｛牛奶，尿布｝T｛啤酒｝的支持度和置信度分别为：（）

数据挖掘经典书籍

数据挖掘入门读物：深入浅出数据分析这书挺简单的，基本的内容都涉及了，说得也比较清楚，最后谈到了R是大加分。难易程度：非常易。啤酒与尿布通过案例来说事情，而且是最经典的例子。难易程度：非常易。数据之美一本介绍性的书籍，每章都解决一个具体的问题，甚至还有代码，对理解数据分析的应用领域和做法非常有帮助。难易程度：易。数学之美这本书非常棒啦，入门读起来很不错！数据分析： SciPy and NumPy 这本书可以归类为数据分析书吧，因为numpy和scipy真的是非常强大啊。Python for Data Analysis 作者是Pandas这个包的作者，看过他在Scipy会议上的演讲，实例非常强！Bad Data Handbook 很好玩的书，作者的角度很不同。数据挖掘适合入门的教程：集体智慧编程学习数据分析、数据挖掘、机器学习人员应该仔细阅读的第一本书。作者通过实际例子介绍了机器学习和数据挖掘中的算法，浅显易懂，还有可执行的Python代码。难易程度：中。 Machine Learning in Action 用人话把复杂难懂的机器学习算法解释清楚了，其中有零星的数学公式，但是是以解释清楚为目的的。而且有Python代码，大赞！目前中科院的王斌老师（微博：王斌_ICTIR）已经翻译这本书了机器学习实战(豆瓣)。这本书本身质量就很高，王老师的翻译质量也很高。难易程度：中。我带的研究生入门必看数目之一！ Building Machine Learning Systems with Python 虽然是英文的，但是由于写得很简单，比较理解，又有Python 代码跟着，辅助理解。数据挖掘导论最近几年数据挖掘教材中比较好的一本书，被美国诸多大学的数据挖掘课作为教材，没有推荐Jiawei Han老师的那本书，因为个人觉得那本书对于初学者来说不太容易读懂。难易程度：中上。Machine Learning for Hackers 也是通过实例讲解机器学习算法，用R实现的，可以一边学习机器学习一边学习R。数据挖掘稍微专业些的： Introduction to Semi-Supervised Learning 半监督学习必读必看的书。 Learning to Rank for Information Retrieval 微软亚院刘铁岩老师关于LTR的著作，啥都不说了，推荐！Learning to Rank for Information Retrieval and Natural Language Processing 李航老师关于LTR的书，也是当时他在微软亚院时候的书，可见微软亚院对LTR的研究之深，贡献之大。推荐系统实践这本书不用说了，研究推荐系统必须要读的书，而且是第一本要读的书。 Graphical Models, Exponential Families, and Variational Inference 这个是Jordan老爷子和他的得意门徒Martin J Wainwright 在Foundation of Machine Learning Research上的创刊号，可以免费下载，比较难懂，但是一旦读通了，graphical model的相关内容就可以踏平了。 Natural Language Processing with Python NLP 经典，其实主要是讲NLTK 这个包，但是啊，NLTK 这个包几乎涵盖了NLP 的很多内容了啊！数据挖掘机器学习教材： The Elements of Statistical Learning 这本书有对应的中文版：统计学习基础(豆瓣)。书中配有R包，非常赞！可以参照着代码学习算法。统计学习方法李航老师的扛鼎之作，强烈推荐。难易程度：难。 Machine Learning 去年出版的新书，作者Kevin Murrphy教授是机器学习领域中年少有为的代表。这书是他的集大成之作，写完之后，就去Google了，产学研结合，没有比这个更好的了。

大数据常用的算法

大数据常用的算法（分类、回归分析、聚类、关联规则）在大数据时代，数据挖掘是最关键的工作。大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程，也是一种决策支持过程。其主要基于人工智能，机器学习，模式学习，统计学等。通过对大数据高度自动化地分析，做出归纳性的推理，从中挖掘出潜在的模式，可以帮助企业、商家、用户调整市场政策、减少风险、理性面对市场，并做出正确的决策。目前，在很多领域尤其是在商业领域如银行、电信、电商等，数据挖掘可以解决很多问题，包括市场营销策略制定、背景分析、企业管理危机等。大数据的挖掘常用的方法有分类、回归分析、聚类、关联规则、神经网络方法、Web 数据挖掘等。这些方法从不同的角度对数据进行挖掘。 (1)分类。分类是找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到摸个给定的类别中。可以应用到涉及到应用分类、趋势预测中，如淘宝商铺将用户在一段时间内的购买情况划分成不同的类，根据情况向用户推荐关联类的商品，从而增加商铺的销售量。 (2)回归分析。回归分析反映了数据库中数据的属性值的特性，通过函数表达数据映射的关系来发现属性值之间的依赖关系。它可以应用到对数据序列的预测及相关关系的研究中去。在市场营销中，回归分析可以被应用到各个方面。如通过对本季度销售的回归分析，对下一季度的销售趋势作出预测并做出针对性的营销改变。 (3)聚类。聚类类似于分类，但与分类的目的不同，是针对数据的相似性和差异性将一组数据分为几个类别。属于同一类别的数据间的相似性很大，但不同类别之间数据的相似性很小，跨类的数据关联性很低。 (4)关联规则。关联规则是隐藏在数据项之间的关联或相互关系，即可以根据一个数据项的出现推导出其他数据项的出现。关联规则的挖掘过程主要包括两个阶段：第一阶段为从海量原始数据中找出所有的高频项目组;第二极端为从这些高频项目组产生关联规则。关联规则挖掘技术已经被广泛应用于金融行业企业中用以预测客户的需求，各银行在自己的ATM 机上通过捆绑客户可能感兴趣的信息供用户了解并获取相应信息来改善自身的营销。 (5)神经网络方法。神经网络作为一种先进的人工智能技术，因其自身自行处理、分布存储和高度容错等特性非常适合处理非线性的以及那些以模糊、不完整、不严密的知识或数据为特征的处理问题，它的这一特点十分适合解决数据挖掘的问题。典型的神经网络模型主要分为三大类：第一类是以用于分类预测和模式识别的前馈式神经网络模型，其主要代表为函数型网络、感知机;第二类是用于联想记忆和优化算法的反馈式神经网络模型，以Hopfield 的离散模型和连续模型为代表。第三类是用于聚类的自组织映射方法，以ART 模型为代表。虽然神经网络有多种模型及算法，但在特定领域的数据挖掘中使用何种模型及算法并没有统一的规则，而且人们很难理解网络的学习及决策过程。 (6)Web数据挖掘。Web数据挖掘是一项综合性技术，指Web 从文档结构和使用的集合C 中发现隐含的模式P，如果将C看做是输入，P 看做是输出，那么Web 挖掘过程就可以看做是从输入到输出的一个映射过程。当前越来越多的Web 数据都是以数据流的形式出现的，因此对Web 数据流挖掘就具有很重要的意义。目前常用的Web数据挖掘算法有：PageRank算法，HITS算法以及LOGSOM 算法。这三种算法提到的用户都是笼统的用户，并没有区分用户的个体。目前Web 数据挖掘面临着一些问题，包括：用户的分类问题、网站内容时效性问题，用户在页面停留时间问题，页面的链入与链出数问题等。在Web 技术高速发展的今天，

碳酸盐岩储层评价方法及标准

碳酸盐岩储层评价一、储层岩石学特征评价 1、内容和要求（1）颜色；（2）矿物成分、含量、结构等，其中矿物结构分粒屑结构、礁岩结构、残余结构、晶粒结构。粒屑结构：要求描述粒屑组分、含量、基质、胶结物等特征。粒屑组分描述应包括内碎屑、生屑和其他颗粒（鲕粒、球粒、团粒）的大小、形态、分选、磨圆、排列方向、破碎程度等方面的内容。对鲕粒还应描述内部结构；粒屑含量是指采用镜下面积目估法或计点统计法确定各种碎屑的含量；基质（一般把粒径＜0.032mm的颗粒划为基质＝成分、含量、颗粒形态、结晶程度、类型、成因及胶结物（亮晶）成分、含量、晶体的大小、结晶程度、与颗粒接触关系、胶结物形态（栉壳状、粒状、再生边或连生胶结）、胶结世代及胶结类型等都是应描述的内容。礁岩结构：分析原地生长的生物种类、骨架孔隙的发育情况，确定粘结结构类型（叠层状、席状、皮壳状）、规模大小及成因；分析异地堆积的类型（分散礁角砾、接触礁角砾）、成因、各类礁角砾的大小和含量，描述其形态、分布等。残余结构：确定原结构类型、残余程度，分析成因。晶粒结构：描述晶体形态、晶粒间接触关系以及晶间孔发育和连通程度，确定晶粒大小、各种晶粒的比例。（3）沉积构造物理成因构造 a.流动构造：确定类型（冲刷痕、皱痕、微型层理及渗流砂），描述形态、大小和排列方向； b.变形构造：确定类型（滑塌构造、水成岩墙），描述特征； c.暴露构造：确定类型（雨痕、干裂、席状裂隙、鸡丝构造、帐蓬构造），描述特征； d.重力成因构造：确定类型（递变层理、包卷构造，枕状构造、重荷模构造），描述特征。化学成因构造

a.结晶构造：确定类型（晶痕、示底构造），描述特征； b.压溶构造：确定类型（缝合线、叠锥构造）描述特征； c.交代增生构造：确定类型（结核、渗滤豆石），描述特征。生物沉积构造 a.生物遗迹：确定类型（足迹、爬痕、潜穴、钻孔），描述形态和分布； b.生物扰动构造：确定类型（定形扰动、无定形扰动），描述形态和分布； c.鸟眼构造：描述鸟眼孔的大小、充填物质与充填情况、分布特点，分析成因。生物—化学沉积构造 a. 葡萄状构造：确定大小、藻的类型，分析成因； b. 叠层石构造：确定大小、藻的类型，分析成因；（4）、沉积层序研究在单井剖面上划分沉积旋回，确定其性质、大小；分析旋回间的接触及组合关系；在旋回内部划分次级旋回并分析不同级别沉积旋回的成因及控制因素。建立研究井的沉积层序及单维模式。 2、技术和方法（1）岩心观察和描述系统地观察描述岩心的颜色、矿物成分、肉眼可见的沉积结构和构造、古生物类型以及孔、洞、缝发育情况。（2）岩心实验室分析岩心薄片鉴定。酸蚀分析。将岩石制成光面，放入酸液（浓度为23%的醋酸或5%～10%的盐酸）中，作用一定时间后取出，清洗干净，用放大镜或显微镜观察岩石的结构、构造和不溶组分。揭片分析。将涂有醋酸盐的薄膜覆盖在经酸蚀后的岩石光面上，作用一定时间后揭下该薄膜，在显微镜下观察岩石的结构和构造。非碳酸盐组分分离。把岩石制成3cm×3cm×0.6cm的样品，放入浓度为20%的醋酸中浸泡，使碳酸盐全部溶解掉，然后在显微镜下观察酸不溶物的成分和特征。扫描电镜观察。鉴定岩石的矿物成分、超显微结构和构造、超微古生物化石。

数据挖掘经典案例

数据挖掘经典案例当前，市场竞争异常激烈，各商家企业为了能在竞争中占据优势，费劲心思。使用过OLAP技术的企业都知道，OLAP技术能给企业带来新的生机和活力。OLAP技术把企业大量的数据变成了客户需要的信息，把这些信息变成了价值，提高了企业的产值和效益，增强了客户自身的竞争实力。 “啤酒与尿布”的故事家喻户晓，在IT界里，几乎是数据挖掘的代名词，那么各商家企业受了多少启发，数据挖掘又给他们带来了多少价值呢？客户需求客户面对大量的信息，用OLAP进行多维分析。如：一个网上书店，用OLAP技术可以浏览到什么时间，那个类别的客户买了多少书等信息，如果想动态的获得深层次的信息，比如：哪些书籍可以打包推荐，哪些书籍可以在销售中关联推出等等，就要用到数据挖掘技术了。当客户在使用OLAＰ技术进行数据的多维分析的时候，联想到“啤酒与尿布”的故事，客户不禁会有疑问，能不能通过数据挖掘来对数据进行深层次的分析呢，能不能将数据挖掘和OLAP结合起来进行分析呢？ SQL Server 2005 数据挖掘： SQL Server 2005的Data Mining是SQL Server2005分析服务（Analysis Services）中的一部分。数据挖掘通常被称为“从大型数据库提取有效、可信和可行信息的过程”。换言之，数据挖掘派生数据中存在的模式和趋势。这些模式和趋势可以被收集在一起并定义为挖掘模型。挖掘模型可以应用于特定的业务方案，例如：预测销售额、向特定客户发送邮件、确定可能需要搭售的产品、查找客户将产品放入购物车的顺序序列。 Microsoft 决策树算法、Microsoft Naive Bayes 算法、Microsoft 聚类分析算法、Microsoft 神经网络算法 (SSAS)，可以预测离散属性，例如，预测目标邮件活动的收件人是否会购买某个产品。 Microsoft 决策树算法、Microsoft 时序算法可以预测连续属性，预测连续属性，例如，预测下一年的销量。 Microsoft 顺序分析和聚类分析算法预测顺序，例如，执行公司网站的点击流分析。 Microsoft 关联算法、Microsoft 决策树算法查找交易中的常见项的组，例如，使用市场篮分析来建议客户购买其他产品。 Microsoft 聚类分析算法、Microsoft 顺序分析和聚类分析算法，查找相似项的组，例如，将人口统计数据分割为组以便更好地理解属性之间的关系。巅峰之旅之案例一：网上书店关联销售提出问题网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长，各网上书店采取了各种方式，给客户提供更多更丰富的书籍，提供更优质服务，等方式吸引更多的读者。