《数据挖掘》读书笔记

合集下载

地理数据挖掘(导师制读书笔记)

地理数据挖掘(导师制读书笔记)

地理数据挖掘李楠数据挖掘含义•数据源的真实、大量、有噪音•用户兴趣•发现数据“三可一仅”•三个特性:先前未知、有效、可实用数据挖掘流程建立数据模型——以时间序列分析为例•组成成分:季节变动、长期趋势、循环变动、不规则变动•时间序列组合模型•插值分析时间平稳•随机变量的基本特性必须能在包括未来阶段的一个长时期里维持不变•样本数据时间序列的本质特征仍能延续到未来•假定某个时间序列由某一随机过程(stochastic process)生成,即假定时间序列{Xt}(t=1, 2, …)的每一个数值都是从一个概率分布中随机得到的。

如果经由该随机过程所生成的时间序列满足下列条件:•均值E(Xt)=m是与时间t 无关的常数;•方差Var(Xt)=s^2是与时间t 无关的常数;•协方差Cov(Xt,Xt+k)=gk 是只与时期间隔k有关,与时间t 无关的常数;则称经由该随机过程而生成的时间序列是(弱)平稳的(stationary)。

该随机过程便是一个平稳的随机过程(stationary stochastic process)时间自相关时间分析流程(百度百科)第一步收集历史资料,加以整理,编成时间序列,并根据时间序列绘成统计图第二步分析时间序列第三步求时间序列的长期趋势(T)季节变动(s)和不规则变动(I)的值,并选定近似的数学模式来代表它们。

对于数学模式中的诸未知参数,使用合适的技术方法求出其值。

第四步利用时间序列资料求出长期趋势、季节变动和不规则变动的数学模型后,就可以利用它来预测未来的长期趋势值T和季节变动值s,在可能的情况下预测不规则变动值I。

然后用以下模式计算出未来的时间序列的预测值Y:加法模式T+S+I=Y、乘法模式T×S×I=Y以《基于时间序列建模的城市热岛的时间尺度成分分离方法与应用》为例(知网)•确定分析对象•获取数据•数据预处理(根据时间尺度转换原理)•量化研究对象•建立时间序列模型•结果的分析与评价时间非平稳情况的处理方法•可以先去掉趋势(detrend);•如果变量间是协整的,可采用协整的方法进行回归或者预测。

机器学习与数据挖掘读书笔记

机器学习与数据挖掘读书笔记

《机器学习与数据挖掘》读书笔记一、内容概要引言:简要介绍机器学习和数据挖掘的背景、应用领域以及它们的重要性。

概述机器学习和数据挖掘的基本概念及其在现代社会的广泛应用。

机器学习概述:阐述机器学习的基本原理、分类及关键要素。

包括监督学习、无监督学习、半监督学习、强化学习等不同类型的机器学习方法的介绍。

数据挖掘技术:详细介绍数据挖掘的基本概念、过程和方法。

包括数据预处理、特征选择、聚类分析、关联规则挖掘、分类与预测等内容。

常用算法解析:介绍机器学习和数据挖掘中常用的算法,包括决策树、神经网络、支持向量机(SVM)、随机森林等,并对各个算法的原理和应用进行解析。

实践案例分析:通过具体案例,展示机器学习和数据挖掘技术在各个领域的应用,包括金融、医疗、电商等行业的实际应用案例。

技术挑战与前沿趋势:分析机器学习和数据挖掘领域面临的技术挑战,如数据质量问题、模型泛化能力、计算资源限制等,并探讨当前领域的前沿趋势和未来发展方向。

应用前景展望:探讨机器学习和数据挖掘技术在未来的发展趋势,以及它们在不同领域的应用前景,如人工智能、物联网、自动驾驶等领域。

通过阅读本书,我对机器学习和数据挖掘有了更深入的了解,掌握了相关理论知识和技能,对实际应用有了更清晰的认知。

也认识到了该领域的挑战和发展趋势,对未来的学习和工作具有重要的指导意义。

1. 本书背景及简介在数字化时代,数据成为了一种宝贵的资源,如何有效地挖掘和利用这些数据,成为了各行各业所面临的共同挑战。

《机器学习与数据挖掘》一书正是在这样的背景下应运而生。

本书集结了机器学习与数据挖掘领域的最新理论与实践成果,旨在帮助读者深入理解和掌握这两个领域的核心技术与原理。

本书首先对机器学习和数据挖掘的起源、发展及现状进行了全面的介绍。

随着信息技术的飞速发展,尤其是大数据时代的到来,传统的数据处理和分析方法已经无法满足复杂多变的数据环境需求。

而机器学习和数据挖掘技术的崛起,为从海量数据中提取有价值信息、预测未来趋势、实现智能化决策提供了强有力的支持。

数据挖掘感想

数据挖掘感想

数据挖掘感想通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解,也掌握了,理解了一些数据挖掘中用到的重要的算法。

在这个数据膨胀的大数据时代我们需要筛选,查询数据,处理数据。

我们看到的听到的都是数据,在这互联网时代数据更多,信息很多。

但是有些网站比如百度,谷歌,雅虎等为我们的学习生活带来了很多便利。

我们为了更正确更有效的利用和处理数据必须要利用数据挖掘技术,因为有了这技术我们以后的数字化生活变得更方便,不会因为数据多,信息多而感到反感。

所以我真正的体会到了数据挖掘的优越性。

同时我学习一些算法过后也感觉到了其复杂性,因为数据挖掘算法众多,掌握起来比较困难。

我们主要学习了贝叶斯分类算法,决策树分类算法等算法,这些是比较简单并且利用比较广泛的算法。

也学习了数据的概念,数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。

我们首先收集大量的数据然后对此进行数据描述分类数据,然后优化净化数据,并对此进行分类整理,保存查询,搜索数据等。

贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由18世纪概率论和决策论的早起研究者Thomas Bayes发明的,故用其名字命名为贝叶斯定理。

分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。

用于大型数据库,贝叶斯分类法也已表现出高准确率和高速度。

目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN、BAN和GBN。

朴素贝叶斯分类是一种十分简单的分类算法,思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类。

贝叶斯定理(Bayes' theorem)是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。

在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

21723读书笔记关系模式的基本概念

21723读书笔记关系模式的基本概念

21723读书笔记关系模式的基本概念21/7/23 读书笔记⽬录数据挖掘导论关系模型的基本概念关系模型的数据结构——关系模型⼀般由数据结构、操作集合和约束性条件构成。

关系,就是关系模型的数据结构。

关系是动态的,我们认为在关系数据库系统中关系就是数据,因此数据更新时发⽣改变,关系也会随之改变。

对于关系的形式化定义,基于以下概念:域:⼀组数据类型相同的值的集合,⽐如所有正整数、{东,南,西,北}等。

笛卡尔积:⼀组域之间构成的完全的笛卡尔积。

笛卡尔积可以以每个域为列、每种组合情况为⾏,构成⼀张表。

元组:每种组合情况对应⼀个元组,⼜可称为⼀条记录关系:笛卡尔积的⼀个⼦集,其关联的域的数量称为关系的⽬或度。

关系可以表⽰为⼀张表。

在笛卡尔积基础上的限定与扩充:笛卡尔积中,⼀个元组中域具有先后次序;关系中,列的次序可以任意交换,⾏的顺序也可以任意交换;笛卡尔积中,每个元组中的元素还可以是⼀个集合;关系中,限定元组中的任⼀个元素必须是原⼦化的,不可再分(表中不能有表)属性:由于域可以相同,我们对每个列对应称为属性,不同列之间即使对应的域相同,但是属性不同。

关系的⼀个域可以对应多种属性,每种属性只能属于⼀个域。

候选码:关系中的某个属性的值能唯⼀标识⼀个元组,符合这个要求的属性的集合构成候选码主码:从候选码中选出⼀个属性作为主码主属性:候选码中所有的属性都称为主属性关系模式:关系所关联的属性集合,以及属性与域之间的对应关系,构成⼀个关系模式。

关系模式是静态的,其在数据库进⾏更新的过程中保持不变。

关系数据库系统是⽀持关系模型的数据库系统。

关系数据库系统与关系模式是两个层次的概念,他们都由型与值两⽅⾯组成。

型是静态的、稳定的,值是在数据库更新过程中不断改变的。

关系数据库的型 = 关系数据库模式 = 对若⼲域的定义 + 对这些域上的关系模式的定义关系数据库的值 = 若⼲关系模式在特定时刻对应关系的集合 = 若⼲关系模式的值的集合关系模式的型 = 属性的集合 + 属性与域之间映像的集合关系模式的值 = 关系 = 特定时刻内该关系模式描述下的取值注意涉及的关系模式和关系都可能被称为关系,需要我们根据上下⽂加以区分。

数据分析-可视化挖掘读书笔记

数据分析-可视化挖掘读书笔记

数据分析­可视化挖掘读书笔记
2016­02­11 公共号劲说
可视化分析常解的业务问题
书中将可视化分析应用的领域做了一个比较简洁的归类,非常适合大家参考,书中提到的目标市场、交叉营销、客户画像、识别客户需求、竞争分析、欺诈识别、流失分析在电商平台都有涉及
可视化分析常用的方法
书中将可视化常用的分析方法做了归类,多维对比可视化、空间可视化、可视化分类挖掘、可视化估值、可视化聚类、可视化关联分,并且注明了在常用业务问题中可能会使用的可视化分析方法
可视化分析的流程
书中将可视化分析过程划分了四个大的阶段,计划阶段、数据准备阶段、数据分析阶段和实施阶段,下面举个例子详细说明我比较关注的二个子阶段:识别关键业务问题,和分析可视化和挖掘模型
客户流失项目­识别关键的业务问题
首先业务人员和数据分析人员一起定义业务规则,什么是"流失客户"?,比如对快消品可以定义六个月内没有重复购买就算流失客户,然后要和业务人员了解客户流失的一些相关因素
然后我们定义项目的目标,比如:客户流失率下降5%,同时ROI大于1.5,对于小电商主要考虑的拉新,对于大中电商流失是主要考虑的因素,对于大电商减少5%的流失率就是很大的年销售额了
客户流失项目­分析可视化和挖掘模型
首先分析转向竞争者服务的客户特征,我们可以通过多维分析观察数据,通过关联分析寻找和流失相关的因素,我们可以通过聚类将流失客户划分为相似的分组,对每个分组归类特征
其次分析当前有类似特征的客户,我们可以设计分类模型,将客户划分为”流失“和”不流失“二类
最后分析潜在流失客户,我们可以设计估值模型估算潜在流失客户可能流失的时间段,针对处于不同流失阶段的客户采用合适的市场营销行动保留这些客户。

数据挖掘 你必须知道的32个经典案例

数据挖掘 你必须知道的32个经典案例

本节包含了4个经典案例,主要涉及气象预测、地震预测和生物信息学等领 域。例如,“气候变化预测”案例分析了如何利用时间序列数据来预测气候变化 趋势;“人类基因组计划”则探讨了如何利用生物信息学方法分析人类基因组数 据。
本节包含了5个经典案例,主要涉及情感分析、社交网络分析和图像识别等 领域。例如,“Twitter情绪分析”案例分析了如何利用情感分析技术来识别 Twitter上的正面和负面情绪;“Facebook好友推荐算法”则探讨了如何利用社 交网络数据来推荐可能的好友。
精彩摘录
在当今这个大数据时代,数据挖掘作为一项关键技术,已经引起了广泛的。 很多人都对数据挖掘抱有浓厚的兴趣,但却缺乏实际应用的经验。为了帮助读者 更好地理解和应用数据挖掘,本书将摘录《数据挖掘:大家必须知道的32个经典 案例》这本书中的一些精彩案例。
某大型银行为了预测客户流失,利用数据挖掘技术对客户信息进行分析。他 们首先对客户进行分类,根据客户的行为和属性,将他们分为高风险和低风险两 类。接着,利用决策树算法建立模型,预测哪些客户可能会流失。通过这个模型, 银行成功地预测了大部分可能会流失的客户,从而提前采取措施留住这些客户。 这个案例告诉我们,通过数据挖掘技术,企业可以更好地了解客户,提高客户满 意度和忠诚度。
某个互联网公司为了提高广告投放效果,利用数据挖掘技术制定了精准营销 策略。他们首先对用户的历史浏览数据进行挖掘,了解用户的兴趣爱好和购买行 为。然后,根据这些信息将用户分为不同的群体,并为每个群体制定相应的广告 投放策略。通过这个策略,该互联网公司的广告投放效果得到了显著提升。这个 案例告诉我们,数据挖掘技术可以帮助企业更好地了解用户需求,实现精准营销。
数据分析在商业智能领域的应用:SAP的供应链优化该案例详细介绍了如何 利用数据分析技术优化SAP公司的供应链管理。通过实时监控和分析供应链数据, 包括库存、订单、生产和运输等信息,采用预测模型来预测未来的需求变化,从 而优化库存水平和生产计划。此案例的价值在于展示了数据分析在商业智能领域 的实际应用,提高了企业的运营效率和成本控制能力。

《数据挖掘》读书报告

《数据挖掘》读书报告

《数据挖掘导论》读书报告随着网络信息时代的到来,数据收集和数据存储技术也在飞速发展,使得各组织机构可以积累海量数据。

然而,提取有用的信息已经成为巨大的挑战。

由于数据量太大,无法使用传统的数据分析工具和技术处理它们。

有时,即使数据集相对较小,但由于数据本身具有的一些非传统特点,也不能使用传统的方法进行处理。

数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。

它将传统的数据分析方法与处理大量数据的复杂算法相结合,为探查和分析新的数据类型以及用新方法分析旧有数据类型提供了令人振奋的机会。

我所阅读的《数据挖掘导论》与其他同类图书不同的是,这本书将重点放在如何用数据挖掘知识解决各种实际问题上。

而且本书只要求很少的预备知识,即使没有数据库背景,只需要很少的统计学或数学知识背景,就能读懂其中的内容。

《数据挖掘导论》共分为十章,主要涵盖五个主题:数据、分类、关联分析、聚类和异常检测。

除异常检测外,每个主题都分两章讲述。

对于分类、关联分析和聚类,前面一章讲述基本概念、代表性算法和评估技术,后面一章深入讨论高级概念和算法。

第一章的绪论主要对数据挖掘进行了概述。

什么是数据挖掘?用比较简洁的话说,数据挖掘就是在大型数据存储库中,自动地发现有用信息的过程,它是数据库中知识发现全过程的一个核心步骤。

作为一类深层次的数据分析方法,它利用了数据库、人工智能和数理统计等多方面的技术,帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究中,从而提高科研工作的效率。

相对于传统数据分析方法,数据挖据技术需具备以下特征:(1)由于数据挖掘通常要处理的数据是海量的,它的算法必须是可伸缩的;(2)为低维数据开发的传统数据分析技术通常不能很好地处理那些具有成千上百属性的数据集,且随着维度的增加,某些数据分析算法的计算复杂性也在迅速增加,这就要求数据挖掘技术具有高维性;(3)数据挖掘还需具备处理异种数据和复杂数据的能力;(4)需要开发分布式数据挖掘技术来处理在地理上分布在属于多个机构的资源中的数据;(5)能自动地产生和评估假设等。

最新《数据仓库与数据挖掘》讲课笔记02

最新《数据仓库与数据挖掘》讲课笔记02

第二周:2012/9/4第三讲:数据仓库的多维数据模型数据仓库多维数据模型(Multi-Dimensional Data Model)是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)。

1.度量值(Measure)度量值是决策者所关心的具有实际意义的数值。

例如,销售量、库存量、银行贷款金额等。

度量值是所分析的多维数据集的核心,它是最终用户浏览多维数据集时重点查看的数值数据。

2. 事实数据表(Fact Table)度量值所在的表称为事实数据表,事实数据表中存放的事实数据通常包含大量的数据行。

事实数据表的主要特点是包含数值数据(事实),而这些数值数据可以统计汇总以提供有关单位运作历史的信息。

3.维度成员(Dimension Member)维的一个取值称为该维的一个维度成员(简称维成员)。

如果一个维是多级别的,那么该维的维度成员是在不同维级别的取值的组合。

例如,考虑时间维具有日、月、年这3个级别,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。

4. 维度表(Dimension Table)包含维度信息的表是维度表,维度表包含描述事实数据表中的事实记录的特性。

维度表和事实表相互独立,又互相关联并构成一个统一的模式。

构建多维数据集时常用的架构:1.星型模式星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimens ion Table)组成。

每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。

事实表的非主键属性称为事实(Fact),它们一般都是数值或其他可以进行计算的数据; 而维表大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表的主键的部分或全部)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、百分比(percent)的聚集计算,甚至可以做20-80 分析。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《Data Analysis: with open source tools》
第18章预测分析读书笔记
一、全书概况
1.作者简介
本书作者是Philipp K. Janer,他凭借着自己多年来担任物理学家和软件工程师的经验,为数据分析和数学建模提供咨询服务。

他是Gnuplot in Action:Understanding Data with Graphs(Manning出版)的作者,也在O’Reilly Network、IBM developerWorks和IEEE Software发表过大量文章,拥有华盛顿大学理论物理学博士学位。

2.本书大纲
本书中文名为《数据之魅:基于开源工具的数据分析》,共分为四个部分19章节。

第一部分为1-6章,讲述的是如何通过图表技术来观察数据,分别介绍了单变量、双变量、时间序列、多变量的图表技术应用。

第二部分为7-11章,讲述了如何通过各种建模方法来分析数据,讨论了数量级估计和不确定性因素、开发模型的基本组件。

第三部分为12-15章,着重阐述如何进行数据挖掘,如何运用模拟、聚类等方法挖掘有用的知识。

第四部分为16-19章,强调数据分析在商业和金融等领域的实际应用。

另外,本书每章的最后都有一个标题为“工作坊”的小节,介绍通过各种开源工具和源码库来实践当前章节所讲述的理论,例如Python、R、gnuplot、Sage等。

本书包含大量的模拟过程及结果展示,并通过实例来阐述如何使用开源工具来进行数据分析。

通过本书的阅读,笔者可以清楚地了解这些方法的实际用法及用途。

二、第18章预测分析
本章讨论的是如何直接根据数据来进行预测。

在第二部分中,作者介绍了通过构造某种概念模型来进行预测的方法,但当环境复杂时,我们可能面临着没办法构造概念模型的问题,所以本章的预测法很好的解决了这一难题。

预测分析用于描述直接从数据中获取预测信息为目的的各种任务,其中以下三个应用领域比较突出,分别是:1)分类或者监督学习。

将每个纪录分配到已知的已经定义好的类集合中,如垃圾邮件的过滤;2)聚类或无监督学习。

将纪录归并为簇,但簇是未知的。

3)推荐。

根据以往的兴趣或者习惯来推荐一个合
适的项目。

其中,分类毋庸置疑是最重要的领域也是研究最深入的领域,本章概括性的介绍最重要的几种分类算法和技术。

1.六种主要的分类算法
1)基于实例的分类和最近邻分类算法
基于实例的分类算法,即为了对一个未知的实例分类,为新实例寻找“最相似”的现有实例,分配已知实例的类标签给新实例。

基于实例的分类没有一个独立的训练阶段,分类中唯一可以调节的参数是邻节点的个数k,因此分类的代价很昂贵。

2)贝叶斯分类器
贝叶斯分类器采用的是一种概率性的分类法。

给定一组属性,它计算实例属于这个或者哪个类的概率,然后一个实例被分配给概率最高的那个类标签。

贝叶斯分类器计算条件概率,给定一组特征的应用以及训练集合中可以完全确定的完整的表达式,能够表示一个实例属于类C的概率。

但在实际中,直接估算这个概率几乎不可能。

朴素贝叶斯大大简化了问题,使得只需要一次确定一个单独属性中的属性值出现的概率。

贝叶斯网络也可以达到不错的效果,因为可以只保留那些彼此间由因果关系的组合,修剪掉所有可能的特征组合,
3)回归
回归分析指的是,当类标签和特征集合之间存在函数关系时,可以在这种关系上通过调整对数据的一个合适的函数来建立一个分类器。

通常会利用逻辑函数作为一个光滑的逼近代替阶梯函数。

逻辑回归同所有的回归分析方法一样,是一种全局技术,试图优化所有点的调整,而不是只适用于一个特别相关的子集上。

4)支持向量机
支持向量机是基于一种简单的几何构造的的算法。

在二维特征空间的训练实例中,我们选择“最好的”分界线(通常是曲线而非直线)来划分实例属于这个类而不是属于另一个类。

支持向量机给出的答案时“最好的”分界线。

支持向量机首先把寻找决策边界的任务转化为从一组点中构造一条线的集合任务,再寻找拥有最大边缘的决策边界。

另外,支持向量机的一个重要特性是它执行严格的全局优化,能够找出最优超平面。

5)决策树和基于规则的分类器
决策树和基于规则的分类器又被称为非度量性分类器,因为它们不需要计算距离。

决策树由一个决策点(树的节点)的层次结构构成。

使用决策树归类一个未知的实例时,在每个树节点检查一个单一的特征。

基于该特征值,选择下一个节点。

树的业节点对应类,一旦达到一个叶节点,待归类的实例就都已分配有相
应的类标签。

从训练集获得决策树的主要算法采用的是贪婪算法。

它不能保证会找到最佳解决方案,但能确保解决方案尽可能的好。

决策树和基于规则的分类器之间存在这等价关系。

后者包含一组规则(即对属性值的逻辑条件),在进行集合分类时,就根据它来决定一个测试实例的类标签。

6)其他分类算法
线性判别分析法,它和主成分分析法(PCA)类似。

人工神经网络,其思路是构造一个节点网络;每个网络从其他几个节点接受输入,构成其输入的权重平均值,然后将其发送到下一层节点。

在学习阶段,调整权重平均值中用到的权重,以尽量减少训练误差。

2.主要的技术
1)集成方法:Bagging和Boosting
集成方法指的是为了提高精确度,而将单独的或者“基础的”分类器的结果联合起来的一组技术。

其基本原理是,只要是独立进行的实验就可以进行预期,因为错误会被消除,平均结果会比单独试验的结果更精确。

Bagging是引导思路在分类方面的应用。

通过放回抽样这种方式从原始的训练集产生额外的训练集。

最终的类标签将基于多数决定少数或者类似技术进行分配。

Boosting是另一种利用引导方法来产生额外训练集的技术。

与Bagging不同的是,Boosting是一个迭代的过程,它给前几轮中错误分类的实例赋予较高权重,最后的结果有迭代过程中所有基本分类器产生的结果集合组成。

2)估计预测误差
由于训练错误率通常不能很好的衡量分离器再新的数据上能达到的精确度。

所以在训练过程中,通常会保留一些数据,用于之后的测试集合。

分类器在测试集合中所达到的错误率可作为泛化错误率。

如果集合中的可用数据较少,则可进行交叉验证。

基本思路是将随机分成同样大小的k个块的原始数据,执行k次训练和测试运行。

每次运行时从训练集合中留出一个块,将其用于测试集合。

最后取k次运行中得到的泛化错误率平均值,以获得预期的整体泛化错误率。

3)类不平衡问题
在数据集合中,会出现我们感兴趣的类比其他类出现的频率小很多的情况。

这种类的实例称为正事件,这个类本身称为正类。

评价分类器的惯用衡量标准,例如精确度、误差率,在有明显的类不平衡时
不是特别有意义。

更好的评价时召回率和准确率这两个衡量标准。

准确率是所有被标记为正的实例中正确分类的比例;召回率是所有被标记为负的实例中正确分类的比例。

一条 ROC(受试者操作特性)曲线描述的是对于三种不同的分离器实现,在真是的正(坏的事情被标记为坏——“命中”)和虚假的正(好的事情被标记为坏的——“假警报”)之间的权衡。

3.属性的选择
属性的选择对分类的成功具有举足轻重的作用,其重要性甚至胜过分类算法的选择。

不过,对比不同分类器算法及其理论属性更细节的可用信息时,更难找到更好的指导叫我们如何最佳选择、准备和分类器写特征代码。

原因是缺乏严谨性,对于特征选择和编码的建议都是经验性和启发式的。

这导致规模庞大且广味认知的成功应用明显缺乏,除了垃圾邮件过滤器、信用卡欺诈检测和信用评分等被广泛应用。

这表明每一个成功的分类器实现比起依赖算法的依赖更加依赖于特定问题的细节。

三、总结
本书逻辑框架清晰、分析深入浅出,是数据挖掘领域的经典入门书籍。

但笔者在阅读此书的时候,由于数理知识和计算机语言相关内容的匮乏,感觉到有些吃力。

但好在每章节最后都有工作坊这一部分,通过模拟实践可以更加容易的掌握晦涩的理论知识。

总的来说,通过对本书的阅读,笔者对数据挖掘以及数据分析有了更加深入的理解和认识,今后笔者会继续此领域的学习,更进一步的进行探究。

相关文档
最新文档