数据挖掘第二章

合集下载

数据挖掘第三版第二章课后习题答案

数据挖掘第三版第二章课后习题答案

1.1什么是数据挖掘?(a)它是一种广告宣传吗?(d)它是一种从数据库、统计学、机器学和模式识别发展而来的技术的简单转换或应用吗?(c)我们提出一种观点,说数据挖掘是数据库进化的结果,你认为数据挖掘也是机器学习研究进化的结果吗?你能结合该学科的发展历史提出这一观点吗?针对统计学和模式知识领域做相同的事(d)当把数据挖掘看做知识点发现过程时,描述数据挖掘所涉及的步骤答:数据挖掘比较简单的定义是:数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用信息和知识的过程。

数据挖掘不是一种广告宣传,而是由于大量数据的可用性以及把这些数据变为有用的信息的迫切需要,使得数据挖掘变得更加有必要。

因此,数据挖掘可以被看作是信息技术的自然演变的结果。

数据挖掘不是一种从数据库、统计学和机器学习发展的技术的简单转换,而是来自多学科,例如数据库技术、统计学,机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像和信号处理以及空间数据分析技术的集成。

数据库技术开始于数据收集和数据库创建机制的发展,导致了用于数据管理的有效机制,包括数据存储和检索,查询和事务处理的发展。

提供查询和事务处理的大量的数据库系统最终自然地导致了对数据分析和理解的需要。

因此,出于这种必要性,数据挖掘开始了其发展。

当把数据挖掘看作知识发现过程时,涉及步骤如下:数据清理,一个删除或消除噪声和不一致的数据的过程;数据集成,多种数据源可以组合在一起;数据选择,从数据库中提取与分析任务相关的数据;数据变换,数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘,基本步骤,使用智能方法提取数据模式;模式评估,根据某种兴趣度度量,识别表示知识的真正有趣的模式;知识表示,使用可视化和知识表示技术,向用户提供挖掘的知识1.3定义下列数据挖掘功能:特征化、区分、关联和相关性分析、分类、回归、聚类、离群点分析。

数据挖掘第一与第二章PPT课件

数据挖掘第一与第二章PPT课件
散的目标变量;回归,用于预测连续的目标变 量。
预测建模可以用来确定顾客对产品促销活 动的反应,预测地球生态系统的扰动,或根据 检查结果判断病人是否患有某种疾病。
14
数据挖掘任务
• 关联分析 用来描述数据中强关联特征的模式。 关联分析的应用包括找出具有相关功
能的基因组、识别用户一起访问的Web页面、 理解地球气候系统不同元素之间的联系等。
12
数据挖掘任务
• 预测vs.描述 • 预测(Prediction)
– 根据其他属性的值,预测特定属性的值 • 描述(Description)
– 导出概括数据中潜在联系的模式
2020年9月29日星期二
13
数据挖掘任务
• 预测建模 涉及以说明自变量函数的方式为目标变量
建立模型。 有两类预测建模任务:分类,用于预测离
– 使用抽样技术或开发并行和分布算法也可以提高可 伸缩程度
2020年9月29日星期二
7
挑战2
• 高维性
– 具有数以百计或数以千计属性的数据集
• 生物信息学:涉及数千特征的基因表达数据 • 不同地区温度测量:如果在一个相当长的时间周期内进
行测量,维度(特征数)的增长正比于测量的次数
– 为低维数据开发的数据分析技术不能很好地处理高 维数据
异常检测的应用包括检测欺诈、网络攻 击、疾病的不寻常模式、生态系统扰动等。
– Jiawei Han的定义
• 从大型数据集中提取有趣的 (非平凡的, 蕴涵的, 先前未知的并且是潜在有用的) 信息或模式
4
数据挖掘技术的定义
• 定义:数据挖掘就是从大量的、不完全的、有 噪声的、模糊的、随机的实际应用数据中,提 取隐含在其中的,人们事先不知道的、但又是 潜在有用的信息和知识的过程.

大数据本科系列教材PPT课件之《数据挖掘》:第2章 数据预处理与相似性

大数据本科系列教材PPT课件之《数据挖掘》:第2章 数据预处理与相似性
这种方法的缺点是对异常点比较敏 感,倾向于不均匀地把实例分布到 各个箱中。
等宽分箱法
将数据总记录数均匀分为n等份,每 份包含的数据个数相同。如果n=10, 那么每一份中将包含大约10%的数 据对象。
等频法可能将具有不相同类标号的 相同属性值分入不同的箱中以满足 箱中数据固定个数的条件。
等频分箱法
19 of 44
x ' x min (new _ max new _ min) new _ min max min
将x转换到区间[new_min,new_max]中,结果为 。这种方法有一个缺 陷就是当有新的数据加入时,可能导致max,min值的变化,需要重新 定义。如果要做0-1规范化,上述式子可以简化为:
18 of 44
2.2 数据预处理
第二章 数据预处理与相似性
2.2.5 数据离散化
连续属性离散化的问题本质是:决定选择多少个分割点和确定分割点位置。任务可分为两个步骤 完成。首先将连续属性排序,并通过指定n-1个分割点把它们分成n个区间。然后,将一个区间中 的所有值映射到相同的分类值。
将排好序的数据从最小值到最大值 均匀划分成n等份,每份的间距是相 等的。假设A和B分别是属性值的最 小值和最大值,那么划分间距为 w=(B-A)/n
图形数据对象之间存在显式或隐式的联系,相互之间有一定的复杂依 赖关系,构成图形或网状结构,如互联网中的超链接。
6 of 44
高级大数据人才培养丛书之一,大数据挖掘技术与应用
第二章 数据预处理与相似性
2.1 数据类型 2.2 数据预处理 2.3 数据的相似性 习题
7 of 44
2.2 数据预处理
数据挖掘工作始终是以数据为中心开 展的,分类、聚类、回归、关联分析 以及可视化等工作的顺利进行完全是 建立在良好的输入数据基础之上。软 件开发行业有句格言:“Garbage-InGarbage-Out”,这句话同样适用于 数据科学。

数据挖掘2

数据挖掘2

(4)数据压缩技术 (5)复合键码技术 (6)有效地装载数据
2. 数据存储技术
数据的存储技术包含多介质存储设备的管 理技术,数据存储的控制技术,数据的并行存 储与管理技术,可变长技术和锁切换技术、双 层环境等。
3. 数据仓库接口技术
(1)多技术的接口:对于数据仓库的创建和运行来说,能够 使用各种不同的技术获取或传送数据是很重要的。 (2)语言的接口:数据仓库的实际应用必须依赖某种语言来 完成,典型的数据仓库语言接口必须满足如下要求:
• • • • 能够一次访问一条记录或一组数据 能够确保索引可以满足用户需要 有SQL接口 能够插入、删除和更新数据
(3)数据加载技术
2.2 数据仓库中的数据
2.2.1数据仓库的数据组织
1.数据仓库组成 (1)数据仓库管理部分 数据仓库的数据来自多个数据源,包括企业内 部数据和市场调查与分析的外部数据。数据仓库管 理部分的组成包括:
图2-11 企业数据模型
财务部门 销售收入帐 应收帐 应付帐 成本帐 销售部门 销售计划 销售合同 销售统计 人事部门 员工业绩记录 员工技能情况 员工薪酬表 财务 销售
企业数据模型
人事
…….. …..
…….
(2)星型数据模型 星型数据模型将数据分为两类:事实和维。星 型模型是数据的图形视图。星形的中心是事实表 (有时称为主表),其中存放要考查的数据—事实。 在事实表的外围是维表(有时称为副表、维度表), 主要存储事实的特征数据。每个维表利用维关键字 通过事实表中的外键被约束在事实表中的某一行, 以与事实表相关联。
这种方式在提高性能和可靠性、降低数据传输 量以及保证数据的安全性等方面有来很大的好处。
2. 数据仓库的数据组织
数据仓库中数据的组织方式与数据库不同, 通常采用分级的方式进行组织。一般包括早期 细节数据、当前细节数据、轻度综合数据、高 度综合数据以及元数据五部分。 (1)早期细节数据:指存储过去的详细数据, 它反映了真实的历史情况。 (2)当前细节数据:指最近时期的业务数据, 它反映了当前业务的情况,数据量大,是数据 仓库用户最感兴趣的部分。

Microsoft Word - 第二章 数据预处理

Microsoft Word - 第二章  数据预处理

由于数据库系统所获数据量的迅速膨胀(已达 或 数量级),从而导致了现实世界数据库中常常包含许多含有噪声、不完整( )、甚至是不一致( )的数据。

显然对数据挖掘所涉及的数据对象必须进行预处理。

那么如何对数据进行预处理以改善数据质量,并最终达到完善最终的数据挖掘结果之目的呢?数据预处理主要包括:数据清洗( )、数据集成( )、数据转换( )和数据消减( )。

本章将介绍这四种数据预处理的基本处理方法。

数据预处理是数据挖掘(知识发现)过程中的一个重要步骤,尤其是在对包含有噪声、不完整,甚至是不一致数据进行数据挖掘时,更需要进行数据的预处理,以提高数据挖掘对象的质量,并最终达到提高数据挖掘所获模式知识质量的目的。

例如:对于一个负责进行公司销售数据分析的商场主管,他会仔细检查公司数据库或数据仓库内容,精心挑选与挖掘任务相关数据对象的描述特征或数据仓库的维度( ),这包括:商品类型、价格、销售量等,但这时他或许会发现有数据库中有几条记录的一些特征值没有被记录下来;甚至数据库中的数据记录还存在着一些错误、不寻常( )、甚至是不一致情况,对于这样的数据对象进行数据挖掘,显然就首先必须进行数据的预处理,然后才能进行正式的数据挖掘工作。

所谓噪声数据是指数据中存在着错误、或异常(偏离期望值)的数据;不完整( )数据是指感兴趣的属性没有值;而不一致数据则是指数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。

而数据清洗是指消除数据中所存在的噪声以及纠正其不一致的错误;数据集成则是指将来自多个数据源的数据合并到一起构成一个完整的数据集;数据转换是指将一种格式的数据转换为另一种格式的数据;最后数据消减是指通过删除冗余特征或聚类消除多余数据。

不完整、有噪声和不一致对大规模现实世界的数据库来讲是非常普遍的情况。

不完整数据的产生有以下几个原因:( )有些属性的内容有时没有,如:参与销售事务数据中的顾客信息;( )有些数据当时被认为是不必要的;( )由于误解或检测设备失灵导致相关数据没有记录下来;( )与其它记录内容不一致而被删除;( )历史记录或对数据的修改被忽略了。

数据挖掘第一与第二章概述数据收集讲解学习

数据挖掘第一与第二章概述数据收集讲解学习

2022年3月12日星期六
数据挖掘导论
25
数据集的重要特性
• 维度(Dimensionality) – 数据集的维度是数据集中的对象具有的属性数目 – 维灾难(Curse of Dimensionality) – 维归约(dimensionality reduction)
• 稀疏性(Sparsity) – 具有非对称特征的数据集,一个对象的大部分属性上的值都为 0 – 只存储和处理非零值
数据
– 数据中的联系
• 如时间和空间的自相关性、图的连通性、半结构化文本和XML文 档中元素之间的父子联系
2022年3月12日星期六
数据挖掘导论
9
挑战4
• 数据的所有权与分布
– 数据地理上分布在属于多个机构的资源中
• 需要开发分布式数据挖掘技术
– 分布式数据挖掘算法面临的主要挑战包括
• (1) 如何降低执行分布式计算所需的通信量? • (2) 如何有效地统一从多个资源得到的数据挖掘结果? • (3) 如何处理数据安全性问题?
Single 70K
No
Married 120K No
Divorced 95K
Yes
Married 60K
No
Divorced 220K No
Single 85K
Yes
Married 75K
No
Single 90K
Yes
2022年3月12日星期六
数据挖掘导论
28
记录数据: 数据矩阵
• 如果一个数据集族中所有数据对象都具有相同的数 值属性值,则数据对象可以看做多维空间中的点, 每个维代表对象的一个不同属性。
2.1 数据类型
• 数据集的不同表现在很多方面。例如, 某些数据集包含时间序列或者彼此之间具 有明显联系的对象。毫不奇怪,数据的类 型决定我们应使用何种工具和技术来分析 数据。此外,数据挖掘研究常常是为了适 应新的应用领域和新的数据类型的需要而 展开的。

数据挖掘概念和实践指南

数据挖掘概念和实践指南

数据挖掘概念和实践指南第一章:数据挖掘简介数据挖掘(Data Mining)是一种通过发现并提取大规模数据中隐藏的模式、关联和信息的方法。

它是在统计学、机器学习和数据库系统等多个领域的基础上发展起来的,主要用于帮助人们从大规模数据中获取有用的知识和信息。

第二章:数据挖掘的基本任务数据挖掘可以分为多个任务,包括分类、聚类、关联规则挖掘、异常检测和预测等。

分类任务是根据给定的数据特征和已知的类别标签,构建一个模型,用于对新样本进行分类。

聚类任务是将数据集中的样本划分为若干个子集,每个子集之间的数据相似性较高。

关联规则挖掘任务是寻找数据集中不同项之间的关联关系。

异常检测任务是发现与正常模式相异或异常的数据。

预测任务是通过已有的数据和模型,对未来的数据进行预测。

第三章:数据挖掘的方法和技术数据挖掘有多种方法和技术,其中最常用的是机器学习方法。

机器学习方法可以分为监督学习和无监督学习。

监督学习是根据已知的数据标签构建一个模型,并利用该模型对新样本进行分类或预测。

无监督学习是在没有已知数据标签的情况下,通过发现数据的内在结构和模式,进行聚类和关联规则挖掘。

此外,还有其他方法和技术,如决策树、神经网络、支持向量机、深度学习和遗传算法等。

这些方法和技术可以根据具体任务和数据特征的不同选择合适的方法进行处理。

第四章:数据挖掘的应用领域数据挖掘在多个领域中得到了广泛的应用。

在商业领域中,数据挖掘被用于市场分析、客户关系管理、广告推荐和风险评估等。

在医疗领域中,数据挖掘可以辅助医生进行疾病诊断、药物发现和预测流行病等。

在金融领域中,数据挖掘被用于信用评估、欺诈检测和投资决策等。

在社交媒体领域中,数据挖掘可以帮助分析用户行为和推荐个性化内容。

第五章:数据挖掘的实践指南在实践数据挖掘时,以下几点需要特别注意:1. 数据预处理:数据挖掘的结果受到数据质量的影响,因此需要对数据进行清洗、去噪、归一化等预处理操作,以保证数据的准确性和一致性。

数据挖掘与知识发现(第二章)

数据挖掘与知识发现(第二章)

15
属性的类型也可以用不改变属性意义的变换来描述:
例: 如果长度分别用米和英尺度量,其属性意义是否有变化。计算平均长 度时,有什么变化? 例:温度 我们说“温度2度是1度的两倍”,用下列哪种测量有意义? 绝对标度?摄氏度?华氏度?
16
三、非对称的属性
对于非对称的属性,只有非零值才是重要的
例1:对象是学生,属性是学生是否选修某门大学课程。对某个学生,如果他选 择了对应某属性的课程,则该属性取1,否则取0。
22
稀疏数据矩阵
数据矩阵的特殊形式 属性类型相同 非对称
23
三、基于图形的数据
带有对象之间联系的数据
数据对象映射到图中的结点 对象之间的联系用对象之间和链、方向、权值表示
2 5 2 5 1
24
具有图形对象的数据
若对象具有结构(包含具有联系的子对象),则对象常用图形表示
25
34
一、测量误差和数据收集错误
测量误差:
测量过程中导致的问题,在某种程度上,记录的值与实际值不符 例: 一个人连续两次测量体重,得到的值不一样
数据收集错误:
遗漏数据对象或属性值,或不当的包含了其他数据对象 例: 一类特定种类动物研究可能包含了其他相关种类的动物,他们只是表面上与要 研究的种类相似。
12
二、属性类型
属性的性质不必与用来度量他的值的性质相同 属性类型告诉我们,属性的哪些性质反映在用于测量他的 值中。 例1:雇员年龄与ID号 这两个属性都可以用整数表示 雇员的平均年龄有意义,而平均ID却无意义 年龄有最大最小值,而整数却无此限制 但用整数来表示时,并未暗示有限制
13
例2:线段长度
TID
Items
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数值归约


通过选择替代的、较小的数据表示形式来减少数 据量 有参方法:使用一个参数模型估计数据,最后只 要存储参数即可。


线性回归方法:Y=α+βX 多元回归:线性回归的扩充 对数线性模型:近似离散的多维数据概率分布
直方图 聚类 选样

无参方法:

直方图


一种流行的数据归约技术 将某属性的数据划分为不相交的子集,或桶,桶中放置 该值的出现频率 桶和属性值的划分规则

等宽 等深 V-最优 MaxDiff
40 35 30 25 20 15 10 5 0
10000 30000 50000 70000 90000
聚类




将数据集划分为聚类,然后通过聚类来表 示数据集 如果数据可以组成各种不同的聚类,则该 技术非常有效,反之如果数据界线模糊, 则方法无效 数据可以分层聚类,并被存储在多层索引 树中 聚类的定义和算法都有很多选择

离散化


离散化和概念分层

离散化

通过将属性域划分为区间,减少给定连续属性 值的个数。区间的标号可以代替实际的数据值。 通过使用高层的概念(比如:青年、中年、老 年)来替代底层的属性值(比如:实际的年龄 数据值)来规约数据

概念分层

数据数值的离散化和概念分层生成

分箱(binning)
数据预处理



为什么要预处理数据? 数据清理 数据集成 数据变换 数据归约 数据离散化
数据变换

平滑:去除数据中的噪声 (分箱、聚类、回归) 聚集:汇总,数据立方体的构建 数据概化:沿概念分层向上汇总 规范化:将数据按比例缩放,使之落入一个小的 特定区间

最小-最大规范化 z-score规范化 小数定标规范化 通过现有属性构造新的属性,并添加到属性集中;以增 加对高维数据的结构的理解和精确度
Low (i.e, 5%-tile)
High(i.e, 95%-0 tile)
Max
第三步
第四步
(-$400 - 0) (-$400 -$300) (-$300 -$200) (-$200 -$100) (-$100 0) (0 $200) ($200 $400) ($400 $600) ($600 $800) (0 - $1,000)
处理数据集成中的冗余数据

集成多个数据库时,经常会出现冗余数据

同一属性在不同的数据库中会有不同的字段名 一个属性可以由另外一个表导出,如“年薪”
( A A)( B B ) (n 1) A B

有些冗余可以被相关分析检测到
rA, B

仔细将多个数据源中的数据集成起来,能 够减少或避免结果数据中的冗余与不一致 性,从而可以提高挖掘的速度和质量。

用箱平均值平滑:


用箱边界平滑:

聚类
通过聚类分析查找孤立点,消除噪声
计算机和人工检查相结合


先通过聚类等方法找出孤立点。这些孤立 点可能包含有用的信息。 人工再审查这些孤立点
回归
Y1
y
Y1’
y=x+1
X1
x
数据预处理



约 数据离散化
选样——SRS
原始数据
选样——聚类/分层选样
原始数据
聚类/分层选样
数据预处理



为什么要预处理数据? 数据清理 数据集成 数据变换 数据归约 数据离散化
离散化

三种类型的属性值:

名称型——e.g. 无序集合中的值(如颜色, 民族..) 序数——e.g. 有序集合中的值 (如职称) 连续值——e.g. 实数 将连续属性的范围划分为区间 有效的规约数据 基于判定树的分类挖掘 离散化的数值用于进一步分析

公式或判定树这样的基于推断的方法 使用粗噪集中不完备信息系统的处理方法
噪声数据

噪声:一个测量变量中的随机错误或偏差 引起不正确属性值的原因



数据收集工具的问题 数据输入错误 数据传输错误 技术限制 命名规则的不一致 重复记录 不完整的数据 不一致的数据

其它需要数据清理的数据问题

启发式的(探索性的)方法

数据压缩

有损压缩 VS. 无损压缩 字符串压缩


有广泛的理论基础和精妙的算法 通常是无损压缩 在解压缩前对字符串的操作非常有限 通常是有损压缩,压缩精度可以递进选择 有时可以在不解压整体数据的情况下,重构某个片断

音频/视频压缩


两种有损数据压缩的方法:小波变换和主要成分 分析
数据变换

数据归约


数据离散化

数据预处理



为什么要预处理数据? 数据清理 数据集成 数据变换 数据归约 数据离散化
数据清理处理内容



格式标准化 异常数据清除 错误纠正 重复数据的清除 主要包括


空缺值的处理 噪声数据的处理
空缺值

数据并不总是完整的

例如:数据库表中,很多条记录的对应字段没有相应值, 比如销售表中的顾客收入

分箱技术递归的用于结果划分,可以产生概念分层。 直方图分析方法递归的应用于每一部分,可以自动产 生多级概念分层。 将数据划分成簇,每个簇形成同一个概念层上的一个 节点,每个簇可再分成多个子簇,形成子节点。

直方图分析(histogram)


聚类分析


基于熵的离散化 通过自然划分分段
通过自然划分分段

将数值区域划分为相对一致的、易于阅读 的、看上去更直观或自然的区间。


聚类分析产生概念分层可能会将一个工资区间 划分为:[51263.98, 60872.34] 通常数据分析人员希望看到划分的形式为 [50000,60000]

自然划分的3-4-5规则常被用来将数值数 据划分为相对一致,“更自然”的区间

数据归约策略




用于数据归约的时间不应当超过或“抵消”在归 约后的数据上挖掘节省的时间。
维归约

通过删除不相干的属性或维减少数据量 属性子集选择


找出最小属性集,使得数据类的概率分布尽可能的接近 使用所有属性的原分布 减少出现在发现模式上的属性的数目,使得模式更易于 理解 逐步向前选择 逐步向后删除 向前选择和向后删除相结合 判定归纳树 粗噪集方法
数据集成

数据集成:

将多个数据源中的数据整合到一个一致的存储中 整合不同数据源中的元数据 实体识别问题:匹配来自不同数据源的现实世界 的实体,比如:A.cust-id=B.customer_no
模式集成:



检测并解决数据值的冲突


对现实世界中的同一实体,来自不同数据源的属 性值可能是不同的 可能的原因:不同的数据表示,不同的度量等等
数据预处理



为什么要预处理数据? 数据清理 数据集成 数据变换 数据归约 数据离散化
数据归约策略

数据仓库中往往存有海量数据,在其上进行复杂 的数据分析与挖掘需要很长的时间 数据归约

数据归约可以用来得到数据集的归约表示,它小得多, 但可以产生相同的(或几乎相同的)分析结果 数据立方体聚集 维归约 数据压缩 数值归约 离散化和概念分层产生

price的排序后数据(单位:美元):4,8,15,21,21, 24,25,28,34 划分为(等深的)箱:

箱1:4,8,15 箱2:21,21,24 箱3:25,28,34 箱1:9,9,9 箱2:22,22,22 箱3:29,29,29 箱1:4,4,15 箱2:21,21,24 箱3:25,25,34
数据清理的重要性
1.
2.
脏数据的普遍存在,使得在大型数 据库中维护数据的正确性和一致性 成为一个及其困难的任务。 垃圾进、垃圾出
数据质量的多维度量

一个广为认可的多维度量观点:




精确度 完整度 一致性 可信度 附加价值 可访问性 …… 内在的、上下文的、表象的

跟数据本身的含义相关的
选样


允许用数据的较小随机样本(子集)表示大的数 据集 对数据集D的样本选择:




简单随机选择n个样本,不回放:由D的N个元组中抽取 n个样本 简单随机选择n个样本,回放:过程同上,只是元组被 抽取后,将被回放,可能再次被抽取 聚类选样:D中元组被分入M个互不相交的聚类中,可 在其中的m个聚类上进行简单随机选择(m<M) 分层选样:D被划分为互不相交的“层”,则可通过对 每一层的简单随机选样得到D的分层选样

如何处理噪声数据

分箱(binning):

首先排序数据,并将他们分到等深的箱中 然后可以按箱的平均值平滑、按箱中值平滑、 按箱的边界平滑等等 监测并且去除孤立点


聚类:

计算机和人工检查结合

计算机检测可疑数据,然后对它们进行人工判 断 通过让数据适应回归函数来平滑数据

回归

数据平滑的分箱方法
3-4-5规则——例子
count 第一步 -$351 -$159 profit Low=-$1,000 High=$2,000 (-$1,000 - $2,000) (-$1,000 - 0) (0 -$ 1,000) ($1,000 - $2,000) $1,838 $4,700
相关文档
最新文档