浅析数据挖掘
浅析数据挖掘在电信企业经营分析系统中的实际应用

蘩鼹
浅 析 数 据 挖 掘 在 电信 企 业 经营 分 析 系 统 中 的实 际 应 用
邬 宏 齐 维 栋
长春 10 1 ) 3 0 2 ( 长春电信工程设计院股份有 限公司 吉林
琏 一 、 ▲
摘
要 : 对于 经营分析 系统而言 ,数据挖 掘是经 营分析 系统中 的典型应用 ,或者说 经营分 析是基于 数据挖掘 技术的 系统 。从数据 挖掘 的含 义讲起 ,充分结合
系 统交流 ,来完成 挖 掘工 作 [ ] 2。
数 据 分析 及挖 掘 :本 公司 用户 未能 按语 音通 话 行为 进行 归属 的 ,按用 户 信 息表里 的 入网营 业厅 进行 归 属。 其 他运 营 商用 户未 能按 通话 行 为归 属 的,再 按短 信 详单 中次 数最 多 的 本 地用 户所 属 营业部 进行 归属 。 仍 未 能归 属 的其他 运 营商 用户 ,再 按其 所属 地 市下 的拥 有基 站最 多 的 营 业部 进行 归属 。 2 2 新增用 户 的判 别方 法 。取 当月 详单 记录 ,过 滤掉 基础 用 户和 日后 . 确 定 的老用 户 的通 话 详单 , 只取 新 出现 的用 户 详单 ,按 照 上述 基本 方法 进
实 例 , 阐述 数 据 挖 掘 技 术 在 经 营 分 析 系 统 中 的应 用 。 关 键 词 : 数 据 挖 掘 ; 电 信 企 业 ; 经 营 分 析 系 统 中 图 分 类 号 : T 3 文 献 标 识 码 :A 文 章 编 号 : 1 7 - 7 9 ( 0 0 1 2 0 9 0 P 1 5 7 2 1) 109 - 1 6
掘专 题 中对 流程 进 行 了一定 的 优化 和 改进 ,但 每 个专 题 时间仍 需 一个 月 以
数据挖掘技术浅析

偏 差 分 析 就 是 通 过 对 数 据 库 中 的 孤 立 点 数 据 进 行 分 析 . 找 有 价 值 和 意 寻 义的信 息 。
需 要 而 发 展 起来 一 种新 的 信 息 分 析 技
术 . 种 技 术 称 为 数 据 挖 掘 。 数 据 挖 掘 这
预 测 就 是 通 过 对 历史 数 据 的 分 析 找 出 规 律 . 建 立 模 型 . 过 模 型 对 未 并 通
就 是从 大 量 的 、 不完 全 的 、 噪声 的 、 有 模 糊 的 、 机 的 实 际 应 用 数 据 中 。 取 隐 随 提
来数 据 的种类 和特 征进 行 分析 预 测与 分 类 相 似 , 是 分 为 两 个 步 骤 : 是 通 也 一
据 源 、 间数 据 库 、 序数 据 库 、 本 数 空 时 文
数据 信息 。
聚 类 分 析 是 在 没 有 给 定 划分 类 的
据 库和 多媒 体 数据 库 等 . 可 以是 We 情 况 下 . 据 数 据 信 息 的 相 似 度 进 行 数 还 b 根
据 聚 集 的 一 种 方 法 。 聚 类 分 析 中 。 先 首
其 次 将 来 自多 数 据 源 中的 相 关 数 据 组 合 并 : 后 将数 据 转换 为 易 于进 行数 据 然
备。
32 数 据 挖 掘 .
数 据 挖 掘 的 目标 是 从 海 量 的 数 据 度最 小化 。” 的基本 聚类 分析 原则 。 以及 挖 掘 的数 据 存 储 形 式 .这 就 是 数 据 准
数 据 挖 掘 技 术 浅 析
陈 会 果
( 通信 指挥 学院 湖北 武 汉 4 0 1) 3 0 0
摘
浅析数据挖掘

甘肃 科 技
G n u S in e a d T c n l g a s c e c n e h oo y
1 .7 Z 2
Ⅳ0 1 .2
Jn u . 2 1 01
浅 析 数 据 挖 掘
田 伟 , 殷淑娥
(. 1兰州商学 院陇桥学院 , 肃 兰州 702 ;. 甘 3002兰州大学 , 甘肃 兰州 700 ) 300
据集合。数据挖掘 的结果是 由设计者经过思考、 选 择和决策后 , 通过对知识进行关联和聚合 , 形成新 的
知识 。 2 1 数据 选取 .
数据选取的 目的是确定 目标数据 , 根据用户 的 需要从原始数据库 中选取相关数据或样本 。利用一 些数据库操作对数据库进行相关处理 。
2 2 数据 预处 理 .
数据挖掘所能解决的典型商业问题包括 : 数据 库营销 ( a bs M ren ) 客 户群 体划 分 ( u- D t ae a tg 、 a ki Cs t e S g eti o r em n tn&Casi tn 、 m ao l ic i ) 背景分析 ( r- sf ao Po
对选 出 的数 据进 行 再 处 理 , 检查 数 据 的完 整性
t n or “ i o) 的局面 , op 采用传统 的数据库技术 己显得
微不足道 。数据 的迅速增加与数据分析处理方法滞 后 的矛盾 越 来越 大 , 们 希 望 能够 在 对 已有 的大 量 人 数据分析的基础上进行科学研究、 商业决策或企业 管理 , 从而达到为决策服务 的 目的。数据挖掘就是 为了满足这种需求而迅速发展起来的一种新 的数据
对帐户进行科学的分析和归类 , 并进行信用评估 。
浅析数据挖掘技术及应用

致的数据。
数 据 关联 是 数 据 库 中存 在 的 一 类 重要 的 可被 发现 的知 识 。若 两 个 或 多 个变 量 的
② 数据 集 成 将 多种 数 据 源 组 合集 成 在 取 值之 间 存 在 某 种 规 律 性 ,就 称 为 关 联 。 起。 关联 可 分 为 简单 关 联 、时 序 关 联 、 因果 关 行 、都 行储 r 量 的 有关 生 产 、管 理和 科 大 联 。关 联 分 析 的 目的 是 找 出 数据 库 中隐 藏 研 的 萏种 信息 ,全 球 范 围 内数 据 存 储量 正 2 2数据选 择和 变换 ① 数据 选择 从数 据 库 中检 索 与 分 析 任 的 关 联 网 。 有时 并 不 知 道数 据 库 中数据 的 急 剧 增 加 。然 而 与 此 形 成鲜 明 对 比 的 是 ,
数据 收集 能 力 得到 了大 幅 的 提 高 ,社 会 各
一
人{j 大规 馍 数 据 的理 解 能 力 并没 有 得 到 『对
有效 的 提 高 ,仅 仅 依 靠 传 统 的 数据 检 索 和
统 计 分 幸 方 法 已 远 远 不 能 满 足 需 要 ,以 斤等 致 出 丁 “ 据 # 富 , 信息 贫 乏 (a a ih 数 但 d t rc
1数据挖掘的涵义及特点
3数据挖掘 的功能
描 述只涉及该类 对象中所有对象的共性 。 生 成 区 别性 描述 的方 法很 多 ,如 决 策 树 方
数据挖掘 是指( a a D t Mi ig 就是 从大 nn ) 数 据 挖 掘 功 能 用 于 指 定 数 据 挖 掘 任务 量 的 、不 完 全 的 、有 噪 声 的 、模 糊 的 、 随 中 要 找 的模 式 类 型 。 数 据挖 掘 任 务 一 般 可
数据挖掘功能及各自方法总结

数据挖掘功能的特点及主要挖掘方法一、数据挖掘功能的特点及主要挖掘方法数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下几类功能:(1)概念描述概念描述又称数据总结,其目的是对数据进行浓缩,给出它的综合描述,或者将它与其它对象进行对比。
通过对数据的总结,可以实现对数据的总体把握。
最简单的概念描述就是利用统计学中的传统方法,计算出数据库中各个数据项的总和、均值、方差等,或者利用OLAP(0n Line Processing,联机分析处理技术)实现数据的多维查询和计算,或者绘制直方图、折线图等统计图形。
(2)关联分析关联分析就是从大量数据中发现项集之间有趣的关联或相关联系。
随着大量数据不停地收集和存储,许多业界人士对于从他们的数据库中挖掘关联规则越来越感兴趣。
从大量商务事务记录中发现有趣的关联关系,可以帮助许多商务决策的制定。
关联分析的主要方法有Apriori算法、AprioriTid算法、FP-growth算法等。
(3)分类和预测分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测数据未来的趋势。
就是研究已分类资料的特征,分析对象属性,据此建立一个分类函数或分类模型,然后运用该模型计算总结出的数据特征,将其他未经分类或新的数据分派到不同的组中。
计算结果通常简化为几个离散值,常用来对资料作筛选工作。
分类和预测的应用十分广泛,例如,可以建立一个分类模型,对银行的贷款客户进行分类,以降低贷款的风险;也可以通过建立分类模型,对工厂的机器运转情况进行分类,用来预测机器故障的发生。
分类的主要方法有ID3算法、C4.5算法、SLIQ算法、SPRINT算法、RainForest 算法、Bayes分类算法、CBA(Classification Based on Association)算法、MIND(Mining in Database)算法、神经网络方法、粗糙集理论方法、遗传算法等。
(4)聚类分析当要分析的数据缺乏描述信息,或是无法组成任何分类模式时就采用聚类的方法,将异质母体区隔为较具同构性的群(Cluster),即将组之间的差异识别出来,并对个别组内的相似样本进行挑选,实现同组数据相近,不同组数据相异。
数据挖掘实验报告结论(3篇)

第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
数据挖掘机器学习总结6篇

数据挖掘机器学习总结6篇第1篇示例:数据挖掘和机器学习是近年来备受关注的热门领域,随着大数据时代的到来,数据挖掘和机器学习的应用也变得越来越广泛。
它们通过分析大量的数据,从中提取有价值的信息和模式,帮助人们做出更加精准的决策。
本文将对数据挖掘和机器学习进行总结,包括其定义、应用、技术和发展趋势等方面,以期帮助读者更好地了解这一领域。
一、数据挖掘的定义与应用数据挖掘是一种从大量的数据中发现规律、模式和知识的过程,通过利用统计学、机器学习和数据库技术等方法,帮助人们从数据中挖掘出有用的信息。
数据挖掘的应用非常广泛,涉及到商业、金融、医疗、教育、交通等各个领域。
在商业领域,数据挖掘可以用于市场营销、客户关系管理、风险分析等方面;在医疗领域,数据挖掘可以用于疾病预测、药物研发等方面;在教育领域,数据挖掘可以用于学生成绩预测、教学优化等方面。
数据挖掘已经成为当今社会不可或缺的一部分,为各行各业的发展带来了巨大的推动力。
二、机器学习的定义与应用机器学习是人工智能的一个子领域,其主要目的是使机器能够通过学习数据来改善其性能。
通过对大量的数据进行分析和学习,机器可以不断提高其预测、识别和决策能力,从而实现自主智能的目标。
机器学习的应用也非常广泛,包括语音识别、图像识别、自然语言处理、智能推荐等领域。
在语音识别方面,机器学习可以帮助机器更准确地识别和理解人类语言;在图像识别方面,机器学习可以帮助机器识别图像中的物体和场景;在智能推荐方面,机器学习可以根据用户的历史行为和偏好,为其推荐个性化的产品和服务。
机器学习已经成为近年来人工智能发展的核心领域之一。
三、数据挖掘与机器学习的关系数据挖掘和机器学习有着密切的关系,它们可以相互促进,共同推动人工智能的发展。
数据挖掘可以为机器学习提供大量的训练数据,从而帮助机器学习算法更好地学习和模拟人类智慧;而机器学习可以为数据挖掘提供更加智能化的数据挖掘工具,使数据挖掘可以更快、更准确地发现数据中的规律和模式。
数据挖掘技术及应用浅析

知识 。
【 关键词J 数据挖捌
中图分类号:T 3 1 3 P 1. 1
引言 社会 的发展进 入 了网络信息时代, 符种形式的数据海量产生, 在这 些数据 的背后 隐藏 着许 多重要 的信息 , 如何从这些 数据中找出某利规 t 律, 发现有用信息, 越来越受 到关注 。 为了适应信息处理新需求和} 会发 十 展各 方面的迫切需 要而发展起来 ~种新 的信息 分析技术, 这种技术 称 为数据挖掘。数据挖掘就是从 大量 的 、 不完全 的、 有噪声的、 模糊 的 、
最后抽取规则 。 ( ) 4 遗传算法 。 遗传算法足一种基于生物 自 然选择与遗传机理的
、
数据挖掘概念
数据挖掘就是从大量的、不完 全的、有噪声的 、 糊的、随机 的 模 实际应用数据中 , 取隐含在其 中的、人们事先不知道 的、但 又是潜 提
在有用的信息和知识 的过程。它是一种新 的商业信息处理技术 , 主 其 要特点是对商业数据库中的大量业 务数据进行抽取、转换 、分析 和其
他模型化处理 ,从中提取辅 助商业决策的关键性数据。简而言之 , 数 据挖掘其实是一类深层次的数 据分析方法 。从这个角度数据挖掘也可 以描述为 :按企业制定的业务 目 ,对大量 的企业数据 进行探索 和分 标 析 ,揭示隐藏的、未知的或验 证已知 的规律性 ,并进一步将其模 型化 的先进有效的方法。
几种 :
() 1 分类模 式。 分类模式是一个分类函数 , 它把数据集中的数据 项映射到某个给定 的类上, 分类模式 往往表 现为一棵分类树 ,根据数 据 的值从树根开始搜索, 着数据满 足的分 支往上走 , 到树 叶即可 沿 走
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
中心趋势度量反应一组数据的中心位置所在,常用到的表示量为均值(mean)、中位数(median)、众数(mode)和 中列数。 假设对于属性X有N个观察样本数据集X={x1,x2,x3,...,xn},并对于(i=1,2,...,n),每个xi与一个权重wi相 关联。 其算术平均值
其加权平均值
平均值有个缺点就是对两端点值极为敏感,端点值过大与过小能够对均值产生较大的影响,为什么评委在评分 统计时会出掉最高分与最低分来保持相对公平,这种方式也称为截尾均值。 对于倾斜(非对称)数据,倾斜是相对于正态分布(对称)数据而言的,分为正倾斜与负倾斜,数据中心的更 好度量是中位数。中位数是有序数据值的中间值,针对的是排序后的数列,并且算上重复值。它是把数据高一 半与低一半分开的值。 众数是另一种趋势度量。数据集的众数是集合中出现频率最多的值,可以对定性与定量属性确立众数,可能存 在同样频率有多个众数,根据众数的多少确立单峰、双峰还是三峰。在极端情况下如果每个数据均只出现一 次,则它没有众数。 中列数是指数据集中最大值与最小值的平均值。 在大部分实际应用中,数据都是不对称的。他们可能是正倾斜的,也称右偏布,说明存在着极大值,其中众数 出现在小于中位数的值上,平均值(mean)>中位数(median)>众数(mode);可能是负倾斜的,也称为左偏布,说 明存在着极小值,其中众数出现在大于中位数的值上,平均值(mean)<中位数(median)<众数(mode)。
9. 降低保险索赔欺诈 10. 证券投资分析
制造行业
1. 产品研发与设计分析:产品定位;产品设计;生产过程分析 2. 质量管理:产品差错分析;质量控制和预测;工艺质量优化 3. 生产管理:库存分析与管理;订单分析与销量预测;计划管理;供应链优化
互联网行业
1. 用户行为分析。分类算法 2. 日志平台分析 3. 智能搜索。关联算法 4. 广告、商品个性化推荐。协同过滤算法 5. 垃圾邮件的识别 6. 股票预测。回归算法 7. 电子商务网站页面流量分析
知识结构图
概述
发展现状
现状
近年来云计算、大数据、物联网、智能制造、智慧生活均围绕数据为中心,各个行业构造部署生态圈子,以数 据驱动为出发点,挖掘新的服务价值为增长点,均能够将数据挖掘技术运用其中,例如通信、医疗、金融、政 府、高校、制造、市场营销等。
目前的困难 1. 数据积累不充分,不全面,以往统计均由抽样数据代替全量数据分析; 2. 数据积累充分,但业务模型构建困难,数据不知如何使用,所谓的信息爆炸,知识匮乏; 3. 数据质量问题,需要经过清洗,消除噪声数据,目前金融、互联网征信做得比较好; 4. 企业中各种系统未互连互通、形成信息孤岛,且数据格式未预先考虑规范化; 5. 目前在部分行业中缺乏少有的实施者。 未来
数据挖掘系统特征
1. 数据的特征 2. 算法的特征 3. 知识的特征
认识数据
认识数据非常重要,它是数据挖掘活动的第一步,针对不同的数据类型,需要采用不同的统计方法来处理与分 析。
数据属性
数据对象分为属性与值两部分,其属性表明了数据对象的特征,文献中属性、特征、变量及维这几个术语可以 互换,从程序的角度来看体现为变量,从数据仓库的角度体现为维,从数据挖掘与数据库的角度体现为属性。 属性可以分为标称的、二元的、序数的或数值的四种类型,另外也可以分为定性属性与定量属性,在机器学习 领域又将属性分为离散属性与连续属性。
数值属性
数值属性是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。 区间标度,是指值之间的差是有意义的,即存在测量单位。如日历日期、摄氏或华氏温度等。 比率标度,是指差和比率都是有意义的,如绝对温度、销售额、年龄、赛事比分等。 那如何区分? 对于日期来说,例如不能说2016年是1008年的两倍所以日期是区间属性而不是比率属性。在此场景下区间标度 是有意义的,而比率标度是无意义的。 对于销售额来说,例如A销售本月卖房款200W,B销售本月卖房款100W,可以说A销售额比B销售额高出100W,A销 售额是B销售额的2倍,两种说法都是有意义的。 拿摄氏温度来说,昨天温度是10度,今天温度是20度,可以说今天温度是昨天的2倍,也可以说今天温度比昨天 高10度。所以通过上面例子有无意义也很难区分,我们可以根据该属性是否具有固定的零点来区分。区间标度
相异性矩阵或称对象-对象结构:存放n个对象两两之间的邻近度,通常用一个nXn矩阵表示。
其中d(i,j)是对象i和j之间的相异性或“差别”的度量,相异性矩阵是一个对称矩阵,其中d(i,i)=0及 d(i,j)=d(j,i)。 相似性度量可以表示成相异性度量的函数。例如,对于标称数据sim(i,j)=1- d(i,j)( sim(i,j)是对象i和j之 间的相似性)。 数据矩阵经常被称为二模矩阵,因为数据矩阵由两种实体或“事物”组成,即行(对象)和列(属性)。相异 性矩阵被称为单模矩阵,因为相异性矩阵只包含一类实体。 许多聚类算法和最近邻算法都在相异性矩阵上运行。在使用这些算法之前,可以把数据矩阵转化成相异性矩 阵。 数据示例
行业应用
应用场景
通信行业
1. 客户管理应用:用户细分、用户交际圈分析、用户渠道偏好分析。分类算法。 2. 营销响应分析 3. 满意度分析 4. 不同话费套餐的制订 5. 客户流失模型 6. 不同服务交叉销售模型 7. 不同客户生命周期模型 8. 渠道选择模型 9. 恶意欺诈预警模型
金融行业
1. 客户细分 2. 客户流失 3. 交叉销售 4. 营销响应 5. 客户满意度分析 6. 信用卡欺诈管理 7. 贷款信用风险管理 8. 代理人甑选
是没有固定零点的,而比率标度是有固定零点的。固有零点从取值范围来讲意味着一定存在边界值。 拿摄氏温度来说,它没有固定零点,如果温度为0时, 不代表它没有温度;而销售额为0,却可以表示存在固有 零点。
数据的基本统计描述
对于成功的数据预处理而言,把握数据的全貌是至关重要的。基本统计描述可以用来识别数据的性质,凸显哪 些数据值应该视为噪声或离群点。 对于许多数据预处理,用户希望知道关于数据的中心趋势和离中心的散列趋势特征。
属性 性别 艾滋病结果
值 {男,女} {阳性,阴性}
序数属性
序数属性的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的。在统计学中称为顺序数据。
属性 职称 企业规模 客服满意程度
值 {二级工程师,一级工程师,二级高工,一级高工,首席技术专家} {小型,中型,大型} {不满意,一般,满意,非常满意}
2-分位数是一个数据点,它把数据分布划分成高低两半。2-分位数对应于中位数。 4-分位数是3个数据点,它们把数据分布划分成4个相等的部分,使得每部分表示数据分布的四分之一。通常称 它们为四分位数。 100-分位数通常称作百分位数,它们把数据分布划分成100个大小相等的连贯集。 4-分位数中的四分位数极差(IQR)定义为:IQR=Q3-Q1,它给出被数据的中间一半所覆盖的范围。 五数概括、盒图与离群点 对于描述倾斜分布,单个散布数值变量(例如,IQR)都不是很有用。识别可疑的离群点的通常规则是,挑选落 在第3个四分位数之上或第1个四分位数之下至少1.5XIQR处的值。 因为Q1、中位数和Q3不包含数据的端点信息,分布形状的更完整的概括可以通过同时也提供最高和最低数据值 得到。这称作五数概括。分布的五数概括由中位数(Q2)、四分位数Q1、Q3、最小和最大观测值组成。 盒图是一种流行的分布的直观表示。盒图体现了五数概括: 1,盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR。 2,中位数用盒内的线标记。 3,盒外的两条线(称作胡须)延伸到最小和最大观测值。
方差与标准差 方差和标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味着数据观测趋向于非常靠近均 值,而高标准差表示数据散布在一个大的值域中。 数值属性X的N个观测值x1.x2,…,xN的方差是。
观测值的标准差是方差的平方根。 有了方差为什么还要有标准差? 1,标准差表示离散程度的数字与样本数据点的数量级一致,更适合对样本数据形成感性认知。如一个班的身高 平均值为170cm,方差为100,标准差为10,那么这个班的身高范围很容易就是(170+/-10)cm; 2,标准差表示离散程度的数字单位与样本数据的单位一致,更方便做后续的分析运算; 3,在样本数据大致符合正态分布的情况下,标准差具有方便估算的特征,例如66.7%的数据点落在平均值前后1 个标准差范围内,95% 的数据点落在平均值前后2个标准差的范围内,而99%的数据点将会落在平均值前后3个标 准差的范围内。
标称属性
标称属性的值是一些符号或事物的名称,简单理解就是标准名称相关。每个值代表某种类别、编码或状态,因 此标称属性又被看做是分类的。从程序的角度来看相当于枚举。在统计学中称为分类数据。
属性 水果 颜色
值 {苹果,香蕉、葡萄、橙子等} {红,黄,橙,绿,青,蓝,紫}
二元属性
二元属性是一种特殊的标称属性,只有两个类别或状态,类似程序中的布尔类型。二元属性分为对称二元属性 与非对称二元属性,对称二元属性表示每个状态都同样重要,非对称二元属性表示每个状态不是同等重要,例 如病理检查结果阳性与阴性,可能我们会更加关注阳性状态,从关注的意义上讲是有所偏重的。
基本步骤
1. 数据清理(消除噪声和删除不一致数据) 2. 数据集成(多种数据源可以组合在一起)
3. 数据选择(从数据库中提取与分析任务相关的数据) 4. 数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式) 5. 数据挖掘(基本步骤,使用智能方法提取数据模式) 6. 模式评估(根据某种兴趣度量,识别代表知识的真正有趣的模式) 7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
数据散布度量
极差、四分位数和四分位极差 设x1.x2,…,xn为某数值属性X上的观测的集合。该集合的极差是最大值与最小值之差。极差刻画了数据集在 区间范围内的最大离散程度。