数据挖掘作业1

合集下载

数据挖掘作业1

数据挖掘技术选修课大作业学院：计算机学院专业：软件工程姓名：王小妮班级：软工1201学号：12080101071.1数据挖掘技术的定义1.2数据挖掘的含义1.3数据挖掘商业角度的定义1.4数据挖掘和数据仓库1.5数据挖掘和在线分析处理1.6软硬件发展对数据挖掘的影响2数据挖掘的典型技术2.1聚类分析2.1关联规则2.3回归分析2.4其他技术3数据挖掘技术的应用3.1在intnet的应用3.2在金融的应用4学习收获参考文献：1.1数据挖掘技术的定义数据挖掘（Data Mining）就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

1.2数据挖掘技术的含义与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。

这个定义包括好几层含义：数据源必须是真实的、大量的、含噪声的；发现的是用户感兴趣的知识；发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。

----何为知识?从广义上理解，数据、信息也是知识的表现形式，但是人们更把概念、规则、模式、规律和约束等看作知识。

人们把数据看作是形成知识的源泉，好像从矿石中采矿或淘金一样。

原始数据可以是结构化的，如关系数据库中的数据；也可以是半结构化的，如文本、图形和图像数据；甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的，也可以是非数学的；可以是演绎的，也可以是归纳的。

发现的知识可以被用于信息管理，查询优化，决策支持和过程控制等，还可以用于数据自身的维护。

因此，数据挖掘是一门交叉学科，它把人们对数据的应用从低层次的简单查询，提升到从数据中挖掘知识，提供决策支持。

在这种需求牵引下，汇聚了不同领域的研究者，尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员，投身到数据挖掘这一新兴的研究领域，形成新的技术热点。

《网络数据挖掘》实验一

《网络数据挖掘》实验一一、实验目的在SQL Server2005上构建数据仓库二、实验内容1.每个学生按自己的学号创建一个空的数据库。

2.将“浙江经济普查数据”目录下的11个城市的生产总值构成表导入该数据库。

要求表中列的名称为EXCEL表中抬头的名称，表的名称分别为对应的excel文件名。

往城市表中输入前面导入的11个城市名称和城市ID（注意不能重复），5.仔细阅读excel表格，分析产业结构的层次，找出产业、行业大类、行业中类的关系。

有些行业的指标值为几个子行业的累加。

比如：第一产业→农林牧渔业第二产业→工业→采矿业、制造业、电力、燃气及水的生产和供应业类ID可按顺序编写。

8.创建一个新表汇总11个城市的生产总值，表的名称为“按城市和行业分组的生产总值表”。

表中的列名和第二步导入表的列名相同，同时添加一个新列（放在第一列），列名为“城市ID”，数据类型为整型；再添加一个新列（放在第二列），列名为“行业中类ID”，数据类型为整型。

9.将11个城市的生产总值构成表导入到第6步创建的新表中，注意不同的城市，要用不同的城市ID代入，行业中类ID可暂时为空值。

10.将行业门类表中的行业中类ID值输入至表“按城市和行业分组的生产总值表”中的“行业中类ID”列上。

11.检查3个表：“按城市和行业分组的生产总值表”、“城市表”、“行业门类表”中主键和外键是否一致（可通过关联查询检查）。

12.删除“按城市和行业分组的生产总值表”中除了行业中类纪录以外的其他高层次的记录，如指标为“第一产业”的行等等（如果不删除，将在汇总中出错）。

13.删除“按城市和行业分组的生产总值表”中原有的“指标”列（由于这列在行业门类表中已存在，因此是冗余的）。

14. 建立以下查询，和原EXCEL文件中的数据对比a)查询杭州市第二产业工业大类下各行业中类的总产出、增加值、劳动者报酬、营业盈余b)分别查询11个城市的第二产业总产出汇总值c)分别查询11个城市的工业劳动者报酬汇总值d)分别查询11个城市的第三产业增加值14.使用SSIS创建一个包，来完成第9步和第10步的过程，执行包，检查数据是否一致。

数据挖掘练习题附答案

数据挖掘练习题A一、简答题1. 数据对象之间的相似性可用距离来衡量，常见的距离形式有哪些？答：曼哈顿距离，欧几里得距离，切比雪夫距离，闵可夫斯基距离，杰卡德距离2. 简述朴素贝叶斯分类的基本思想。

答：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个概率最大，就认为此待分类项属于哪个类别。

1）设x={a!,a",…,a#}为一个待分类项，a为x的特征属性；2）有类别集合C={y!,y",…,y$}3) 计算p(y!|x)，p(y"|x)，… p(y$|x)4) 如果p(y%|x)=max {p(y!|x),p(y"|x),…,p(y%|x)}，则x∈y%3. 在做数据清洗时，如何处理缺失值？答：处理缺失值的方法有3种：1）忽略元组；2）数据补齐，包括人工填写、特殊值填充、平均值填充、使用最可能的值填充；3）不处理。

4. 简述K-means算法的基本步骤。

答：1）任意选择k个对象作为初始的簇中心；2）计算其它对象与这k个中心的距离，然后把每个对象归入离它“最近”的簇；3）计算各簇中对象的平均值，然后选择簇中心（离平均值“最近”的簇）；4）重复第2步到第3步直到簇中心不再变化为止。

5. 在关联规则中，支持度（support）和置信度（confidence）的含义分别是什么？答：支持度support(x->y)=p(x,y)，表示项集中同时含有x和y的概率。

置信度confidence(x->y)=p(y/x)，表示在关联规则的先决条件x发生的条件下，关联结果y发生的概率，即含有x的项集中，同时含有y的可能性。

二、计算题1.假定属性A的取值x在[x_min,x_max]之间，其中x_min和x_max分别为属性A的最小值和最大值，请利用最小-最大规范化方法（也称离差标准化，是对原始数据的线性变化），将x转化到新的区间[y_min,y_max]中，结果用x’表示。

数据挖掘作业

第3章分类与回归3.1简述决策树分类的主要步骤。

3.2给定决策树，选项有：(1)将决策树转换成规则，然后对结果规则剪枝，或(2)对决策树剪枝，然后将剪枝后的树转换成规则。

相对于(2)，(1)的优点是什么？3.3计算决策树算法在最坏情况下的时间复杂度是重要的。

给定数据集D，具有m个属性和|D|个训练记录，证明决策树生长的计算时间最多为)⨯。

m⨯Dlog(D3.4考虑表3-23所示二元分类问题的数据集。

(1)计算按照属性A和B划分时的信息增益。

决策树归纳算法将会选择那个属性？(2)计算按照属性A和B划分时Gini系数。

决策树归纳算法将会选择那个属性？3.5证明：将结点划分为更小的后续结点之后，结点熵不会增加。

3.6为什么朴素贝叶斯称为“朴素”？简述朴素贝叶斯分类的主要思想。

3.7考虑表3-24数据集，请完成以下问题：(1)估计条件概率)|-C。

P)A(+|(2)根据(1)中的条件概率，使用朴素贝叶斯方法预测测试样本(A=0，B=1，C=0)的类标号；(3)使用Laplace估计方法，其中p=1/2，l=4，估计条件概率)P，)C(+|(-P，A||(+P，)P，)A(+B|(-P。

|C(-P，)|)B(4)同(2)，使用(3)中的条件概率(5)比较估计概率的两种方法，哪一种更好，为什么？3.8考虑表3-25中的一维数据集。

表3-25 习题3.8数据集根据1-最近邻、3-最近邻、5-最近邻、9-最近邻，对数据点x=5.0分类，使用多数表决。

3.9 表3-26的数据集包含两个属性X 与Y ，两个类标号“+”和“-”。

每个属性取三个不同值策略：0,1或2。

“+”类的概念是Y=1，“-”类的概念是X=0 and X=2。

(1) 建立该数据集的决策树。

该决策树能捕捉到“+”和“-”的概念吗？(2) 决策树的准确率、精度、召回率和F1各是多少？(注意，精度、召回率和F1量均是对“+”类定义)(3) 使用下面的代价函数建立新的决策树，新决策树能捕捉到“+”的概念么？⎪⎪⎪⎩⎪⎪⎪⎨⎧+=-=+--=+===j i j i j i j i C ,,10),(如果实例个数实例个数如果如果(提示：只需改变原决策树的结点。

数据挖掘第1次作业

数据挖掘第1次作业2013年2月27日星期三第一章1.给出一个例子，其中数据挖掘对于商务的成功是至关重要的。

该商务需要什么数据挖掘功能？它们能够由数据查询处理或简单的统计分析来实现吗？答：①例如：All Electronics 的每个分部都有一组自己的数据库，作为一个重要的电子商务，All Electronics需要考虑如何在保持现有的客户同时吸引更多的客户、如何在客户群中发现潜在价值。

该商务需要的数据挖掘功能有：关联规则挖掘(进行产品的捆绑推荐)、聚类（将客户细分，提供个性化服务）。

②它们不能由数据查询处理或简单的统计分析来实现，因为数据查询处理以及简单的统计分析只能在数据库中进行一些简单的数据查询和更新以及一些简单的数据计算操作，却无法从现有的大量数据中挖掘潜在的价值。

2.使用你熟悉的生活中的数据库，给出关联规则挖掘、序列模式分析、分类、聚类、孤立点分析等数据挖掘功能的例子。

答：关联规则挖掘（Association rule）是指寻找在同一个事件中出现的不同项的相关性。

应用于产品目录设计，购物篮分析，以及交叉销售。

例如：在超市购物时候会发现洗发露货架旁边一定摆放着护发素以及沐浴露等，而且婴儿尿布货架旁会出现啤酒等。

序列模式分析是指寻找事件之间在顺序上的相关性。

应用于客户购买行为模式预测、自然灾害预测、web访问模式预测、DNA序列分析以及疾病诊断。

例如：有一个同学在网上订购了一台打印机，可以预测该同学会在之后购买墨盒和打印纸。

分类是指建立一个描述其他属性到类标签属性的函数关系的模型。

例如，银行通过对用户的home owner, marital status, taxable income 等进行分析，来构建decision tree，进而可以明确确定是否对用户发放信用卡。

聚类是将数据划分为相似对象组的过程，使得同一组中的对象相似度最大而不同组中的相似度最小。

例如，一些大型超市以及服装店根据消费者购物情况，对数据进行聚类，将消费者聚类分为普通消费者，VIP或者其它消费者等级，进而可以对消费者实行相对应的优惠政策。

数据挖掘作业

证明决策树生长的计算时间最多为 m D log( D ) 。
3.4 考虑表 3-23 所示二元分类问题的数据集。表 3-23 习题 3.4 数据集
A
B
类标号
T
F
+
T
T
+
T
T
+
T
F
-
T
T
+
F
F
-
F
F
-
F
F
-
T
T
-
T
F
-
(1) 计算按照属性 A 和 B 划分时的信息增益。决策树归纳算法将会选择那个属性？
y ax 转换成可以用最小二乘法求解的线性回归方程。
表 3-25 习题 3.8 数据集
X 0.5 3.0 4.5 4.6 4.9 5.2 5.3 5.5 7.0 9.5
Y-
-
+++-
-
+-
-
根据 1-最近邻、 3-最近邻、 5-最近邻、 9-最近邻，对数据点 x=5.0 分类，使用多数表决。
3.9 表 3-26 的数据集包含两个属性 X 与 Y ，两个类标号“ +”和“ -”。每个属性取三个不同值策略： 0,1 或
记录号
A
B
C
类
1
0
0
0
+
2
0
0
1
-
3
0
1
1
-
4
0
1
1
-
5
0
0
1
+
6
1
0
1
+
7
1

数据挖掘习题及参考答案

实际生活的例子：
①电信行业中利用数据挖掘技术进行客户行为分析，包含客户通话记录、通话时间、所开通的服务等，据此进行客户群体划分以及客户流失性分析。
②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析，帮助天文学家发现其他未知星体。
③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。
第 4 页共 27 页
(b)对于数据平滑，其它方法有： (1)回归：可以用一个函数(如回归函数)拟合数据来光滑数据； (2)聚类：可以通过聚类检测离群点，将类似的值组织成群或簇。直观地，落在簇集合之外的值视为离群点。
2.6 使用习题 2.5 给出的 age 数据，回答以下问题： (a) 使用 min-max 规范化，将 age 值 35 转换到[0.0，1.0]区间。 (b) 使用 z-score 规范化转换 age 值 35，其中，age 的标准偏差为 12.94 年。 (c) 使用小数定标规范化转换 age 值 35。 (d) 指出对于给定的数据，你愿意使用哪种方法。陈述你的理由。
回归来建模，或使用时间序列分析。 (7) 是，需要建立正常心率行为模型，并预警非正常心率行为。这属于数据挖掘领域
的异常检测。若有正常和非正常心率行为样本，则可以看作一个分类问题。 (8) 是，需要建立与地震活动相关的不同波形的模型，并预警波形活动。属于数据挖
掘领域的分类。 (9) 不是，属于信号处理。
1.6 根据你的观察，描述一个可能的知识类型，它需要由数据挖掘方法发现，但本章未列出。它需要一种不同于本章列举的数据挖掘技术吗？
答：建立一个局部的周期性作为一种新的知识类型，只要经过一段时间的偏移量在时间序列中重复发生，那么在这个知识类型中的模式是局部周期性的。需要一种新的数据挖掘技术解决这类问题。

数据挖掘大作业例子

数据挖掘大作业例子1. 超市购物数据挖掘呀！想想看，如果把超市里每个顾客的购买记录都分析一遍，那岂不是能发现很多有趣的事情？比如说，为啥周五晚上大家都爱买啤酒和薯片呢，是不是都打算周末在家看剧呀！2. 社交媒体情感分析这个大作业超有意思哦！就像你能从大家发的文字里看出他们今天是开心还是难过，那简直就像有了读心术一样神奇！比如看到一堆人突然都在发伤感的话，难道是发生了什么大事情？3. 电商用户行为挖掘也很棒呀！通过分析用户在网上的浏览、购买行为，就能知道他们喜欢什么、不喜欢什么，这难道不是很厉害吗？就像你知道了朋友的喜好，能给他推荐最适合的礼物一样！4. 交通流量数据分析呢！想象一下，了解每个路口的车流量变化，是不是就能更好地规划交通啦？难道这不像是给城市的交通装上了一双明亮的眼睛？5. 医疗数据挖掘更是不得了！能从大量的病例中找到疾病的规律，这简直是在拯救生命啊！难道这不是一件超级伟大的事情吗？比如说能发现某种疾病在特定人群中更容易出现。

6. 金融交易数据挖掘也超重要的呀！可以知道哪些交易有风险，哪些投资更靠谱，那不就像有个聪明的理财顾问在身边吗！就好比能及时发现异常的资金流动。

7. 天气数据与出行的结合挖掘也很有趣呀！根据天气情况来预测大家的出行选择，真是太神奇了吧！难道不是像有了天气预报和出行指南合二为一？8. 音乐喜好数据挖掘呢！搞清楚大家都喜欢听什么类型的音乐，从而能更好地推荐歌曲，这不是能让人更开心地享受音乐吗！好比为每个人定制了专属的音乐播放列表。

9. 电影票房数据挖掘呀！通过分析票房数据就能知道观众最爱看的电影类型，这不是超厉害的嘛！就像知道了大家心里最期待的电影是什么样的。

我觉得数据挖掘真的太有魅力了，可以从各种看似普通的数据中发现那么多有价值的东西，真是让人惊叹不已啊！。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

智能信息处理第一次作业费洋2013010905010 2.4
Age盒图
FAT盒图
2.8
相似性
X1 X4 X3 X5 X2
相似性X1 X4 X3 X5 X2 上确界距离相似性
X1 X3 X4 X2 X5 相似性 X1 X3 X4 X2 X5
相似性X1 X3 X4 X2 X5 3.3
使用深度为3的箱，用箱均值光滑
先把27个数据按顺序分为3组，每组求出均值箱1: 18 箱2: 28.1 箱3: 43.8
效果就是箱中的每一个数据都替换成了均值。

用聚类分析或者回归检测离群点。

52 与70与均值差距较大，为离群点还可以用箱中位数，箱边界光滑数据。

3.7
最小最大化规范
我愿意使用归一化，这样原来的数据不会改变太多。

3.12
1.ChiMerge算法怎么工作？
第一步：初始化
根据要离散的属性对实例进行排序：每个实例属于一个区间
第二步：合并区间，又包括两步骤
(1) 计算每一对相邻区间的卡方值
(2) 将卡方值最小的一对区间合并
预先设定一个卡方的阈值，在阈值之下的区间都合并，阈值之上的区间保持分区间。

卡方的计算公式：
参数说明；
m=2（每次比较的区间数是2个）
k=类别数量
Aij=第i区间第j类的实例的数量
Ri=第i区间的实例数量
Cj=第j类的实例数量
N=总的实例数量
Eij= Aij的期望频率
10、卡方阈值的确定：先选择显著性水平，再由公式得到对应的卡方值。

得到卡方值需要指定自由度，自由度比类别数量小1。

例如，有3类，自由度为2，则90%置信度（10%显著性水平)下，卡方的值为4.6。

阈值的意义在于，类别和属性独立时，有90%的可能性，计算得到的卡方值会小于4.6，这样，大于阈值的卡方值就说明属性和类不是相互独立的，不能合并。

如果阈值选的大，区间合并就会进行很多次，离散后的区间数量少、区间大。

用户可以不考虑卡方阈值，此时，用户可以考虑这两个参数：最小区间数，最大区间数。

用户指定区间数量的上限和下限，最多几个区间，最少几个区间。

11、 ChiMerge算法推荐使用.90、.95、.99置信度，最大区间数取10到15之间.
ChiMerge算法过程：
第一步：初始化：
根据要离散的属性对实例进行排序；每个实例属于一个区间。

第二步：合并区间，又包括两步骤：
A、计算每一对相邻区间的卡方值；
B、将卡方值最小的一对区间合并。

简化为：
将离散属性值进行升序排序；
将每个实例设置成单独区间；
While（截止条件）
{
循环对每对相邻区间进行卡方计算，找出最小卡方值的相邻区间；
对相邻区间进行合并；
}
[a,b,p,q,class] = textread( 'irisdata.txt','%f,%f,%f,%f,%s' );
%鸢尾花数据集花萼长度,萼片宽,花瓣长度,花瓣宽,鸢尾花类型；
t=size(class); %【行列】
fori=1:t(1,1) %classify
ifstrcmp(class(i,1),'Iris-setosa')==1
c(i,1)=1; %strcmp比较字符串函数；
elseifstrcmp(class(i,1),'Iris-versicolor')==1
c(i,1)=2;
elseifstrcmp(class(i,1),'Iris-virginica')==1
c(i,1)=3;
end
end
h1=[a c];
h2=[b c];
h3=[p,c];
h4=[q,c];
disp('Case 1:');
chime(h1);
disp('End!');
disp('Case 2:');
chime(h2);
disp('End!');
disp('Case 3:');
chime(h3);
disp('End!');
disp('Case 4:');
chime(h4);
disp('End!');
function m=chime(h)
y=sortrows(h,1);%升序排列
ty=size(y);
leny=ty(1,1); %leny=150
x=[y(:,1) y(:,1)];%初始化区间矩阵【aa】
tx=size(x); %[150 2]
lenx=tx(1,1); %lenx=150
whilelenx>6
%外层循环，用于结束条件判定
min=9999;
for j=1:lenx-1
%内层循环，用于找出具有最小卡方值的相邻区间
ans=0;
m=zeros(3,7);%此（卡方表）矩阵用于保存计算卡方值的相关数据
%后面4个for循环用于卡方表数据的设置
fori=1:leny
if y(i,1)>=x(j,1)&&y(i,1)<=x(j,2)
m(1,y(i,2))=m(1,y(i,2))+1;
elseif y(i,1)>=x(j+1,1)&&y(i,1)<=x(j+1,2)
m(2,y(i,2))=m(2,y(i,2))+1;
end
end
fori=1:3
m(3,i)=m(1,i)+m(2,i);
end
fori=1:3
m(i,7)=m(i,1)+m(i,2)+m(i,3);
end
fori=1:2
for k=4:6
m(i,k)=m(i,7)*m(3,k-3)/m(3,7); %Eij=Ni*Cj/N
if m(i,k)==0
m(i,k)=0.1;
end
end
end
%计算出这两个相邻区间的卡方值
fori=1:2
for k=1:3
ans=ans+((m(i,k)-m(i,k+3))^2)/m(i,k+3);
end
end
%找出最小卡方值
ifans<=min
min=ans;
key=j;
end
%相邻区间合并步骤
x(key,2)=x(key+1,2);
x(key+1,:)=[];
lenx=lenx-1;
end
x
------------------------------------------------------------------------------------------------------------------------- 运行结果：
Case 1:
x =
4.3000 4.8000
4.9000 4.9000
5.0000 5.4000
5.5000 5.7000
5.8000 7.0000
7.1000 7.9000
End!
Case 2:
x =
2.0000 2.2000
2.3000 2.4000
2.5000 2.8000
2.9000 2.9000
3.0000 3.3000
3.4000
4.4000
End!
Case 3:
x =
1.0000 1.9000
3.0000
4.4000
4.5000 4.7000
4.8000 4.9000
5.0000 5.1000
5.2000
6.9000
End!
Case 4:
x =
0.1000 0.6000
1.0000 1.3000
1.4000 1.6000
1.7000 1.7000
1.8000 1.8000
1.9000
2.5000
结论：
最后区间：
a: [4.3 , 4.8],[4.9 , 4.9], [5.0 , 5.4], [5.5 , 5.7], [5.8 , 7.0], [7.1 , 7.9]. b: [2.0 , 2.2], [2.3 , 2.4], [2.5 , 2.8], [2.9 , 2.9], [3.0 , 3.3], [3.4 , 4.4]. p: [1.0 , 1.9], [3.0 , 4.4], [4.5 , 4.7], [4.8 , 4.9], [5.0 , 5.1], [5.2 , 6.9]. q: [0.1 , 0.6], [1.0 , 1.3], [1.4 , 1.6], [1.7 , 1.7], [1.8 , 1.8], [1.9 , 2.5]. 分裂点：
a: 4.3, 4.9, 5.0, 5.5, 5.8, 7.1
b: 2.0, 2.3, 2.5, 2.9, 3.0, 3.4
p: 1.0, 3.0, 4.5, 4.8, 5.0, 5.2
q: 0.1, 1.0, 1.4, 1.7, 1.8, 1.9。

数据挖掘作业1

数据挖掘作业1

《网络数据挖掘》实验一

数据挖掘练习题附答案

数据挖掘作业

数据挖掘第1次作业

数据挖掘作业

数据挖掘 习题及参考答案

数据挖掘大作业例子

数据挖掘习题及参考答案