数据挖掘实验1任务书

合集下载

数据挖掘实验报告1

实验一 ID3算法实现一、实验目的通过编程实现决策树算法，信息增益的计算、数据子集划分、决策树的构建过程。

加深对相关算法的理解过程。

实验类型：验证计划课间：4学时二、实验内容1、分析决策树算法的实现流程；2、分析信息增益的计算、数据子集划分、决策树的构建过程；3、根据算法描述编程实现算法，调试运行；4、对所给数据集进行验算，得到分析结果。

三、实验方法算法描述：以代表训练样本的单个结点开始建树；若样本都在同一个类，则该结点成为树叶，并用该类标记；否则，算法使用信息增益作为启发信息，选择能够最好地将样本分类的属性；对测试属性的每个已知值，创建一个分支，并据此划分样本；算法使用同样的过程，递归形成每个划分上的样本决策树递归划分步骤，当下列条件之一成立时停止：给定结点的所有样本属于同一类；没有剩余属性可以进一步划分样本，在此情况下，采用多数表决进行四、实验步骤1、算法实现过程中需要使用的数据结构描述：Struct{int Attrib_Col; // 当前节点对应属性int Value; // 对应边值Tree_Node* Left_Node; // 子树Tree_Node* Right_Node // 同层其他节点Boolean IsLeaf; // 是否叶子节点int ClassNo; // 对应分类标号}Tree_Node;2、整体算法流程主程序：InputData();T=Build_ID3(Data,Record_No, Num_Attrib);OutputRule(T);释放内存;3、相关子函数：3.1、 InputData(){输入属性集大小Num_Attrib;输入样本数Num_Record;分配内存Data[Num_Record][Num_Attrib];输入样本数据Data[Num_Record][Num_Attrib]；获取类别数C(从最后一列中得到);}3.2、Build_ID3(Data,Record_No, Num_Attrib){Int Class_Distribute[C];If (Record_No==0) { return Null }N=new tree_node();计算Data中各类的分布情况存入Class_Distribute Temp_Num_Attrib=0;For (i=0;i<Num_Attrib;i++)If (Data[0][i]>=0) Temp_Num_Attrib++;If Temp_Num_Attrib==0{N->ClassNo=最多的类；N->IsLeaf=TRUE;N->Left_Node=NULL;N->Right_Node=NULL;Return N;}If Class_Distribute中仅一类的分布大于0{N->ClassNo=该类；N->IsLeaf=TRUE;N->Left_Node=NULL;N->Right_Node=NULL;Return N;}InforGain=0;CurrentCol=-1;For i=0;i<Num_Attrib-1;i++){TempGain=Compute_InforGain(Data,Record_No,I,Num_Attrib); If (InforGain<TempGain){ InforGain=TempGain; CurrentCol=I;}}N->Attrib_Col=CurrentCol;//记录CurrentCol所对应的不同值放入DiferentValue[]；I=0;Value_No=-1;While i<Record_No {Flag=false;For (k=0;k<Value_No;k++)if (DiferentValu[k]=Data[i][CurrentCol]) flag=true;if (flag==false){Value_No++;DiferentValue[Value_No]=Data[i][CurrentCol] } I++;}SubData=以Data大小申请内存空间；For (i=0;i<Value_No;i++){k=-1;for (j=0;j<Record_No-1;j++)if (Data[j][CurrentCol]==DiferentValu[i]){k=k++;For(int i1=0;i1<Num_Attrib;i1++)If (i1<>CurrentCol)SubData[k][i1]=Data[j][i1];Else SubData[k][i1]=-1;}N->Attrib_Col=CurrentCol;N->Value=DiferentValu[i];N->Isleaf=false;N->ClassNo=0;N->Left_Node=Build_ID3(SubData,k+1, Num_Attrib);N->Right_Node=new Tree_Node;N=N->Right_Node;}}3.3、计算信息增益Compute_InforGain(Data,Record_No, Col_No, Num_Attrib) {Int DifferentValue[MaxDifferentValue];Int Total_DifferentValue;Int s[ClassNo][MaxDifferentValue];s=0;// 数组清0;Total_DifferentValue=-1;For (i=0;i<Record_No;i++){J=GetPosition(DifferentValue,Total_DifferentValue,Data[i][Col_no]);If (j<0) {Total_DifferentValue++;DifferentValue[Total_DifferentValue]=Data[i][Col_no];J=Total_DifferentValue;}S[Data[i][Num_Attrib-1]][j]++;}Total_I=0;For (i=0;i<ClassNo;i++){Sum=0;For(j=0;j<Record_No;j++) if Data[j][Num_Attrib-1]==i sum++; Total_I=Compute_PI(Sum/Record_No);}EA=0;For (i=0;i<Total_DifferentValue;i++);{ temp=0;sj=0; //sj是数据子集中属于类j的样本个数；For (j=0;j<ClassNO;j++)sj+=s[j][i];For (j=0;j<ClassNO;j++)EA+=sj/Record_No*Compute_PI(s[j][i]/sj);}Return total_I-EA;}3.4、得到某数字在数组中的位置GetPosition(Data, DataSize,Value){For (i=0;i<DataSize;i++) if (Data[i]=value) return I;Return -1;}3.5、计算Pi*LogPiFloat Compute_PI(float pi){If pi<=0 then return 0;If pi>=1 then return 0;Return 0-pi*log2(pi);}五、实验报告要求1、用C语言实现上述相关算法（可选择利用matlab函数实现）2、实验操作步骤和实验结果，实验中出现的问题和解决方法。

数据挖掘实验指导书

《数据仓库与数据挖掘》实验指导书主编张磊审校2012-1-11目录实验报告模板 (1)实验一、SSIS教程1-3课 (3)实验二、SSAS教程1-3课 (5)实验三、数据挖掘教程 (10)实验报告模板见下页。

青岛大学实验报告年月日姓名系年级组别同组者科目题目仪器编号[注：下面空白处明确实验目的、内容和要求，简要概括实验过程，适量拷屏部分关键界面放到实验报告中，评价最终结果是否正确，记录实验过程遇到的问题及解决结果，简单总结心得体会。

必要时加页，每个实验报告1-3页篇幅为宜。

]实验一、SSIS教程1-3课实验目的：采用SQL Server 2005的Integration Service，熟悉ETL工具的功能和使用方法实验内容：结合教材的ETL知识，打开SQL Server 2005的SSIS教程，按教程步骤完成1-3课，4学时，其中第1课2学时，第2、3课2学时。

实验要求：每次实验课结束前5分钟关闭SQL Server Business Intelligence Development Studio和SQL Server Management Studio，将项目文件夹拷贝到U盘或压缩后发到自己邮箱保存起来，以便下次实验课可以继续往下做或最后上交。

每次实验课开始时先使用SQL Server Configuration Manager启动必需的SQL Server 服务。

按时完成实验内容，整理实验报告。

实验说明：注意SQL Server 2005与SQL Server 2000的差异，如“框架”，访问表时必须使用框架名来限定，如SalesOrders.Employee；注意因中文教程是由英文教程翻译而来，所以有些地方出现名称翻译不足（即软件界面上是中文而教程中是英文）或过翻译（即软件界面上是英文而教程中是中文），因为大家懂英文所以这点应该不成问题；注意因为我们安装的SQL Server不是采用默认实例名（而是DWDM），而教程中假设的是采用默认实例名，所以有些地方的配置受到影响，需要进行更改；注意解决方案、项目和项的区别：解决方案可以包含多个项目；每个项目包含一个或多个项；按下图打开SSIS教程，做的过程中，注意以下问题：（1）创建的项目放到一个方便找到的自定义文件夹中以便每次下课时可以拷贝带走（2）第1课的“添加和配置平面文件连接管理器”步骤中的“重新映射列数据类型”部分，将【但现在，请不要进行任何更改，单击“取消”返回“平面文件连接管理器编辑器”对话框的“高级”窗格，查看建议的列数据类型。

数据挖掘实验报告-实验1-Weka基础操作

数据挖掘实验报告-实验1-W e k a基础操作学生实验报告学院：信息管理学院课程名称：数据挖掘教学班级： B01姓名：学号：实验报告课程名称数据挖掘教学班级B01 指导老师学号姓名行政班级实验项目实验一： Weka的基本操作组员名单独立完成实验类型■操作性实验□验证性实验□综合性实验实验地点H535 实验日期2016.09.281. 实验目的和要求：（1）Explorer界面的各项功能；注意不能与课件上的截图相同，可采用打开不同的数据文件以示区别。

（2）Weka的两种数据表格编辑文件方式下的功能介绍；①Explorer-Preprocess-edit，弹出Viewer对话框；②Weka GUI选择器窗口-Tools | ArffViewer，打开ARFF-Viewer窗口。

（3）ARFF文件组成。

2．实验过程（记录实验步骤、分析实验结果）2.1 Explorer界面的各项功能2.1.1 初始界面示意其中：explorer选项是数据挖掘梳理数据最常用界面，也是使用weka最简单的方法。

Experimenter：实验者选项，提供不同数值的比较，发现其中规律。

KnowledgeFlow：知识流，其中包含处理大型数据的方法，初学者应用较少。

Simple CLI ：命令行窗口，有点像cmd 格式，非图形界面。

2.1.2 进入Explorer 界面功能介绍（1）任务面板Preprocess（数据预处理）：选择和修改要处理的数据。

Classify（分类）：训练和测试分类或回归模型。

Cluster（聚类）：从数据中聚类。

聚类分析时用的较多。

Associate（关联分析）：从数据中学习关联规则。

Select Attributes（选择属性）：选择数据中最相关的属性。

Visualize（可视化）：查看数据的二维散布图。

（2）常用按钮Openfile：打开文件Open URL：打开URL格式文件Open DB：打开数据库文件Generate：数据生成Undo：撤销操作Edit：编辑数据Save：保存数据文件，可实现文件格式的转换，比如csv 格式文件向ARFF格式文件转换等等。

《网络数据挖掘》实验一

《网络数据挖掘》实验一一、实验目的在SQL Server2005上构建数据仓库二、实验内容1.每个学生按自己的学号创建一个空的数据库。

2.将“浙江经济普查数据”目录下的11个城市的生产总值构成表导入该数据库。

要求表中列的名称为EXCEL表中抬头的名称，表的名称分别为对应的excel文件名。

往城市表中输入前面导入的11个城市名称和城市ID（注意不能重复），5.仔细阅读excel表格，分析产业结构的层次，找出产业、行业大类、行业中类的关系。

有些行业的指标值为几个子行业的累加。

比如：第一产业→农林牧渔业第二产业→工业→采矿业、制造业、电力、燃气及水的生产和供应业类ID可按顺序编写。

8.创建一个新表汇总11个城市的生产总值，表的名称为“按城市和行业分组的生产总值表”。

表中的列名和第二步导入表的列名相同，同时添加一个新列（放在第一列），列名为“城市ID”，数据类型为整型；再添加一个新列（放在第二列），列名为“行业中类ID”，数据类型为整型。

9.将11个城市的生产总值构成表导入到第6步创建的新表中，注意不同的城市，要用不同的城市ID代入，行业中类ID可暂时为空值。

10.将行业门类表中的行业中类ID值输入至表“按城市和行业分组的生产总值表”中的“行业中类ID”列上。

11.检查3个表：“按城市和行业分组的生产总值表”、“城市表”、“行业门类表”中主键和外键是否一致（可通过关联查询检查）。

12.删除“按城市和行业分组的生产总值表”中除了行业中类纪录以外的其他高层次的记录，如指标为“第一产业”的行等等（如果不删除，将在汇总中出错）。

13.删除“按城市和行业分组的生产总值表”中原有的“指标”列（由于这列在行业门类表中已存在，因此是冗余的）。

14. 建立以下查询，和原EXCEL文件中的数据对比a)查询杭州市第二产业工业大类下各行业中类的总产出、增加值、劳动者报酬、营业盈余b)分别查询11个城市的第二产业总产出汇总值c)分别查询11个城市的工业劳动者报酬汇总值d)分别查询11个城市的第三产业增加值14.使用SSIS创建一个包，来完成第9步和第10步的过程，执行包，检查数据是否一致。

数据挖掘课程设计任务书

《数据挖掘课程设计》任务书课程名称：《数据挖掘课程设计》课程编码：JX030211课程类别：集中性实践教学环节学分数：1设计题目：手写数字的识别已知技术参数和设计要求：1. 问题描述（功能要求）：本次课程设计的主要内容为：手写数字的识别。

该系统主要包括的基本功能有：1)图片格式的分析：了解bmp、jpg等图片文件格式内容；2)图片旋转：了解图片的旋转，如何实现手写体图片的最佳定位；3)特征选择：实现图片数据的特征提取功能；4)训练样本收集：实现对不同手写体图片的特征数据的采集过程；5)构建分类模型：利用训练数据进行训练，获得分类模型，并进行评价；应用：利用获得的模型对随机的手写数字图片进行识别。

2.界面要求：界面设计不做统一规定，但应做到界面友好，易于操作。

3. 技术要求：（1）完成图片的定位、旋转功能（2）完成特征选取功能（3）获取分类模型（4）进行实际应用。

（5）设计完成后，做好课程设计说明书，4. 课程设计报告要求文档规范正确、独立完成。

内容应包括：系统设计要求●需求分析●系统设计●编码●测试●总结●参考书目具体格式规定详见《长沙学院课程设计管理规定》。

5.成绩评定标准本次实训，考核标准共划分为5个等级：不及格、及格、中等、良好、优秀。

优秀标准：1、课堂积极认真，勤于动手、善于思考，并高质量完成阶段性任务。

2、软件设计合理。

3、软件功能上必须良好的实现业务规范中提出的各大功能，且界面友好，功能丰富饱满，软件正常运行，并开发规范。

4、答辩流畅、思路清晰。

5、文档撰写优良。

良好标准：1、课堂积极认真，勤于动手、善于思考，并基本完成阶段性任务。

2、软件设计合理。

3、软件功能上基本实现业务规范中提出的各大功能，软件正常运行，开发规范。

4、答辩顺利、思路清楚。

5、文档撰写良好。

中等标准：1、课堂积极认真，并基本完成阶段性任务。

2、软件设计合理。

3、软件功能上基本实现业务规范中提出的各大功能，软件允许出现少量缺陷，开发不甚规范。

【数据挖掘-实验1】

实验一数据挖掘概念及Python初步（1)实验目的1.1上招聘网站，搜索“数据挖掘”、“数据仓库”，“Java软件工程师”，“C++软件工程师”，“会计”等关键词，了解招聘市场对该领域的技能要求。

1.2 阅读《集体智慧编程》第四章，了解“搜索引擎”构建的步骤与搜索结果的评价方法。

1.3 利用Wing IDE开发环境，调试并运行《集体智慧编程》第四章的程序。

（2）实验报告包括内容1.1数据挖掘——1.数学、统计学、计算机相关专业，本科及以上学历，两年以上互联网数据分析经验2.对数据驱动业务有深入理解，在数据与业务方面有很强的敏感度3.逻辑思维缜密，独立思考能力强，具有强烈的进取心4.掌握数据分析、挖掘方法，熟练使用SQL、Excel 等分析工具5.掌握下列脚本语言Python/R/PHP/Shell 之一6.熟悉基于MySQL/Oracle/Hadoop/Hive 平台的数据仓库数据仓库——职责：1.对业务数据进行分析、建模，为业务部门的数据化运营供技术支持2.设计合理的数据模型，支持对外的数据产品3.数据仓库平台、ETL流程设计、优化4.利用数据挖掘技术实现数据价值技能要求：1、有大型数据仓库或数据挖掘项目实施经验，熟悉数据仓库方法论和ETL构架，理解元数据管理2、至少熟悉一种数据库、熟悉Java、C/C++等语言之一3、熟悉linux平台，掌握Shell等脚本语言4、有分布式计算平台（Hadoop,Hive更佳）经验者优先5、性格积极乐观，诚信，有较强的语言表达能力Java软件工程师——岗位职责：1、负责项目中的JA V A编码工作；2、参与项目中JA V A开发部分程序的设计工作；3、制定作负责工作的工作计划，并按照计划执行；4、项目组其他人员所编写代码的检查、审核。

技能要求：1、本科或本科以上学历，计算机相关专业2、熟悉JSP/Servlet/EJB和JavaScript等WEB开发技术3、熟系Spring，Struts和Hibernate等主流的开发框架4、对Java面向对象软件结构有深入理解以及很强的应用能力5、熟系数据库oracle,mysql其中一种，拥有优秀的数据库设计能力6、熟练使用UNIX、LINUX，能进行shell编程7、了解TCPIP、HTTP等协议8、学习能力强，拥有优秀的逻辑思维能力，自我管理能力强，有良好的时间意识-有较好的沟通交流能力C++软件工程师——技能要求：1、熟悉C语言，或C++语言的开发流程2、性格开朗，有团队合作精神。

叶志伟数据挖掘实验指导书(算法编程部分)

《数据挖掘与数据仓库》实验指导书2013年计算机学院计算应用实验1 Apriori算法实现一、实验目的1、掌握Apriori算法对于关联规则挖掘中频繁集的产生以及关联规则集合的产生过程；2、根据算法描述编程实现算法，调试运行。

并结合相关实验数据进行应用，得到分析结果。

数据和删除数据的操作。

实验类型：综合计划课间：2学时二、实验内容1、频繁项集的生成与Apriori算法实现；2、关联规则的生成过程与Rule-generate算法实现；3、结合样例对算法进行分析；三、实验步骤编写程序完成下列算法：1、Apriori算法输入：数据集D；最小支持数minsup_count；输出：频繁项目集LL1={large 1-itemsets}For (k=2; Lk-1≠Φ; k++)Ck=apriori-gen (Lk-1); // Ck是k个元素的候选集For all transactions t∈D dobegin Ct=subset(Ck,t); //Ct是所有t包含的候选集元素for all candidates c ∈Ct do c.count++;endLk={c ∈Ck| c.count ≧ minsup_count }EndL=∪Lk;2、apriori-gen (Lk-1) 候选集产生算法输入： (k-1)-频繁项目集Lk-1输出： k-频繁项目集CkFor all itemset p∈Lk-1 doFor all itemset q∈Lk-1 doIf p.item1=q.item1, p.item2=q.item2, …,p.itemk-2=q.itemk-2, p.itemk-1<q.itemk-1 thenbegin c=p∞qif has_infrequent_subset(c, Lk-1)then delete celse add c to CkEndReturn Ck3、has_infrequent_subset(c, Lk-1)功能：判断候选集的元素输入：一个k-频繁项目集Lk-1 ，(k-1)-频繁项目集Lk-1输出：c是否从候选集中删除的布尔判断For all (k-1)-subsets of c doIf Not(S∈Lk-1) THEN return TRUE;Return FALSE;4、Rule-generate(L,minconf)输入：频繁项目集；最小信任度输出：强关联规则算法：FOR each frequent itemset lk in Lgenerules(lk,lk);5、Genrules递归算法：Genrules(lk:frequent k-itemset, xm:frequent m-itemset)X={(m-1)-itemsets xm-1 | xm-1 in xm};For each xm-1 in XBEGIN conf=support(lk)/support(xm-1);IF (conf≧minconf) THENBEGIN输出规则:xm-1->(lk-xm-1),support,confidence;IF (m-1)>1) THEN genrules(lk,xm-1);END;END;结合相关样例数据对算法进行调试，并根据相关实验结果对数据进行分析，四、实验报告要求1、用C语言或者其他语言实现上述相关算法。

数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘

数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘数据挖掘实验报告班级学号姓名课程数据挖掘实验名称实验⼀：数据准备实验类型实验⽬的：（1）掌握利⽤⽂本编辑软件⽣成ARFF⽂件的⽅法；（2）掌握将EXCEL表格⽂件转换为ARFF⽂件的⽅法；（3）掌握数据的预处理⽅法。

实验要求：（1）将下列表格中的数据利⽤⽂本编辑软件⽣成ARFF⽂件：姓名出⽣⽇期性别婚否⼯资职业信⽤等级黄⼤伟1970.05.08 男3580 教师优秀李明1964.11.03 男是4850 公务员优秀张明明1975.03.12 ⼥是职员优秀覃明勇1981.07.11 男是2980 职员良好黄燕玲1986.05.08 ⼥否2560 ⼯⼈⼀般表中没有填上的数据为缺失数据。

请列出你编辑ARFF⽂件并在WEKA中打开该⽂件。

（2）将EXCEL表格⽂件“bankdata.xls”转换为ARFF⽂件的⽅法,并将它另存为ARFF⽂件“bankdata.arff”, 在WEKA中打开该⽂件，写出操作过程。

（3）数值属性的离散化：在WEKA中打开ARFF⽂件“bankdata.arff”，对属性“age”和“income”分别按等宽分箱和等深分箱进⾏离散化为三个箱。

给出分箱的结果。

实验结果：(1) @relation book1@attribute 姓名{黄⼤伟,'李明',张明明,覃明勇,黄燕玲}@attribute 出⽣⽇期{1970.05.08,1964.11.03,1975.03.12,1981.07.11,1986.05.08}@attribute 性别{男,⼥}@attribute 婚否{是,否}@attribute ⼯资numeric@data黄⼤伟,1970.05.08,男,?,3580李',1964.11.03,男,是,4850张明明,1975.03.12,⼥,是,?覃明勇,1981.07.11,男,是,2980黄燕玲,1986.05.08,⼥,否,2560（2）先把bankdata.xls转化为CSV⽂件格式得到bankdata.csv,再在WEKA中打开，再另存为ARFF格式，就可以得到bankdata.arff。

数据仓库与数据挖掘验指导书

数据仓库与数据挖掘实验指导书实验一数据仓库的建立一、实验目的理解数据库与数据仓库之间的区别与联系；掌握典型数据仓库系统的工作原理以及应用方法；掌握基于Analysis Service建立数据仓库和多维数据集的方法。

二、实验内容以Analysis Service为系统平台创建数据仓库，并创建多维数据集。

三、实验步骤1．启动Analysis Service2．建立系统数据源连接(1) “控制面板”，然后双击“管理工具”，再双击“数据源(ODBC)”。

(2) 在“系统DSN”选项卡上单击“添加”按钮。

(3) 选择“Microsoft Access 驱动程序(*.mdb)”，然后单击“完成”按钮。

(4) 在“数据源名”框中，输入“mySysDsn”，然后在“数据库”下，单击“选择”。

(5) 在“选择数据库”对话框中，浏览到“C:\Program Files\Microsoft Analysis Services\Samples”，然后单击“FoodMart 2000.mdb”。

单击“确定”按钮3．建立数据仓库⑪如何建立数据库结构①在Analysis Manager 树视图中展开“Analysis Servers”。

②单击服务器名称，即可建立与Analysis Servers 的连接。

③右击服务器名称，然后单击“新建数据库”命令。

④在“数据库”对话框中的“数据库名称”框中，输入“myWarehouse”，然后单击“确定”按钮。

⑤在Analysis Manager 树窗格中展开服务器，然后展开刚才创建的“myWarehouse”数据库。

⑫建立数据源在Analysis Manager 树窗格中，右击“myWarehouse”数据库下的“数据源”文件夹，然后单击“新数据源”命令。

在“数据链接属性”对话框中，单击“提供者”选项卡，然后单击“Microsoft OLE DB Provider for ODBC Drivers”。

数据仓库与数据挖掘实验一

《数据仓库与数据挖掘》课程实验报告一一、实验目的、内容、原理与环境1.实验目的:掌握在SQL Server 2005示例数据仓库环境下数据加载和建立多维数据模型过程的知识, 训练其把教材上的内容应用到实际中的技能, 为今后继续数据挖掘技术的学习奠定基础。

2.实验内容:在SQL Server 2005示例数据仓库环境下加载数据仓库, 建立多维数据模型。

具体内容包括：创建 Analysis Services 项目 , 定义数据源 , 定义数据源视图 , 修改表的默认名称, 定义多维数据集 , 检查多维数据集和维度属性 , 部署 Analysis Services 项目, 浏览已部署的多维数据集等知识。

3、实验原理与环境:数据仓库环境下数据加载过程和多维数据模型建立的方法。

SQL Server 2005示例数据仓库环境。

二、实验步骤（一）本实验的主要步骤（7步）分别介绍如下:（二）创建 Analysis Services 项目（二）创建数据源（三）定义数据源视图（四）定义多为数据源集（五）部署 Analysis Services 项目（六）浏览已部署的多维数据集(七)提高多维数据集的可用性和易用性三、实验总结通过数据仓库与数据挖掘的这门课的学习, 掌握了数据仓库与数据挖掘的一些基础知识和基本概念, 了解了数据仓库与数据库的区别。

下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。

数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。

主题是数据数据归类的标准, 每个主题对应一个客观分析的领域, 他可为辅助决策集成多个部门不同系统的大量数据。

数据仓库包含了大量的历史数据, 经集成后进入数据仓库的数据极少更新的。

数据仓库内的数据时间一般为5年至10年, 主要用于进行时间趋势分析。

数据仓库的数据量很大。

数据仓库的特点如下：。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

数据仓库与数据挖掘实验一任务书
多维数据集的建立以及数据的加载
一、目的和要求
（1）建立关系数据库，为多维数据集的建立做好准备。

（2）在没有数据源的情况下，创建一个多维数据集，熟悉多维数据集建立的过程。

（3）为创建的多维数据集添加数据源，并向关系架构加载数据。

二、实验内容
一）建立关系数据库
1.建立数据库my sales
数据库表如下
订单信息：订单号，订单日期，订单金额，商品号，单价，数量，客户号，员工号，付款状态
客户信息表：客户号，姓名，家庭地址，性别，联系电话，年龄，生日，文化程度商品信息表：商品号，商品名称，类别编号，大小范围，大小，颜色范围，颜色，照片，吊牌价，标准成本，开始销售日期，重量，销售状态
类别信息表：类别编号，类别名称，描述，小类别编号
小类别信息表：小类别编号，小类别名称，描述，大类别编号
大类别信息表：大类别编号，大类别名称，描述
2.建立外键关系，新建数据库关系图
3.输入数据库数据
二）根据分析需求收集数据源导入数据仓库并进行抽取，转换，集成。

1）打开Microsoft SQL Server Management Studio,创建一个新的数据库sales_DW.
2）右击数据源my sales,选择单击任务—导出数据，出现导出界面，单击“下一步”按钮，“选择数据源”页自动填入创建到my sales 的连接的数据源、服务器和数据库，单击“下一步”。

3）在“选择目标”页，从数据库下拉列表框中选择sales_DW.
4）在“指定表复制和查询”页可以选择“复制一个或多个表或视图的数据”，页可以选择“编写查询以指定要传输的数据”，如果选择后者，可以在下一步出现的对话框中输入“select……………from [数据表]”语句实现数据的抽取。

也可以选择前者，出现如下的对话框，根据任务选择要复制的数据表。

5) 两次单击“下一步”，完成源数据的复制以及初步抽取。

6）为了使多维数据集在分析时能够分析事实的时间维度，可以在sales_DW中添加一个时间表，其中有“订单时间”，“年”，“月”“日”等属性，以“订单时间”为主键。

7）由于对于钻取任务而言，一些属性例如商品信息表中的“标准成本”“重量”是不需要的，所以可以删除。

如果在复制数据源时在“指定表复制和查询”页选择“编写查询以指定要传输的数据”，则可以在复制初期就完成表中属性的选择。

8）建立关系数据库中的各表的关系，建立sales_DW的数据库关系图。

三）创建新项目，生成新的多维数据集
1.设置数据源
1）打开BIDS,单击“文件”—“新建”—“项目”，创建新项目，自取项目名。

2）创建新项目之后，在“解决方案资源管理器”窗口找到新建的项目，右击新建项目下的数据源，选择“新建数据源”命令，打开“数据源向导”对话框。

3）在“数据源向导”对话框“数据连接”列表中选择刚创建好的数据源“sales_DW”,接着单击“下一步”按钮，进入“模拟信息”界面。

选择“默认值”，单击下一步，进入完成向导界面，单击“完成”按钮，数据源就设置好了。

2.设置数据源视图
1）在“解决方案资源管理器”窗口，在新建的项目下，右击数据源视图文件夹，接着在弹出的快捷菜单中选择“新建数据源视图菜单”命令，打开“数据源视图向导”对话框，如下图所示：
2）单击“下一步”按钮，进入“选择表和视图”界面，使用“>”按钮可将可用对象列表框中表移动到“包含的对象”列表中，单击下一步，进入“完成向导”界面，可更改数据源视图名称，单击“完成”按钮，完成创建数据源视图的工作，双击新建的数据源视图，观察数据源视图窗口变化。

3.创建多维数据集
1）在“解决方案资源管理器”窗口，在新建的项目下，右击多维数据集文件夹，接着从弹出的快捷菜单中选择“新建多维数据集”命令，进入“多维数据集向导”界面，单击“下一步”按钮。

2）出现“选择生成方法”界面，选中“使用数据源生成多维数据集”单选按钮，并取消选中“自动生成”复选框。

3）单击下一步，进入“选择数据源视图”界面，选中刚建好的数据源视图，单击“下一步”，进入“标识事实数据表和维度表”界面，选择事实和维度，接着单击“下一步”按钮进入“选择度量值”界面，选择默认，单击下一步，进入查看“新建维度”界面。

4）接受默认值，单击“下一步”按钮，进入“完成向导”界面。

5）输入多维数据集名称，单击“完成”按钮，向导创建这个多维数据集以及其中包含的维度。

此时，设计器中会显示多维数据集的数据视图和结构，观察视图和结构。

4.为维度创建层次结构
1）双击需要创建层次的维度，界面就会出现一个维度窗口，单击“层次结构”标签。

2）展开维度节点，以时间维度为例，并单击“编辑时间”按钮，此时设计器窗口会显示“维度结构”选项卡。

3}将“年”，“月”，“日”属性拖拽到“层次结构和级别”列表中的“层次结构”组下。

那么时间维度层次就创建完成了。