理工大学数据仓库与数据挖掘实验一

合集下载

数据挖掘实验报告1

实验一 ID3算法实现一、实验目的通过编程实现决策树算法，信息增益的计算、数据子集划分、决策树的构建过程。

加深对相关算法的理解过程。

实验类型：验证计划课间：4学时二、实验内容1、分析决策树算法的实现流程；2、分析信息增益的计算、数据子集划分、决策树的构建过程；3、根据算法描述编程实现算法，调试运行；4、对所给数据集进行验算，得到分析结果。

三、实验方法算法描述：以代表训练样本的单个结点开始建树；若样本都在同一个类，则该结点成为树叶，并用该类标记；否则，算法使用信息增益作为启发信息，选择能够最好地将样本分类的属性；对测试属性的每个已知值，创建一个分支，并据此划分样本；算法使用同样的过程，递归形成每个划分上的样本决策树递归划分步骤，当下列条件之一成立时停止：给定结点的所有样本属于同一类；没有剩余属性可以进一步划分样本，在此情况下，采用多数表决进行四、实验步骤1、算法实现过程中需要使用的数据结构描述：Struct{int Attrib_Col; // 当前节点对应属性int Value; // 对应边值Tree_Node* Left_Node; // 子树Tree_Node* Right_Node // 同层其他节点Boolean IsLeaf; // 是否叶子节点int ClassNo; // 对应分类标号}Tree_Node;2、整体算法流程主程序：InputData();T=Build_ID3(Data,Record_No, Num_Attrib);OutputRule(T);释放内存;3、相关子函数：3.1、 InputData(){输入属性集大小Num_Attrib;输入样本数Num_Record;分配内存Data[Num_Record][Num_Attrib];输入样本数据Data[Num_Record][Num_Attrib]；获取类别数C(从最后一列中得到);}3.2、Build_ID3(Data,Record_No, Num_Attrib){Int Class_Distribute[C];If (Record_No==0) { return Null }N=new tree_node();计算Data中各类的分布情况存入Class_Distribute Temp_Num_Attrib=0;For (i=0;i<Num_Attrib;i++)If (Data[0][i]>=0) Temp_Num_Attrib++;If Temp_Num_Attrib==0{N->ClassNo=最多的类；N->IsLeaf=TRUE;N->Left_Node=NULL;N->Right_Node=NULL;Return N;}If Class_Distribute中仅一类的分布大于0{N->ClassNo=该类；N->IsLeaf=TRUE;N->Left_Node=NULL;N->Right_Node=NULL;Return N;}InforGain=0;CurrentCol=-1;For i=0;i<Num_Attrib-1;i++){TempGain=Compute_InforGain(Data,Record_No,I,Num_Attrib); If (InforGain<TempGain){ InforGain=TempGain; CurrentCol=I;}}N->Attrib_Col=CurrentCol;//记录CurrentCol所对应的不同值放入DiferentValue[]；I=0;Value_No=-1;While i<Record_No {Flag=false;For (k=0;k<Value_No;k++)if (DiferentValu[k]=Data[i][CurrentCol]) flag=true;if (flag==false){Value_No++;DiferentValue[Value_No]=Data[i][CurrentCol] } I++;}SubData=以Data大小申请内存空间；For (i=0;i<Value_No;i++){k=-1;for (j=0;j<Record_No-1;j++)if (Data[j][CurrentCol]==DiferentValu[i]){k=k++;For(int i1=0;i1<Num_Attrib;i1++)If (i1<>CurrentCol)SubData[k][i1]=Data[j][i1];Else SubData[k][i1]=-1;}N->Attrib_Col=CurrentCol;N->Value=DiferentValu[i];N->Isleaf=false;N->ClassNo=0;N->Left_Node=Build_ID3(SubData,k+1, Num_Attrib);N->Right_Node=new Tree_Node;N=N->Right_Node;}}3.3、计算信息增益Compute_InforGain(Data,Record_No, Col_No, Num_Attrib) {Int DifferentValue[MaxDifferentValue];Int Total_DifferentValue;Int s[ClassNo][MaxDifferentValue];s=0;// 数组清0;Total_DifferentValue=-1;For (i=0;i<Record_No;i++){J=GetPosition(DifferentValue,Total_DifferentValue,Data[i][Col_no]);If (j<0) {Total_DifferentValue++;DifferentValue[Total_DifferentValue]=Data[i][Col_no];J=Total_DifferentValue;}S[Data[i][Num_Attrib-1]][j]++;}Total_I=0;For (i=0;i<ClassNo;i++){Sum=0;For(j=0;j<Record_No;j++) if Data[j][Num_Attrib-1]==i sum++; Total_I=Compute_PI(Sum/Record_No);}EA=0;For (i=0;i<Total_DifferentValue;i++);{ temp=0;sj=0; //sj是数据子集中属于类j的样本个数；For (j=0;j<ClassNO;j++)sj+=s[j][i];For (j=0;j<ClassNO;j++)EA+=sj/Record_No*Compute_PI(s[j][i]/sj);}Return total_I-EA;}3.4、得到某数字在数组中的位置GetPosition(Data, DataSize,Value){For (i=0;i<DataSize;i++) if (Data[i]=value) return I;Return -1;}3.5、计算Pi*LogPiFloat Compute_PI(float pi){If pi<=0 then return 0;If pi>=1 then return 0;Return 0-pi*log2(pi);}五、实验报告要求1、用C语言实现上述相关算法（可选择利用matlab函数实现）2、实验操作步骤和实验结果，实验中出现的问题和解决方法。

数据仓库与数据挖掘实验指导书

《数据仓库与数据挖掘》实验指导书前言数据仓库与数据挖掘技术课程在计算机数据管理、维护中有着相当重要的作用。

数据仓库系统在企业信息管理系统中应用非常广泛，数据挖掘技术对数据仓库的管理及维护、完善数据仓库、发挥数据仓库的作用有着非常大的作用。

本课程主要内容为：数据仓库的概念与体系结构，数据仓库数据处理过程，数据仓库系统的设计与开发，各种数据挖掘技术（关联规则，数据分类，数据类聚，贝叶斯网络，粗糙集，神经网络，遗传算法，统计分析，文本与Web挖掘）及其应用。

本课程既有理论也有实践，实践环节主要是基于SQL Server 2005示例数据仓库环境下进行各种数据挖掘技术的实验。

为使学生能在SQL Server 2005示例数据仓库环境下进行各种数据挖掘技术的实验,首先必须创建一个SQL Server 2005示例数据仓库环境，但考虑到学院实验室管理要求和培养学生的独立动手能力，因此第一个实验（实验一：SQL Server 2005示例数据仓库环境的配置，综合性实验）分两方面进行，一方面由实验室对SQL Server 2005示例数据仓库环境的配置完成，提供给学生进行数据挖掘实验，另一方面，学生可利用自己的计算机环境进行课外实验，交实验报告，其他实验可根据课程内容及课时安排在实验指导教师的指导下在实验室完成。

目录1、实验一：SQL Server 2005示例数据仓库环境的配置···············································页码2、实验二：使用SQL Server 2005建立多维数据模型··················································页码3、实验三：SQL Server 2005中的关联规则应用··························································页码4、实验四：SQL Server 2005中的决策树应用······························································页码5、实验五：SQL Server 2005中的k-means应用···························································页码6、实验六：SQL Server 2005中的贝叶斯网络应用·······················································页码7、实验七：SQL Server 2005中的神经网络应用···························································页码8、实验八：SQL Server 2005中的线性回归应用···························································页码9、实验九：SQL Server 2005中的Logistic回归应用·····················································页码10、实验报告基本内容要求··························································································页码实验一：SQL Server 2005示例数据仓库环境的配置实验学时：2实验类型：综合实验要求：必修一、实验目的通过本实验的学习，使学生掌握配置SQL Server 2005示例数据仓库环境的知识，训练其独立配置数据仓库环境的技能，为今后继续配置数据仓库环境的学习奠定基础。

数据仓库与数据挖掘实验指导

数据仓库与数据挖掘实验指导By TMS目录3第 1 课：创建SQL server2005的DT项目和基本包 ...................................................51.1 创建新的 Integration Services项目 .......................................................61.2 添加和配置平面文件连接管理器 ..............................................................1.3添加和配置 OLE DB 连接管理器 ............................................................881.4在包中添加数据流任务 .......................................................................91.5添加并配置平面文件源 .......................................................................1.6添加并配置查找转换 .........................................................................9101.7添加和配置 OLE DB 目标 ..................................................................111.8测试 Lesson 1 教程包 .....................................................................12第 2 课：添加循环 ................................................................................132．1 创建 Lesson 2 包 ........................................................................132.2添加和配置 Foreach 循环容器 ...............................................................13一、添加 Foreach 循环容器 ................................................................14三、将枚举器映射为用户定义的变量 .........................................................14四、将数据流任务添加到循环中 .............................................................142．3修改平面文件连接管理器 ...................................................................152.4 测试 Lesson 2 教程包 .....................................................................16第 3 课：在 Analysis Services项目中定义数据源视图及多维数据集...................................16项目 ...........................................................一、创建 Analysis Services18二、定义新的数据源 ...........................................................................22三、定义数据源视图 ...........................................................................25四、修改表的默认名称 .........................................................................27五、定义多维数据集 ...........................................................................32五、检查多维数据集和维度属性 .................................................................40项目 ...............................................................六、部署 Analysis Services第 1 课：创建SQL server2005的DT项目和基本包在本课中，您将创建一个简单 ETL 包，该包可以从单个平面文件源提取数据，使用两个查找转换组件转换该数据，然后将该数据写入 AdventureWorksDW 中的 FactCurrencyRate 事实数据表。

数据挖掘实验报告

数据挖掘实验报告数据挖掘是一门涉及发现、提取和分析大量数据的技术和过程，它可以揭示出隐藏在数据背后的模式、关系和趋势，对决策和预测具有重要的价值。

本文将介绍我在数据挖掘实验中的一些主要收获和心得体会。

实验一：数据预处理在数据挖掘的整个过程中，最重要的一环就是数据预处理。

数据预处理包括数据清洗、数据集成、数据转换和数据规约等步骤，目的是为了提高数据的质量和可用性。

首先，我对所使用的数据集进行了初步的观察和探索。

发现数据集中存在着一些缺失值和异常值。

为此，我使用了一些常见的缺失值处理方法，如均值替代、中值替代和删除等。

对于异常值，我采用了离群值检测和修正等方法，使得数据在后续的分析过程中更加真实可信。

其次，我进行了数据集成的工作。

数据集合并是为了整合多个来源的数据，从而得到更全面和综合的信息。

在这个过程中，我需要考虑数据的一致性和冗余情况。

通过采用数据压缩和去重等技术，我成功地完成了数据集成的工作。

接着，我进行了数据转换的处理。

数据转换是为了将原始的数据转换成适合数据挖掘算法处理的形式。

在这个实验中，我采用了数据标准化和归一化等方法，使得不同属性之间具备了可比性和可计算性，从而便于后续的分析过程。

最后，我进行了数据规约的操作。

数据规约的目的在于减少数据的维数和复杂度，以提高数据挖掘的效果。

在这个阶段，我采用了主成分分析和属性筛选等方法，通过压缩数据集的维度和减少冗余属性，成功地简化了数据结构，提高了挖掘效率。

实验二：关联规则挖掘关联规则挖掘是数据挖掘中常用的一种方法，它用于发现数据集中项集之间的关联关系。

在这个实验中，我使用了Apriori算法来进行关联规则的挖掘。

首先，我对数据进行了预处理，包括数据清洗和转换。

然后，我选择了适当的最小支持度和最小置信度阈值，通过对数据集的扫描和频繁项集生成，找出了数据集中的频繁项集。

接着，我使用了关联规则挖掘算法，从频繁项集中挖掘出了具有一定置信度的关联规则。

在实验过程中，我发现挖掘出的关联规则具有一定的实用性和可行性。

数据仓库与数据挖掘实验数据挖掘实验指导书

数据仓库与数据挖掘实验数据挖掘实验指导书《数据挖掘》实验指导书xx年3月1日长沙学院信息与计算科学系前言随着数据库技术的发展，特别是数据仓库以及Web 等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。

针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。

数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的十大新兴技术之一。

因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。

本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。

根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。

在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。

在实验中，学生根据实验指导中的内容进行验证与，然后再去完成实验步骤中安排的任务。

实验完成后，学生按要求完成实验报告。

整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。

实验一 K-Means聚类算法实现一、实验目的通过分析K-Means 聚类算法的聚类原理，利用Vc 编程工具编程实现K-Means 聚类算法，并通过对样本数据的聚类过程，加深对该聚类算法的理解与应用过程。

实验类型：验证计划课间：4学时二、实验内容1、分析K-Means 聚类算法；2、分析距离计算方法；3、分析聚类的评价准则；4、编程完成K-Means 聚类算法，并基于相关实验数据实现聚类过程；三、实验方法1、K-means 聚类算法原理K-means聚类算法以k 为参数，把n 个对象分为k 个簇，以使簇内的具有较高的相似度。

相似度的计算根据一个簇中对象的平均值来进行。

算法描述：输入：簇的数目k 和包含n 个对象的数据库输出：使平方误差准则最小的k 个簇过程：任选k 个对象作为初始的簇中心； Repeatfor j=1 to n DO根据簇中对象的平均值，将每个对象赋给最类似的簇 for i=1 to k DO 更新簇的平均值计算EUnitl E不再发生变化按簇输出相应的对象2、聚类评价准则： E 的计算为：E =∑∑|x -xi =1x ∈C iki|2四、实验步骤 4.1 实验数据P192：154.2初始簇中心的选择选择k 个样本作为簇中心 For (i=0;i For (j=0;jClusterCenter[i][j]=DataBase[i][j]4.3 数据对象的重新分配Sim=某一较大数；ClusterNo=-1;For (i=0;iIf (Distance(DataBase[j],ClusterCenter[i])ClusterNo=i;}ObjectCluster[j]=ClusterNo;4.4 簇的更新For (i=0;i{Temp=0;Num=0; For (j=0;jIf (ObjectCluster[j]==i){Num++; Temp+=DataBase[j];} If (ClusterCenter[i]!=Temp) HasChanged=TRUE;ClusterCenter[i]=Temp; }4.5 结果的输出 For (i=0;iPrintf(“输出第%d个簇的对象:”，i); For (j=0;jIf (ObjectCluster[j]==i) printf(“%d ”,j); Printf(“\n”);Printf(“\t\t\t 簇平均值为(%d,%d)\n”, ClusterCenter[i][0], ClusterCenter[i][1]); }五、注意事项 1、距离函数的选择 2、评价函数的计算实验二 DBSCAN算法实现一、实验目的要求掌握DBSCAN 算法的聚类原理、了解DBSCAN 算法的执行过程。

数据挖掘实验一数据预处理

实验一、数据预处理学院计算机科学与软件学院•实验目的：（1）熟悉 VC++编程工具和完全数据立方体构建、联机分析处理算法。

（2）浏览拟被处理的的数据，发现各维属性可能的噪声、缺失值、不一致性等，针对存在的问题拟出采用的数据清理、数据变换、数据集成的具体算法。

（3）用 VC++编程工具编写程序，实现数据清理、数据变换、数据集成等功能。

（4）调试整个程序获得清洁的、一致的、集成的数据，选择适于全局优化的参数。

•实验原理：1 、数据预处理现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰，为提高数据质量进而提高挖掘结果的质量，产生了大量数据预处理技术。

数据预处理有多种方法：数据清理，数据集成，数据变换，数据归约等。

这些数据处理技术在数据挖掘之前使用，大大提高了数据挖掘模式的质量，降低实际挖掘所需要的时间。

2 、数据清理数据清理例程通过填写遗漏的值，平滑噪音数据，识别、删除离群点，并解决不一致来“清理”数据。

3 、数据集成数据集成数据集成将数据由多个源合并成一致的数据存储，如数据仓库或数据立方体。

4 、数据变换通过平滑聚集，数据概化，规范化等方式将数据转换成适用于数据挖掘的形式。

5 、数据归约使用数据归约可以得到数据集的压缩表示，它小得多，但能产生同样（或几乎同样的）分析结果。

常用的数据归约策略有数据聚集、维归约、数据压缩和数字归约等。

三、实验内容：1 、主要代码及注释头文件#include<iostream>#include<string>#include<fstream>#include<algorithm>using namespace std;1、建立存储结构class Sales{public:string serial;int market;int posno;string date;int sn;int id;float num;float price;float total;void print(){cout << serial<< " " << market << " " << posno << " " << date << ""<<sn<<" "<<id<<" "<<num<<" "<<price<<" "<<total<<endl;}};2、打开源 txt 文件，并创建保存的 txt 文件ifstream infile("1020.txt",ios::in);/*string contents;*/if(infile.fail()){7cout << "error open!" << endl;}ofstream outfile("fl.txt",ios::out);if(!outfile){cout<<"open eror!"<<endl;exit(1);}3、访问 txt 文件中的数据while(!infile.eof())//判断 txt 是否结束{infile >> sal[sal_size].serial >> sal[sal_size].market >> sal[sal_size].posno>> sal[sal_size].date>> sal[sal_size].sn>> sal[sal_size].id>> sal[sal_size].num>> sal[sal_size].price>> sal[sal_size].total;sal_size++;}4、处理数据（1）判断购买数量是否为负if (sal[i].num<0){sal[i].num=-sal[i].num;}（2）统一日期为流水号前 8 位（既可以填补缺失值，又统一格式，同学们也可以分步做，先填补缺失值再改成统一格式）sal[i].date.assign(sal[i].serial ,0,8);（3）保存处理过的数据同时删除冗余数据（总额，POS 机号）outfile<<sal[i].serial <<"\t"<<sal[i].market<<"\t"<<sal[i].date<<"\t"<<sal[i].sn<<"\t"<<sal[i].id<<"\t"<<sal[i].num<<"\t"<<sal[i].price<<endl;（4）关闭 txt 文件infile.close();outfile.close();2 、实验数据实验数据保存在1019、1020、1021三个txt文件中•实验结果：处理前的数据（1019.txt，只列出了一部分）：处理过程：处理后的部分数据：处理前的数据（1020.txt，只列出了一部分）：处理过程：处理后的部分数据：处理前的数据（1021.txt，只列出了一部分）：处理过程：处理后的部分数据：。

数据仓库1实验报告

数据仓库1实验报告1. 引言数据仓库是一个用于集成、存储和管理企业数据的系统，旨在支持决策制定和业务分析。

本实验报告旨在介绍数据仓库的基本概念、架构和设计原则，并通过一个实际案例来演示数据仓库的建立和运行。

2. 数据仓库概述数据仓库是一个面向主题的、集成的、稳定的、随时间变化的数据集合，用于支持企业的决策制定过程。

它通过将来自不同数据源的数据进行提取、转换和加载，构建一个统一的、易于访问的数据存储，供决策者和分析师使用。

3. 数据仓库架构数据仓库的架构包括数据提取、转换、加载（ETL）过程、数据存储和数据访问层。

ETL过程负责从源系统中提取数据，并进行清洗、转换和加载到数据存储中。

数据存储层通常采用星型或雪花型模式，以支持灵活的数据查询和分析。

数据访问层包括报表、查询工具和分析应用，用于用户访问和分析数据。

4. 数据仓库设计原则在设计数据仓库时，需要考虑以下原则：- 主题导向：数据仓库应以业务主题为中心，而不是以功能或应用为中心。

每个主题应该有一个明确的业务含义，例如销售、客户、库存等。

- 集成性：数据仓库应集成来自不同数据源的数据，以提供全面的视图。

数据集成可以通过ETL过程实现。

- 可扩展性：数据仓库应具备可扩展性，能够容纳新的数据源和新的业务需求。

设计时需要考虑到数据量的增长和变化。

- 易用性：数据仓库应提供易于使用的接口和工具，以便用户能够方便地访问和分析数据。

报表、查询工具和分析应用都应该具备直观的界面和功能。

- 性能优化：数据仓库的性能对于用户的体验至关重要。

设计时需要考虑到数据的存储、索引和查询优化，以提高系统的响应速度。

5. 实验案例：建立一个销售数据仓库为了演示数据仓库的建立和运行，我们将以一个销售数据仓库为例。

假设我们有一个电子商务平台，需要对销售数据进行分析和报表展示。

5.1 数据提取首先，我们需要从电子商务平台的数据库中提取销售数据。

这些数据包括订单信息、产品信息、客户信息等。

【数据挖掘-实验1】

实验一数据挖掘概念及Python初步（1) 实验目的 1.1上招聘网站，搜索“数据挖掘”、“数据仓库”，“Java软件工程师”，“C++软件工程师”，“ 会计”等关键词，了解招聘市场对该领域的技能要求。 1.2 阅读《集体智慧编程》第四章，了解“搜索引擎”构建的步骤与搜索结果的评价方法。 1.3 利用Wing IDE开发环境，调试并运行《集体智慧编程》第四章的程序。（2）实验报告包括内容 1.1 数据挖掘——1.数学、统计学、计算机相关专业，本科及以上学历，两年以上互联网数据分析经验 2.对数据驱动业务有深入理解，在数据与业务方面有很强的敏感度 3.逻辑思维缜密，独立思考能力强，具有强烈的进取心 4.掌握数据分析、挖掘方法，熟练使用SQL、Excel 等分析工具 5.掌握下列脚本语言 Python/R/PHP/Shell 之一 6.熟悉基于 MySQL/Oracle/Hadoop/Hive 平台的数据仓库

数据仓库——职责：1.对业务数据进行分析、建模，为业务部门的数据化运营供技术支持 2.设计合理的数据模型，支持对外的数据产品 3.数据仓库平台、ETL流程设计、优化 4.利用数据挖掘技术实现数据价值技能要求：1、有大型数据仓库或数据挖掘项目实施经验，熟悉数据仓库方法论和ETL构架，理解元数据管理 2、至少熟悉一种数据库、熟悉Java、C/C++等语言之一 3、熟悉linux平台，掌握Shell等脚本语言 4、有分布式计算平台（Hadoop,Hive更佳）经验者优先 5、性格积极乐观，诚信，有较强的语言表达能力

Java软件工程师——岗位职责：1、负责项目中的JAVA编码工作； 2、参与项目中JAVA开发部分程序的设计工作； 3、制定作负责工作的工作计划，并按照计划执行； 4、项目组其他人员所编写代码的检查、审核。技能要求：1、本科或本科以上学历，计算机相关专业 2、熟悉JSP/Servlet/EJB和JavaScript等WEB开发技术 3、熟系Spring，Struts和Hibernate等主流的开发框架 4、对Java面向对象软件结构有深入理解以及很强的应用能力 5、熟系数据库oracle,mysql其中一种，拥有优秀的数据库设计能力 6、熟练使用UNIX、LINUX，能进行shell编程 7、了解TCPIP、HTTP等协议 8、学习能力强，拥有优秀的逻辑思维能力，自我管理能力强，有良好的时间意识 -有较好的沟通交流能力

实验内容(数据仓库与数据挖掘)

数据仓库与数据挖掘上机实验实验目的：学习Analysis Services的操作和基本的数据清洗实验内容：浏览SQL Server 2000 Analysis Services 随机教程；规划需求分析；仓库设计；数据清洗转换；建立分析数据库，设置数据源;建立多维数据库（Cube）；设置多维数据库的数据存储方式及访问权限；利用Excel2000访问Analysis Services实验分析：下面只进行两个关键的实验，数据清洗转换和建立多维数据库（使用Northwind数据库），先用数据清洗转换，将需要的表从源库转换到新数据库，为数据仓库提供需要的数据，要形成的维表有Products,Category,Employees,Dates,Facts(事实表)，在实验二中Products和Category将组成雪花架构的维表。

实验一：数据清洗转换（第5周）内容：为数据仓库新建一个数据库，将Products，Categories，Employees，Orders，Order Details转换到新数据库，为数据仓库提供需要的数据目的：为数据仓库事实表和各维表建立基本数据步骤：1）新建一个数据库myNorthwind，并准备从Northwind导入数据。

2）建立Products和Categories两个维度表，将维度表需要的列从Northwind数据库复制到myNorthwind。

3）建立Employees维度表，将源表的列内容复制过来，并将源表中first name和lastname合成一个fullname列,在DTS导入/导出向导中使用SQL语句合成新的列fullname。

4）建立Dates维度表，由源表Orders表中OrderDate一列产生出年、月、日、周、季等列，同时保留OrderDate一列。

在处理数据时使用了VBScript中的DatePart 函数。

5）建立Facts表，（事实表）该表的数据来自Order Details表，首先用Select语句将产品类别编号和员工编号等从各自表中取出；其次计算合计列值，计算方法为单价*(1-折扣)*数量；然后将Order Details表的内容复制到Facts表各列即可；再建立主、外键关系。

数据仓库与数据挖掘实验

数据仓库与数据挖掘实验《数据挖掘》实验指导书全文结束》》年3月1日长沙学院信息与计算科学系前言随着数据库技术的发展，特别是数据仓库以及Web 等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。

针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。

数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的大新兴技术之一。

因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。

本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。

根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。

在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。

在实验中，学生根据实验指导中的内容进行验证与总结，然后再去完成实验步骤中安排的任务。

实验完成后，学生按要求完成实验报告。

整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。

相似度的计算根据一个簇中对象的平均值来进行。

算法描述：输入：簇的数目k 和包含n 个对象的数据库输出：使平方误差准则最小的k 个簇过程：任选k 个对象作为初始的簇中心； Repeatfor j=1 to n DO根据簇中对象的平均值，将每个对象赋给最类似的簇 fori=1 to k DO 更新簇的平均值计算EUnitl E不再发生变化按簇输出相应的对象2、聚类评价准则：E 的计算为：E =∑∑|x邻域：给定对象在半径ε内的区域；● 核心对象：若一个对象ε-邻域至少包含最小数目MinPts 个对象，则称该对象为核心对象；● 直接密度可达：给定一个对象集合D ，若p 是在q 的ε-邻域内，而q 是一个核心对象，则称对象p 从对象q 出发是直接密度可达的；● 密度可达：若存在一个对象链p1,p2, …,pn,p1=q,pn=p,对pi ∈D,pi+1是从pi关于ε和MinPts 直接密度可达的，则称对象p 是从对象q 关于ε和MinPts 是密度可达的；● 密度相连：若对象集合D 中存在一个对象o ，使得对象p 和q 是从o 关于ε和MinPts 是密度可达的，则对象p 和q 是关于ε和MinPts 密度相连的；● 噪声：一个基于密度的簇是基于密度可达性的最大的密度相连对象的集合，不包含在任何簇中的对象被认为是噪声、实现的基本思想通过检查数据集中每个对象的ε-邻域来寻找聚类。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

-1-
昆明理工大学信息工程与自动化学院学生实验报告
（ 2012 —2013 学年第 1 学期）
课程名称：数据库仓库与数据挖掘开课实验室： 2012 年10月 30日
年级、专业、班学号姓名成绩

实验项目名称数据仓库的构建指导教师周海河
教
师
评
语该同学是否了解实验原理： A.了解□ B.基本了解□ C.不了解□ 该同学的实验能力： A.强 □ B.中等 □ C.差 □ 该同学的实验是否达到要求： A.达到□ B.基本达到□ C.未达到□ 实验报告是否规范： A.规范□ B.基本规范□ C.不规范□ 实验过程是否详细记录： A.详细□ B.一般 □ C.没有 □ 教师签名：
年月日
一、上机目的
1．理解数据库与数据仓库之间的区别与联系；
2．掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法；
3．掌握数据仓库建立的基本方法及其相关工具的使用。
二、上机内容
内容：以SQL Server为系统平台，设计、建立数据库，并以此为基础创建数据仓库。
要求：利用实验室和指导教师提供的实验软件，认真完成规定的实验项目，真实地记录实
验中遇到的各种问题和解决的方法与过程，并绘出模拟实验案例的数据仓库模型。实验完成后，
应根据实验情况写出实验报告。
三、所用仪器、材料（设备名称、型号、规格等或使用软件）
1台PC及SQL 2008软件
四、实验方法、步骤和截图（或：程序代码或操作过程）
采用SQL语句创建数据库，数据库命名为：DW。如图所示：
-2-

DW数据库中包含7张维表和一张事实表。7张维表分别为：订单方式维表、销售人员及销售
地区维表、发货方式维表、订单日期维表、客户维表、订单状态维表、客户价值维表。建立7
张维表语句和建立7张维表的ETL如下：
语句执行成功的结果如图所示：
-3-
DW数据库包含的事实表为FACT_SALEORDER。建立1张事实表语句和建立1张事实表的
ETL如下：

三、建事实表
CREATE TABLE FACT_SALEORDER(
SALEORDERID INT,
TIME_CD VARCHAR(8),
STATUS INT,
ONLINEORDERFLAG INT,
CUSTOMERID INT,
SALESPERSONID INT,
SHIPMETHOD INT,
ORDER_VALUES INT,
SUBTOTAL DECIMAL(10,2),
TAXAMT DECIMAL(10,2),
FREIGHT DECIMAL(10,2))

-----------------------------------
四、事实表的ETL

/*4.1 FACT_SALEORDER的ETL*/

TRUNCATE TABLE FACT_SALEORDER
INSERT INTO FACT_SALEORDER
SELECT SalesOrderID,CONVERT(CHAR(8),A.OrderDate,112) ,
A.Status,A.OnlineOrderFlag,ISNULL(A.CustomerID,0),ISNULL(A.SalesPersonID,0),A.ShipMetho
-4-

dID,B.ORDER_VALUES_ID,A.SubTotal,A.TaxAmt,A.Freight
FROM AdventureWorks.Sales.SalesOrderHeader A,
V_SUBTOTAL_VALUES B
WHERE A.SubTotal>=B.MIN_VALUE AND A.SubTotal

--缺省值处理
INSERT INTO DIM_CUSTOMER
select DISTINCT CUSTOMERID,'未知','商店',0,'N','N','未知','未知','未知',0,0,'未知','未知','未知'
from FACT_SALEORDER
where CUSTOMERID not in (SELECT CUSTOMERID
FROM dbo.DIM_CUSTOMER )

INSERT INTO DIM_CUSTOMER
select DISTINCT SALESPERSONID,'未知','未知' from FACT_SALEORDER
where SALESPERSONID not in (SELECT SALESPERSONID
FROM dbo.DIM_SALEPERSON )

语句执行成功的结果如图所示：
-5-
五、实验结果、分析和结论（误差分析与数据处理、成果总结等。其中，绘制曲

线图时必须用计算纸或程序运行结果、改进、收获）
通过这次上机实验了解了数据库各种表间的关系，对建立事实表有了直观的体会和理解。