数据仓库与数据挖掘实验报告 -
数据仓库与数据挖掘实验报告

一【2 】.上机目标及内容目标:1.懂得数据发掘的根本概念及其进程;2.懂得数据发掘与数据仓库.OLAP之间的关系3.懂得根本的数据发掘技巧与办法的工作道理与进程,控制数据发掘相干对象的运用.内容:将创建一个数据发掘模子以练习发卖数据,并运用“Microsoft 决议计划树”算法在客户群中找出购置自行车模式.请将要发掘的维度(事例维度)设置为客户,再将客户的属性设置为数据发掘算法辨认模式时要运用的信息.然后算法将运用决议计划树从中肯定模式.下一步须要练习模子,以便可以或许浏览树视图并从中读取模式.市场部将依据这些模式选择潜在的客户发送自行车促销信息.请求:运用试验室和指点教师供给的试验软件,卖力完成划定的试验内容,真实地记载试验中碰到的各类问题息争决的办法与进程,并依据试验案例绘出模子及操作进程.试验完成后,应依据试验情形写出试验报告.二.试验道理及根本技巧路线图(方框道理图或程序流程图)联系关系剖析:联系关系剖析是从数据库中发明常识的一类主要办法.时序模式:经由过程时光序列搜刮出反复产生概率较高的模式.分类:分类是在聚类的基本上对已肯定的类找出该类别的概念描写,代表了这类数据的整体信息,既该类的内在描写,一般用规矩或决议计划树范式表示.三.所用仪器.材料(装备名称.型号.规格等或运用软件)1台PC及Microsoft SQL Server套件四.试验办法.步骤(或:程序代码或操作进程)及试验进程原始记载( 测试数据.图表.盘算等)创建 Analysis Services 项目1.打开 Business Intelligence Development Studio.2.在“文件”菜单上,指向“新建”,然后选择“项目”.3.确保已选中“模板”窗格中的“Analysis Services 项目”.4.在“名称”框中,将新项目定名为 AdventureWorks.5.单击“肯定”.更改存储数据发掘对象的实例1.在 Business Intelligence Development Studio 的“项目”菜单中,选择“属性”.2.在“属性页”窗格的左侧,单击“部署”.3.在“目标”选项部分,验证数据库名称是否为 localhost.假如运用的是其他实例,请键入该实例的名称.单击“肯定”.创建数据源1.在解决计划资本治理器中,右键单击“数据源”文件夹,然后选择“新建数据源”.体系将打开数据源领导.2.在“迎接运用数据源领导”页面中,单击“下一步”按钮.3.在“选择若何界说衔接”页上,单击“新建”向 Adventure Works 数据库中添加衔接.体系将打开“衔接治理器”对话框.4.在“衔接治理器”的“供给程序”列表中,选择“本机 OLE DB\Microsoft OLE DB Provider forSQL Server”.5.在“办事器名称”列表中,键入或选择承载 AdventureWorksDW 的办事器的名称.6.在“登录到办事器”组中,选择身份验证办法,并输入凭证.7.在“选择或输入数据库名称”列表中,选择 AdventureWorksDW,再单击“肯定”按钮.8.单击“下一步”按钮进入领导的下一页.9.在“模仿信息”页中,选择“运用办事帐户”,再单击“下一步”.10.请留意,在“完成领导”页中,数据源名称默以为 Adventure WorksDW.11.单击“完成”.新的数据源 Adventure Works DW 将显示在解决计划资本治理器的“数据源”文件夹中.创建数据源视图1.在解决计划资本治理器中,右键单击“数据源视图”,选择“新建数据源视图”.体系将打开数据源视图领导.2.在“迎接运用数据源视图领导”页上,单击“下一步”.3.在“选择数据源”页的“关系数据源”下,体系将默认选中您在上一个义务中创建的 AdventureWorks DW 数据源. 单击“下一步”.若要创建新数据源,请单击“新建数据源”,启动数据源领导.4.在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:•dbo.ProspectiveBuyer•dbo.vAssocSeqLineItems•dbo.vAssocSeqOrders•dbo.vTargetMail•dbo.vTimeSeries5.单击“下一步”.6.在“完成领导”页上,默认情形下,体系将数据源视图定名为 Adventure Works DW. 单击“完成”.体系将打开数据源视图设计器,显示 Adventure Works DW 数据源视图.创建用于目标邮件计划的发掘构造1.在解决计划资本治理器中,右键单击“发掘构造”并选择“新建发掘构造”启动数据发掘领导.2.在“迎接运用数据发掘领导”页上,单击“下一步”.3.在“选择界说办法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”.4.在“创建数据发掘构造”页的“您要运用何种数据发掘技巧?”下,选择“Microsoft 决议计划树”.5.单击“下一步”.6.在“选择数据源视图”页上,请留意已默认选中 Adventure Works DW.在数据源视图中,单击“浏览”查看各表,然后单击“封闭”返回该领导.7.单击“下一步”.8.在“指定表类型”页上,选中 vTargetMail 表旁边“事例”列中的复选框,再单击“下一步”.9.在“指定定型数据”页上,确保已选中 CustomerKey 列旁边 Key 列中的复选框.假如数据源视图中的源表表示一个键,则数据发掘领导将主动选择该列作为模子的键.10.选中 BikeBuyer 列旁边的“输入”和“可猜测”.11.单击“建议”打开“供给相干列建议”对话框.只要选中至少一个可猜测属性,即可启用“建议”按钮.“供给相干列建议”对话框将列出与可猜测列联系关系最亲密的列,并按照与可猜测属性的互相关系对属性进行排序.值大于 0.05 的列将被主动选中,以包括在模子中.12.浏览建议,然后单击“撤消”疏忽建议并保留领导设置的原始值.13.选中以下各列旁边的“输入”复选框:•Age•CommuteDistance •EnglishEducation •EnglishOccupation •FirstName•Gender •GeographyKey •HouseOwnerFlag •LastName •MaritalStatus •NumberCarsOwned •NumberChildrenAtHome •Region•TotalChildren •YearlyIncome14.单击“下一步”.15.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并肯定命值列是否包含持续或离散值的算法.例如,某列可包含薪金信息,用以作为持续的现实薪金值,也可包含整数,用以表示离散的编码薪金规模(例如 1 = < $25,000;2 = 从 $25,000 到 $50,000).16.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;若有必要,请进行更改,以确保设置与下表所示一致.平日,领导会检测数值,并分派响应的数值数据类型;但有些情形下,您可能想要将数值作为文本处理.例如,GeographyKey 应作为文本处理,因为对此标识符进行数学运算是不对的.YearlyIncome Continuous Double17.单击“下一步”.18.在“将数据拆分为定型集和测试集”页上,对于“测试数据百分比”,请保留默认值 30.19.对于“测试数据分散的最大事例数”,请键入 1000.单击“下一步”.20.在“完成领导”页上的“发掘构造名称”中,键入 Targeted Mailing.21.在“发掘模子名称”中,键入 TM_Decision_Tree.22.选中“许可钻取”复选框.23.单击“完成”.测试发掘模子的精确性映射输入列假如运用外部数据测试发掘模子,则必须确保发掘构造中的列与输入数据中的列匹配.为此,可以运用“指定列映射”对话框.假如直接映射列名,则数据发掘设计器将主动创建关系.若要删除两列之间的映射,请选择将“发掘构造”表中的列链接到“选择输入表”表中的列的行,再按Delete 键.还可以经由过程单击“选择输入表”中的列并将其拖到“发掘构造”中响应的列来手动创建映射.将输入列映射到发掘构造1.在数据发掘设计器中的“发掘精确性图表”选项卡的“输入选择”选项卡中,选择选项“指定其他数据集”.2.单击“指定其他数据集”选项右侧的(…)按钮.此时将打开“指定列映射”对话框.假如您要测试的构造未显示在“发掘构造”窗格中,请单击“选择构造”并选择目标邮件.3.在“选择输入表”框中,单击“选择事例表”.体系将打开“选择表”对话框.在此对话框中选择包含表或须要运用的表的数据源视图,然后选择该表.用于肯定模子精确性的数据必须包含可以映射到可猜测列的列.为了实现本教程的教授教养目标,您须要对用于处理模子的输入列运用雷同的数据并对数据运用筛选器.但是,幻想情形下,您将运用用于处理该模子的数据中保留的测试数据集.在“选择输入选择”选项卡上选择选项“运用发掘构造测试事例”,将选择该数据作为输入.4.在“数据源”列表中,确保已选中 Adventure Works DW.5.在“表/视图名称”列表中,选择 vTargetMail,再单击“肯定”.发掘构造中的列会主动映射到输入表中具有雷同名称的列.筛选输入行假如选择“指定其他数据集”选项,则可以经由过程运用显示事例表列和嵌套表列的一组对话框生成筛选前提.可以从运算符.类型值的列表中进行选择,并衔接前提与逻辑运算符,以创建限制测试所用事例的庞杂前提.对测试数据运用筛选器1.在数据发掘设计器中的“发掘精确性图表”选项卡的“输入选择”选项卡上,单击“打开筛选器编辑器”.2.此时将打开“vTargetMail 数据集筛选器”对话框.在此网格内,输入转换为将运用于源表的WHERE 子句的前提,以限制用于测试的事例.3.在“发掘构造列”下,单击网格内顶部的行.选择 vTargetMail.4.单击“值”单元.此时将打开“筛选器”对话框,该对话框可关心您对 vTargetMail 表设置前提.5.在第一行中,单击“发掘构造列”下的网格,然后从列的列表中选择 Age.6.单击 Age 旁边的“运算符”框,并选择 >(大于)运算符.7.在统一行单击“值”框,并键入 20.8.单击“表达式”窗格以刷新该表达式,并验证它是否精确.单击“肯定”.9.再次单击“肯定”,封闭“筛选数据集”对话框.“输入选择”选项卡中的“筛选表达式”窗格会显示适才创建的筛选表达式vTargetMail:([Age] > 20).当制造晋升图时,模子将仅运用其年纪大于 20 的客户进行测试.显示模子的晋升1.在“选摘要在晋升图中显示的可猜测的发掘模子列”下,确保已在每个模子的“可猜测的列名”列表中选中 Bike Buyer.2.在“猜测值”列中,选择 1.对于具有雷同可猜测列的每个模子,将主动填充雷同的值.显示模子的精确性1.在“选摘要在晋升图中显示的可猜测的发掘模子列”下,确保已在每个模子的“可猜测的列名”列表中选中 Bike Buyer.2.将“猜测值”列保留为空.查看晋升图若要查看晋升图,请切换到“发掘精确性图表”的“晋升图”选项卡.当您单击该选项卡时,便会对办事器和数据库的发掘构造和输入表或测试数据运行猜测查询.猜测成果随后会与已知的现实值进行比较,并将绘制在图上.有关若何运用该图的具体信息,请参阅晋升图(Analysis Services - 数据发掘).创建查询创建猜测查询的第一步是选择发掘模子和输入表.选择模子和输入表1.在数据发掘设计器“发掘模子猜测”选项卡的“发掘模子”框中,单击“选择模子”.体系将打开“选择发掘模子”对话框.2.在全部树中导航到“目标邮件”构造,睁开该构造并选择 TM_Decision_Tree,再单击“肯定”.3.在“选择输入表”框中,单击“选择事例表”.体系将打开“选择表”对话框.4.在“数据源”中,选择 Adventure WorksDW.5.在“表/视图名称”中,选择 ProspectiveBuyer 表,再单击“肯定”.选择输入表之后,猜测查询生成器便会依据各列的名称在发掘模子和输入表之间创建默认映射.生成猜测查询1.在“发掘模子猜测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然后选择ProspectiveBuyer.2.在 ProspectiveBuyer 行的“字段”列中,选择 ProspectAlternateKey.这会将独一标识符添加到猜测查询中,以便标识谁可能购置自行车,以及谁不可能购置自行车.3.在“源”列中,单击下一个空行,然后选择 TM_Decision_Tree.4.在 TM_Decision_Tree 行的“字段”列中,选择 Bike Buyer.这将会输出 Microsoft 决议计划树范子中作为猜测目标的列.5.在“源”列下,单击下一个空行,然后选择“猜测函数”.6.在“猜测函数”行的“字段”列中,选择 PredictProbability.猜测函数供给有关模子若何进行猜测的信息.PredictProbability 函数供给有关精确猜测的概率信息.您可以在“前提/参数”列中指定猜测函数的参数.7.在 PredictProbability 行的“前提/参数”列中,键入 [TM_Decision_Tree].[Bike Buyer].这将指定 PredictProbability 函数的目标列.有关函数的具体信息,请参阅数据发掘扩大插件(DMX) 函数参考.“发掘模子猜测”选项卡的对象栏中的第一个对象是“切换到查询设计视图/切换到查询成果视图”按钮.经由过程单击此按钮上的下箭头,可在所创建的查询的视图之间切换.运用“查询”视图可以查看猜测查询生成器创建的 DMX 代码.运用“成果”视图可以运行查询并查看成果.运用“设计”视图可以向查询中添加新猜测函数.留意:假如在“查询”视图中手动更改查询的文本,则切换回“设计”视图时,不会保留修正后的查询.查看成果经由过程单击“切换到查询设计视图/切换到查询成果视图”按钮(即对象栏上的第一个按钮)旁边的箭头并选择“成果”,可以运行查询.六.试验成果.剖析和结论(误差剖析与数据处理.成果总结等.个中,绘制曲线图时必须用盘算纸或程序运行成果.改良.收成)运用 Microsoft SQL Server Analysis Services 可以很便利地创建庞杂的数据发掘解决计划.Analysis Services 对象可关心我们设计.创建和治理来自数据仓库的多维数据集和数据发掘模子,还可治理对 OLAP 数据和数据发掘数据的客户端拜访.经由过程试验懂得了数据发掘的根本概念及其进程及数据发掘与数据仓库.OLAP之间的关系.对根本的数据发掘技巧与办法的工作道理与进程,控制数据发掘相干对象的运用有了初步的懂得.注:教师必须按照上述各项内容严厉请求,卖力批改和评定学生成绩.。
数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告一、实验目的和意义数据仓库和数据挖掘是现代大数据时代中关键的技术与方法,本实验旨在通过实践操作,了解数据仓库和数据挖掘的基本概念、流程和方法,并基于实验数据进行数据仓库与数据挖掘的实际应用。
二、实验内容及步骤本实验基于某电商平台的网购数据,通过数据仓库的建立和数据挖掘的过程,探索和发现隐藏在数据中的有价值信息。
具体步骤如下:1. 数据收集和预处理获取电商网购数据集,对数据进行清洗和预处理,如缺失值处理、异常值处理和数据集整合等,以保证数据的质量和可用性。
2. 数据仓库的建立基于处理后的数据,进行数据仓库的建立。
根据业务需求和分析目标,确定维度表和事实表的建模方法和关联关系,设计和构建星型或雪花模式的数据仓库。
3. 数据挖掘的实践基于已建立的数据仓库,进行数据挖掘的实践,包括关联规则挖掘、分类与预测、聚类分析、异常检测等。
通过使用数据挖掘工具,如R、Python中的Scikit-learn等,进行模型构建和算法实施,得到数据挖掘结果。
4. 结果分析与应用对数据挖掘结果进行分析和解读,发现和总结其中的规律和知识,得到业务价值和应用建议,为业务决策和目标达成提供支持和参考。
三、实验结果与分析本实验得到了以下数据挖掘结果:1. 关联规则挖掘通过关联规则挖掘的过程,发现了一些有趣和有用的关系,如购买商品A的用户有70%的概率也会购买商品B,可以利用这些关联规则进行交叉销售和推荐。
2. 分类与预测通过构建分类和预测模型,成功预测了用户的购买行为,可以预测出用户未来可能会购买的商品,为精准市场营销和库存管理提供决策支持。
3. 聚类分析通过聚类分析,将用户分为不同的群体,可以对不同群体采取不同的营销策略,提高用户满意度和购买转化率。
4. 异常检测通过异常检测,发现了一些异常行为和欺诈行为,可以及时进行监控和防范,保护用户权益和平台安全。
此外,还通过数据可视化的方式,将分析结果展示出来,如通过柱状图、折线图、散点图等方式进行可视化展示,直观地呈现数据的分布和关系。
数据挖掘实验报告

数据仓库与数据挖掘实验一、聚类算法测算数据集,如下图所示的数据集:1.对mfeat-fac数据集进行测算(1)创建Analysis Services chf项目打开Business Intelligence Development Studio,选择“文件”—“新建”命令,新建一个Analysis Services 项目。
在“名称”文本框中将新项目命名为Analysis Services chf,单击“确定”按钮。
(2)创建数据源Chenhongfei在右侧解决方案资源管理器中,右键单击“数据源”项,从弹出的快捷菜单中选择“新建数据源”命令。
系统将打开数据源向导。
单击“新建”按钮,向Adventure Works数据库添加连接。
系统将打开“连接管理器”对话框,连接到数据库chenhongfei,单击“确定”按钮。
单击“下一步”按钮进入“模拟信息”页,选择“默认值”。
具体如下图所示(3)创建数据源视图Chenhongfei在解决方案资源管理器中,右键单击“数据源视图”,从弹出的快捷菜单中选择“新建数据源视图”命令,系统将打开数据源视图向导。
在“欢迎使用数据源视图向导”页上,单击“下一步”按钮。
选择1视图,然后右击,将它包括在新数据源视图中,如下图所示:(4)创建挖掘结构Cc1在解决方案资源管理器中,右键单击“挖掘结构”,在弹出的快捷菜单中选择“新建挖掘结构”命令,系统将打开数据挖掘向导。
在“欢迎使用数据向导”页上,单击“下一步”按钮。
在“选择定义方法”页上,确认已选中“从现有关系数据库或数据仓库”,单击“下一步”按钮。
在“选择数据挖掘技术”页的“你要使用何种数据挖掘技术?”下拉列表中选择“Microsoft 聚类分析”选项,如下图所示:单击“下一步”按钮,在随后出现的“选择数据源视图”页上,请注意已默认选中Chenhongfei。
单击“选择数据源视图”页上的“下一步”按钮,在“指定表类型”页上,选择cc1表右边“事例”列中的复选框,单击“下一步”按钮。
数据仓库与数据挖掘实验四

数据仓库与数据挖掘实验四一、实验目的本实验旨在通过实践操作,掌握数据仓库与数据挖掘的相关技术,包括数据预处理、数据集成、数据转换和数据挖掘算法的应用。
二、实验背景随着信息化时代的到来,数据量呈指数级增长,如何从这些庞大的数据中提取有用的信息成为了一个重要的研究方向。
数据仓库与数据挖掘技术应运而生,能够帮助我们从海量数据中挖掘出有价值的知识和模式,为决策提供科学依据。
三、实验内容1. 数据预处理数据预处理是数据挖掘的第一步,目的是清洗原始数据,解决数据中存在的噪声、缺失值和异常值等问题。
在本实验中,我们将使用一个包含学生信息的数据集进行数据预处理的实验。
首先,我们需要导入数据集,并对数据进行初步的观察和分析。
可以使用Python编程语言中的pandas库来进行数据的读取和分析。
通过查看数据集的属性、数据类型以及数据的统计信息,我们可以对数据有一个初步的了解。
接下来,我们需要处理数据中存在的缺失值。
可以使用pandas库中的fillna()函数来填充缺失值,常用的填充方法包括均值填充、中位数填充和众数填充等。
根据不同的情况选择合适的填充方法,并对数据进行处理。
最后,我们需要处理数据中的异常值。
可以使用箱线图和散点图等可视化工具来检测异常值,并根据实际情况进行处理。
2. 数据集成数据集成是将多个数据源中的数据合并成一个一致、完整的数据集的过程。
在本实验中,我们将使用两个包含学生信息的数据集进行数据集成的实验。
首先,我们需要对两个数据集进行初步的观察和分析,了解数据的结构和属性。
接下来,我们需要选择一个合适的数据集成方法。
常用的数据集成方法包括追加、合并和连接等。
根据数据集的特点和实际需求,选择合适的方法进行数据集成。
最后,我们需要对合并后的数据集进行处理,解决数据中存在的重复值和冲突值等问题。
可以使用pandas库中的drop_duplicates()函数来去除重复值,并根据实际情况解决冲突值。
3. 数据转换数据转换是将原始数据转换成适合进行数据挖掘的形式的过程。
数据仓库与数据挖掘实验三

数据仓库与数据挖掘实验三一、实验目的本实验旨在通过实际操作,加深对数据仓库与数据挖掘的理解,并掌握数据挖掘的基本流程和常用算法。
二、实验背景随着信息技术的发展,大量的数据被不断产生和积累。
数据挖掘作为一种从大数据中发现有价值信息的技术,受到了广泛关注。
数据仓库作为数据挖掘的基础,提供了数据的集成、存储和管理等功能。
本实验将通过使用数据仓库和数据挖掘工具,对给定的数据集进行分析和挖掘。
三、实验内容1. 数据集准备从给定的数据集中选择合适的数据,进行预处理和清洗。
包括去除重复数据、处理缺失值、处理异常值等。
2. 数据集集成将不同数据源的数据进行集成,合并成一个数据集。
可以使用工具或编程语言来实现数据集的集成。
3. 数据转换对数据进行转换,使其适应数据挖掘算法的要求。
包括数据规范化、数据离散化、数据编码等。
4. 数据挖掘选择合适的数据挖掘算法,对处理后的数据进行挖掘。
可以使用分类、聚类、关联规则等算法进行分析。
5. 模型评估对挖掘得到的模型进行评估和验证。
可以使用交叉验证、混淆矩阵等方法来评估模型的性能。
6. 结果展示将挖掘结果进行可视化展示,可以使用图表、报表等方式呈现。
四、实验步骤1. 数据集准备从给定的数据集中选择合适的数据,并进行数据预处理和清洗。
例如,可以使用Python编程语言的pandas库来处理数据。
2. 数据集集成将不同数据源的数据进行集成,合并成一个数据集。
可以使用SQL语句或数据集成工具来实现数据集的集成。
3. 数据转换对数据进行转换,使其适应数据挖掘算法的要求。
例如,可以使用数据规范化来将数据转换为统一的范围。
4. 数据挖掘选择合适的数据挖掘算法,对处理后的数据进行挖掘。
例如,可以使用决策树算法来进行分类分析。
5. 模型评估对挖掘得到的模型进行评估和验证。
例如,可以使用准确率、召回率、F1值等指标来评估模型的性能。
6. 结果展示将挖掘结果进行可视化展示,例如,可以使用Matplotlib库来绘制图表,展示分类结果。
数据仓库与数据挖掘1实验报告册汽院科院2

《数据仓库与数据挖掘》实验报告册20 - 20 学年第学期班级: 学号: 姓名:目录实验一 Microsoft SQL Server Analysis Services的使用 (3)实验二使用WEKA进行分类与预测 (7)实验三使用WEKA进行关联规则与聚类分析 (8)实验四数据挖掘算法的程序实现 (8)实验一 Microsoft SQL Server Analysis Services的使用实验类型: 验证性实验学时: 4实验目的:学习并掌握Analysis Services的操作, 加深理解数据仓库中涉及的一些概念, 如多维数据集, 事实表, 维表, 星型模型, 雪花模型, 联机分析处理等。
实验内容:在实验之前, 先通读自学SQL SERVER自带的Analysis Manager概念与教程。
按照自学教程的步骤, 完成对FoodMart数据源的联机分析。
建立、编辑多维数据集, 进行OLAP操作, 看懂OLAP的分析数据。
1、实验步骤:启动联机分析管理器:2、建立系统数据源连接。
建立数据库和数据源, 多维数据集编辑多维数据集3、设计存储和处理多维数据集4、浏览多维数据集中的数据按时间筛选数据实验小结:实验二使用WEKA进行分类与预测实验类型: 综合性实验学时: 4实验目的:掌握数据挖掘平台WEKA的使用。
综合运用数据预处理、分类与预测的挖掘算法、结果的解释等知识进行数据挖掘。
从而加深理解课程中的相关知识点。
实验内容:阅读并理解WEKA的相关中英文资料, 熟悉数据挖掘平台WEKA, 针对实际数据, 能够使用WEKA进行数据的预处理, 能选择合适的分类与预测算法对数据进行分析, 并能解释分析结果。
实验步骤:1.在开始->程序->启动WEKA, 进入Explorer界面, 熟悉WEKA的界面功能。
2.选择数据集(实验中的数据可以从网络获取), 如泰坦尼克号数据集, 将要处理的数据集转换成WEKA能处理的格式, 如.ARFF格式。
数据仓库实验报告

数据仓库与数据挖掘上机实验报告实验目的:学习Analysis Services的操作和基本的数据清洗实验内容:浏览SQL Server 2000 Analysis Services 随机教程;规划需求分析;仓库设计;数据清洗转换;建立分析数据库,设置数据源;建立多维数据库(Cube);设置多维数据库的数据存储方式及访问权限;利用Excel2000访问Analysis Services实验分析:下面只进行两个关键的实验,数据清洗转换和建立多维数据库(使用Northwind数据库),先用数据清洗转换,将需要的表从源库转换到新数据库,为数据仓库提供需要的数据,要形成的维表有Products,Category,Employees,Dates,Facts(事实表),在实验二中Products和Category将组成雪花架构的维表。
实验一:数据清洗转换内容:为数据仓库新建一个数据库,将Products,Categories,Employees,Orders,Order Details转换到新数据库,为数据仓库提供需要的数据目的:为数据仓库事实表和各维表建立基本数据步骤:1)新建一个数据库myNorthwind,并准备从Northwind导入数据。
2)建立Products和Categories两个维度表,将维度表需要的列从Northwind数据库复制到myNorthwind。
3)建立Employees维度表,将源表的列内容复制过来,并将源表中first name和lastname合成一个fullname列,在DTS导入/导出向导中使用SQL语句合成新的列fullname。
4)建立Dates维度表,由源表Orders表中OrderDate一列产生出年、月、日、周、季等列,同时保留OrderDate一列。
在处理数据时使用了VBScript中的DatePart 函数。
5)建立Facts表,(事实表)该表的数据来自Order Details表,首先用Select语句将产品类别编号和员工编号等从各自表中取出;其次计算合计列值,计算方法为单价*(1-折扣)*数量;然后将Order Details表的内容复制到Facts表各列即可;再建立主、外键关系。
数据仓库与数据挖掘实验报告

数据仓库与数据挖掘实验报告题目Glass(玻璃)数据集分析院系姓名学号专业班级科目数据仓库与数据挖掘任课老师目录一、实验目的 (1)二、实验内容 (1)1.数据预处理方法(缺失值处理) (1)2.数据可视化 (1)3.分类算法测试及比较 (1)三、实验步骤 (1)1.Weka平台搭建及收集该数据集 (1)2.加载 Glass(玻璃)数据集 (1)3.数据预处理 (2)4.数据可视化 (4)5.分类算法 (5)四、实验总结 (9)一、实验目的1.使用Weka数据预处理方法,对缺失值数据进行处理。
缺失值会使数据挖掘混乱,分析可能会得到错误结论,所以在数据挖掘前最好进行缺失值数据进行处理。
2.使用数据挖掘中的分类算法,对数据集进行分类训练并测试,应用不同的分类算法,比较他们之间的不同。
3.学习与了解Weka平台的基本功能与使用方法。
二、实验内容1.数据预处理方法(缺失值处理)2.数据可视化3.分类算法测试及比较三、实验步骤1.Weka平台搭建及收集该数据集2.加载 Glass(玻璃)数据集(1)Glass(玻璃)数据集预处理界面如图2.1所示:(2)Glass(玻璃)数据属性含义如表2.1所示:表2.1 Glass(玻璃)数据属性含义3.数据预处理(1)Glass(玻璃)数据预处理前数据如图3.1所示:(2)使用缺失值处理函数:weka.filters.unsupervised.attribute.ReplaceMissingValues。
Glass(玻璃)数据预处理后数据如图3.2所示:图3.2 Glass(玻璃)数据预处理后数据图示4.数据可视化Glass(玻璃)数据可视化如图4.1所示:图4.1 Glass(玻璃)数据可视化图示5.分类算法(1)KNN算法:一种统计分类器,对数据的特征变量的筛选尤其有效。
KNN算法如图5.1所示:图5.1 KNN算法图示①元素分析结果如表5.1所示:表5.1 元素分析结果②类型分析结果:准确率为70.5607%,其中214个实例数据有151个正确分类,63个错误分类。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
关联规则、决策树、聚类分析。
第2章
2.1数据
2.1.1数据属性结构
如表2-1、2-2所示。
表2-1 超市数据交易表
表2-2 影响小学生自控能力的因素分析调查表
2.1.2 数据库的相关处理
1.创建数据库
2.数据集导入
3.设置主键
4.创建数据库关系图
2.1.3
3.1关联规则
3.1.1关联规则挖掘过程图解
1.商业智能项目创建过程图解
2.数据源的创建过程图解
3.数据源视图创建过程图解
4.数据集挖掘结构创建过程图解
5.设置算法参数
6.处理挖掘结构过程图解
2.主要开发软件:SQL Sever 2005
3.辅助软件:Office
2.2数据库的结构模块简介
本数据库有两个数据集组成,超市交易数据集和影响小学生自控能力的因素分析调查表两个数据集。超市交易中有ID和Items两个属性;影响小学生自控能力的因素分析调查表数据集中有年级、学号、姓名、年龄、性别、民族、是否单亲、是否独生子女、父母文化程度、家庭经济状况、是否为班委、教师要求、师生关系、兴趣、性格、自控能力等属性。
做决策树,聚类分析所用的数据集影响小学生自控能力的因素分析调查分析数据库主要父母文化程度,家庭经济状况,教师要求,民族,年纪,年龄,师生关系,是否单亲,是否是独生子女,兴趣,性别,姓名,学号,性格,自控能力属性组成。此表是用来调查影响小学生自控能力的因素有哪些。此数据集做决策树的目的是,可以根据小学生的基本情况大致了解他的自控能力。此数据集做聚类分析,可以从中挖掘出小学生基本情况的分类。
《数据挖掘》大作业
院(系)名称:信息技术学院
专业年级:11级网络工程(物联网方向)
学号:111124092
学生姓名:朱玉
第1章
1.1数据简介
我的数据集是由两个不同的数据库组成,因为做关联规则的时候,影响小学生自控能力的因素分析调查分析数据库,不具备关联规则一对多的条件,因此,我用了课本上的的超市交易数据集。所以做关联规则的超市数据集,在这里我就不多介绍了。