数据挖掘实验三
数据挖掘实验指导书

《数据仓库与数据挖掘》实验指导书主编张磊审校2012-1-11目录实验报告模板 (1)实验一、SSIS教程1-3课 (3)实验二、SSAS教程1-3课 (5)实验三、数据挖掘教程 (10)实验报告模板见下页。
青岛大学实验报告年月日姓名系年级组别同组者科目题目仪器编号[注:下面空白处明确实验目的、内容和要求,简要概括实验过程,适量拷屏部分关键界面放到实验报告中,评价最终结果是否正确,记录实验过程遇到的问题及解决结果,简单总结心得体会。
必要时加页,每个实验报告1-3页篇幅为宜。
]实验一、SSIS教程1-3课实验目的:采用SQL Server 2005的Integration Service,熟悉ETL工具的功能和使用方法实验内容:结合教材的ETL知识,打开SQL Server 2005的SSIS教程,按教程步骤完成1-3课,4学时,其中第1课2学时,第2、3课2学时。
实验要求:每次实验课结束前5分钟关闭SQL Server Business Intelligence Development Studio和SQL Server Management Studio,将项目文件夹拷贝到U盘或压缩后发到自己邮箱保存起来,以便下次实验课可以继续往下做或最后上交。
每次实验课开始时先使用SQL Server Configuration Manager启动必需的SQL Server 服务。
按时完成实验内容,整理实验报告。
实验说明:注意SQL Server 2005与SQL Server 2000的差异,如“框架”,访问表时必须使用框架名来限定,如SalesOrders.Employee;注意因中文教程是由英文教程翻译而来,所以有些地方出现名称翻译不足(即软件界面上是中文而教程中是英文)或过翻译(即软件界面上是英文而教程中是中文),因为大家懂英文所以这点应该不成问题;注意因为我们安装的SQL Server不是采用默认实例名(而是DWDM),而教程中假设的是采用默认实例名,所以有些地方的配置受到影响,需要进行更改;注意解决方案、项目和项的区别:解决方案可以包含多个项目;每个项目包含一个或多个项;按下图打开SSIS教程,做的过程中,注意以下问题:(1)创建的项目放到一个方便找到的自定义文件夹中以便每次下课时可以拷贝带走(2)第1课的“添加和配置平面文件连接管理器”步骤中的“重新映射列数据类型”部分,将【但现在,请不要进行任何更改,单击“取消”返回“平面文件连接管理器编辑器”对话框的“高级”窗格,查看建议的列数据类型。
数据仓库与数据挖掘实验三

数据仓库与数据挖掘实验三一、实验目的本实验旨在通过实际操作,加深对数据仓库与数据挖掘的理解,并掌握数据挖掘的基本流程和常用算法。
二、实验背景随着信息技术的发展,大量的数据被不断产生和积累。
数据挖掘作为一种从大数据中发现有价值信息的技术,受到了广泛关注。
数据仓库作为数据挖掘的基础,提供了数据的集成、存储和管理等功能。
本实验将通过使用数据仓库和数据挖掘工具,对给定的数据集进行分析和挖掘。
三、实验内容1. 数据集准备从给定的数据集中选择合适的数据,进行预处理和清洗。
包括去除重复数据、处理缺失值、处理异常值等。
2. 数据集集成将不同数据源的数据进行集成,合并成一个数据集。
可以使用工具或者编程语言来实现数据集的集成。
3. 数据转换对数据进行转换,使其适应数据挖掘算法的要求。
包括数据规范化、数据离散化、数据编码等。
4. 数据挖掘选择合适的数据挖掘算法,对处理后的数据进行挖掘。
可以使用分类、聚类、关联规则等算法进行分析。
5. 模型评估对挖掘得到的模型进行评估和验证。
可以使用交叉验证、混淆矩阵等方法来评估模型的性能。
6. 结果展示将挖掘结果进行可视化展示,可以使用图表、报表等方式呈现。
四、实验步骤1. 数据集准备从给定的数据集中选择合适的数据,并进行数据预处理和清洗。
例如,可以使用Python编程语言的pandas库来处理数据。
2. 数据集集成将不同数据源的数据进行集成,合并成一个数据集。
可以使用SQL语句或者数据集成工具来实现数据集的集成。
3. 数据转换对数据进行转换,使其适应数据挖掘算法的要求。
例如,可以使用数据规范化来将数据转换为统一的范围。
4. 数据挖掘选择合适的数据挖掘算法,对处理后的数据进行挖掘。
例如,可以使用决策树算法来进行分类分析。
5. 模型评估对挖掘得到的模型进行评估和验证。
例如,可以使用准确率、召回率、F1值等指标来评估模型的性能。
6. 结果展示将挖掘结果进行可视化展示,例如,可以使用Matplotlib库来绘制图表,展示分类结果。
数据挖掘实验(实验三-七)

实验三关联规则1. 实验目标•使用SSAS进行关联规则挖掘实验2. 实验要求(1)按“实验内容”完成操作,并记录实验步骤;(2)回答“问题讨论”中的思考题,并写出本次实验的心得体会;(3)完成实验报告。
3. 实验内容生成市场篮方案。
Adventure Works 的市场部希望改进公司的网站以促进越区销售。
在更新网站之前,需要根据客户的在线购物篮中已有的其他产品创建一个可预测客户购买需求的数据挖掘模型。
这些预测还有助于市场部将可能被集中购买的项统一放置在网站的一个位置上。
通过实验,创建关联规则模型,可预测可能出现在购物篮中的其他项或客户想要放入购物篮的项。
4. 实验步骤(1) 创建市场篮挖掘模型结构1.在Business Intelligence Development Studio 的解决方案资源管理器中,右键单击“挖掘结构”,再选择“新建挖掘结构”。
此时,系统将打开数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。
4.在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术?”下,选中“Microsoft 关联规则”,再单击“下一步”。
“选择数据源视图”页随即显示。
默认情况下,“可用数据源视图”下的Adventure Works DW 为选中状态。
5.单击“下一步”。
6.在“指定表类型”页上,选中vAssocSeqOrders表旁的“事例”复选框,选中vAssocSeqLineItems表旁边的“嵌套”复选框,再单击“下一步”(注意先在视图中建立两个表之间的关联)。
如下图所示视图的内容显示7.如下图设置输入输出列或多维如下8.“指定定型数据”页上,LineNumber旁边的“键”和ordernumber设为键。
9.选中Model列旁边的“输入”和“可预测”复选框。
单击“下一步”。
10.在“指定列的内容和数据类型”页上,单击“下一步”。
数据挖掘实验报告结论(3篇)

第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
河北工业大学数据挖掘实验报告

实验一数据预处理一、实验目的1、熟悉 VC++编程工具和完全数据立方体构建、联机分析处理算法。
2、浏览拟被处理的的数据,发现各维属性可能的噪声、缺失值、不一致性等,针对存在的问题拟出采用的数据清理、数据变换、数据集成的具体算法。
3、用 VC++编程工具编写程序,实现数据清理、数据变换、数据集成等功能。
4、调试整个程序获得清洁的、一致的、集成的数据,选择适于全局优化的参数。
5、写出实验报告。
二、实验原理1、数据预处理现实世界中的数据库极易受噪音数据、遗漏数据和不一致性数据的侵扰,为提高数据质量进而提高挖掘结果的质量,产生了大量数据预处理技术。
数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。
这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。
2、数据清理数据清理例程通过填写遗漏的值,平滑噪音数据,识别、删除离群点,并解决不一致来“清理”数据。
3、数据集成数据集成将数据由多个源合并成一致的数据存储,如数据仓库或数据立方体。
4、数据变换通过平滑聚集,数据概化,规范化等方式将数据转换成适用于数据挖掘的形式。
5、数据归约使用数据归约可以得到数据集的压缩表示,它小得多,但能产生同样(或几乎同样的)分析结果。
常用的数据归约策略有数据聚集、维归约、数据压缩和数字归约等。
三、实验内容和步骤1、实验内容1、用VC++编程工具编写程序,实现数据清理、数据变换、数据集成等功能,并在实验报告中写出主要的预处理过程和采用的方法。
2、产生清洁的、一致的、集成的数据。
3、在试验报告中写明各主要程序片段的功能和作用。
2、实验步骤1)仔细研究和审查数据,找出应当包含在你分析中的属性或维,发现数据中的一些错误、不寻常的值、和某些事务记录中的不一致性。
2)进行数据清理,对遗漏值、噪音数据、不一致的数据进行处理。
例如:1、日期中的缺失值可以根据统一的流水号来确定。
2、购买的数量不能为负值。
生物数据挖掘聚类分析实验报告

实验三 聚类分析一、实验目的1. 了解典型聚类算法2. 熟悉聚类分析算法的思路与步骤3. 掌握运用Matlab 对数据集做聚类分析的方法二、实验内容1. 运用Matlab 对数据集做K 均值聚类分析2. 运用Matlab 对数据集做基于密度的聚类分析三、实验步骤1.写出对聚类算法的理解聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
聚类(Cluster )分析是由若干模式(Pattern )组成的,通常,模式是一个度量(Measurement )的向量,或者是多维空间中的一个点。
聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。
在数据中发现数据对象之间的关系,将数据进行分组,组内的相似性越大,组间的差别越大,则聚类效果越好。
在进行聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。
2.写出K-means 算法步骤通过迭代把数据对象划分到不同的簇中,以求目标函数最大化,从而使生成的簇尽可能地紧凑和独立。
具体步骤如下:(1)首先,随机选取k 个对象作为初始的k 个簇的质心;(2)然后,将其余对象根据其与各个簇质心的距离分配到最近的簇;(3)再要求形成的簇的质心。
这个迭代重定位过程不断重复,直到目标函数最小化为止。
设p 表示数据对象,i c 表示 簇i C 的均值,通常采用的目标函数形式为平法误差准则函数: 21||||∑∑=∈-=k i C p i i c p E (欧几里得距离)3.写出DBSCAN 算法步骤与均值漂移聚类类似,DBSCAN 也是基于密度的聚类算法。
具体步骤如下:(1)首先确定半径r 和minPoints. 从一个没有被访问过的任意数据点开始,以这个点为中心,r为半径的圆内包含的点的数量是否大于或等于minPoints,如果大于或等于minPoints则改点被标记为central point,反之则会被标记为noise point。
数据仓库与数据挖掘实验三(数据挖掘)

一、实验内容和目的目的:1.理解数据挖掘的基本概念及其过程;2.理解数据挖掘与数据仓库、OLAP之间的关系3.理解基本的数据挖掘技术与方法的工作原理与过程,掌握数据挖掘相关工具的使用。
内容:将创建一个数据挖掘模型以训练销售数据,并使用“Microsoft 决策树”算法在客户群中找出会员卡选择模式。
请将要挖掘的维度(事例维度)设置为客户,再将Member_Card 成员的属性设置为数据挖掘算法识别模式时要使用的信息。
然后选择人口统计特征列表,算法将从中确定模式:婚姻状况、年收入、在家子女数和教育程度。
下一步需要训练模型,以便能够浏览树视图并从中读取模式。
市场部将根据这些模式设计新的会员卡,使其适应申请各类会员卡的客户类型。
二、所用仪器、材料(设备名称、型号、规格等)操作系统平台:Windows 7数据库平台:SQL Server 2008 SP2三、实验原理知识发现被认为是从数据中发现有用知识的整个过程。
数据挖掘被认为是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式。
KDD过程定义为:KDD是从数据集中识别出有效出、新颖的、潜在有用的,以及最终可理解的模式的高级处理过程。
KDD过程可以概括为3部分:数据准备(data preparation),数据挖掘及结果的解释和评估(interpretation & evaluation)。
数据挖掘的对象主要是关系数据库和数据仓库,这是典型的结构化数据。
随着技术的发展,数据挖掘对象逐步扩大到半结构化或非结构化数据,这主要是文本数据、图像与视频数据以及Web数据等。
数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测。
数据挖掘方法是由人工智能、机器学习的方法发展而来,结合传统的统计分析方法、模糊数学方法以及科学计算可视化技术,以数据库为研究对象,形成了数据挖掘方法和技术。
数据挖掘方法和技术可以分为6大类:1.归纳学习的信息论方法:ID3等方法(决策树方法)、IBLE方法(决策规则树方法)2.归纳学习的集合论方法:粗糙集(rough set)方法、关联规则挖掘、覆盖正例排斥反例方法、概念树方法。
数据挖掘实验三

实验三设计并构造AdventureWorks数据仓库实例【实验要求】在SQL Server平台上,利用AdventureWorks数据库作为商业智能解决方案的数据源,设计并构造数据仓库,建立OLAP口数据挖掘模型,并以输出报表的形式满足决策支持的查询需求。
【实验内容】步骤1:需求分析:以决策者的视角分析和设计数据仓库的需求;步骤2:根据所设计的需求,确定本数据仓库的主题和主题与边界;步骤3:设计并构造逻辑模型;步骤4:进行数据转换和抽取,建立数据仓库:创建数据源,,建立OLAF和挖掘模型,使用多维数据集进行分析,建立数据挖掘结构和数据挖掘模型,创建报表。
【实验平台】Win7 操作系统,SQL Server 2005【实验过程】一、创建Analysis Services 项目1. 打开Busin ess In tellige nee Developme nt Studio。
2. 在“文件”菜单上,指向“新建”,然后选择“项目”。
3. 确保已选中“模板”窗格中的“Analysis Services项目”。
4. 在“名称”框中,将新项目命名为AdventureWorks。
5. 单击“确定”。
〒Q x-:AdventureWorksJ易卿漓集比堆sF- Q ftfi[逊二、创建数据库和数据源1. 运行AdventureWorks sql server 2005 示例数据库.msi,然后用SQL Server Management Studio 附加数据库AdventureWorks_Data.mdf 。
(1)运行AdventureWorks sql server 2005 示例数据库.msi(2)田SQL ServerManagements c d i o m s口」酩鲁幣aSQLserve 『2005P B T•!」■-.VWndhwsSow systemnJ-dWIN ・NBFtE2LQBAA ”wo (SQLsmrv吧g a田一田■«HI M S^D K SZ S5:汞B i jSI-3WWEs ns s s .S M …*Ir T nu2E・ITT:;Hsn Bcl ^tasssKi?*■WIH.HEREZSBKC^WO-J i - 3SS 3-L'5爵第一宁«nLB Bool. L md.¥20££ k 『trfLoctL Fogr-ulF1.H蛊■L ?o enJ13.蛊 E66j+■ V Cum吕 Til.盅R.1L n r*蛊E LEKP LLTR+ k・L oro seeail.匚ps-lm+ I ?d-o w ^of f ig I L Fsroil 。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三设计并构造AdventureWorks数据仓库实例【实验要求】在SQL Server 平台上,利用AdventureWorks数据库作为商业智能解决方案的数据源,设计并构造数据仓库,建立OLAP和数据挖掘模型,并以输出报表的形式满足决策支持的查询需求。
【实验内容】步骤1:需求分析:以决策者的视角分析和设计数据仓库的需求;步骤2:根据所设计的需求,确定本数据仓库的主题和主题与边界;步骤3:设计并构造逻辑模型;步骤4:进行数据转换和抽取,建立数据仓库:创建数据源,,建立OLAP和挖掘模型,使用多维数据集进行分析,建立数据挖掘结构和数据挖掘模型,创建报表。
【实验平台】Win7操作系统,SQL Server 2005【实验过程】一、创建Analysis Services 项目1.打开Business Intelligence Development Studio。
2.在“文件”菜单上,指向“新建”,然后选择“项目”。
3.确保已选中“模板”窗格中的“Analysis Services 项目”。
4.在“名称”框中,将新项目命名为AdventureWorks。
5. 单击“确定”。
二、创建数据库和数据源1.运行AdventureWorks sql server 2005示例数据库.msi,然后用SQL Server Management Studio 附加数据库AdventureWorks_Data.mdf 。
(1)运行AdventureWorks sql server 2005示例数据库.msi(2)用SQL Server Management Studio附加数据库AdventureWorks_Data.mdf2.在解决方案资源管理器中,右键单击“数据源”文件夹,然后选择“新建数据源”。
3.在“欢迎使用数据源向导”页面中,单击“下一步”按钮。
4.在“选择如何定义连接”页上,单击“新建”向Adventure Works 数据库中添加连接。
5.在“连接管理器”的“提供程序”列表中,选择“本机OLE DB\SQL Native Client”。
6.在“服务器名称”列表中,键入或选择承载AdventureWorks 的服务器的名称。
7.在“登录到服务器”组中,选择身份验证方法,并输入凭据。
8.在“选择或输入一个数据库名”列表中,选择AdventureWorks,然后测试连接。
若连接成功,再单击“确定”按钮。
9.单击“下一步”按钮进入向导的下一页。
10.在“模拟信息”页中,选择“使用服务帐户”,再单击“下一步”。
11.请注意,在“完成向导”页中,数据源名称默认为Adventure Works。
12.单击“完成”。
新的数据源Adventure Works 将显示在解决方案资源管理器的“数据源”文件夹中。
三、创建数据源视图1.在解决方案资源管理器中,右键单击“数据源视图”,选择“新建数据源视图”。
系统将打开数据源视图向导。
2.在“欢迎使用数据源视图向导”页上,单击“下一步”。
3.在“选择数据源”页的“关系数据源”下,系统将默认选中您在上一个任务中创建的Adventure Works DW 数据源。
单击“下一步”。
若要创建新数据源,请单击“新建数据源”,启动数据源向导。
4.在“选择表和视图”页上,选择下列各表,然后单击右箭头键,将这些表包括在新数据源视图中:5.单击“下一步”。
6.在“完成向导”页上,默认情况下,系统将数据源视图命名为Adventure Works 。
单击“完成”。
系统将打开数据源视图设计器,显示Adventure Works 数据源视图。
四、定义维度1.在解决方案资源管理器中,右键单击“维度”,然后单击“新建维度”。
2. 在“欢迎使用维度向导”页上,单击“下一步”。
3. 在“选择生成方法”页上,验证是否选择了“使用数据源生成维度”选项,然后单击“下一步”。
4. 在“选择数据源视图”页上,验证是否选择了Adventure Works 数据源视图。
5.在“选择维度类型”列表中,选择“标准维度”。
6.在“选择主维度表”中,点击“下一步”。
7.在“选择维度属性”中,点击“下一步”。
8.在“指定维度类型”中,点击“下一步”。
9.在“定义父子关系”中,点击“下一步”。
10.“检测层次结构”中,点击“下一步”。
11.点击“下一步”,然后点击“完成”。
五、使用多维数据集进行分析1.在解决方案资源管理器中,右键单击“多维数据集”并选择“新建多维数据集”启动多维数据集向导。
2.在“欢迎使用多维数据集向导”页上,单击“下一步”。
3.在“选择生成方法”页上,确认已选中“使用数据源生成多维数据集”选项,然后单击“下一步”。
4.在“选择数据源视图”页上,点击“下一步”。
5.在“检测事实数据表和维度表”页上,点击“下一步”。
6.在“时间维度表”页上,如下所示。
7.在“查看共享维度”页上,点击“>”,然后“下一步”。
8.在“选择度量值”页上,选择可用度量值。
9.在“检测层级结构”页上,查看结果,点击“下一步”。
10.在“查看新建维度”中,选择新建维度,然后点击“下一步”。
“度量值组”和“维度”。
12.点击“完成”。
13.在多维数据集设计器的工具栏上,将“缩放”级别更改为50 %,以便更轻松地查看多维数据集内的维度和事实数据表。
注意,事实数据表是黄色的,维度表是蓝色的。
14.在“文件”菜单上,单击“全部保存”。
六、创建用于个人客户方案的挖掘结构1.在解决方案资源管理器中,右键单击“挖掘结构”并选择“新建挖掘结构”启动数据挖掘向导。
2.在“欢迎使用数据挖掘向导”页上,单击“下一步”。
3.在“选择定义方法”页上,确保已选中“从现有关系数据库或数据仓库”,再单击“下一步”。
策树”。
5.单击“下一步”。
6.在“选择数据源视图”页上,请注意已默认选中Adventure Works 。
在数据源视图中,单击“浏览”查看各表,然后单击“关闭”返回该向导。
7.单击“下一步”。
8.在“指定表类型”页上,选中vIndividualCustomer 表旁边“事例”列中的复选框,再单击“下一步”。
据源视图中的源表表示一个键,则数据挖掘向导将自动选择该列作为模型的键。
10.选中FirstName和LastName 列旁边的“输入”和“可预测”。
11.单击“建议”打开“提供相关列建议”对话框。
只要选中至少一个可预测属性,即可启用“建议”按钮。
“提供相关列建议”对话框将列出与可预测列关联最密切的列,并按照与可预测属性的相互关系对属性进行排序。
值大于0.05 的列将被自动选中,以包括在模型中。
12.阅读建议,然后单击“取消”忽略建议并保留向导设置的原始值。
15.选中以下各列旁边的“输入”复选框:StateProvinceNameMiddleNameCountryRegionName16.单击“下一步”。
17.在“指定列的内容和数据类型”页上,单击“检测”以运行对数值数据进行取样并确定数值列是否包含连续或离散值的算法。
例如,某列可包含薪金信息,用以作为连续的实际薪金值,也可包含整数,用以表示离散的编码薪金范围(例如1 = < $25,000;2 = 从$25,000 到$50,000)。
18.单击“检测”后,请查看“内容类型”和“数据类型”列中的各项;如有必要,请进行更改,以确保设置与下表所示一致。
通常,向导会检测数值,并分配相应的数值数据类型;但有些情况下,您可能想要将数值作为文本处理。
19.单击“下一步”。
20.在“完成向导”页上的“挖掘结构名称”中,键入Individual Customer。
21.在“挖掘模型名称”中,键入TM_Decision_Tree。
22.选中“允许钻取”复选框。
23.单击“完成”。
七、挖掘模型和挖掘结构如下图。
八、创建查询8.1创建预测查询的第一步是选择挖掘模型和输入表。
1.在数据挖掘设计器“挖掘模型预测”选项卡的“挖掘模型”框中,单击“选择模型”。
系统将打开“选择挖掘模型”对话框。
2.在整个树中导航到“个人客户”结构,展开该结构并选择TM_Decision_Tree,再单击“确定”。
3.在“选择输入表”框中,单击“选择事例表”。
系统将打开“选择表”对话框。
4.在“数据源”中,选择Adventure Works 。
5.在“表/视图名称”中,选择Department(HumanResources)表,再单击“确定”。
选择输入表之后,预测查询生成器便会根据各列的名称在挖掘模型和输入表之间创建默认映射。
8.2生成预测查询1. 在“挖掘模型预测”选项卡上的网格内的“源”列中,单击第一个空行中的单元格,然后选择Department。
2. 在Department 行的“字段”列中,选择DepartmentID。
3.在“源”列中,单击下一个空行,然后选择TM_Decision_Tree。
4.在TM_Decision_Tree 行的“字段”列中,选择First Name。
这将会输出Microsoft 决策树模型中作为预测目标的列。
5.在“源”列下,单击下一个空行,然后选择“预测函数”。
6.在“预测函数”行的“字段”列中,选择PredictProbability。
预测函数提供有关模型如何进行预测的信息。
PredictProbability 函数提供有关正确预测的概率信息。
您可以在“条件/参数”列中指定预测函数的参数。
7.在PredictProbability 行的“条件/参数”列中,键入[TM_Decision_Tree].[Bike Buyer]。
这将指定PredictProbability 函数的目标列。
有关函数的详细信息,请参阅数据挖掘扩展插件(DMX) 函数参考。
8.3查看结果1.通过单击“切换到查询设计视图/切换到查询结果视图”按钮(即工具栏上的第一个按钮)旁边的箭头并选择“查询”,可以运行查询。
2.通过点击“单独查询”,结果如下:【总结】通过本次实验,我对SQL Server有了更深的了解。
知道SQL Server不等于SQL Server Management Studio,还有SQL Server Business Intelligence Development Studio和其他一些模块。
在这次实验中,遇到了一些困难:1.SQL Server 2000和SQL Server 2005有一些不同,利用SQL Server 2000中的Analysis service做完实验二后发现实验三不知道怎么做了,左右通过查找一些资料才解决问题;2.在新建数据源时,在“连接管理器”页上,“测试连接”一直失败,不知道是什么原因,老师给的AdventureWorks sql server 2005示例数据库.msi也一直不知道该怎么用,经过不断尝试才发现原来在运行AdventureWorks sql server 2005示例数据库.msi后会产生一个数据库文件,我们应该利用SQL Server Management Studio把它附加进数据库文件夹下,而且在“连接到服务器”页时,应该注意“服务器类型”、“服务器名称”、“身份验证”等的选择,否则会出错。