SQLServer2008数据挖掘全过程详解
利用sqlserver数据挖掘关联规则分析案例软件操作

利用sqlserver数据挖掘关联规则分析案例软件操作
步骤1:准备数据
首先要准备需要进行关联规则分析的数据,并将其以csv或txt格式导入到Sql Server数据库中。
步骤2:创建数据挖掘结构
在Sql Server中的“对象资源管理器”界面下展开“数据库”和“数据挖掘”,然后右键单击“数据挖掘结构”,选择“新建数据挖掘结构”。
在弹出的向导中选择“从现有表或视图中创建”选项,并选择要进行关联规则分析的数据表。
在“数据列选择”界面中,选择需要分析的数据列。
步骤3:创建数据挖掘模型
在数据挖掘结构中,选择“新建数据挖掘模型”。
在弹出的向导中选择“关联规则”算法,并设置其他参数,例如支持度和置信度的设置等。
步骤4:设置模型属性
在数据挖掘模型创建完成后,右键单击模型名称,选择“模型属性”进行设置。
在“挖掘”的选项卡下,选择“多项式表达式内容”的值为“True”,以显示模型中生成的关联规则。
步骤5:运行模型
在模型属性设置完成后,右键单击模型名称,选择“运行”进行分析。
分析完成后,可以在模型中的“报告”和“结构”选项卡下查看生成的关联规则和相关的统计数据。
以上就是利用Sql Server数据挖掘关联规则分析案例的软件操作步骤。
【精品】SQL-Server-数据挖掘分析经典全集

S Q L-S e r v e r-数据挖掘分析经典全集本章将回顾Analysis Services工具集,同时介绍有效创建挖掘模型和分析挖掘模型的技巧。
在学习本章之前,读者应该已经熟悉了第3章介绍的模型构建的概念,而且对挖掘结构、挖掘模型、挖掘模型列、事例表和嵌套表的概念也有了较深入的理解。
对于初学者来说,本章可以帮助他们入门,对于有一定SQL Server数据挖掘经验的用户来说,本章可以为他们提供一些技术,以帮助他们最有效地发挥该工具集的作用。
但是这并不意味着本章可以取代产品的帮助文档中优秀的帮助和教程。
更确切地说,本章讲述如何使用Analysis Services提供的通用工具,特别是用于数据挖掘的工具。
本章将通过用户界面来讲述如何使用Analysis Services的功能,并提供详细的操作步骤来示范如何创建一组挖掘模型。
本章还将穿插介绍相关的一些概念。
如果您偏离这些操作太远,则可以重新开始操作,也可以从本书的Web 站点(/go/ data_mining_SQL_2008)上获得完整的项目文件,以便随时使用。
本章将会使用附录A描述的MovieClick数据库来举例说明工具的用法。
本章将学习:●使用Business Intelligence Development Studio(BI Dev Studio)●理解即时模式和脱机模式●创建及修改数据源、数据源视图和数据挖掘对象●浏览数据和评估模型资料内容仅供您学习参考,如有不当之处,请联系改正或者删除994.1 BI Dev Studio介绍在使用SQL Server数据挖掘功能的过程中,大部分时间将会花费在商业智能应用程序开发工具集(Business Intelligence Development Studio,BI Dev Studio)上。
BI Dev Studio环境已经集成到Microsoft Visual Studio(VS)框架中,为商业智能操作提供了完整的开发环境。
《数据仓库与数据挖掘技术》-Sqlserver2008r2的使用

《数据仓库与数据挖掘技术》实验报告Sqlserver2008r2的使用一、实验目的1.掌握在SQL Server中使用对象资源管理器和SQL命令创建数据库与修改数据库的方法。
2.掌握在SQL Server中使用对象资源管理器或者SQL命令创建数据表和修改数据表的方法(以SQL命令为重点)。
3. 掌握在SQL Server中的查询操作二、实验环境计算机window7三、实验内容与实验过程及分析(写出详细的实验步骤,并分析实验结果)实验内容:一.给定如表3.6、表3.7和表3.8所示的学生信息。
续表课程号学号作业1成绩作业2成绩作业3成绩K006 0591 80 80 80M001 0496 70 70 80M001 0591 65 75 75S001 0531 80 80 80S001 0538 60 801.在SQL Server中使用对象资源管理器和SQL命令创建学生作业管理数据库,数据库的名称自定。
(1)使用对象资源管理器创建数据库,请给出重要步骤的截图。
(2)删除第(1)步创建的数据库,再次使用SQL命令创建数据库,请给出SQL代码。
create database学生作业on(name=学生作业_data,filename='E:\学生作业.mdf',size=10,MAXSIZE=500,FILEGROWTH=10)log on(name=学生作业_log,filename='E:\学生作业.ldf',size=10,MAXSIZE=500,filegrowth=10)(3)创建数据库之后,如果有需要,可以修改数据库。
2.对表3.6,表3.7和表3.8,分别以下表的方式给出各字段的属性定义和说明。
3.使用SQL命令在学生作业管理数据库中建立学生表、课程表和学生作业表,在实验报告中给出SQL代码。
create table student(学号char(4)primary key,姓名nchar(4)not null,性别char(2)not null,专业班级nchar(4)not null,出生日期smalldatetime not null,练习电话char(11),)create table course(课程号char(4)primary key,课程名nvarchar(10)not null,学分数real not null,学时数tinyint not null,任课老师nchar(4)not null,)create table work(课程号char(4),学号char(4),作业1成绩tinyintconstraint one_ck check (作业1成绩<= 100),作业2成绩tinyintconstraint two_ck check (作业2成绩<= 100),作业3成绩tinyintconstraint three_ck check (作业3成绩<= 100),constraint test_pk primary key(课程号,学号))4.在各个表中输入表3.6、表3.7和表3.8中的相应内容。
SQL server 2008数据库详细解析

SQL server 2008篇一、数据库系统概述1、数据的概念2、数据处理的概念3、数据库的发展阶段4、数据库系统的组成5、数据库的概念6、数据库管理系统的概念7、数据库管理系统的功能8、常见的数据模型以及特点9、数据结构的概念10、数据操作的概念11、数据的完整性约束的概念12、元组的概念13、关系数据库的概念二、数据库设计1、数据库设计的概念2、概念结构设计的方法三、SQL server 2008基础1、SQL server 2008的新增功能2、SQL server 2008的安装过程3、SQL server 2008的版本4、T-SQL语言概念5、T-SQL语言的特点6、T-SQL语言分类四、数据库的概念和操作5、SQL server 2008物理数据库的概念6、SQL server 2008数据库文件的类型7、SQL server 2008数据库文件组的概念8、SQL server 2008文件组的应用规则9、SQL server 2008逻辑数据库的概念10、SQL server 2008逻辑数据库的分类11、master数据库的作用12、model数据库的作用13、msdb数据库的作用14、tempdb数据库的作用15、使用T-SQL语句创建数据库16、使用T-SQL语句修改数据库17、使用T-SQL语句删除数据库文件18、使用T-SQL语句更名数据库19、使用T-SQL语句删除数据库五、SQL server 2008表的操作1、数据类型2、创建表的T-SQL语句3、修改表的T-SQL语句4、约束的概念5、列约束的概念6、表约束的概念7、SQL server约束的类型8、创建修改和删除主键约束的T-SQL语句9、PRIMARY KEY约束的作用10、创建修改和删除唯一性约束的T-SQL语句11、UNIQUE约束的作用12、创建修改和删除外键约束的T-SQL语句13、FOREING KEY约束的作用14、创建修改和删除限制约束的T-SQL语句15、FHECK约束的作用16、创建修改和删除DEFAULT约束的T-SQL语句17、DEFAULT约束的作用18、对表中插入数据的T-SQL语句19、对表中修改数据的T-SQL语句20、对表中删除数据的T-SQL语句21、清空表的T-SQL语句22、MERGE语句的作用和用法23、删除表的T-SQL语句24、数据的导入和导出六、数据库查询1、SELECT查询语法2、简单查询的分类3、投影查询的使用方法4、改变查询结果的显示标题(= AS)5、选择查询的使用的方法6、常用的查询条件(1)关系表达式的使用(2)逻辑表达式的使用(3)确定范围关键字的使用(4)确定集合关键字的使用(5)字符匹配关键字的使用(6)空值关键字的使用7、聚合函数查询的使用方法8、常用的聚合函数功能(1)sum(列名)(2)avg(列名)(3)min(列名)(4)max(列名)(5)count(列名)(6)count(*)9、分组的T-SQL语句10、WITH CUBE的使用11、WITH ROLLUP的使用12、数据汇总compute的使用13、连接查询的概念和使用(1)内连接的概念和T-SQL语句(2)自连接的概念和T-SQL语句(3)外连接的概念和分类1)左外连接的概念和T-SQL语句2)右外连接的概念和T-SQL语句3)全外连接的概念和T-SQL语句4)交叉连接的概念的T-SQL语句14、子查询的概念15、子查询的分类(1)无关子查询的概念和T-SQL语句(2)相关子查询的概念和T-SQL语句1)存在性测试子查询的概念2)EXISTS和NOT EXISTS查询的T-SQL语句16、联合查询的概念和T-SQL语句17、EXCEPT和INTERSECT查询的概念和T-SQL语句18、对查询结果排序的T-SQL语句19、排序的分类20、存储查询结果的T-SQL语句21、insert语句中使用select子句的用法22、update语句中使用select子句的用法23、delete语句中使用select子句的用法七、T-SQL编程基础1、标识符的分类2、常规标识符格式规则3、变量分类4、全局变量的概念5、局部变量的概念6、全局变量与局部变量的区别7、局部变量的T-SQL语句8、局部变量的赋值方法9、运算符的分类(1)算术运算符(+ - * / %)(2)赋值运算符(=)(3)位运算符(& | ^)(4)比较运算符(5)逻辑运算符(6)字符串连接运算符(7)一元运算符10、运算符的优先级与结合性11、批处理的概念12、注释的概念13、注释的分类14、流程控制语句的概念15、流程控制语句的类别(1)赋值语句的T-SQL语句(2)定义语句的T-SQL语句(3)条件语句的T-SQL语句(4)多分支语句的T-SQL语句(5)循环语句的T-SQL语句(6)重新开始下一次循环语句的T-SQL语句(7)退出循环的T-SQL语句(8)无条件转移语句的T-SQL语句(9)无条件退出语句的T-SQL语句16、函数的概念17、函数的分类18、游标的概述19、游标的分类20、游标的操作八、视图和索引1、视图的概念2、视图的优点3、视图的分类4、创建视图的原则5、创建视图的T-SQL语句6、修改视图的T-SQL语句7、删除视图的T-SQL语句8、索引的概念9、索引的优点10、索引的类型(1)聚集索引的概念(2)非聚集索引的概念11、创建索引时应考虑的问题12、创建索引的T-SQL的语句13、间接创建索引的T-SQL语句14、创建视图索引的T-SQL语句15、使用系统存储过程查看索引的T-SQL语句16、删除索引的T-SQL语句九、存储过程和触发器1、存储过程的概念2、存储过程的类型3、创建存储过程的T-SQL语句4、执行存储过程的T-SQL语句5、使用系统存储过程查看存储过程的T-SQL语句6、修改存储过程的T-SQL语句7、删除存储过程的T-SQL语句8、触发器的概念9、触发器的分类(1)DML触发器的概念(2)DDL触发器的概念10、创建触发器要注意的问题11、创建触发器的T-SQL语句12、插入表(Inserted)和删除表(Delete)的区别13、查看触发器信息T-SQL语句14、修改触发器的T-SQL语句15、禁止触发器的T-SQL语句16、启用触发器的T-SQL语句17、删除触发器的T-SQL语句十、事务与并发控制1、事务的概念2、事务的类型3、事务处理语句十一、数据库的安全管理1、SQL Server2008的身份验证模式2、SQL Server2008账号管理3、SQL Server2008权限管理十二、数据库的备份与还原1、SQL Server2008数据库备份的类型2、SQL Server2008数据库恢复模式3、SQL Server2008中使用T-SQL语句备份数据库4、SQL Server2008数据库还原操作5、SQL Server2008中使用T-SQL语句还原数据库6、SQL Server2008数据库的分离7、SQL Server2008中使用T-SQL语句分离数据库8、SQL Server2008数据库的附加9、SQL Server2008中使用T-SQL语句附加数据库。
基于SQL Server的数据挖掘步骤-以聚类分析为例

基于SQL Server的数据挖掘步骤-以聚类分析为例2014/9/11.打开SQL Server Business Intelligence Development Studio:2.文件-新建项目-商业智能项目-Analysis Services项目,设置项目名称,例如“Clsutering”:3.新建数据源-数据源向导,下一步-服务器名称(本机请点击下拉选择ADMIN-PC,网络数据库请填写IP地址)-使用SQL Server身份验证(建议勾选“保存密码”)-连接到一个数据库(下拉选择待分析数据所在数据库)-测试连接,确定-下一步-点选“使用服务帐户”,下一步-数据源名称(默认即数据库名称),完成:4.新建数据源视图-数据源视图向导,下一步-双击上一步中新建的关系数据源如test-下一步-添加与分析相关的所有表,下一步-命名数据源视图,如MultiFactors:5.新建多维数据集-多维数据集向导,下一步-使用现有表,下一步-勾选与分析相关的表,下一步-勾选度量值(与分析相关的输入、输出)-自动创建维度,下一步-命名多维数据集,如MDD,完成:6.新建挖掘结构-数据挖掘向导,下一步-选择从现有关系数据库或数据仓库,下一步-选择挖掘结构,如聚类分析,下一步-选择前面建立的数据源视图,下一步-下一步-指定键列、输入列、待预测列,下一步-个别挖掘算法需要修改数据类型,如Discretized,下一步-将数据划分为训练集、测试集,默认测试集占30%,下一步-命名挖掘结构、模型,允许钻取,完成:7.设置算法参数-阅读每个参数的说明,进行相关设置:8.挖掘模型查看器-生成和部署项目,是-是-运行-关闭-关闭,等待数据挖掘结果分类关系图:9.挖掘模型预测-选择输入表-如建立单独查询,选择源、字段(待预测),输入输入列值,转到查询结果:。
SQL Server 2008 Analysis Services 入门教程

【数据挖掘】SQL Server 2008Analysis Services入门教程2012-11-29 00:14 697人阅读评论(0) 收藏举报一. 创建Analysis Services项目∙单击“开始”,依此指向“所有程序”和Microsoft SQL Server 2008,再单击SQL Server Business Intelligence Development Studio。
将打开Microsoft Visual Studio 开发环境∙在Visual Studio 的“文件”菜单上,指向“新建”,然后单击“项目”。
∙在“新建项目”对话框中,从“项目类型”窗格中选择“商业智能项目”,再在“模板”窗格中选择“Analysis Services项目”∙将项目名称更改为Analysis Services Tutorial,这也将更改解决方案名称,然后单击“确定”。
您已经基于Analysis Services项目模板,在同样命名为Analysis Services Tutorial的新解决方案中成功创建了AnalysisServices Tutorial项目。
二、定义数据源∙在解决方案资源管理器中,右键单击“数据源”,然后单击“新建数据源”。
∙在“欢迎使用数据源向导”页上,单击“下一步”可打开“选择如何定义连接”页。
∙∙在“选择如何定义连接”页上,可以基于新连接、现有连接或以前定义的数据源对象来定义数据源。
在本教程中,将基于新连接定义数据源。
确保已选中“基于现有连接或新连接创建数据源”,再单击“新建”。
∙在“连接管理器”对话框中,为数据源定义连接属性。
在“提供程序”列表中,确保已选中“本机OLE DB\SQL Server Native Client 10.0”。
Analysis Services还支持“提供程序”列表中显示的其他访问接口。
∙在“服务器名称”文本框中,键入localhost。
SQL Server 2008 数据挖掘插件

新的时序算法
Demonstration - 创建一个时序算法模型
总结
使用熟悉的界面显示了功能更为强大的数据挖 掘能力 使挖掘结构和模型的开发更为流畅 使用交叉验证来评估模型的准确性 新的时序算法:可以预测10个步长以内
对挖掘结果准确性的交叉验证
Demonstration - 对一个模型使用交叉验证
Agenda
Excel数据挖掘插件新增工具 挖掘结构的改进 对挖掘结果准确性的交叉验证 新的时序算法
新的时序算法
ARTxp算法 ‐仍然包含在Microsoft时序算法中 ‐时间序列中预测下一步的最佳算法 ARIMA算法 ‐新加到Microsoft时序算法中 ‐长期预测的最佳算法 新的Microsoft时序算法 ‐可以使用ARTxp算法训练一个模型而使用 ARIMA算法训练另一个模型 ‐最终的结果为最佳预测
Agenda
Excel数据挖掘插件新增工具 挖掘结构的改进 对挖掘结果准确性的交叉验证 新的时序算法
挖掘结构的改进
数据分区( Data Partitioning )
Training Set
Test Set
挖掘结构的改进
设置挖掘模型列别名
挖掘结构的改进
设置数据挖掘筛选器
挖掘结构的改进
向下钻取到挖掘结构数据
SQL Server 2008 Excel数据挖掘插件(Add-Ins)
Agenda
Excel数据挖掘插件新增工具 挖掘结构的改进 对挖掘结果准确性的交叉验证 新的时序算法
Excel数据挖掘插件新增工具
预测计算器(Prediction Calculator)
Input cost and profit values Calculated Score Threshold Profit by threshold
SQL Server 2008中的9种数据挖掘算法

SQL Server 2008中的9种数据挖掘算法1.决策树算法决策树,又称判定树,是一种类似二叉树或多叉树的树结构。
决策树是用样本的属性作为结点,用属性的取值作为分支,也就是类似流程图的过程,其中每个内部节点表示在一个属性上的测试,每个分支代表一个测试输出,而每个树叶节点代表类或类分布。
它对大量样本的属性进行分析和归纳。
根结点是所有样本中信息量最大的属性,中间结点是以该结点为根的子树所包含的样本子集中信息量最大的属性,决策树的叶结点是样本的类别值。
从树的根结点出发,将测试条件用于检验记录,根据测试结果选择适当的分支,沿着该分支或者达到另一个内部结点,使用新的测试条件或者达到一个叶结点,叶结点的类称号就被赋值给该检验记录。
决策树的每个分支要么是一个新的决策节点,要么是树的结尾,称为叶子。
在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。
这个过程就是利用决策树进行分类的过程。
决策树算法能从一个或多个的预测变量中,针对类别因变量,预测出个例的趋势变化关系。
在SQL Server 2008中,我们可以通过挖掘模型查看器来查看决策树模型。
如图1所示。
在图1中,我们可以看到决策树显示由一系列拆分组成,最重要的拆分由算法确定,位于“全部”节点中查看器的左侧。
其他拆分出现在右侧。
依赖关系网络显示了模型中的输入属性和可预测属性之间的依赖关系。
并能通过滑块来筛选依赖关系强度。
2.聚类分析算法聚类分析算法就是衡量个体间的相似度,是依据个体的数据点在几何空间的距离来判断的,距离越近,就越相似,就越容易归为一类。
在最初定义分类后,算法将通过计算确定分类表示点分组情况的适合程度,然后尝试重新定义这些分组以创建可以更好地表示数据的分类。
该算法将循环执行此过程,直到它不能再通过重新定义分类来改进结果为止。
简单得说,聚类就是将数据对象的集合分组成为由类似的对象组成的多个类的过程。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验三详细步骤讲解第一部分OLAP讲解1目的针对现在企业存在海量数据,需要对其中隐藏的数据进行分析,从而帮助决策这一事实,我们设计了一个虚拟情景:我们是一家大型连锁超市的技术顾问,我们要分析企业现存的数据,从而了解此超市的运营现状,针对分析出的信息提出企业的改进目标。
2安装SQL Server 20082.1实验环境:操作系统:windows 7;处理器:AMD Turion(tm) x2 Dual-Core Moblie RM-72,2.10GHz;系统类型:32 位操作系统;内存:3GB2.2步骤详解选择安装文件中的setup.exe开始安装。
上图为安装主界面,包含了有关SQL Server 2008 的各种信息,很直观,开始安装选择:全新SQL Server 独立安装或向现有安装添加功能;一些必需条件检查;然后是产品序列号输入,这也是SQL Server 首次采用此种授权管理方式;从微软网站下载的版本其实和正式版本无异,你如果有正式的序列号,在此输入即可成为正式版;当然在此处你也可以选择安装企业评估版,待以后通过上图的安装中心界面可将试用版升级为其它版本的正式版。
这里,我们输入企业版序列号:JD8Y6-HQG69-P9H84-XDTPG- 34MBB;SQL Server 2008 企业版授权协议;这里需要一些组件的安装点击安装过后,有一小段等待的时间另外一些必要条件的检查安装组件选择,默认情况下什么也没有选中,根据情况选择即可,一般情况下,不明白的就全选;配置实例并选择安装路径;从图中可以看出,虽然实例安装到了 D 盘,但只用了784M,将近2G 的内容都安装到了 C 盘,因此我们选择直接安装在C盘默认文件夹下;这里为实例配置,我们只需选择默认的,然后”下一步”;显示安装后预计战胜的硬盘空间配置各SQL Server 服务的帐户名和启动类型,对开发人员来说非常实用;配置身份验证模式,和以往版本没有什么不同;但新增了一个”指定SQL Server 管理员”的必填项,该管理员是指Windows 帐户,你可以新建一个专门用于SQL Server 的帐户,或点击”添加当前用户”添加当前用户为管理员;同时”数据目录”页可指定各种类型数据文件的存储位置,不过我们这里只需要选择”添加当前用户”,其他的默认就好;接下来,根据选择项目,会有一些不同的项目要配置,对于非专业人员来说,基本原则就是”添加当前用户”,这样简洁并且不易出错;Reporting Sevice配置,直接默认,选择”下一步”;错误和使用情况报告,这里我们不选择向微软发送错误报告,直接”下一步”;再一次对必要信息进行检查;安装信息汇总,安装前的最后一步开始安装并安装完成用时大约 1 小时,当然这取决于你安装的组件。
之后安装成功,从开始菜单中选择相应的程序,Microsoft SQL Server 2008——SQL Server Management Studio单击即可打开。
安装后运行图例至此SQL Server 2008安装成功安装中的注意事项:安装sql server 2008前可能需要安装visual studio,我们建议最好最好安装最新的版本,以免出现一些不必要的问题。
3OLAP分析3.1目的:联机分析处理(简写为OLAP)是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。
它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。
决策数据是多维数据,多维数据就是决策的主要内容。
OLAP专门设计用于支持复杂的分析操作,侧重对决策人员和高层管理人员的决策支持,可以根据分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观而易懂的形式将查询结果提供给决策人员,以便他们准确掌握企业(公司)的经营状况,了解对象的需求,制定正确的方案。
联机分析处理具有灵活的分析功能、直观的数据操作和分析结果可视化表示等突出优点,从而使用户对基于大量复杂数据的分析变得轻松而高效,以利于迅速做出正确判断。
它可用于证实人们提出的复杂的假设,其结果是以图形或者表格的形式来表示的对信息的总结。
它并不将异常信息标记出来,是一种知识证实的方法。
总之,OLAP(联机分析处理)是帮助用户理解、分析大量数据并建立模型的一种解决方案,而Microsoft SQL Server 2008中的SQL Server Business Intelligence Development Studio则是完成这一任务的出色工具。
3.2相关知识介绍:Microsoft SQL Server 2008中的BI(商业智能)模块集成了一些我们在商业应用领域上的技术,在真正应用时,我们将BI分为五层,即BI 五层模型:*数据源层*数据转换层*数据存取层*分析层*表示层我们将BI模块中的Integration services项目对应于数据源层和数据转换层;SQL Server Management Studio对应于数据存取层;analysis services项目对应于分析层;最后将报表模型项目对应于表示层。
下面我们将结合我们的案例背景,即我们作为大型超市的技术顾问,为企业决策者提供相应的运营信息。
3.3具体步骤:3.3.1数据源的转换:开始——Microsoft SQL Server 2008——SQL Server Business Intelligence Development Studio,打开如下图所示界面:然后单击新建文件——新建——项目,出现如下图所示界面,然后选择integration services 项目:之后出现下图所示界面:此时选择菜单栏上的项目——SSIS导入和导出向导,单击后选择相应的数据源文件,结果如下图:单击下一步(注意选择自己的服务器名称):此时我们要将导入的数据放到一个数据库中,所以单击右下方的新建按钮,我们这里将新建立的数据库命名为DB market,出现的界面如下:然后单击确定——下一步,来到如下图所示的界面:因为,我们只是用最原始的表,不需要对表进行额外的操作,所以,选择复制一个或多个表或试图的数据,然后按下一步,选择我们需要的表:选择之后,按下一步最后单击完成,如运行成功,则出现下图所示的界面:然后将解决方案资源管理器中的SSIS包中的package1.dtsx设为启动对象,方法是右击其,选择设为启动对象。
然后单击工具栏中的三角按钮,开始调试,结果如下图:之后单击上图下方的蓝色字“包执行完毕。
单击此处以……”,至此我们完成了数据源转换这一步骤。
3.3.2数据分析准备工作:接着,我们按照上面的方法新建立一个analysis services 项目,名为AS_market,开始做数据分析的准备工作,之后右击右侧解决方案资源管理器中的数据源,选择新建数据源,出现如下图所示的图:然后单击,新建按钮,选择相应的服务器和数据库,如下:按确定,单击下一步,然后,选择使用服务账户,如图:再单击下一步,最后单击完成,至此数据源选择完成。
然后如上所示,右击数据源视图,也是新建,然后选择关系数据源,如下图:然后下一步,保持默认选项,如图:然后选择所有经过之前经过筛选的表,如图:然后下一步,完成。
此时,程序的主界面应该如下图所示:我们下一步要将这七张表联系起来,使之如下图所示(注意箭头的方向):之后,我们便可以建立多维数据集,如上右击新建,出现如下图的界面:保持默认选项,使用现有表,然后下一步,选选择度量值(即数据挖掘中所说的事实):然后单击下一步,去掉sales fact 1998计数的钩钩,单击下一步:然后单击下一步,完成。
之后,我们修改维度,便于我们后面查看,具体方法如下:单击左下角要修改的维度,此时列表会展开,出现一个编辑Store的蓝色文字,如图:然后单击此蓝色文字,主界面变为:从右侧的数据源试图中拖动你想要看到的属性列到左侧的属性窗口中,操作结果如下图:同理,将除了time by day之外的维度,都做类似的操作。
至于time by day这个时间维度比较特别,下面做详细介绍:在time by day上右击,选择浏览数据,出现如下图:通过观察分析,我们可以知道,the_date指的是年月日时间;the_day指的是星期几;the_month指的是几月份;the_year指的是年份;day_of_month指的是这个月的第几天(这里就列举这么多),然后我们根据这个,给每个属性选择类型,具体操作如下:右侧下方有the date 的属性列表,其中有一个type选项,我们根据数据的实际含义,选择日期——日历——date。
其他的也如法炮制。
所有的维度都修改好后,选择新生成的多维数据集,单击工具条上的小三角,启动调试。
成功后,双击多维数据集,在选择浏览器,出现下图:现在就可以从左侧拖动相关的属性到中间,从而实现olap分析了。
终于说完了这一部分~~ 大家一定要动手实践。
3.3.3数据分析:举个小小例子,领导想查看每个分店的营业情况,那么我们可以建立如下的数据透视图:行属性为store name;列属性为两级的,一级是store state,一级为store city;这样我们就可以以州或是城市为最小粒度查看各分店的营业情况了。
4小结数据分析是企业进行总结和计划的基础操作,SQL Server 2008的BI模块,让我们可以很好的实现这个功能,通过数据分析我们可以为企业的决策者提供很好的总结,从而指导下一步的企业计划。
好了,就说这么多,关键还是要动手操作呀!第二部分Data Mining详解建立模型Step 1在建立数据挖掘模型前须保证已经建立“数据源”和“数据源视图”,如(Figure 1)所示:Figure 1Step2解决方案资源管理器——挖掘结构——右键(新建挖掘结构)——进入数据库挖掘向导(下一步)——选择定义方法(选择从现有关系数据库或数据仓库),下一步——创建数据挖掘结构(以Microsoft 决策树为例),下一步——选择数据源视图(选择自己之前创建的),下一步——指定表类型(以customer为事例表)——指定定性数据(键:Customer_id 输入:Member_card 可预测:Member_card),然后点建议,之后确定,下一步——指定列的内容和数据类型(点检测)下一步——下一步(默认)——自己命名,完成。
Step3 选中建立的模型,点启动调试,模型建立完毕,(如figure2)所示,大家可以自行查看各个选型卡所表示的含义(注意结合挖掘图例进行理解)Figure 22、挖掘结果分析挖掘完成之后,可以发现每个挖掘模型都有5个选项卡,“挖掘结构”、“挖掘模型”、:“挖掘模型查看器”、“挖掘准确性图表”、“挖掘模型预测”。