基于SQLSERVER2005的数据挖掘系统设计
SQL Server 2005 Analysis Services数据挖掘学习资料

的更多细节,请查看 SQL Server 2005 在线文档中的“分析服务脚本语言(Analysis Services scripting
language)”。
另一方面,在数据挖掘任务中,当 XMLA 请求是一个语句的时候,XMLA “执行”请求使用一种查询语言—
—DMX(数据挖掘扩展 Data Mining eXtensions 语言)作为它的请求的内容。DMX 语言在针对数据挖掘的
·
查询模型:这些请求包括(但不局限于)在数据挖掘中我们常说的记分(Scoring)和预测
(Predicting)。 我们将查询定义为使用数据挖掘所建立的模型的过程。这些请求由发送到服务器端的
DMX 语句组成。
·
订阅进度通知:这些请求非常方便地显示一个进度条,这个进度条用来显示在执行一个很长的
操作时或者在指定时间检查服务器状态时的实际进展情况。这类请求不能使用 DMX 创建。它们拥有跟踪的
网页。)SOAP 为应用程序定义了一系列可以通过 XML 消息来调用的方法。 这些方法由 Microsoft Analysis Services 发布,使用 XML for Analysis 或者 XMLA 来定义。 XMLA 规范是由一个超过 20 家研究商业智能的龙头企业(包括微软公司、Hyperion 和 SAS 学会)组成的组 织提出的,它是一个标准的 OLAP 和数据挖掘技术接口。 更多关于 XMLA 的信息,请点击这里。 XMLA 定义了两种发送给服务器的请求,以及服务器进行响应返回的信息的格式。请求的类型是“发现 (Discover)”和“执行(Execute)”。“发现”用来从服务器获取信息和元数据。例如, “发现”可 以用来获取服务器上一系列挖掘模型以及它们的属性(列描述、算法等等)。“执行”用来执行对服务器 的命令,如创建一个新的目录或者挖掘模型、训练一个模型、或者执行一个查询。
基于SQL Server 2005的数据挖掘系统优势分析

基于SQLServer2005的数据挖掘系统优势分析[摘要]本文介绍了数据挖掘软件及工具的发展历史,提出基于SQL Server 2005的数据挖掘系统,阐述了SQL Server 2005平台的功能优势。
[关键词]SQL Server 2005;数据挖掘;数据仓库数据挖掘(Data Mining,DM))是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,是统计学、数据库技术和人工智能技术的综合。
数据挖掘的工具和软件已广泛应用于银行金融、零售与批发、制造、保险、公共设施、政府、教育、远程通讯、软件开发、运输等领域。
随着数据挖掘应用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型,所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件。
因此,本文结合数据挖掘软件的发展,提出一种基于SQL Server 2005的纵向数据挖掘解决方案,并阐述了SQL Server 2005平台的功能优势。
1 数据挖掘软件及其开发工具的发展状况及趋势1. 1数据挖掘软件的发展状况及趋势在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点,Robert Grossman认为,数据挖掘软件的发展将经历4个时代[1]:第一代数据挖掘软件。
支持一个或少数几个数据挖掘算法,挖掘向量数据,数据一般一次性调进内存进行处理。
如果数据足够大,并且频繁变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。
第二代数据挖掘软件。
与数据库管理系统集成、支持数据库和数据仓库,和它们具有高性能的接口具有高的可扩展性。
能够挖掘大数据集以及更复杂的数据集,通过支持数据挖掘模式和数据挖掘查询语言增加系统的灵活性。
虽然注重模型的生成,但如何与预测模型系统集成导致了第三代数据挖掘系统的开发。
基于SQL Server2005的数据挖掘系统优势分析

保险、 公共设施 、 政府、 教育 、 远程通讯 、 软件开发、 运输等领 域。随着数据挖掘应用 日渐广泛 . 人们发现有些工具只有 精通数据挖掘算法的专家才能熟练使用 . 如果对算法不了 解. 难以得 出好的模 型. 所以迫切需要一类使用简单 而又 具有针对性 、 功能 良好的数据挖掘软件 。因此, 本文结合数
持数 据挖 掘模 式 和数据 挖 掘查 询语 言 增加 系 统 的灵 活 性 。 商开始提供称之为“ 工具集” 的数据挖掘软件。此类工具集 虽然注重模 型的生成 . 但如何与预测模型 系统集成导致了 的特 点是 提 供 多种数 据 挖掘 算法 ,非 面 向特 定 的应 用 , 是
第三代数据挖掘系统的开发 。 通用的算法集合. 以称为横 向的数据挖掘工具 。 可 第三代数据挖掘软件 。 与预测模型系统之间能够无缝 12 3纵 向的数据挖掘解决方案(9 9 .. 1 9 年开始) 集成 . 使得 由数据挖掘软件产生的模型的变化 能够及时反 随着横向的数据挖掘工具 的使用 日渐广泛 . 人们发现
四代软件能够挖掘嵌入式系统 、 移动系统和普遍存在计算 设备产生 的各种类型的数据。 12 数 据 挖掘工 具 的发展 状况 及趋 势 .
目前 在整 个 数据 挖 掘技 术 的发展 过程 中 . 挖掘 工 数据
具一 共经 历 了 3 阶段 : 个 据挖 掘软 件 的发 展 .提 出一 种 基 于 S LSre 0 Q evr 0 5的纵 12 1独立的数据挖掘软件 (9 5 2 .. 19 年以前) 向数 据挖 掘解决 方案 . 阐述 了 S LSre 0 并 Q vr 0 5平 台 的功 e 2 独立 的数 据 挖掘 软 件对应 第 一代 系统 . 出现在 数 据挖 能优 势 。 掘技 术 发展 早期 . 究人 员 开发 出一 种新 型 的数 据 挖 掘算 研
数据挖掘在SQL Server2005中的应用

剪 枝 , 即根 据 用 户 的 挖 掘 目的 对 得 到 的 信 息 进 行 分 析 和评 价 。 过 滤 那 些 用 户 不感 兴趣 的 结 果 , 把最 有 价 值 的 信 息 找 出来 。此 外 这 些 “ 息 ” 多 数 情 况 下 是 人 们 不 能 理 解 的 , 以 要 用 用 户 可 理 解 信 在 所
L U h — i I Z i v, CHAN G i Ru
Yh pia i fDaa M iig i QL Se v r o 5 eAp l t o t nn S re 2 0 c on n
( h n z o mt eo c n lg , h n z o 1 0 2C ia C a g h u I i f e h oo y a g h u2 3 0 , hn ) mt t C
K ywo d : t miig QL S re2 0 e rsd a nn ; e r0 5 a S v
1 引 言
在 过 去 的 二 十 年 多 中数 据 库 系 统 已经 取 得 了 巨大 的发 展 。 与 此 同时 人 们 利 用 信 息 技 术 生 产 和 收 集 数 据 的 能力 也 大 幅度 提 高 , 结 果 越 来 越 多 的数 据 被 存 放 在 数 据 库 中 。如 何 从 中发 现 有 价 值 的
sme a co e t n fr e rc s o l ds v r. W e la op it o g l hs f a n g f trs n S e e 0 5 I e o s p r o s o o e f u i o e b i a i t p h s re c y l l o u t h hi t o t mi n a e i QL S r r 0 . n t wi s n y Oi g da i eu v 2 h
基于SQL Server 2005的数据挖掘系统设计方案

就能在此安装 J P服务器 。 S 务器 能够运行 在 目前绝大多 分成四个模块 : S J P服 个人工具、图书查询、购物 车操作、订单 处理 。 数 的操作系统上 ,如 W n o s系列和 U I id w N X系列 。 后台分成三个模块 :用户管理 、书籍管理、订单管理 。在设计
互界 面。
掘系 统 中快 速挖 掘信 息 源和 数据 源 ,也 可 以建 立数 据立 方 体 ,并能利用 分析系统 服务组织数 据挖掘模 型, 同时 该数据 挖掘 模型还 可 以进行预 测查询 ,完 美地将应 用程序 、O A 、 L P 关系 数据库 以及数据挖 掘结合起来 。 四、结语 S LS r e 0 5不仅 是卓 越的数据 挖掘系统,而且为数 O e v r2 0 据挖 掘设计和 实现带来 了极大便利 ,并提供 了强大 的设计和
计算机光盘软件与应用
软件设计开发
C m u e D S fw r n p lc t o s o p t r C o t a e a d A p ia in 2 1 第 6期 0 2年
数据集 ,根 据构建 的维代码表 、事实表 来创建相 关的表格 , 然 后是使用 数据转换 功能 ,清 洗、转载 、转换对应 的信息和 数据 ,S LS r e 0 5采用 D S输 出和输入数据 、创建 软件 Q e v r2 0 T 包 或者触发器来完成对数据的处理 。 ( )联机分析处理 三 任何数据挖掘系统都离不开 O A ,SLS r e 0 5 L P O e v r2 0 创建 数据库是利 用分析服 务系统 ,它为数据挖 掘提供 了多维数据 集和数据集 。由指 定数据源 反馈给信 息中的多维数 据和度量 数据 ,通过 一些简单 的操作和 命令就 能实现多维 数据的 自动 生成和重 新生成 ,如 果度量数 据定义不 是简单 的聚 类求和运 算 ,还可 以进一步 设定度量数 据的计算方 法 ,指 定要使用 的 数据挖掘技术 。 ( 四)数据挖掘模型 SL Sr e 0 5数据挖掘模型 以 D X语句为基础建立 O e v r 2 0 M 的,同时也支持手工操作 。它是依据关系数据库 或根 据 O A LP 数据库 中现 有多维数据 集生成 的。数据挖 掘模型通 常是 由多 个 输入列 、一个标识 列和一个 可预测列组 成;数据挖 掘模 型 由一个数据 挖掘模型对 象 、一 个数据挖掘 结构对象 以及一种 数据 挖掘算法来定义 。 ( 五)客户端的显示 在数据挖掘 系统模 型设计 中,可 以考 虑在客户 端使用程 序 中应用数 据定义语 言 (D ) D L 。数据 挖掘模 型、报表 和 O A LP 的分析结果 通过客户 端显示 出来,进而提 供用户和 系统 的交
基于SQL SERVER 2005的数据挖掘系统设计

1 数 据 挖 掘 软 件 的发 展
1 1 数 据挖掘 软 件经历 的 4个 时代 .
人 们发现 有些 工具 只有 精通 数据 挖掘算 法 的专 家才
能熟 练使 用. 果 对 算 法 不 了解 , 以得 出 好 的模 如 难 型 . 以迫切需 要一类 使 用简单 而 又具 有针对 性 、 所 功 能 良好 的数据 挖掘 软件 . 另一 方 面 , 国内对 数 据 挖掘 方 面 的算 法 和理 论 研究 较多 , 而对数 据 挖 掘 软件 和工 具 的设 计 与 实 现
是提 供 多种数 据 挖掘 算 法 , 括 数 据 的转 换 和 可 视 包
[ 稿 日期 ]2 0 —0 — 2 收 07 3 0 [ 者 简 介 ]张 波 (9 1 ) 男 ,湖 北 当 阳人 , 汉 理 工 大 学 硕 士 研 究 生 , 究 方 向 : 流 系统 的 自动 化 与 智 能 化 . 作 18一 , 武 研 物
维普资讯
第2 2卷 第 3 期
VO . .3 I 22 NO
湖 北 工 业 大 学 学
报
20 0 7年 O 6月
J n 2 0 u .0 7
J u n lo b iUn v r i fT c n L g o r a fHu e ie st o e h o o y y
维普资讯
i 3 0ຫໍສະໝຸດ 湖 北 工 业 大 学 学 报
20 0 7年 第 3 期
化. 由于此 类工 具并 非 面向特定 的应 用 , 是通用 的算 法集 合 , 以称 之 为横 向的数 据挖 掘工具 . 所 3 纵 向的数据 挖 掘 解 决方 案 . ) 此类 工 具 的特 点 是, 针对特 定 的应用 提供 完整 的数据 挖 掘方案 , 以 所 称 之为 纵 向的数据 挖掘 解决方 案.
基于SQL Server 2005的数据挖掘系统应用研究

31S I . SS结 构 及 功 能 数 据 预 处 理 是 数 据 挖 掘 前 的 一 项 准 备 工 1引言 . 需 SS基 提 数 据 仓 库 ( t rhue是 伴 随 着 决 策 支 持 系 统 的 发 展 而 产 生 作 , 要 花 费 较 多 的 时 间和 精 力 。 S I 于工 作 流 环 境 , 供 了 控 制 流 Da Wae os) a SS项 目中 最 基 本 的 部 署 和 执 行 单 位 被 的 , 人 们 对 信 息 需 求 一 从 简 单 到 复 杂 . 基 本 的 事 务 处 理 和 业 务 管 和 数 据 流 两 种 工 作 流 。一 个 S I 是 从 包 .包 就 SS工 一 SS项 理到信息分析和战略决策的体现。数据挖掘(aaMiig,M) D t nn D 是从 大 称 为 “ ”“ ” 是 装 载 S I 作 流 的容 器 。 个 SI 目可 以 包 含 其 但 量 的 、 完 全 的 、 噪 声 的 、 糊 的 、 机 的数 据 中, 取 隐 含 在 其 中 多 个包 , 中一 个 包 只能 包 含 一 个 控 制 流, 可 以 含 有 一 个 或 多 个 数 据 不 有 模 随 提 每 这 的 、 们 事 先 不 知 道 的 、 又 是 潜 在 有 用 的信 息 和 知 识 的过 程 , 统 计 流 。控 制 流也 叫任 务 流 。 个 节 点 就 是 一个 任 务, 些 任 务 按 照 事 先定 人 但 是 义 的 顺 序 执 行 , 以 根 据 执 行 结 果 的不 同有 不 同 的分 支 数 据 流是 专 可 学 、 据库 技 术 和 人 工 智 能 技术 的综 合 。 数
( p rme t f n o mai n a d E g n ei g S a d n n v ri f c n ea d T c n lg , a ’l 2 1 1 , h n ) De a t n f r t n n i e rn , h n o g U ie s y o i c n e h oo y T jal 7 0 9C i a oI o t S e
(完整版)数据挖掘系统实现图书馆书目推荐基于SQLSERVER2005

一、绪论数据挖掘(DM data mining)是从大量的,不完全的,有噪声的,模糊的,随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在的有用的信息和知识的过程。
而我们的图书馆的数据库中积累了大量的读者借阅历史数据,这些数据中隐藏着大量重要信息,利用这些信息我们可以挖掘出读者对图书资源的借阅偏好模式。
于是我们便利用微软SQL SERVER 2005中的数据挖掘关联规则模块建立一个在线书目推荐服务系统,以提高图书馆的服务水平。
二、问题分析关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。
在SQL SERVER 2005 中的关联规则用的是优先关联族算法,即FP-树频集算法[HPY00]。
该算法在从大数据量中寻找频繁项集非常有效,在效率上较之Apriori算法有巨大的提高。
具体运作时分两步分析:第一步通过已过精确计算的表达式寻找出项集;第二步是基于频繁项集产生规则。
第二步需要的时间会明显少于第一步。
下面我们了解下该算法涉及的一些关键指标:三、数据准备我们收集了兰州商学院图书馆2002年到2005年的读者借阅数据,数据库具体关系如下:“一次借阅标识”意义在于形成用户借阅的项集,举例说:甲乙(单次借阅标识分别是1和2)两人一次都借了3本书丙(单次借阅标识分别是3)一次借了两本,得到如下表所示记录:如此我们便只要通过“单次借阅标识”即可区分不同用户的单次借阅。
因为在每次借阅书籍时会先在单次借阅标识表中插入自增标识码,当借阅历史表增加新记录时便使用刚插入的自增标识码作为“单次借阅标识”,这样两张表便形成一对多的关系。
之所以要有上面两张表,是因为SQL SERVER 2005在训练关联规则模型时要有事例表和嵌套表。
所谓事例表即存放鉴定一次事务的标识信息的表,用户完成他的一次借阅(当然可以不止借一本)就是一次事务,一次事务只用一个标识。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
第22卷第3期湖 北 工 业 大 学 学 报2007年06月V ol.22N o.3 Journal of H ubei U niversity of T echnology Jun.2007[收稿日期]2007-03-20[作者简介]张 波(1981-),男,湖北当阳人,武汉理工大学硕士研究生,研究方向:物流系统的自动化与智能化.[文章编号]1003-4684(2007)0320029203基于SQL SERV ER 2005的数据挖掘系统设计张 波,陈定方,祖巧红(武汉理工大学智能制造与控制研究所,湖北武汉430081)[摘 要]介绍了数据挖掘软件的发展,并针对第3代数据挖掘软件的系统设计,提出了一种基于SQL SERV ER 2005的纵向数据挖掘系统的设计框架.[关键词]数据挖掘;SQL SERV ER 2005;数据仓库;OL A P ;商业智能[中图分类号]TP311.131[文献标识码]A 数据仓库(Data Warehouse )是伴随着决策支持系统的发展而产生的,是人们对信息需求从简单到复杂,从基本的事务处理和业务管理到信息分析和战略决策的体现.而数据挖掘(Data Mining )就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,是统计学、数据库技术和人工智能技术的综合.但一方面,随着数据挖掘工具的使用日渐广泛,人们发现有些工具只有精通数据挖掘算法的专家才能熟练使用.如果对算法不了解,难以得出好的模型.所以迫切需要一类使用简单而又具有针对性、功能良好的数据挖掘软件.另一方面,国内对数据挖掘方面的算法和理论研究较多,而对数据挖掘软件和工具的设计与实现方面的研究相对较少.因此,本文结合数据挖掘软件的发展,针对第3代数据挖掘系统的设计,提出一种基于SQL Server 2005的纵向数据挖掘解决方案的设计框架.1 数据挖掘软件的发展1.1 数据挖掘软件经历的4个时代在对数据挖掘技术和数据挖掘软件的探索和开发过程中,很多学者提出了自己独特的观点.对于数据挖掘软件的发展,Robert Grossman 认为,数据挖掘软件经历了或即将经历的时代有4个[1],如表1所示.表1 数据挖掘软件经历的4个时代代特征数据挖掘算法集成分布计算模型数据模型1作为一个独立的应用支持一个或多个算法独立的系统单个机器向量数据2和数据库以及数据仓库集成多个算法,能挖掘一次不能进入内存的数据数据管理系统,包括数据库和数据仓库同质、局部区域的计算机群集有些系统支持对象,文本和连续的媒体数据3和语言模型系统集成多个算法数据管理系统Intranet/extranet 网络计算支持半结构化和Web 数据4和移动数据以及各种计算设备的数据联合多个算法数据管理系统移动和各种计算设备普遍存在的计算模型1.2 数据挖掘工具经历的3个阶段目前在整个数据挖掘技术的发展过程中,数据挖掘工具一共经历了3个阶段,分别是:1)独立的数据挖掘软件.该阶段对应第一代数据挖掘系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件.这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作.2)横向的数据挖掘工具集.此类工具集的特点是提供多种数据挖掘算法,包括数据的转换和可视化.由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具.3)纵向的数据挖掘解决方案.此类工具的特点是,针对特定的应用提供完整的数据挖掘方案,所以称之为纵向的数据挖掘解决方案.2 SQ L Server2005简介2.1 数据挖掘的范围及其在SQ L Server2005中的功能实现SQL Server2005不仅是一个成熟的数据库管理系统(DBMS),而且更是一个高度集成的功能强大的商业智能平台.下面结合商务智能的范围来介绍SQL Server2005所提供的相关组件.图1 数据挖掘在SQL Server2005中的功能实现图1所示的就是数据挖掘的三个重要的方面,即数据报表、数据分析和数据挖掘.其中,数据报表模块为企业解决了“它现在是什么样”的问题,数据分析,也就是人们经常说的OL A P模块为企业解释了“它为什么是这样”的原因,而数据挖掘模块则为企业提供“它以后会是什么样”的预测.而SQL Server2005作为商业智能解决方案,则分别提供了相应的功能模块和组件,即数据挖掘、分析服务和报表服务.其中,数据挖掘功能的组件主要包括集成服务( SQL Server Integration Services,SSIS)和分析服务(Analysis Services,AS).集成服务可用于数据预处理阶段,完成数据的转换、清洗和加载(ETL)过程;而分析服务用于完成模式发现功能.两者具体功能介绍如下.2.2 SSIS功能介绍SQL Server2005中的集成服务提供的数据抽取、转换、下载等功能,大大简化数据预处理阶段的工作.SSIS基于工作流环境,提供了控制流(Con2 t rol Flow)和数据流(Data Flow)两种工作流.一个SSIS项目中最基本的部署和执行单位被称为“包”,“包”就是装载SSIS工作流的容器[2].2.3 分析服务功能介绍分析服务是SQL Server2005的另一个重要组件,采用开放的体系结构,无缝集成了多种符合OL E DB for DM的数据挖掘算法,提供了数据挖掘解决方法.1)OL E DB for DM介绍 OL E DB for DM是微软于2000年提出的一种数据挖掘规范,基于OL E DB的实现原理,旨在为数据挖掘界提供一种类似SQL语言的行业标准语言,它定义了强大的可用于模型建设、模型训练以及预测的数据挖掘语言,同时定义了一套模式的行集合用于存储挖掘模型和挖掘算法的元数据,允许应用程序自动发现挖掘模式和挖掘服务[3].2)数据挖掘模型介绍 在SQL Server2005的数据挖掘平台中,数据挖掘模型类似于一个关系型的表,其中包括关键字、输入、预测3个属性.每个模型跟一个数据挖掘算法相关联.模型构建可以基于DMX,也可以直接在SQL Server2005中操作实现.模型的构建包括模型建立、模型训练、模型预测3个步骤3)数据挖掘算法介绍 SQL Server2005的分析服务给用户提供了9种常用的数据挖掘算法,分别是:决策树算法、聚类算法、贝叶斯算法、时间序列算法、关联算法、序列聚类算法、神经网络算法、线性回归算法、逻辑回归算法、除了这9种算法以外,用户还可以根据自己的需要嵌入其他的算法.当然,各种算法应该结合数据挖掘系统的要求来选择合适的挖掘模型.3 基于SQ L Server2005的数据挖掘解决方案设计 借助SQL Server2005在数据挖掘平台上的优势,分析了客户关系管理中的客户分类系统与客户流失、科技计划项目管理系统中科技计划项目的分析与处理等相关数据挖掘系统研究,本文提出一个纵向数据挖掘系统的原型方案,其框架图如图2所示.图2 基于SQL Server2005的数据挖掘解决方案本文提出的基于SQL Server2005的数据挖掘解决方案主要包括以下几个部分,各部分简要介绍如下:03湖 北 工 业 大 学 学 报2007年第3期 1)源系统 数据挖掘的基础就是基于大量的历史数据.这里的源系统可以是企业内部的任何业务系统,即各种管理信息系统,其数据存储类型也可以为多种,如文本文件、各种关系型数据库等等.这些业务系统中的数据可以经过数据清洗、转换和加载(ETL ),为数据挖掘做准备.2)数据仓库 该部分的功能就是为数据挖掘提供多维数据集(Cube )和数据集(DataSet ),用于数据挖掘的Cube 也可以根据用户的要求作相应的更改.SQL Server 2005提供了自动创建Cube 的功能,用户只需要设置好相应的维度表和量度组,通过一些简单的命令就能实现Cube 的自动生成和重新生成.因此,数据仓库的设计主要在于维度表和量度组,以及两者之间关系的设计.3)联机分析处理(OL A P ) 任何数据挖掘系统都离不开OL A P 部分,它为用户提供强大的数据分析功能.在数据仓库建立好后,输入测试数据,测试建立好的数据仓库、测试模型.如果分析结果显示创建的模型有问题,则可以通过OLA P 提供的功能重新创建模型,并且按照用户喜好的方式显示数据分析的结果.直到模型没有问题之后,就可以将ETL 处理过的真实数据来做相应的数据分析.4)数据挖掘 数据挖掘模型的建立以MDX 语句为基础,同时SQL Server 2005也支持手工操作.模型建立好后,就需要对选择数据挖掘的模型进行测试和训练.用于训练的数据源可以来自于数据仓库生成的Cube ,也可以直接使用其他的数据集,如文本文件.模型训练的结果可以浏览也可以生成报表在客户端展示.5)客户端 即数据挖掘模型、报表和OL A P 的分析结果前端展现,即用户与系统交互界面.目前比较流行的方式是基于Web 的B/S 结构.由此看来,数据仓库以及数据挖掘的功能均能在SQL Server 2005中快速实现,而本文提出的解决方案充分利用了这个特点,将数据仓库和数据挖掘、OL A P 等相结合,为企业级的数据挖掘系统的设计提供了一种原型设计方案.4 结束语SQL Server2005为数据挖掘解决方案提供了强大的设计和开发平台,为第三代企业级的数据挖掘系统的设计和实现带来极大的便利.同时,用户只需要在客户端浏览模型和报表,不用对数据挖掘技术和数据挖掘算法有太多了解.采用本文提出的数据挖掘软件设计模型,可以充分利用SQL Server 2005提供的功能,结合具体的应用,快速实现纵向的数据挖掘解决方案.因此,利用SQL Server 2005来设计和实现数据挖掘平台具有广泛的应用前景.[ 参 考 文 献 ][1] 吴 婕.浅析数据挖掘软件的发展[J ].情报理论与实践,2004(2):212-214.[2] Y ike Guo ,Robert Grossman.High Performance DataMining :Scaling Algorithms ,Applications and Systems [Z].Germany :Springer ,2001:1-56.[3] Zhao Hui Tang ,Jamie MacLennan.Data Mining withSQL Server 2005[M ].北京:清华大学出版社,2007.Data Mining System Design B ased on SQ L SERVER 2005ZHAN G Bo ,CH EN Ding 2fang ,ZU Qiao 2hong(Research I nst.of I ntelli gent M anu f .and Cont rol ,W uhan Uni v.of Tech.,W uhan 430081,Chi na;)Abstract :The develop ment of t he data mining software is reviewed ,and a f ramework of designing a verti 2cal data mining system based on SQL Server 2005is presented ,which aims at t he system design for a data mining software in t he t hird era.K eyw ords :data mining ;SQL SERV ER 2005;data warehouse ;OL A P ;business intelligence[责任编辑:张培炼]13 第22卷第3期 张 波等 基于SQL SERV ER 2005的数据挖掘系统设计。