数据仓库

合集下载

数据仓库的介绍（数据仓库和数据库的区别）

数据仓库的介绍（数据仓库和数据库的区别）数据仓库的介绍⼀、数据仓库的基本概念数据仓库，英⽂名称为Data Warehouse，可简写为DW或DWH。

数据仓库顾名思义，是⼀个很⼤的数据存储集合，出于企业的分析性报告和决策⽀持⽬的⽽创建，对多样的业务数据进⾏筛选与整合。

它为企业提供⼀定的BI（商业智能）能⼒，指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输⼊⽅是各种各样的数据源，最终的输出⽤于企业的数据分析、数据挖掘、数据报表等⽅向。

⼆、数据仓库的主要特征数据仓库是⾯向主题的（Subject-Oriented ）、集成的（Integrated）、稳定的（Non-Volatile）和时变的（Time-Variant ）数据集合，⽤以⽀持管理决策。

1.主题性不同于传统数据库对应于某⼀个或多个项⽬，数据仓库根据使⽤者实际需求，将不同数据源的数据在⼀个较⾼的抽象层次上做整合，所有数据都围绕某⼀主题来组织。

这⾥的主题怎么来理解呢？⽐如对于城市，“天⽓湿度分析”就是⼀个主题，对于淘宝，“⽤户点击⾏为分析”就是⼀个主题。

2.集成性数据仓库中存储的数据是来源于多个数据源的集成，原始数据来⾃不同的数据源，存储⽅式各不相同。

要整合成为最终的数据集合，需要从数据源经过⼀系列抽取、清洗、转换的过程。

3.稳定性数据仓库中保存的数据是⼀系列历史快照，不允许被修改。

⽤户只能通过分析⼯具进⾏查询和分析。

这⾥说明⼀点，数据仓库基本上是不许允许⽤户进⾏修改，删除操作的。

⼤多数的场景是⽤来查询分析数据。

4.时变性数据仓库会定期接收新的集成数据，反应出最新的数据变化。

这和稳定特点并不⽭盾。

三、数据仓库与数据库区别1、数据库数据库是⾯向交易的处理系统，它是针对具体业务在数据库联机的⽇常操作，通常对记录进⾏查询、修改。

⽤户较为关⼼操作的响应时间、数据的安全性、完整性和并发⽀持的⽤户数等问题。

传统的数据库系统作为数据管理的主要⼿段，主要⽤于操作型处理，也被称为联机事务处理 OLTP（On-Line Transaction Processing）。

数据仓库方案

数据仓库方案
contents
目录
• 数据仓库概述 • 数据仓库的架构 • 数据仓库的设计 • 数据仓库的建立 • 数据仓库的使用和维护 • 数据仓库的发展趋势和未来展望
01
CATALOGUE
数据仓库概述
数据仓库的定义
数据仓库是一个大型、集中式存储系统，用于存储和管理企业或组织的数据。
它是一个面向主题的、集成的、非易失的数据集合，支持管理决策制定。
根据业务需求，设计出符合逻辑的数据视图，以便进行数据查询和报表生成。
物理设计
选择存储方案
根据数据量、数据特点和使用频率等因素，选择合适的存储方案，如关系型数据库、 NoSQL 数据库等。
设计索引
根据查询需求，设计出高效的索引方案，以提高查询速度和性能。
设计数据分区
根据数据量和查询特点，将数据进行分区存储，以提高查询性能和数据管理效率。
T ( Transform)
对抽取的数据进行清洗、整合、转换和加载等操作，使其满足数据仓库的需求。
L ( Load)
将转换后的数据加载到数据仓库中，供后续分析和查询使用。
存储层
星型模型
以事实表为中心，周围关联多个维度表，形成星型结构。
雪花模型
将维度表进一步拆分，形成更复杂的结构。
星座模型
将多个星型模型关联起来，形成一个更大型的模型。
数据仓库的发展趋势
云端化
随着云计算技术的普及，越来越多的企业选择将数据仓库部署在云端，以降低成本、提高可扩展性和灵活性。
大数据集成
数据仓库在处理大数据方面发挥着越来越重要的作用，通过高效的数据集成和数据处理技术，满足企业对大数据分析的需求。

数据仓库概述(概念、应用、体系结构)

使用浏览分析工具在数据仓库中寻找有用的信息；基于数据仓库，在数据仓库系统上建立应用，形成决策支持系统。
事务处理分析处理
DB
从数据 OLTP 数据
DW
从数据信息（知识） OLAP（DM、OLAM）
18
数据仓库与传统数据库的区别
19
OLTP和OLAP的区别

用户和系统的面向性:

转换描述从操作数据库到数据仓库的映射方法以及转换数据的算法访问权限备份历史存档历史信息传输历史数据获取历史数据访问等等29主题区和信息对象类型包括查询报表图像音频视频等支持数据仓库的其它信息例如信息传输系统包括的预约信息调度信息传送目标的详细描述商业查询对例如数据历史快照版本拥有权数据抽取的审计跟踪数据的使用方法30与数据访问和分析工具的集成31元数据库metadatarepository和工具32主要使用数据来源的物理结构信息企业数据模型和仓库数据模型最终用户最关心两类元数据
4
业务系统不适宜DSS应用

事务处理和分析处理的性能要求和特性不同

事务处理对数据的存取操作频率高而每次操作处理的时间短；在分析处理环境中，某个DSS应用程序可能需要连续几个小时，会消耗大量的系统资源。

数据集成问题历史数据问题数据的综合问题（更高粒度）
5
建立数据仓库的投资回报
数据模型：（1）逻辑数据结构，包括为有效进行数据
用的数据集合,是不同于DB的一种新的数据环境, 是DW 扩展后得到的一个混合形式。四个基本特点：面向主题的、集成的、可变的、当前或接近当前的。库处理由DBMS提供的操作和约束；（2）数据表示系统（例如，ER图和关系模型）。
25
元数据

数据仓库和大数据的关系

数据量大：数据量级从TB到
PB甚至EB
速度快：处理速度非常快
多样化：数据类型多样，包括结构化数据、半结构化数据和非结构化数
据
价值密度低：虽然数据量大，但有用的信息可能较少，需要更高级别的数据处理和分析技术来提取有价值的信息
20世纪90年代，美国政府开始收集并分析大量数据 21世纪初，互联网的发展使得大数据迅速增长 2005年，麦肯锡公司提出大数据概念 2009年，大数据成为互联网信息技术行业的热词
数据仓库和大数据的融合云计算和大数据的结合物联网和大数据的关联大数据在各行各业的应用拓展
客户行为分析市场趋势预测风险控制决策支持
医疗：病历数据挖掘，疾病预测与防治
金融：实时风险评估，投资策略分析
交通：交通流量分析，智能交通规划与管理
电商：用户行为分析，个性化推荐与营销
金融行业：数据仓库和大数据在金融风控、投资策略等方面的应用
数据量大多样化
产生速度快低价值密度
数据仓库是大数据技术的重要基础
数据仓库和大数据技术相辅相成，共同推动企业信息化建设
添加标题
添加标题
添加标题
添加标题
数据仓库为大数据分析提供数据存储和数据处理能力
数据仓库和大数据技术都为企业的决策支持提供有力支持
数据量：数据仓库的数据量相对较小，而大数据的数据量更大
a click to unlimited possibilities
01 数据仓库概述 02 大数据概述 03 数据仓库和大数据的关系 04 数据仓库和大数据的应用场景 05 数据仓库和大数据的技术发展 06 数据仓库和大数据的挑战与问题

数据仓库的概念和运用

数据仓库的概念和运用一、引言在当今信息高速迭代的时代，数字化的世界已经成为我们生活的一部分。

面对海量的数据，如何能够从其中提取有意义的信息，已经成为各行业的重要问题。

本文将从数据仓库的概念入手，探讨其在数据分析和决策方面的应用。

二、数据仓库的概念数据仓库是用于分析和支持决策的数据集合。

它是一个集中的、主题导向的、稳定的、可变的存储库，可用于支持管理决策的过程。

数据仓库主要包括数据采集、数据清洗、数据转换、数据加载、数据查询、数据报表等模块。

三、数据仓库的特点1、主题导向性数据仓库主要面向某一特定主题和业务。

例如，每个企业中都有各自的业务领域，如销售、采购、财务等，这些领域都需要进行数据挖掘分析，根据特定的主题建立数据仓库。

2、集成性数据仓库是一个集成了多种数据类型的系统，它的数据来源包括来自不同部门、不同系统、不同数据库的数据。

3、历史性数据仓库不仅包含当前的数据信息，还包括历史数据。

以便于对比和分析，及时发现数据变化以及趋势。

4、面向决策支持数据仓库是为决策支持服务的，它能够帮助企业通过对数据的挖掘分析，发现潜在的问题，提出有效的解决方案，从而优化企业的决策。

四、数据仓库的运用1、提升数据分析速度数据仓库可以减少数据分析的重复工作量，缩短数据处理时间，提高数据分析的速度。

通过数据仓库可以进行针对性的分析和优化，使得企业在发现趋势和机会时能够抢先一步。

2、定制和设计报表通过数据仓库，企业可以设计和定制各种需求的报表，使得数据更加符合企业的实际需求，这对企业的管理和决策是非常有意义的。

3、帮助决策企业的管理决策需要数据的支持，数据仓库可以让领导者更好地理解和分析公司的运营情况，以便于更好地进行决策。

4、提高客户满意度通过数据仓库可以使企业更好地分析顾客需求，从而优化企业的产品和服务，增加客户的满意度。

五、总结数据仓库是以主题为中心，集成多种数据类型，以历史数据为基础的数据仓库。

它的存在可以提升企业的决策速度，帮助企业优化产品和服务，提高客户满意度。

数据仓库的名词解释

数据仓库的名词解释数据仓库的名词解释数据仓库（Data Warehouse）是指一个用于存储、整合和管理企业各个部门产生的大规模数据的集中式数据库系统。

它主要用于支持企业决策制定、战略规划以及业务分析。

数据仓库的设计和构建需要考虑数据的采集、转换、加载以及存储等多个方面，以确保数据的准确性和可用性。

一、数据仓库的基本概念数据仓库是一个面向主题的、集成的、时间一致的、非易失的数据集合，用于支持企业决策制定和业务分析。

它将来自不同数据源的数据进行抽取、转换和加载，形成一个统一的、易于查询和分析的数据源。

数据仓库的特点：1. 面向主题：数据仓库以主题为中心，将数据按照主题进行组织和存储，以满足不同部门和用户的信息需求。

2. 集成：数据仓库将来自不同数据源的数据进行整合，消除了数据冗余和不一致性。

3. 时间一致性：数据仓库中的数据是按照一致的时间标准进行存储和管理的，以支持历史数据分析和趋势预测。

4. 非易失性：数据仓库中的数据一旦存储，不会轻易被删除或修改，以确保数据的可追溯性和可靠性。

二、数据仓库的架构和组成部分数据仓库的架构通常包括数据采集、数据转换、数据加载、数据存储和数据查询等几个关键组成部分。

1. 数据采集：数据仓库的数据采集涉及到从各个数据源中提取和抽取数据的过程。

这些数据源可以是企业内部的关系型数据库、操作型数据源，也可以是外部的数据源，如Web数据、日志数据等。

数据采集可以通过ETL（Extract、Transform、Load）工具进行，在此过程中可以对数据进行清洗、转换和加工。

2. 数据转换：数据采集后，需要进行数据转换的操作，将采集到的数据进行整合和规范化。

这包括数据清洗、数据集成、数据变换等一系列处理，以确保数据的一致性和质量。

3. 数据加载：数据加载是将经过转换的数据加载到数据仓库中的过程。

数据加载可以是全量加载，也可以是增量加载。

在加载过程中，还可以对数据进行校验和验证，以确保数据的准确性和完整性。

数据仓库解决方案

数据仓库解决方案目录1. 数据仓库解决方案的定义1.1 数据仓库的作用1.2 数据仓库的特点1.3 数据仓库解决方案的重要性2. 数据仓库解决方案的实施步骤2.1 确定需求和目标2.2 数据采集和清洗2.3 数据存储和管理2.4 数据分析和报告3. 数据仓库解决方案的优势3.1 实现数据集中管理3.2 提升数据分析效率3.3 支持决策制定4. 数据仓库解决方案的应用案例4.1 传统行业的数据仓库应用4.2 互联网行业的数据仓库应用4.3 零售行业的数据仓库应用5. 数据仓库解决方案的未来发展趋势5.1 数据仓库与大数据的融合5.2 数据仓库自动化技术的应用5.3 数据仓库解决方案的个性化定制6. 总结数据仓库解决方案的定义数据仓库解决方案是指为了解决企业数据集中管理、高效分析和决策制定而设计的一套系统化解决方案。

通过构建数据仓库，将企业内部各个部门的数据进行统一收集、整理和存储，以便企业领导层可以更快、更准确地获取到所需的数据信息，从而帮助企业更好地制定发展策略和决策方案。

数据仓库的作用数据仓库的主要作用包括数据存储、数据分析和数据报告。

通过数据仓库，企业可以将不同来源的数据进行整合并存储，减少数据冗余和数据分散的情况，提高数据的一致性和可靠性。

同时，利用数据仓库中的数据，企业可以进行深入的数据分析，获得更准确的商业洞察，帮助企业在竞争激烈的市场环境中获取优势。

最后，数据仓库还可以生成各种形式的数据报告，向各级管理人员提供决策支持和运营指导。

数据仓库的特点数据仓库具有数据集中、集成、主题化和稳定性等特点。

数据集中意味着数据仓库中存储的是企业所有部门的数据，可以为不同部门提供统一的数据来源；数据集成指的是数据仓库中的数据会进行整合和转换，以确保数据的一致性和可靠性；数据主题化表示数据仓库中的数据是按照特定的主题进行分类和存储，方便用户进行查询和分析；数据稳定性意味着数据仓库中的数据是经过严格控制和管理的，用户可以信任数据的准确性和完整性。

数据仓库的概念

据仓库会记录历史数据的变化情况，以便对数据进行分析和追溯。
数据仓库与操作型数据库的区别
操作型数据库主要用于日常业务处理，如订单处理、库存管理等；而数据仓库主要用于数据分析、报表生成和决策支持等。
操作型数据库通常需要快速响应和实时处理能力；而数据仓库则更注重数据质量和完整性。
EDI的应用可以帮助企业更好地管理和利用数据资源，提高企业的数据处理能力和数据价值，促进企业的数字化转型和升级。
06
数据仓库的发展趋势和挑战
大数据时代的挑战
数据量的快速增长
随着大数据时代的来临，数据量呈爆炸式增长，对数据存储和处理能力提出了更高的要求。
数据多样性的增加
数据来源和类型越来越多样化，包括结构化、半结构化和非结构化数据，需要更灵活的数据处理和分析方法。
数据实时性的需求
随着业务对数据处理速度的要求提高，数据仓库需要具备实时数据处理的能力。
数据仓库技术的发展趋势
分布式存储与计算
利用分布式技术提高数据仓库的存储和计算能力，满足大数据时
代的需求。
内存计算技术
利用内存计算技术提高数据处理速度，实现更快速的分析和响应。
云计算技术
通过云计算技术实现数据仓库的弹性扩展和按需服务，降低运维成本。
数据源的质量
在选择数据源时，需要考虑数据的质量、准确性和完整性，以确保数据仓库中的数据是可靠的。
数据清洗和转换
数据清洗
数据清洗是去除重复、无效或错误数据的过程，以确保数据的准确性和一致性。
VS
数据转换
数据转换是将数据从其原始格式或结构转换为数据仓库所需格式的过程，以满足数据仓库的设计和规范。
性能优化
随着数据的增长和变化，需要定期对数据仓库进行性能优化，以提高查询速度和响应时间。

数据仓库：介绍数据仓库的基本概念、特点和设计

数据仓库：介绍数据仓库的基本概念、特点和设计引言在当今信息时代，数据的重要性不言而喻。

随着企业和组织的迅速发展，数据量的不断增长，有效地管理和分析数据变得至关重要。

为此，数据仓库作为一种集成和存储大量数据的解决方案被广泛应用。

本文将介绍数据仓库的基本概念、特点和设计，帮助读者更好地了解和应用数据仓库。

第一部分：基本概念H1: 什么是数据仓库？数据仓库可以被理解为一种集成和存储多源、多结构、大容量数据的系统。

它是一个专门用于支持决策分析和业务智能的数据平台。

数据仓库通过把分散的数据整合到一个统一的存储中，提供了一个一致、准确、可靠的数据来源，以便进行各种分析和报告。

H2: 数据仓库的功能数据仓库的主要功能是数据整合、数据存储和数据分析。

数据整合包括从不同的数据源中提取数据，并进行清洗、转换和集成，以保证数据的一致性和准确性。

数据存储是指将整合的数据持久化到数据仓库中，提供高性能的数据访问和查询。

数据分析是数据仓库的核心功能，它可以通过各种分析工具和技术，帮助用户深入挖掘数据，探索数据之间的关联和模式，发现潜在的业务机会和问题。

H3: 数据仓库的架构数据仓库的架构包括数据源层、数据集成层、数据存储层和数据使用层。

数据源层是指各种数据源，如关系数据库、文件、日志等。

数据集成层是负责将数据源中的数据提取、清洗和转换，以满足数据仓库的需求。

数据存储层是指存储整合后的数据的位置，通常采用关系数据库。

数据使用层包括数据访问接口和报表工具，用于用户对数据进行分析和报告。

第二部分：特点和优势H1: 数据仓库的特点数据仓库具有以下几个特点：1.面向主题：数据仓库根据业务需求，将数据组织成主题，提供便于分析的数据模型。

2.集成性：数据仓库整合了不同来源的数据，消除了数据冗余和不一致性。

3.非易失性：数据仓库中的数据一般是只读的，不会因为操作或事务而发生变化。

4.完整性：数据仓库保持历史数据的完整性，记录了过去的业务活动和状态变化。

数仓分层标准

数仓分层标准
一、数据源层
数据源层是整个数据仓库的起点，包含了所有需要的数据源。

这些数据源可能来自不同的地方，例如数据库、文件、API等。

数据源层的目标是确保所有数据都能被正确、完整地获取。

二、整合层
整合层的主要任务是对从数据源层获取的数据进行清洗、整合和转换，以满足后续数据模型的需要。

在这一层，数据可能会进行一些基本的处理，例如去重、填充缺失值、数据类型转换等。

三、公共维度模型层
公共维度模型层（CDM）是数据仓库的核心部分，它提供了对数据的公共视图。

在这一层，数据会被组织成公共的维度和度量，以便进行多维分析。

常见的维度包括时间、地域、产品等。

四、汇总层
汇总层是在CDM的基础上，对数据进行进一步的汇总和聚合。

这一层的目的是为了提高数据的查询效率，同时减少在应用层进行复杂计算的需要。

五、应用层
应用层是数据仓库的最顶层，它包含了可以直接提供给最终用户使用的数据。

这些数据通常是已经经过处理和格式化的，可以直接用于报表、仪表板或其他分析工具。

六、元数据层
元数据层包含了关于数据仓库中所有数据对象的描述信息。

这些描述信息有助于理解数据的来源、结构、关系和含义。

元数据对于维护数据仓库的完整性和准确性至关重要。

七、数据安全层
数据安全层关注的是如何确保数据的安全和隐私。

在这一层，会设置各种安全措施，例如访问控制、加密、审计等，以确保只有经过授权的人员才能访问特定的数据，同时防止数据的滥用或泄露。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

哈尔滨工业大学华德应用技术学院实验报告课程名称：数据仓库与数据挖掘系别：计算机应用技术系专业：软件工程学号：1099111130姓名：陈天任学期：2012春季学期实验成绩：实验项目列表序号实验名称成绩1SQL Server Integration Services2SQL Server Analysis Services3SQL Server Reporting Services456789101112指导教师签字：实验名称：实验一SQL Server Integration Services实验时间:2012.4.17实验地点:S201实验目的：熟悉数据仓库的ETL操作,熟悉SQL Server2005中SSIS的使用；熟练掌握平面文件、excel文件和sql server三者之间的数据转换；实验步骤：启动SSMS,在sql server2005中新建一个数据库命名为dw。

在dw数据库上单击鼠标右键，在弹出的快捷菜单中，选择“任务→导入数据”,设置表名字T2、选择文件源类型excel、选择文件地址、选择导入的数据库dw、设置字段名、设置字段类型。

所有的设置完成点击“完成”.打开数据库，查看表，刷新，导入完成。

在Microsoft SQL Server2005中启动SQL Server Business Intelligence Development Studio，在文件菜单中选择“新建→项目”，在弹出的新建项目对话框中选择，填好名称和位置后，点击确定。

（1）在Microsoft SQL Server2005的dw数据库中，新建user表，结构如下一图：新建系别表，结构如下二图：（2）控制流中添加数据流任务，数据流中添加，，。

（3）设置平面文件源，源文件text1,设置OLE DB，第四列“系别编号”参照新建的系别表中的“编号”，将test1中的前三列及系别表中的系别列导入到dw数据库中的user表中，建立三者的关系，点击文件点启动，等三个控件都变成绿色代表导入成功。

3.将AdventureWorks数据Production.TransactionHistoryArchive表里ProductID,Quantity,ActualCost这三列的数据，按照下表列出的任务、容器、数据源和目标转换到results.xls文件中。

(1).控制流中添加数据流任务，数据流任务（Calculate Values）在包中执行数据流。

(2)数据流中添加设置名为Extract Data，数据库的TransactionHistoryArchive表中加载归档销售事务源。

(3)数据流中添加设置名为Calculate LineItemTotalCost。

此转换通过将每个销售事务的成本与数量相乘（Quantity*ActualCost）并将其结果存储在新列中来创建一个新列LineItemTotalCost。

然后，此新列会添加至每个输出行中。

(4)数据流中添加聚合转换Sum Quantity and LineItemTotalCost）按ProductID列对数据进行分组，并且对于每一个ProductID，都计算其Quantity列的和来作为QuantitySum列，然后计算LineItemTotalCost列的和作为TotalCostByID列。

(5)数据流中添加设置名为Calculate Average Cost）向每一个输出行添加一个新列AvgCostByID。

此列包含由每一个ProductID的QuantitySum得来的TotalCostByID。

(6)数据流中添加设置名为Sort by ProductID按ProductID列对结果进行排序。

(7)数据流中添加设置名为Load Data将数据保存至excel文件results.xls。

(8)完成上述步骤，通过关系连接各个数据流任务。

关系连接好之后，点击文件启动，等所有的任务都变成了绿色。

实验总结：通过本次实验了解了SQL SERVER2005中的示例数据库，了解并熟练掌握数据的导入导出，使用并示例数据库中的表。

并且熟练的掌握了其应用。

实验名称：实验二SQL Server Analysis Services实验时间:2012.04.27实验地点:S203实验目的：掌握决策树挖掘技术；掌握Microsoft时序挖掘技术;掌握Microsoft关联规则挖掘技术；掌握Microsoft时序分析与聚类分析挖掘技术；深刻的对数据挖掘相关名词进行理解和运用实验步骤：1.创建一个Analysis Services项目(1).打开Microsoft SQL Server Management Studio，连接好数据库，确认是否有Adventure Works与Adventure Works DW两个数据库，(2).打开Microsoft Visual Studio，点击文件—新建项目—Analysis Services项目，然后将项目名称改为Adventure Works.点击确定完成。

2.创建一个数据源（1）.在解决方案资源管理器中，右键单击“数据源”文件夹，然后选择“新建数据源。

系统将打开数据源向导。

在“欢迎使用数据源向导”页面中，单击“下一步”按钮。

单击“新建”按钮向AdventureWorks数据库添加连接。

（2）在“连接管理器”的“提供程序”列表中，选择“本机OLEDB\Microsoft OLE DBProvider for SQL Server”；数据库服务器名为本地服务器也可填localhost；使用SQL server身份验证；在选择或输入一个数据库名栏中选择Adventure Works DW数据库；点击测试按钮，显示测试成功之后点击下一步继续。

（3）在“模拟信息”页中，选择“默认值”，再单击“下一步”。

在“完成向导”页面中，数据源的默认名称为Adventure Works DW。

单击“完成”。

新的数据源Adventure Works DW将显示在解决方案资源管理器的“数据源”文件夹中。

3.创建数据源视图（1）.在解决方案资源管理器中，右键单击“数据源视图”，选择“新建数据源视图”，在“欢迎使用数据源视图向导”页上，单击“下一步”。

（2）.在“选择数据源”页的“关系数据源”下，系统将默认选中您在上一个任务中创建的Adventure Works DW数据源。

单击“下一步”。

在“选择表和视图”页上,选择下列各表，然后单击右箭头键，将这些表包括在新数据源视图中：a.dbo.ProspectiveBuyerb.dbo.vAssocSeqLineItemsc.dbo.vAssocSeqOrdersd.dbo.vTargetMaile.dbo.vTimeSeries(3).在“完成向导”页上，默认情况下，系统将数据源视图命名为Adventure Works DW。

单击“完成”。

系统将打开数据源视图设计器，显示Adventure Works DW数据源视图。

点击完成按钮出现如下所示的Adventure Works DW数据源视图。

5.数据挖掘结果分析1.Microsoft决策树挖掘技术—创建用于目标邮件方案的挖掘结构(1).在解决方案资源管理器中，右键单击“挖掘结构”并选择“新建挖掘结构”。

在“欢迎使用数据挖掘向导”页上，单击“下一步”。

(2).在“选择定义方法”页上，确认已选中“从现有关系数据库或数据仓库”，再单击“下一步”。

在“选择数据挖掘技术”页的“您要使用何种数据挖掘技术？”下，选择“Microsoft决策树”。

(3).在“选择数据源视图”页上，请注意已默认选中Adventure Works DW。

在数据源视图中，单击“浏览”查看各表，然后单击“关闭”返回该向导。

(4).在“指定表类型”页上，选中vTargetMail表旁边“事例”列中的复选框，再单击“下一步”。

a.在“指定定型数据”页上，确保已选中CustomerKey列旁边Key列中的复选框。

b.选中BikeBuyer列旁边的“输入”和“可预测”。

c.选中以下各列旁边的“输入”复选框：Age、CommuteDistance、EnglishEducation、EnglishOccupation、FirstName、Gender、GeographyKey、HouseOwnerFlag、LastName、MaritalStatus、NumberCarsOwned、NumberChildrenAtHome、Region、TotalChildren、YearlyIncome。

(5)a.在“完成向导”页上的“挖掘结构名称”中，键入Targeted Mailing。

b.在“挖掘模型名称”中，键入TM_Decision_Tree。

c.选中“允许钻取”复选框，点完成。

决策树结果分析：（1）根据我们的条件什么样的因素影响着购买自行车的行为，通过我们挖掘的决策树我们可以看出，年龄是影响购买自行车行为的最重要的因素，所以根据年龄分组之后，基于年龄因素分组之上还有很多影响购买自行车行为的因素。

从决策树上我们不难看出有没有汽车、是否单身，居住地区等因素都是影响购买自行车行为的因素。

（2）从图中可以看出年龄小于36，没有汽车的人购买的可能性最大。

年龄在36-44之间没有汽车或者有一辆汽车购买的可能性也很大。

依赖关系网络结果分析：（1）我们可以根据依赖关系网络图预测出各个属性之间的关系，也能推断出多种属性组合所影响的行为。

通过节点能看出属性一向可预测属性的强度，根据选项卡颜色的比例可以看出所选节点预测哪些节点，它本身又是由哪些节点预测的。

（2）我们的关系网，购买自行车的行为为可预测属性，年龄，是否有车，居住地址，收入等这些因素就是会影响可预测属性结果的属性。

从中我们不难看出年龄的颜色比例是最深的，各个属性之间也是相互影响的。

实验总结：通过本次实验大致谅解了决策树挖掘技术、Microsoft时序挖掘技术、Microsoft关联规则挖掘技术、Microsoft时序分析与聚类分析挖掘技术；同时对数据挖掘相关名词有了一定的理解。

实验名称：实验三SQL Server Reporting Services实验时间:2012.5.10实验地点:S203实验目的：1.复习前两次实验的数据挖掘技术.2.根据挖掘结果生成报表服务。

实验步骤：1.先利用实验一的知识把老师给的数据源导入数据库。

2.在利用实验二的知识对几个表和相关字段进行数据挖掘和分析。

3.生成报表服务：（1）打开Business Intelligence Development Studio，文件→新建→项目→新建项目→项目类型→商业智能项目→模板→报表服务器向导。