基于神经网络型数据挖掘技术的股价预测_冯家诚

基于神经网络型数据挖掘技术的股价预测_冯家诚
基于神经网络型数据挖掘技术的股价预测_冯家诚

收稿日期:2008-11-11;修订日期:2009-01-15。

作者简介:冯家诚(1979-),男,安徽无为人,硕士研究生,主要研究方向:数据挖掘; 马锐(1972-),女,北京人,副教授,主要研究方向:人工智能。

文章编号:1001-9081(2009)S1-0155-02

基于神经网络型数据挖掘技术的股价预测

冯家诚1

,马 锐

2

(1.华商基金管理有限公司运营保障部,北京100034; 2.北京理工大学软件学院,北京100081)

(fengjc@hsfund .com )

摘 要:提出适用于神经网络型数据挖掘的过程模型。按照选取数据样本、数据转换、网络建模、网络仿真、结果评价这样一个完整的数据挖掘过程,对上证指数走势进行预测,得到了较高的预测精度。说明了神经网络型数据挖掘技术在非线性系统预测中的优势,探讨了非线性系统预测的一种新思路。

关键词:数据挖掘;BP 网络;股价预测中图分类号:TP309 文献标志码:A

Stock pr i ce foreca st ba sed on da t a m i n i n g of neura l networks

FENG J ia 2cheng 1

,MA Rui

2

(1.O peration and Support D epart m ent,Huashang Fund M anage m ent Co m pany L i m ited,B eijing 100034,China;

2.School of Soft w are,B eijing Institute of Technology,B eijing 100081,China )

Abstract:The authors gave a p r ocedure model for data m ining based on neural net w orks .According t o each step of the model,the technol ogy of data m ining could p r ovide a higher accuracy of p redicti on of st ock p rice forecast,which p r oved the advantage of data m ining in the field of no 2linear f orecast .M ean while,a ne w method t o the non 2linear f orecast was als o poposed .

Key words:data m ining;BP N;st ock p rice forecast

0 引言

就股市投资而言,辨认市场的运动规律,对将来时刻的股价指数进行预测,是股票市场投资决策的关键。

目前,经常采用的预测方法主要通过移动平均、回归分析等线性方法展开。随着科学技术的发展,出现了一些新型的股票价格预测方法,如基于神经网络和遗传算法的股价预测、基于小波分析的股价预测和基于行为金融学的股价预测。

对于神经网络在股价预测中的应用,研究者们已经做了大量的研究

[1-2]

。但是,现有的研究主要是围绕神经网络模

型的构建和模型的优化展开的,着重于技术方面的解决,缺少对解决此类问题方法的讨论。

本文根据数据挖掘过程,以BP 神经网络模型作为技术关键,通过实证分析,定量预测了上证指数走势,说明了BP 神经网络在预测股票市场方面的有效性。

1 基于神经网络的数据挖掘过程

在运用数据挖掘技术预测股价走势之前,需要确定数据挖掘的一般过程。参考S AS 研究所的SE MMA 模型和SPSS 公司的5A 模型[3],并结合神经网络数据挖掘技术的自身特点,确定基于神经网络型数据挖掘一般过程如图1所示。

以上步骤不是一次完成的,其中某些或者全部步骤可能需要反复进行。

2 股价预测过程

2.1 问题定义

在对股票市场预测分析之前,辨认其运动规律是非常必

要的。如果市场是线性的,则线性的预测方法就能够与之相适应。但如果市场是非线性的,那么仅依靠线性的方法去预测股价,就容易丢失很多有用的信息[4]。已有的研究成果表明,现阶段的中国股市具有非线性的特征。因此,运用神经网络的方法进行股价预测具有特殊的优越性。

在这样的背景下,此次数据挖掘的目的就是针对我国股市的非线性特征,建立符合这种特征的神经网络模型。在此

基础上,通过实证研究来证明模型预测的有效性,说明基于神经网络的预测方法在股价预测中的优势

图1 基于神经网络的数据挖掘过程

2.2 数据选样2.2.1 数据样本的选取

就股票市场而言,数据样本的选取主要遵循两个原则:一是尽可能选择符合交易规律、并且交易特征相对明显的样本;二是顾及神经网络模型本身的性能。

在此次试验中,选取2004211230—200524229间连续100个交易日的上证综合指数作为待挖掘数据样本,并根据需要将其划分为训练样本和测试样本两个部分。上证综合指数作

第29卷2009年6月

 

计算机应用

Journal of Co mputer App licati ons

 

Vol .29June 2009

为国内股市的重要评测指标之一,能够比较准确地反映股市行情的变化特征,具有较高的可预测性和预测价值。

2.2.2 样本向量的确定

考虑到不加选择地选取会使数据庞杂,增加系统负荷,降低网络的功能。反之,选取的指标过少又难以描述股票市场的特点。因此,对于样本向量的各个分量,应该选取能充分反映股票市场交易特征的定量指标。

通过对上证综合指数各项指标的研究,确立8个样本向量见表1,其中,ξ1~ξ7为输入向量,ξ8为输出向量。

表1 神经网络模型向量

样本向量含义样本向量含义ξ1

开盘价

ξ5成交额

ξ2最高价ξ6涨跌量ξ3最低价ξ7涨跌幅ξ4

成交量

ξ8

收盘价

2.3 数据转换

在数据挖掘过程中,对原始数据进行转换主要基于以下两个原因[5]:

1)网络的各个输入分量有不同的意义和不同的量度,数据转换可以赋予各输入分量以同等重要的地位;

2)BP 网络的神经元多采用Sig moid 活化函数,其输出值一般在0~1或-1~1之间。通过数据转换,可防止因输入数据的绝对值过大而使神经元的输出饱和,继而使权值调整进入误区。

从选取的上证指数数据来看,其数值较大,极容易使试验中采用的BP 模型瘫痪。因此必须进行适当的数据转换,对数据样本进行归一化处理。转换公式为:

A =(X -V m in )/(V max -V m in )

(1)

其中X 为变量的原始值,V m in 和V max 分别是变量的最小和最大值,A 为归一化后的变量值。

经过归一化处理,所有的分量都被限制在0~1之间变化,满足了下一步实验中网络训练和网络测试的需要。

2.4 网络建模2.4.1 建立模型

根据BP 模型的工作原理

[6]

,按照软件工程的方法,在本

次实验中使用VC ++作为开发工具,实现了神经网络仿真工具,为整个数据挖掘过程提供了关键的建模准备。

2.4.2 优化模型

根据定量比较分析的方法,通过大量数据实验对模型结构进行优化,设置了学习步长、隐节点数、活化函数等关键性网络参数,从而完成了网络模型的优化,确定了比较适用于股价预测的网络模型。总结模型优化的结果如下:

1)学习步长采用变步长方法;

2)矩参数α=0.01,权及阈值的初始域为(-0.05,0.05);

3)网络的拓扑结构为7(ξ1~ξ7)-9-1(ξ8);

4)活化函数为Sig moid ()活化函数。2.5 网络仿真

利用优化后的BP 网络模型,在选定的数据样本中,选取

2004211230—200524215间连续90个交易日作为训练样本,对2005204218—2005204229间10个交易日的收盘价指数进行预

测。

2.5.1 网络训练

利用优化后的网络模型,导入训练数据样本,对网络进行训练并保存训练后的网络结构和训练结果。

分析网络训练结果如下:最大绝对误差为16.97;最小绝对误差为0.02;最大相对误差为1.

266%;最小相对误差为

01002%。

由上述结果可知,网络的训练效果较好,可以利用训练后的网络结构进行下一步的预测。

2.5.2 网络测试

将训练后的网络结构和测试样本导入神经网络仿真工具中,对收盘价指数进行预测。

为了分析BP 模型的预测精度,将网络模型的预测值和真实值导入SPSS 软件中,作时间序列图如图2所示。

图2 收盘价指数时间序列图

由图2可知,网络模型预测值与收盘价实际值基本一致,初步说明了基于神经网络的数据挖掘技术在股价预测中的可行性和实用性。

2.6 结果评价

在数据挖掘的最后一个阶段,需要结合专业领域知识对挖掘结果进行分析评价,使之符合实际应用的需要。

2.6.1 预测效果分析

由图2可知,模型预测值与实际值的涨跌一致,说明在短

期内,本次试验所建立的模型可以模拟股市的短期走势。进

一步分析预测精度可知,模型的短期预测精度均可以达到

95%以上。因此,在宏观经济环境没有发生重大变化的情况

下,使用此预测模型将为投资者提供较好的决策依据。

2.6.2 局限性分析

为了分析模型预测的局限性,作预测误差条状图如图3所示。在图中可以清楚地看出,随着时间的推移,预测值和实际值之间的绝对误差和相对误差总体均呈上升趋势。由此可见,所建的模型尚不适用于股价走势的中长期预测。

结合BP 模型的特点和影响股价走势的主要因素[7],总结神经网络型数据挖掘技术对中长期预测无效的主要原因如下:

1)在本次试验中,选取模型输入向量时没有考虑经济景

气指数、外围市场环境、突发性事件等对股市具有关键影响的因素,显然,这在一定程度上将影响模型的预测精度。

2)虽然在网络模型收敛到极值点时能够得到较好的学

习精度,但同时也造成了对样本空间的过度拟合,从而对预测样本的推广效果较差。

(下转第183页) 

651 计算机应用

第29卷

}else{if(Adjlevel(G,V2,lo w2,h igh2))return0;

lo w2=h igh2;

}

coun t1=coun t2;//为访问下一层做准备

level++;//当前层数加1

}//while }//if

return1;//G是二部图

}//B igraphDecisi on 分析上述算法,每个顶点至多进一次队列。遍历图的过程实质上是通过边找邻接点的过程,因此其耗费的时间则取决于图所采用的存储结构。当用邻接矩阵作图的存储结构时,查找每个顶点的邻接点所需时间是O(n2)[4]。借助于G的邻接矩阵容易判定任意两个点之间是否有边相连,因为G的相应的广度优先生成树的同层上的任何两点至多被判断1次是否在G中邻接,所以判断各棵树的同层上任何两点在G中是否邻接的时间复杂度不会超过O(n2),所以整个算法的时间复杂度为O(n2)。

3.2 计算过程的示例

对于图1给出的一个无向图G,判断其是否为二部图

图1 无向图G

如果通过定理1来判定,那么需要求得G的所有回路,实现起来很复杂,而且如果G的规模更大些,则判断起来就更困难了。而通过定理2,算法从图中任一点(不妨设为A)出发进行广度优先遍历,在遍历过程中,依次将奇数层上的节点放入V

1,偶数层上的节点放入V2,并同

时判断同层节点中是否存在两个在G中邻接的点,如果存

在,则G不是二部图。图G的广度优先生成树,如图2所示。

从图2中可清楚地看到,同一层上的任意两个节点在G

中都不邻接,所以图G是具有互补顶点子集V

1

V

2

的二部

图。其中V

1

={A,C,G,H,E,J},V2={B,F,D,I}。

图2 G的广度优先生成树

4 结语

如果通过求出图中所有回路的方法来判定二部图,那么

需要指数级的时间复杂度。本文利用图的广度优先遍历,提

出了二部图判定一个新的充要条件,并证明了它。通过该充

要条件来进行二部图的判定是高效的,文中给出了相应的二

部图判定的实现算法,算法时间复杂度仅为O(n2),很好地

解决了二部图的判定问题。

志谢 此文的完成过程中得到同事曲大鹏和范铁生老师

的大力支持,在此表示衷心地感谢。

参考文献:

[1] 耿素云,屈婉玲.离散数学[M].北京:高等教育出版社,1998.

[2] 乔维声.离散数学[M].西安:西安电子科技大学出版社,2006.

[3] SERRA M,KENT K.U sing FPG A s t o s olve the Ha m ilt onian cycle

p r oblem[C]//I SCASπ03:Pr oceedings of the2003I nternati onal

Sy mposium on Circuits and Syste m s.W ashingt on,D C:I EEE Com2

puter Society,2003:228-231.

[4] 严蔚敏,吴伟民.数据结构[M].北京:清华大学出版社,2003. (上接第156页)

3)样本中可能包含不符合经济规律的随机样本。这会

使网络模型提取了某些特殊的特征,无法有效地对普遍情况

进行推广。

另外,中国股市波动剧烈,各种因素的综合作用也使得长

期股指的变动具有极大的不确定性。

就提高预测精度而言,可以考虑对BP网络模型进一步

优化,并将其与其他技术结合起来,使之具有更高的实用

性[8]。这也是目前研究的主要方向。

图3 预测误差条状图

3 结语

本文将基于神经网络的数据挖掘技术运用于股价预测,

通过实证研究说明了其在非线性系统预测中的优势,提出了

研究同类问题的一种新的思路。

参考文献:

[1] DONALDS ON R G,K AMST RA M.Forecast combining with neural

net w orks[J].Journal of Forecasting,1996,15(1):49-61.

[2] KRYZ ANOW SKIL,G ALLER M,WR I GHT D W.U sing artificial

net w orks t o p ick st ocks[J].Financial Analyst Journal,1993,49

(4):21-27.

[3] (美)RUD O P.数据挖掘实践[M].拉德著,朱扬勇,译.北京:

机械工业出版社,2003.

[4] REFENES A N,Z APRAN I S A.St ock perfor mance modeling using

neural net w orks:A comparative study with regressi on models[J].

Neural Net w orks,1994,7(2):375-388.

[5] 宋擒豹.神经网络数据挖掘方法中的数据准备问题[J].计算机

工程与应用,2000,36(12):102-104.

[6] 王永庆.人工智能原理与方法[M].西安:西安交通大学出版社,

1998.

[7] 吴微,陈维强,刘播.用BP神经网络预测股票市场的涨跌[J].大

连理工大学学报,2001,41(1):91-95.

[8] 向小东,郭耀煌,刁尚敏.BP算法的改进及其在股票价格预测中

的应用[J].西南交通大学学报,2001,36(4):425-427.

381 6月王青松:新的二部图判定算法

理工大学数据仓库与数据挖掘实验一

昆明理工大学信息工程与自动化学院学生实验报告 (2012 —2013 学年第 1 学期) 课程名称:数据库仓库与数据挖掘开课实验室: 2012 年10月 30日 一、上机目的 1.理解数据库与数据仓库之间的区别与联系; 2.掌握典型的关系型数据库及其数据仓库系统的工作原理以及应用方法; 3.掌握数据仓库建立的基本方法及其相关工具的使用。 二、上机内容 内容:以SQL Server为系统平台,设计、建立数据库,并以此为基础创建数据仓库。 要求:利用实验室和指导教师提供的实验软件,认真完成规定的实验项目,真实地记录实验中遇到的各种问题和解决的方法与过程,并绘出模拟实验案例的数据仓库模型。实验完成后,应根据实验情况写出实验报告。 三、所用仪器、材料(设备名称、型号、规格等或使用软件) 1台PC及SQL 2008软件 四、实验方法、步骤和截图(或:程序代码或操作过程) 采用SQL语句创建数据库,数据库命名为:DW。如图所示:

DW数据库中包含7张维表和一张事实表。7张维表分别为:订单方式维表、销售人员及销售地区维表、发货方式维表、订单日期维表、客户维表、订单状态维表、客户价值维表。建立7张维表语句和建立7张维表的ETL如下: 语句执行成功的结果如图所示:

DW数据库包含的事实表为FACT_SALEORDER。建立1张事实表语句和建立1张事实表的ETL如下: 三、建事实表 CREATE TABLE FACT_SALEORDER( SALEORDERID INT, TIME_CD V ARCHAR(8), STATUS INT, ONLINEORDERFLAG INT, CUSTOMERID INT, SALESPERSONID INT, SHIPMETHOD INT, ORDER_V ALUES INT, SUBTOTAL DECIMAL(10,2), TAXAMT DECIMAL(10,2), FREIGHT DECIMAL(10,2)) ----------------------------------- 四、事实表的ETL /* FACT_SALEORDER的ETL*/ TRUNCATE TABLE FACT_SALEORDER INSERT INTO FACT_SALEORDER SELECT SalesOrderID,CONVERT(CHAR(8),,112) , ,,ISNULL,0),ISNULL,0),,,,, FROM A, V_SUBTOTAL_V ALUES B WHERE >= AND <

基于Bp神经网络的股票预测

基于B p神经网络的股 票预测 IMB standardization office【IMB 5AB- IMBK 08- IMB 2C】

基于神经网络的股票预测 【摘要】: 股票分析和预测是一个复杂的研究领域,本论文将股票技术分析理论与人工神经网络相结合,针对股票市场这一非线性系统,运用BP神经网络,研究基于历史数据分析的股票预测模型,同时,对单只股票短期收盘价格的预测进行深入的理论分析和实证研究。本文探讨了BP神经网络的模型与结构、BP算法的学习规则、权值和阈值等,构建了基于BP神经网络的股票短期预测模型,研究了神经网络的模式、泛化能力等问题。并且,利用搭建起的BP神经网络预测模型,采用多输入单输出、单隐含层的系统,用前五天的价格来预测第六天的价格。对于网络的训练,选用学习率可变的动量BP算法,同时,对网络结构进行了隐含层节点的优化,多次尝试,确定最为合理、可行的隐含层节点数,从而有效地解决了神经网络隐含层节点的选取问题。 【abstract] ,,makingin-depththeoreticalanalysisandempiricalstudiesontheshort-termclosingpriceforecastsofsinglestock. Secondly,makingresearchonthemodelandstructureofBPneuralnetwork, learningrules,weightsofBPalgorithmandsoon,buildingastockshort-termforecastingmodelbasedontheBPneuralnetwork,,usingsystemofmultiple-inputsingle-outputandsinglehiddenlayer,,. 【关键词】BP神经网络股票预测分析 1.引言 股票市场是一个不稳定的非线性动态变化的复杂系统,股价的变动受众多因素的影响。影响股价的因素可简单地分为两类,一类是公司基本面的因素,另一类是股票技术面的因

数据挖掘与预测分析

数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,预测未来业绩并采取预防措施。 数据挖掘的含义是广泛的,每个人有每个人不同的体会,每个人有每个人的见解。但这些体会、见解是有许多共通之处的,从而可以归纳出数据挖掘的技术定义以及商业定义:从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。由于每个人的思维方式不同,这个定义可以被解读为以下几个层次:①数据源必须是真实的、大量的、含噪声的;②发现的是用户感兴趣的知识;③发现的知识要可接受、可理解、可运用;④这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。 预测是大数据的核心,数据挖掘之后的预测分析无疑成为开拓市场的重要环节。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析和假设情况分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,以预测未来业绩并采取预防措施。这种级别的分析可以为规划流程提供各种信息,并对企业未来提供关键洞察。不仅可提供预测分析,使用户可以执行高级分析、发布并与更广泛的用户群交流。还可以提供

应用神经网络进行经济预测方法的改进

龙源期刊网 https://www.360docs.net/doc/8711299030.html, 应用神经网络进行经济预测方法的改进 作者:廖育梅 来源:《商场现代化》2013年第33期 摘要:应用神经网络进行经济预测已成为经济预测领域的重要手段,本文基于对神经网 络经济预测方法的概念、特征、优势的分析,根据神经网络预测方法的特点,本文提出一些改进方法,希望能够推动经济网络预测方法更好应用。 关键词:神经网络应用经济预测改进 神经网络作为新时代发展最快的人工智能领域研究成果之一,在科学计算、自动控制等方面得到了成功的运用。近年来,我国学者们将神经网络运用于经济预测领域,并且不断地改进应用方法,使基于神经网络的经济预测系统更具效益。本文在此背景下,对神经网络经济预测的应用进行了研究,围绕经济预测的方法应用提出相应的改进建议,从而丰富了经济增长预测理论与实践。 一、神经网络经济预测的方法的概述 1.概念 神经网络,是对人脑或自然神经网络若干基本特征的抽象和模拟。从解剖学和生理学的角度来看,人脑是一个复杂的并行系统,他是由大量的细胞组合而成,这些细胞相互连接。神经细胞与人体中的其他细胞的关键区别在于,神经细胞具有产生、处理和传递信号的能力。在人工神经网络的发展过程中,对生物神经系统进行了不同模拟,提出了各种各样的神经网络模型,其中具有代表的网络模型有感知器神经网络、线性神经网络、BP网络、径向基函数网络、自组织网络。 2.特征 神经网络经济预测的方法不同传统的预测方法,它对经济系统里的多种因素进行分析,进行有效地多输入、多输出的经济预测数据。可以说神经网络经济预测的方法具有以下几种特征:其一,由于神经网络是由复杂的因素构成的,它的输入向量维数比较多。其二,经济系统数据具有很强的非线性,使得输入的向量各分量之间存在着复杂的耦合关系。其三,经济系统处在一个“黑箱”模型下,导致数据之间的相互影响不存在明确表达式的关系。神经网络也会随着时间的增长,数据呈现出增长的趋势。 3.优势 用神经网络进行经济预测相对来说比较准确。因为这种神经网络在计算量允许的范围内,可以很好地拟合任意多对多的映射关系,数据拟合的结果表明,系统拟合相对误差在0%—

《大数据时代下的数据挖掘》试题及答案..

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

数据挖掘期末大作业任务

数据挖掘期末大作业 1.数据挖掘的发展趋势是什么?大数据环境下如何进行数据挖掘。 对于数据挖掘的发展趋势,可以从以下几个方面进行阐述: (1)数据挖掘语言的标准化描述:标准的数据 挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。 (2)寻求数据挖掘过程中的可视化方法:可视 化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。数据的可视化起到了推动人们主动进行知识发现的作用。 (3)与特定数据存储类型的适应问题:根据不 同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。 (4)网络与分布式环境下的KDD问题:随着 Internet的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。因此,考虑适应分布式与网络环境的工具、技术及系统将是数据挖掘中一个最为重要和繁荣的子领域。 (5)应用的探索:随着数据挖掘的日益普遍,其应用范围也日益扩大,如生物医学、电信业、零售业等 领域。由于数据挖掘在处理特定应用问题时存在局限性,因此,目前的研究趋势是开发针对于特定应用的数据挖掘系统。 (6)数据挖掘与数据库系统和Web数据库系统的集成:数据库系统和Web数据库已经成为信息处 理系统的主流。 2. 从一个3输入、2输出的系统中获取了10条历史数据,另外,最后条数据是系统的输 入,不知道其对应的输出。请使用SQL SERVER 2005的神经网络功能预测最后两条数据的输出。 首先,打开SQL SERVER 2005数据库软件,然后在界面上右键单击树形图中的“数据库”标签,在弹出的快捷菜单中选择“新建数据库”命令,并命名数据库的名称为YxqDatabase,单击确定,如下图所示。 然后,在新建的数据库YxqDatabas中,根据题目要求新建表,相应的表属性见下图所示。

基于BP神经网络预测模型指南

基于BP神经网络的国际黄金价格预测模型 公文易文秘资源网顾孟钧张志和陈友2009-1-2 13:35:26我要投稿添加到百度搜藏 [摘要] 为了寻找国际黄金价格与道琼斯工业指数、美国消费者指数,国际黄金储备等因素之间的内在关系,本文对1972年~2006年间的各项数据首先进行归一化处理,利用MATLAB神经网络工具箱进行模拟训练,建立了基于BP神经网络的国际黄金价格预测模型 [摘要] 为了寻找国际黄金价格与道琼斯工业指数、美国消费者指数,国际黄金储备等因素之间的内在关系,本文对1972年~2006年间的各项数据首先进行归一化处理,利用MATLAB神经网络工具箱进行模拟训练,建立了基于BP神经网络的国际黄金价格预测模型。 [关键词] MATLAB BP神经网络预测模型数据归一化 一、引言 自20世纪70年代初以来的30多年里,世界黄金价格出现了令人瞠目的剧烈变动。20 世纪70年代初,每盎司黄金价格仅为30多美元。80年代初,黄金暴涨到每盎司近700美元。本世纪初,黄金价格处于每盎司270美元左右,此后逐年攀升,到2006年5月12日达到了26年高点,每盎司730美元,此后又暴跌,仅一个月时间内就下跌了约160美元,跌幅高达21.9%。最近两年,黄金价格一度冲高到每盎司900多美元。黄金价格起伏如此之大,本文根据国际黄金价格的影响因素,通过BP神经网络预测模型来预测长期黄金价格。 二、影响因素 刘曙光和胡再勇证实将观察期延长为1972年~2006年时,则影响黄金价格的主要因素扩展至包含道琼斯指数、美国消费者价格指数、美元名义有效汇率、美国联邦基金利率和世界黄金储备5个因素。本文利用此观点,根据1972年~2006年各因素的值来建立神经网络预测模型。 三、模型构建

神经网络在数据挖掘中的应用

神经网络在数据挖掘中的应用

————————————————————————————————作者:————————————————————————————————日期: ?

神经网络在数据挖掘中的应用 摘要:给出了数据挖掘方法的研究现状,通过分析当前一些数据挖掘方法的局限性,介绍一种基于关系数据库的数据挖掘方法——神经网络方法,目前,在数据挖掘中最常用的神经网络是BP网络。在本文最后,也提出了神经网络方法在数据挖掘中存在的一些问题. 关键词:BP算法;神经网络;数据挖掘 1.引言 在“数据爆炸但知识贫乏”的网络时代,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据挖掘技术应运而生。并显示出强大的生命力。和传统的数据分析不同的是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。所得到的信息具有先未知,有效性和实用性三个特征。它是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。作为近年来来一门处理数据的新兴技术,数据挖掘的目标主要是为了帮助决策者寻找数据间潜在的关联(Relation),特征(Pattern)、趋势(Trend)等,发现被忽略的要素,对预测未来和决策行为十分有用。 数据挖掘技术在商业方面应用较早,目前已经成为电子商务中的关键技术。并且由于数据挖掘在开发信息资源方面的优越性,已逐步推广到保险、医疗、制造业和电信等各个行业的应用。 数据挖掘(Data Mining)是数据库中知识发现的核心,形成了一种全新的应用领域。数据挖掘是从大量的、有噪声的、随机的数据中,识别有效的、新颖的、有潜在应用价值及完全可理解模式的非凡过程。从而对科学研究、商业决策和企业管理提供帮助。 数据挖掘是一个高级的处理过程,它从数据集中识别出以模式来表示的知识。它的核心技术是人工智能、机器学习、统计等,但一个DM系统不是多项技术的简单组合,而是一个完整的整体,它还需要其它辅助技术的支持,才能完成数据采集、预处理、数据分析、结果表述这一系列的高级处理过程。所谓高级处理过程是指一个多步骤的处理过程,多步骤之间相互影响、反复调整,形成一种螺旋式上升过程。最后将分析结果呈现在用户面前。根据功能,整个DM系统可以大致分为三级结构。 神经网络具有自适应和学习功能,网络不断检验预测结果与实际情况是否相符。把与实际情况不符合的输入输出数据对作为新的样本,神经网络对新样本进行动态学习并动态改变网络结构和参数,这样使网络适应环境或预测对象本身结构和参数的变化,从而使预测网络模型有更强的适应性,从而得到更符合实际情况的知识和规则,辅助决策者进行更好地决策。而在ANN的

基于神经网络的股票价格走势预测及其MATLAB实现——论文

基于神经网络的股票价格走势预测及其MATLAB实现 摘要 伴随着我国经济的高速发展和广大投资者日益旺盛的需求,股票投资已经成为一种常见的投资手段,而股票价格预测也逐渐成为广大投资者关心和研究的重点问题。股票价格的波动是一个高度复杂化的非线性动态系统,其本身具有诸如大规模数据、噪声、模糊非线性等特点。针对这些特点本文在深入分析股票市场实际预测中所面临的关键问题和比较各种已有的股票预测方法的基础上,探讨运用神经网络这一人工智能工具,研究基于历史数据分析的股票预测模型。 神经网络是建立在对大规模的股票历史数据的学习仿真的基础上,运用黑盒预测方式找出股市波动的内在规律,并通过将其存储在网络的权值、阈值中,以此来预测未来短期或是中长期的价格走势。 关键字:神经网络,股票,预测,MATLAB工具箱 ABSTRACT Along with the economy growth and increasingly strong demand of many investors in our country, stock has become a common means of investment, and stock price forecast has greatly been one of the focuses of study topic. The change of stock price is a highly complicated nonlinear dynamic system, itself has many characteristics such as massive data, noise, fuzzy and nonlinear. This article analyses the key issues being existent in the real stock market prediction and compares various existing stock forecasting methods. We will try to research on stock price prediction model based on a neural network with huge historical data. Neural network is based on studying massive historical data, uses the black box of forecasting ways to find the internal disciplinarian of stock market, and stores them in the weights and valves values of the neural network for predicting the short-term or long-term trend in the future. KEYWORD:Neural networks, Stock, prediction, MATLAB toolbox

数据挖掘概念与技术(第三版)部分习题答案

1.4 数据仓库和数据库有何不同?有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改且随时间变化的数据集合,用来支持管理人员的决策,数据库由一组内部相关的数据和一组管理和存取数据的软件程序组成,是面向操作型的数据库,是组成数据仓库的源数据。它用表组织数据,采用ER 数据模型。 相似:它们都为数据挖掘提供了源数据,都是数据的组合。 1.3 定义下列数据挖掘功能:特征化、区分、关联和相关分析、预测聚类和演变分析。使用你熟悉的现实生活的数据库,给出每种数据挖掘功能的例子。 答:特征化是一个目标类数据的一般特性或特性的汇总。例如,学生的特征可被提出,形成所有大学的计算机科学专业一年级学生的轮廓,这些特征包括作为一种高的年级平均成绩(GPA :Grade point aversge) 的信息, 还有所修的课程的最大数量。 区分是将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。例如, 具有高GPA 的学生的一般特性可被用来与具有低GPA 的一般特性比较。最终的描述可能是学生的一个一般可比较的轮廓,就像具有高GPA 的学生的75% 是四年级计算机科学专业的学生,而具有低GPA 的学生的65% 不是。 关联是指发现关联规则,这些规则表示一起频繁发生在给定数据集的特征值的条件。例如,一个数据挖掘系统可能发现的关联规则为:major(X, “ computing science ” ) ? owns(X, “ personal computer ” ) [support=12%, confidence=98%] 其中,X 是一个表示学生的变量。这个规则指出正在学习的 学生,12% (支持度)主修计算机科学并且拥有一台个人计算机。这个组一个学生拥有一台个人电脑的概率是98% (置信度,或确定度)。 分类与预测不同,因为前者的作用是构造一系列能描述和区分数据类型或概念的模型(或功能),而后者是建立一个模型去预测缺失的或无效的、并且通常是数字的数据值。它们的相似性是他们都是预测的工具: 分类被用作预测目标数据的类的标签,而预测典型的应用是预测缺失的数字型数据的值。 聚类分析的数据对象不考虑已知的类标号。对象根据最大花蕾内部的相似性、最小化类之间的相似性的原则进行聚类或分组。形成的每一簇可以被看作一个对象类。聚类也便于分类法组织形式,将观测组织成类分 层结构,把类似的事件组织在一起。 数据演变分析描述和模型化随时间变化的对象的规律或趋势,尽管这可能包括时间相关数据的特征化、区分、关联和相关分析、分类、或预测,这种分析的明确特征包括时间序列数据分析、序列或周期模式匹配、和基于相似性的数据分析 2.3 假设给定的数据集的值已经分组为区间。区间和对应的频率如下。 年龄频率 1~5200 5~15450 15~20300 20~501500 50~80700 80~11044 计算数据的近似中位数值。 解答:先判定中位数区间:N=200+450+300+1500+700+44=3194 ;N/2=1597

基于人工神经网络的经济预测模型

第33卷第1期2014年3月 计 算 技 术 与 自 动 化 Com p utin g Technolo gy and Automation Vol .33,No .1 Mar.2014 收稿日期:2013-06-03 基金项目:国家重点基础研究发展规划项目(2010CB833406);国家自然科学基金项目(40975020,41075067) ;陕西省教育厅科学研究计划项目(12JK0123);陕西省教育厅科学研究计划项目(12JK0414)作者简介:郭庆春(1979 ),男,山东聊城人,讲师,博士研究生,研究方向:资源环境与城市管理二经济预测模型(E-mail :gq c@ieecas. cn );何振芳(1983 ),女,山东泰安人,博士研究生,研究方向:神经网络三文章编号:1003-6199(2014)01-0132-05 基于人工神经网络的经济预测模型 郭庆春1,何振芳2 (1.陕西广播电视大学,陕西西安 710119; 2. 中国科学院寒区旱区环境与工程研究所,甘肃兰州 730000) 摘 要: 运用不同改进BP 算法来建立和训练人工神经网络经济预测模型,并对GDP 进行预测,结果表明:模拟值与实际值吻合较好,基于改进BP 神经网络模型预测精度高,模型的通用性和实用性强三 关键词:改进BP 算法;神经网络;GDP ;时间序列中图分类号:F224;TP183 文献标识码:A Economic Forecastin g Model Based on Artificial Neural Network GUO Qin g -chun 1,HE Zhen -fan g 2 (1.Shaanxi Radio &TV Universit y ,Xian 710119,China ; 2.Cold and Arid Re g ions Environmental and En g ineerin g Research Institute ,Chinese Academ y of Sciences ,Lanzhou 730000,China ) Abstract :The economic p rediction models of neural networks were established and trained b y different im p roved al g o -rithms.The research results show :simulated values and real values are in g ood a g reement.The model based on the im -p roved BP neural network of GDP has hi g h forecast p recision ,stron g universalit y and p racticalit y . Ke y words :im p roved BP al g orithm ;neural network ;g ross domestic p roduct ;time serial 1 引 言 国内生产总值(Gross Domestic Product , 简称GDP ) 是衡量国民经济发展情况最重要的一个指标,也是经济运行状况的综合反映三准确地预测GDP , 为经济发展提供政策参考,具有重要的现实意义三GDP 预测是对GDP 时间序列的预测,而GDP 时间序列是特殊形式的一组数据,在这组数据中前面的数据对后面的数据会产生影响,这种影响关系表现为一定的趋势变化或周期变化等三而该影响关系一般是非线性,很难建立定量的二固定的数学关系式三目前的研究方法主要有线性预测方法和非线性预测方法,如平滑法二德尔斐法二投入产出二经济计量模型二马尔可夫预测二灰色预测二神经网络方法等等三经济系统是一个非常复杂的系统,其中广泛存在着非线性二时变性和不确定作用 关系三在计量经济学基础上建立的各种经济模型, 大部分都是线性模型三线性模型在发挥巨大作用的同时,也逐渐显露出它的缺陷,即很难把握经济系统中的非线性现象,因而必然造成经济预测的误 差加大[ 1] 三而人工神经网络则可以有效地解决此类问题,理论上人工神经网络可以逼近任意非线性函数并可以随机调整三 人工神经网络(Artificial neural network ,ANN ) 是模拟人脑工作机制而建立的计算理论与技术三神经生物学家是以自下而上方法从单个神经到神经网络对刺激响应进行研究,而神经生理学家是自上而下方式对脑的认识与行为功能进行研究,在对脑的部分功能有了一定认识的基础上,数学家二计算机科学家与工程技术员,企图用数学的方法表现脑的工作过程三从1943年McCulloch 和 Pitts 提出M-P 神经网络模型开始,ANN 已经取得了在理论二技术与应用方面的效果,应用范围涉

数据仓库与数据挖掘试题

武汉大学计算机学院 2014级研究生“数据仓库和数据挖掘”课程期末考试试题 要求:所有的题目的解答均写在答题纸上,需写清楚题目的序号。每张答题纸都要写上姓名和学号。 一、单项选择题(每小题2分,共20分) 1. 下面列出的条目中,()不是数据仓库的基本特征。B A.数据仓库是面向主题的 B.数据仓库是面向事务的 C.数据仓库的数据是相对稳定的 D.数据仓库的数据是反映历史变化的 2. 数据仓库是随着时间变化的,下面的描述不正确的是()。 A.数据仓库随时间的变化不断增加新的数据内容 B.捕捉到的新数据会覆盖原来的快照 C.数据仓库随事件变化不断删去旧的数据内容C D.数据仓库中包含大量的综合数据,这些综合数据会随着时间的变化不断地进行重新综合 3. 以下关于数据仓库设计的说法中()是错误的。A A.数据仓库项目的需求很难把握,所以不可能从用户的需求出发来进行数据仓库的设计,只能从数据出发进行设计 B.在进行数据仓库主题数据模型设计时,应该按面向部门业务应用的方式来设计数据模型 C.在进行数据仓库主题数据模型设计时要强调数据的集成性 D.在进行数据仓库概念模型设计时,需要设计实体关系图,给出数据表的划分,并给出每个属性的定义域 4. 以下关于OLAP的描述中()是错误的。A A.一个多维数组可以表示为(维1,维2,…,维n) B.维的一个取值称为该维的一个维成员 C.OLAP是联机分析处理 D.OLAP是数据仓库进行分析决策的基础 5. 多维数据模型中,下列()模式不属于多维模式。D A.星型模式 B.雪花模式 C.星座模式 D.网型模式 6. 通常频繁项集、频繁闭项集和最大频繁项集之间的关系是()。C A.频繁项集?频繁闭项集?最大频繁项集 B.频繁项集?最大频繁项集?频繁闭项集 C.最大频繁项集?频繁闭项集?频繁项集 D.频繁闭项集?频繁项集?最大频繁项集

数据挖掘原理与实践-蒋盛益-答案

习题参考答案 第1 章绪论 1.1 数据挖掘处理的对象有哪些?请从实际生活中举出至少三种。 答:数据挖掘处理的对象是某一专业领域中积累的数据,对象既可以来自社会科学,又可以来自自然科学产生的数据,还可以是卫星观测得到的数据。数据形式和结构也各不相同, 可以是传统的关系数据库,可以是面向对象的高级数据库系统,也可以是面向特殊应用的 数据库,如空间数据库、时序数据库、文本数据库和多媒体数据库等,还可以是Web 数据 信息。 实际生活的例子: ①电信行业中利用数据挖掘技术进行客户行为分析,包含客户通话记录、通话时间、所 开通的服务等,据此进行客户群体划分以及客户流失性分析。 ②天文领域中利用决策树等数据挖掘方法对上百万天体数据进行分类与分析,帮助天文 学家发现其他未知星体。 ③制造业中应用数据挖掘技术进行零部件故障诊断、资源优化、生产过程分析等。 ④市场业中应用数据挖掘技术进行市场定位、消费者分析、辅助制定市场营销策略等。 1.2 给出一个例子,说明数据挖掘对商务的成功是至关重要的。该商务需要什么样的数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗? 答:例如,数据挖掘在电子商务中的客户关系管理起到了非常重要的作用。随着各个电子商务网站的建立,企业纷纷地从“产品导向”转向“客户导向”,如何在保持现有的客户 同时吸引更多的客户、如何在客户群中发现潜在价值,一直都是电子商务企业重要任务。但是,传统的数据分析处理,如数据查询处理或简单的统计分析,只能在数据库中进行 一些简单的数据查询和更新以及一些简单的数据计算操作,却无法从现有的大量数据中 挖掘潜在的价值。而数据挖掘技术却能使用如聚类、关联分析、决策树和神经网络等多 种方法,对数据库中庞大的数据进行挖掘分析,然后可以进行客户细分而提供个性化服务、可以利用挖掘到的历史流失客户的特征来防止客户流失、可以进行产品捆绑推荐等,从而使电子商务更好地进行客户关系管理,提高客户的忠诚度和满意度。 1.3 假定你是Big-University 的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如,本科生或研究生)、所修课程,以及他们的GPA。描述你要选取的结构,该结构的每个成分的作用是什么?答:任务目的是分析课程数据库,那么首先需要有包含信息的关系型数据库系统,以便查找、提取每个属性的值;在取得数据后,需要有特征选择模块,通过特征选择,找出要分析 的属性;接下来需要一个数据挖掘算法,或者数据挖掘软件,它应该包含像分类、聚类、关联分析这样的分析模块,对选择出来的特征值进行分析处理;在得到结果后,可以用 可视化软件进行显示。 1.4 假定你作为一个数据挖掘顾问,受雇于一家因特网搜索引擎公司。通过特定的例子说明,数据挖掘可以为公司提供哪些帮助,如何使用聚类、分类、关联规则挖掘和离群点检测 等技术为企业服务。 答: (1) 使用聚类发现互联网中的不同群体,用于网络社区发现; 第2 页共27 页 (2) 使用分类对客户进行等级划分,从而实施不同的服务; (3) 使用关联规则发现大型数据集中间存在的关系,用于推荐搜索。如大部分搜索了“广外”的人都会继续搜索“信息学院”,那么在搜索“广外”后会提示是否进进一步搜 索“信息学院”。

关于几种经济预测模型的应用研究

第17卷第2期2001年6月 哈尔滨商业大学学报 JoumalofHa由mumvenltyofcommerceNammsclenc髓Ed血on Vol-17.No2 JuN.2I)01 文章编号:1004—1842(2001)02—0044一04 多段式半导体激光器的端面输出谱 王佳菱1,林竹江2 (1哈尔滨商业大学基础部.黑龙_}工哈尔滨150076; 2黑龙江商业高级技术学校,黑龙江暗尔演1j0027) 摘要:在充分考虑敏光源于放太卣盅辐射、而自发辐射可能产生于半导体激光嚣(LD)有潍层中的各点等精理事妻的基础上,我们采用射线击、越递推备式的形式导由院争段式卓导体激光嚣的输出谱的解折表选或,并叶某些常见的情 ̄兄进行了简单扼要地讨论。 关键词:多段式半导体激光嚣;输出谱:射线法 中图分类号:04714文献标识码:A Expressionoft|心outputSpectrum FromMulti-Se掣nentedSemiconductorLa阶rs 肼ⅣGJ珏nn一,L.『:Ⅳ厨u了i∞矿 1Ba啪Co—D。Pann婀止Ha舳n【m嘲'】lvofC0mme盹e,Hatbln150076.ChlTla, 2Hdl帅目la“g(■mmaK】一school'mrbln15∞27,chin曲 Abst瑚ct:Taki“gintoaccountche矗ccsthattheke¨a出anon1sdeveloped矗omdleamph一丘edsponcaneouseITlis虹on(AsE)andtheAsEnlayb。genefa怔dataⅡypojnt。f出eacnvehy— erofthesellliconductorla5er(LD),theray仃acemechodhasbeenusedtodenvetheexpresslonof出eoutput8pectrLlm丘omamLdn一5。粤nenetedselconductorlaserInaddinon,bnefdescnp— tionshavebeen目vent。c踮船。矗enencountered Keywords:mul石一s。gmentedse而corlduct。rlaser:output 5peccrum;raytraceme出。d 0引言 其实,多段式半导体激光器(nsLD)也是一种常见的半导体激光器(LD),可以用夹生产双稳或调谐输出的两电极、三电极等多电极半导体激光器实际上就是nsLD中的一种。在这类激光器中.由不同电极泵浦的有源层中的载流子密度可能会不同:换句话说,由柜互间【几乎)绝缘的电极的定义的各区的折射率也可能会不同,它们间的过渡区域可以被认为是一个有一定反射能力的界面【IJ。前人的研究表明,如果LD的有源层内存在着反射率大于2×101的反射的话,其输出光谱将会发生昵显的变化目:文献…的研究结果表明,在nsLD军,文献[2】胪描述的情况是很容易得到满足的,故在研究光谱特性时多电极半导体激光器应该被看作是某种nsLD。Young等人“和weldon等人14在沿LD纵旬特定的地方人为地引进了某些反射/散射、吸收点后,用较低的成本实现了模式抑制比大亍20  万方数据

数据挖掘与数据库技术

一、填空题 1.OLAP服务器可以使用关系OLAP、或混合OLAP。 2.多维数据模型通常以三种形式存在,他们是星形模式、和事实星座形模式。3.聚类中每个训练元组的类标号是未知的,属于学习。 4.层次聚类方法可进一步分为:和分裂层次聚类。 5.数据挖掘的聚类方法中,典型的基于划分方法的聚类算法有和k中心点方法。6.关联规则的挖掘可以看作两步的过程:首先找出所有,然后生成强关联规则。7.多维数据模型通常以三种形式存在,他们是星形模式、雪花形模式和。 8.层次聚类方法可进一步分为:凝聚层次聚类和。 9.数据挖掘的聚类方法中,典型的基于划分方法的聚类算法有k均值方法和。10.强关联规则满足最小支持度和。 11.数据仓库是面向主题的、、时变的和非易失的有组织的数据集合,支持管理决策。12.OLAP服务器可以使用关系OLAP、多维OLAP或。 二、简答题: 1.什么是数据挖掘,简述数据挖掘功能。 2.数据预处理的主要任务有哪些? 3.为什么不直接对操作数据库进行联机分析,而建立分离的数据仓库。 4.简述有哪些Apriori算法的变形方法可提高Apriori算法的效率? 5.简述数据仓库的定义,并论述其关键特征。 6.为什么需要预处理数据。 7.操作数据库系统与数据仓库的区别? 8.简述决策树分类方法的关键步骤。 三、计算题 1. 给定两个对象,分别用元组(26,10,23,8),(22,7,25,7)表示。 a)计算两个对象之间的欧几里德距离; b)计算两个对象之间的曼哈顿距离; 2.假设15个销售价格记录已经排列如下: 4,6,12,15,18,30,35,37,40,48,92,95,145,156,157 a) 使用等频(等深)划分方法将它们划分为三个箱; b) 分别用箱均值、箱边界光滑。 3. 给定两个对象,分别用元组(33,8,38,6),(28,6,35,8)表示。 c)计算两个对象之间的欧几里德距离;

最新数据仓库与数据挖掘--课后答案-(陈志泊-著)-清华大学出版社

第1章数据仓库的概念与体系结构 1.数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。 2.元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据元数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。 3.数据处理通常分成两大类:联机事务处理OLTP和联机分析处理OLAP。 4.多维分析是指对以“维”形式组织起来的数据(多维数据集)采取切片(Slice)、切块(dice)、钻取(Drill-down 和Roll-up 等)和旋转(pivot)等各种分析动作,以求剖析数据,使用户能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。 5. ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。 6.数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。 7.数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集市、依赖型数据集市和操作型数据存储、逻辑型数据集市和实时数据仓库。 8.操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。 9.“实时数据仓库”意味着源数据系统、决策支持服务和数据仓库之间以一个接近实时的速度交换数据和业务规则。 10.从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以营运导向为主、以实时数据仓库和自动决策为主。 11.什么是数据仓库?数据仓库的特点主要有哪些? 答:数据仓库就是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,通常用于辅助决策支持。 数据仓库的特点包含以下几个方面:(1)面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自分离;而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。(2)集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码结构和相关特性来定义。(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦某个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作。(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含较久远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的发展历程和未来趋势做出定量分析和预测。 12. 简述数据仓库4种体系结构的异同点及其适用性。 答:(1)两层架构(Generic Two-Level Architecture)。 (2)独立型数据集市(Independent Data Mart)。 (3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。 (4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。 13. 答:数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使

相关文档
最新文档