数据挖掘在中国的现状和发展研究

合集下载

数据库技术的现状及其发展趋势研究开题报告

数据库技术的现状及其发展趋势研究开题报告

一、选题背景及意义:数据库技术主要研究如何存储、使用和管理数据 ,是计算机技术中开展最快、应用最广的技术之一。

作为计算机软件的一个重要分支,数据库技术一直是倍受信息技术界关注的一个重点。

尤其是在信息技术高速开展的今天,数据库技术的应用可以说是深入到了各个领域。

当前,数据库技术已成为现代计算机信息系统和应用系统开发的核心技术,数据库已成为计算机信息系统和应用系统的组成核心,更是未来信息高速公路的支撑技术之一。

因此,为了更好的认识和掌握数据库技术的现状及开展趋势,本文对有关数据库开展的文献进行了收集整理,以求在对现有相关理论了解、分析的根底上,对数据库开展进行综合论述,对数据库技术开展的总体态势有比拟全面的认识,从而推动数据库技术研究理论的进一步开展。

二、论文综述然而历史的开展总是在我们不经意间产生转折,所有重大技术的产生及开展都有其生存的土壤。

40年前数据库的诞生并不是关系型数据库,第一代的数据库第一次实现了数据管理与应用逻辑的别离,采用层次结构来描述数据,是层次型数据库(IM)。

第二代数据库奠基于上世纪70年代E.F Codd博士提出的关系型理论以及QL语言的创造。

实现了数据建模和数据操作处理的标准化,关系型数据库在其后的20多年的时间取得了长足的开展,得到了广泛的应用。

技术的演进主要集中在性能、扩展性和平安性等方面的提升,其根本的理论框架和技术理念并没有大的变化。

与之相反,在过去的20多年里,IT产业发生了重大的变化和一系列技术及理念的创新。

数据库所生存的外部土壤随着Internet以及在网络环境下IT系统互联互通相互协作的趋势,对信息管理技术提出了新的挑战。

2、国内研究的综述:《移动数据库技术研究综述》《Web数据库技术综述》《Web与数据库技术》《数据库技术开展趋势》三、论文提纲(一)数据库技术概论1、数据库技术概念及类型2、数据库技术开展历程3、数据库技术应用(二)数据库技术开展现状------关系数据库技术仍然是主流1、开展现状概述2、Oracle概念及应用3、Acce概念及应用4、QL概念及应用5、DB2概念及应用6、开展现状总结(三)数据库技术开展的趋势1、下一代数据库技术的开展主流面向对象的数据库技术与关系数据库技术2、演绎面向对象数据库技术3、数据库技术开展的新方向非结构化数据库4、数据库技术开展的又一趋势数据库技术与多学科技术的有机结合5、未来数据库技术及市场开展的两大方向数据仓库和电子商务6、数据库技术的实践性开展面向专门应用领域的数据库技术(四)当代与未来数据库研究的热点数据挖掘、知识发现与数据仓库1、数据挖掘技术2、数据仓库技术3、知识发现技术4、小结5、结论四、论文写作进度安排(一)开题报告:论文题目、系别、专业、年级、姓名、导师(二)目的意义和国内研究概况(三)论文的理论依据、研究方法、研究内容(四)研究结论(五)预期的结果(六)进度安排。

基于数据挖掘技术的电商数据分析研究

基于数据挖掘技术的电商数据分析研究

基于数据挖掘技术的电商数据分析研究随着电子商务的不断发展和普及,企业在电商平台上的销售数据也日渐丰富。

这些数据在规模化和复杂化的同时,常常难以被企业直接化解和分析。

因此,如何利用数据挖掘技术帮助企业更好地解析电商数据,成为了当前企业智能决策的重要方向之一。

一、电商数据的现状电商数据的数量及其质量是决定数据分析和挖掘结果的关键因素。

如今,大型电商平台的数据往往呈现出数量庞大、更新频繁、交互性强、多维化等特点。

具体来说,这些数据可以包括商品销售数据、用户行为数据、物流配送数据、支付结算数据等多种类型的数据。

在现实中,电商平台数据的采集常常存在诸多挑战。

例如,平台内部可能涉及到多种业务部门与系统,数据格式也不统一而且容易出现错误;平台外部因数据格式和种类的不同,需要渠道合作才能获得更多的数据;同时,质量问题和数据误差也是数据挖掘的重要问题。

二、数据挖掘与电商数据分析数据挖掘是一种从大量数据中发现规律、模式和信息的过程,它在当前的信息时代中得到了广泛的应用和推广。

在电商领域中,数据挖掘技术可以有效地帮助企业更好地理解和处理电商数据。

数据挖掘技术基本上包含数据预处理、数据分析和数据可视化这三个步骤。

数据预处理包括数据清洗、数据集成、数据变换和数据规约等一系列处理操作。

数据分析将数据挖掘工具应用于已准备好的数据集中,通过选择合适的挖掘算法来寻找数据集中的规律、模式和知识等。

数据可视化则是将挖掘出的模式和知识表达出来,让普通人能够直观地理解。

在电商领域中,数据挖掘技术可以应用到诸多方面。

例如,通过对用户行为数据进行分析,可以发现用户喜好、品味和兴趣,从而精准地推荐商品。

通过对产品销售数据和用户评论进行分析,可以优化产品设计、改进服务品质,并持续提高用户满意度。

通过对物流配送数据和支付结算数据进行分析,可以实现更优秀的配送方案和更精细的管理流程,从而更好地控制运营成本。

三、主要的电商数据分析方法1. 关联规则挖掘关联规则挖掘是一种发掘数据集中事务之间频繁关系的方法。

《2024年数据挖掘技术在气象预报研究中的应用》范文

《2024年数据挖掘技术在气象预报研究中的应用》范文

《数据挖掘技术在气象预报研究中的应用》篇一一、引言随着科技的飞速发展,数据挖掘技术已经成为众多领域研究的重要工具。

在气象预报领域,数据挖掘技术的应用也日益广泛。

本文将探讨数据挖掘技术在气象预报研究中的应用,分析其重要性、应用现状及未来发展趋势。

二、数据挖掘技术在气象预报中的重要性1. 提高预报准确性:通过数据挖掘技术,可以分析大量气象数据,发现数据间的潜在关系和规律,从而提高气象预报的准确性。

2. 优化预报模型:数据挖掘技术可以帮助研究人员优化气象预报模型,使其更加符合实际情况,提高预报的可靠性。

3. 预测极端天气:数据挖掘技术可以用于预测极端天气事件,如暴雨、暴风雪、龙卷风等,为防灾减灾提供有力支持。

三、数据挖掘技术在气象预报中的应用现状1. 数据预处理:在气象预报中,数据预处理是数据挖掘的第一步。

通过清洗、去噪、归一化等操作,使数据更加规范、准确,为后续的数据挖掘提供基础。

2. 关联规则挖掘:关联规则挖掘是数据挖掘中的重要技术之一,可以用于发现气象数据间的潜在关系。

例如,通过分析历史气象数据,发现温度与降水量的关系,为短期气候预测提供依据。

3. 聚类分析:聚类分析可以用于将气象数据进行分类,发现不同地区的气候特点。

例如,根据气温、降水等指标,将全国划分为不同的气候区,为区域性气象预报提供支持。

4. 预测模型构建:基于数据挖掘技术,可以构建各种气象预测模型。

例如,利用机器学习算法构建的预测模型,可以根据历史气象数据和当前气象条件,预测未来的天气情况。

四、数据挖掘技术在气象预报中的具体应用案例1. 暴雨预测:通过数据挖掘技术,分析历史暴雨数据和气象条件,发现暴雨发生前的气象特征。

利用这些特征,可以提前预测暴雨事件,为防洪抗灾提供支持。

2. 空气质量预测:利用数据挖掘技术,分析空气质量与气象条件的关系,建立空气质量预测模型。

通过模型预测未来的空气质量情况,为政府和企业提供治理空气污染的依据。

3. 气候变化研究:通过聚类分析和关联规则挖掘等技术,研究历史气候变化数据,揭示气候变化的规律和趋势。

大数据在图书情报领域中的研究现状及发展趋势

大数据在图书情报领域中的研究现状及发展趋势

大数据在图书情报领域中的研究现状及发展趋势引言随着信息技术的不断发展和应用,大数据已经成为当今社会的热点话题。

在图书情报领域,大数据的应用也越来越广泛,为图书馆和情报机构提供了更多的可能性和机遇。

本文将就大数据在图书情报领域中的研究现状及发展趋势进行探讨。

1.图书情报领域的大数据资源图书情报领域的大数据主要来源于图书馆的馆藏数据、读者借阅数据、期刊论文数据、数字化文献数据、图书馆管理系统数据等。

这些数据规模庞大,内容丰富,蕴含着丰富的信息和价值,通过科学的分析和处理,可以为图书馆和情报机构提供精准的决策支持和运营管理。

大数据技术在图书情报领域的应用包括数据挖掘、数据分析、数据可视化、人工智能等多个方面。

通过这些技术手段,图书馆和情报机构可以对海量的数据进行深入挖掘和分析,发现数据背后的规律和趋势,为决策提供可靠的依据。

3.大数据在图书情报研究中的实践案例目前,国内外很多图书馆和情报机构已经开始运用大数据技术进行研究和实践。

美国的亚马逊公司通过大数据分析,提高了图书销售的精准度和效率;中国的清华大学图书馆通过大数据技术改进了馆藏开发和图书采购;日本的国立国会图书馆通过大数据技术提升了数字化资源的管理和检索能力。

1. 数据驱动的决策模式将成为主流随着大数据技术的不断成熟和应用,数据驱动的决策模式将成为图书情报领域的主流。

图书馆和情报机构将会越来越多地基于数据进行管理和决策,实现从经验驱动向数据驱动的转变。

2. 大数据技术将深度融合人工智能大数据技术与人工智能的深度融合将成为未来的发展趋势。

通过人工智能技术,图书馆和情报机构可以更加智能地分析和利用大数据,实现智慧图书馆和智能情报服务。

3. 数据治理和隐私保护将成为重要议题随着数据规模的不断扩大,数据治理和隐私保护将成为图书情报领域的重要议题。

图书馆和情报机构需要建立健全的数据管理体系和隐私保护机制,确保大数据的合法、安全和有效使用。

4. 开放数据和共享资源将成为趋势在大数据时代,开放数据和共享资源将成为必然趋势。

数据挖掘研究现状综述

数据挖掘研究现状综述

Ke rs:d t nn ;P y wo d aamiig AKDD
CL n mb :Gm n o e:A
Arce I :1 0 — 9 8( 0 8 0 — 0 1 0 t l D i 0 3 6 3 2 0 )5 0 4 — 6
2 数 据挖 掘研 究现 状
21 学术 研 究 .
( ) D ( nw eg i oe a b ss国际学术大会 1K D K o l e s vr i D t ae) d D c y n a
数 据挖 掘技术 出现于2 世纪8 年代 末 ,它促成 了数据库 O 0
中的知识发现 ( D 产生。在 1 8年美 国底特律召开的第 十 K D) 99
维普资讯
囤素 .拓 I 毒

28第 期 0年 5 0
信 息 工 作 ・
数 据 挖 掘研 究现 状 综述
王立伟 ( 上海社会科学院图书馆 上海 203 ) 0 25
摘 要 :数据挖掘作为情报学最常用的分析手段得到各个领域的广泛关注,每年K D P K D C IP D Z ̄学术会议的召开也给各国 D 、A D 和E M. K D / -
中 图分 类 号 : 5 .1 3 11
Th u m a ia i n o r s n iu to fDa a M i i g Re e r h eS m rz to fP e e tS t a in o t n n s a c
W a gLi i ( h irr f h n h i a e fS cM ce cs h n h i 0 2 5) n we T eLb ayo a g a d myo o i S in e ,S a g a ,2 0 3 S Ac
家和 地 区 进 行 学 术 交 流 提 供 便 利 。 文章  ̄ : A D P K D学 术会 议 KD ugt ̄ n ge s 的 统计 数 据对 当 前 数据 挖掘 现 状 进 行 综 述 分 析 。

大数据技术专业所服务行业产业的发展现状与趋势

大数据技术专业所服务行业产业的发展现状与趋势

大数据技术专业所服务行业产业的发展现状与趋势目前,大数据技术已经在各个产业领域中得到了广泛应用,并且取得了显著的成效。

下面将从金融、医疗、电商、教育和制造等几个代表性行业来分析大数据技术的发展现状和趋势。

1. 金融行业金融行业是大数据技术应用最为广泛的行业之一。

银行、证券、保险等金融机构的业务中都涉及到大量的数据,如客户信息、交易数据、市场行情等。

通过大数据技术,金融机构可以实现对客户需求的深度洞察,通过数据挖掘和分析来提供更加个性化的金融服务。

另外,大数据技术也可以帮助金融机构更好地进行风险管理、反欺诈、信用评估等工作,提高金融机构的运营效率和风险管控能力。

未来,随着金融科技的不断发展和创新,大数据技术在金融行业中的应用将会更加深入和广泛。

比如,基于大数据技术的智能投顾、风险定价模型、区块链技术等都将成为金融业的重要发展方向。

2. 医疗行业在医疗行业中,大数据技术的应用则主要体现在医疗信息化、临床研究和医疗健康管理等方面。

医疗机构通过大数据技术可以实现对患者个体化健康管理,根据患者的病历数据和生理参数进行精准诊疗和用药建议。

此外,大数据技术还可以帮助医疗机构进行疾病预测、医疗资源配置优化、临床研究等工作。

未来,随着医疗信息化程度的不断提高,大数据技术在医疗行业中的应用将会更加深入和广泛。

例如,基于大数据的个体化医疗方案、医疗影像识别与分析、远程医疗服务等都将成为医疗行业的重要发展方向。

3. 电商行业在电商行业中,大数据技术主要用于用户行为分析、精准营销、商品推荐、供应链管理等方面。

通过大数据技术,电商企业可以深入了解用户的购物偏好、购买习惯,通过数据挖掘和分析来实现精准营销和个性化推荐,提升用户的购物体验。

另外,大数据技术还可以帮助电商企业优化库存管理、物流配送等环节,提高运营效率和成本控制能力。

未来,随着电商行业的不断发展和竞争的加剧,大数据技术在电商行业中的应用将会变得更加重要。

例如,人工智能技术、虚拟现实技术、无人店铺等将成为电商行业的重要发展方向。

数据挖掘在电信行业的应用现状

数据挖掘在电信行业的应用现状

数 据 挖 掘 在 电信 行 业 的应 用 现状
甘 莉 莉
( 台学院 信 息科学与技术系,河北 邢 台 04 0 ) 邢 50 1
摘 要 :电信行 业很 早 就应 用 了数据挖 掘 技术 ,在 网络 维 护和 市场 营销 领域 中广泛 的应 用 。 电 信运行 系统生成的呼 叫详单数据蕴含着极为丰富的市场信息,是数据挖掘技术应用在电信领域
随着 网络 技术 、信 息技术 、 感 技术等 的迅猛 遥 发展 以及 数据库 管理 技术 的广泛 应用 , 人类 所积 累 的数 据信 息越来 越 多。 而传 统 的数 据库 管理 系统 的
查询 机制 以及统 计方法 远 远不 能满足 现实 的需求 , 人们 希望 能够对 其进行 更 高层 次 的分 析 , 以便 更好 地利用 这些数 据 。此 时数据 挖 掘技术 应运 而生 ,并 且受 到 了电信 行业 的极 大关 注 。 数据 挖掘 的概 念

提供 了解 决方 案 。 同时, 电信行 业数 据在 数据 挖掘 方面 也提 出 了
几个 问题 。第 一个 问题 涉及 到范 围 ,电信 数据 库包 含 了上 以亿 计 的记 录 并 且 可 能是 所 有 领 域 中量 最 大 的。 二个 问题 是 原始数 据往 往不 适用 于数据 挖 第 掘, 例如 呼 叫详细 数据 和 网络数据 都 以时间为序 列 代 表 独 立 事件 的数 据 ,在这 些 数 据 用 于数 据 挖 掘 前 , 须确 定 有效 的概括 属性 ,并用 这些属 性对 数 必 据进 行 概括 。 电信 行业 许多数 据挖 掘应 用涉 及 到预
第2 8卷 第 1 期 2 1 年 2月 01
邢 台 职 业 技 术 学 院 学 报
J u n l f n t i o y e h i l g o r a Xi g a l tc n cCo l e o P e

计算机智能信息处理技术的应用现状和发展前景

计算机智能信息处理技术的应用现状和发展前景

计算机智能信息处理技术是一门涵盖了人工智能、机器学习、自然语言处理、图像处理和数据挖掘等领域的综合技术,它在各个领域都有广泛的应用,并具有巨大的发展前景。

以下是计算机智能信息处理技术的应用现状和发展前景:应用现状:1. 自然语言处理(NLP):NLP技术已广泛应用于智能助手、智能客服、机器翻译、舆情监测、文本分析等领域。

例如,虚拟助手如Siri和Alexa可以理解和回答自然语言问题。

2. 机器学习和深度学习:机器学习和深度学习在图像识别、语音识别、推荐系统、自动驾驶等领域有广泛应用。

例如,深度学习在计算机视觉中实现了显著的突破,包括人脸识别和目标检测。

3. 图像处理:图像处理技术用于医学影像分析、视频监控、虚拟现实、增强现实等领域。

医学影像分析已经在癌症诊断、病理学研究等方面取得了巨大的成就。

4. 数据挖掘:数据挖掘技术用于商业智能、市场分析、风险评估等。

它有助于从大规模数据中发现隐藏的模式和趋势。

5. 自动化和机器人:智能机器人和自动化系统在制造业、物流、医疗保健和服务行业得到广泛应用。

自动驾驶汽车也是一个前沿领域,其应用正在不断扩展。

发展前景:1. 增强学习:增强学习是一种重要的机器学习分支,可以用于优化决策和控制。

它有望在自动化、机器人和智能系统中取得进一步的应用。

2. 可解释性人工智能:随着AI系统的应用范围扩大,可解释性AI变得越来越重要。

研究人员正在努力开发方法来解释和理解AI 决策的逻辑,以提高透明度和可信度。

3. AI和医疗保健:AI技术将在医疗诊断、药物研发、医疗图像处理和个性化治疗中发挥重要作用。

这有望提高医疗保健的效率和精确性。

4. 边缘计算和物联网:智能信息处理技术将越来越多地集成到物联网设备中,以实现智能家居、智能城市和工业自动化等应用。

5. 生态可持续性:AI和信息处理技术也将用于解决环境问题,如气候模拟、资源管理和可持续能源生产。

总的来说,计算机智能信息处理技术在各个领域都有广泛应用,并将继续发展和创新。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

Vol.18,No.3管 理 工 程 学 报JournalofIndustrialEngineering EngineeringManagement2004年第3期数据挖掘在中国的现状和发展研究李菁菁,邵培基,黄亦潇(电子科技大学管理学院,成都610054)

摘要:数据挖掘是人工智能和数据库研究的新兴领域,近年来,数据挖掘技术的理论与应用研究发展迅速,并引起了国内外研究人员的重视。本文以科学引文索引数据库(SCI)、工程索引数据库(EI)以及清华全文数据库(CNKI)中有关“数据挖掘”研究文章的统计数据为研究基础,对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展,并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。关键词:数据挖掘;趋势;统计中图分类号:C812 文献标识码:A 文章编号:1004-6062(2004)03-0010-06

收稿日期:2002-11-04 修回日期:2003-02-16作者简介:李菁菁(1975—),女,四川安岳人,电子科技大学管理学院博士生,研究方向:信息管理、数据挖掘和决策支持等。

0 引言近年来,随着计算机对数据的生成、收集、存贮和处理能力的大大提高,数据量与日俱增,传统的数据分析工具对海量数据的处理力不从心,数据挖掘技术应运而生。中国科研工作者近几年来积极开展了对数据挖掘的研究,并在理论研究和实际应用上取得了一定的成绩,但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计,对数据挖掘在中国发展的现状及发展趋势进行分析和研究,通过分析有关论文的发表,对数据挖掘在中国的理论研究和实际应用提出建议。1 数据挖掘的应用与研究发展数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程[1]。数据挖掘是一门新兴的边缘学科,近年来引起了中国学术界和产业界的广泛关注。数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(TechnologyReview)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一[2];生物学研究中用数据挖掘技术对DNA进行分析[3];利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析[4];对银行或商业上经常发生的诈骗行为进行预测[5],IBM公司开发的AS(AdvancedScout)系统针对NBA的数据,帮助教练优化战术组合[6]等。数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进,使得数据挖掘这一新学科得以蓬勃发展。2 数据挖掘在中国的研究趋势分析1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议,由于数据库中的数据被形象地比喻为矿床,数据挖掘一词很快流传开来。1995年以来,国外在数据挖掘和知识发现方面形成了热门研究方向,其中发表论文比较集中的期刊如:《DataMiningandKnowledgeDiscovery》(数据挖掘和知识发现)、《ArtificialIntelligenceReview》(人工智能评论)等。国内学者也对数据挖掘的理论和应用进行了许多研究。本文通过对发表论文的研究成果进行统计研究,以分析数据挖掘的在中国的研究与应用,这实质上也是一种数据挖掘思想的体现,这个过程就类似于数据挖掘过程。为了比较全面地反映中国在数据挖掘方面的研究成果及现状,笔者分别对科学引文数据库(SCI)、工程索引数据库(EI)以及清华全文期刊数据库(CNKI)进行了检索,检索内容为在中国期刊发表的相关文章以及被SCI和EI检索的中国有关数据挖掘方面的研究文章。这些检索的统计结果是本文研究分析的基础。通过检索并对各年所发表的有关数据挖掘的文章进行分类归总,可以得到表1的结果。

—10—表1 有关“数据挖掘”的论文发表统计1994~199619971998199920002001合计SCI0202181840EI0011142667118CNKI032471168254520 通过对检索结果的分析,可以得到以下4点结论:1)国内期刊正式发表有关数据挖掘的文章是在1997年,共发表了3篇文章,同年SCI共检索了2篇中国的数据挖掘的研究文章,在SCI数据库能够检索到的国际上发表最早的有关数据挖掘的文章是在1993年,这表明中国关于数据挖掘方面的研究在时间上与国际上差距并不大。2)国内发表的有关数据挖掘论文的数目近年来逐年快速上升,SCI和EI所检索的文章数目也在逐年快速增加,这说明中国数据挖掘的研究近几年来迅速加强。3)对数据挖掘的研究可以大致分为两方面:理论研究和应用研究。理论研究正在逐步深入并与解决实际问题相结合。4)数据挖掘是一门应用性很强的学科,数据挖掘应用的领域非常广阔,几乎涉及到各个行业,包括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。这些应用的需求就更进一步地推动了理论研究的发展。

3 数据挖掘技术的研究对数据挖掘的理论研究主要在以下六个方面:OLAP技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。有关研究成果见表2。表2 有关数据挖掘技术统计表

理论研究领域SCIEICNKIOLAP技术0040面向属性的归纳方法019关联规则731100分类和预测71816聚类31116与数据仓库集成技术0367

3.1 OLAP技术联机分析处理(On-LineAnalyticalProcessing,OLAP)是关系数据库之父E.F.Codd博士在1993年提出的[9]。OLAP可以在使用多维数据模型的数据仓库或数据集市上进行,使用数据立方体结构,OLAP操作可以有效地实现。OLAP技术主要是应用隐含在数据里的领域背景知识对数据进行操作,为用户在不同的抽象层上提供数据。OLAP技术一般都是集成在数据仓库中实现的。国内关于OLAP技术的综述性文章较多,缺少较深入的理论研究。其中一个主要原因是由于受到国内数据仓库技术的发展限制,缺少具体的实现环境。国内的研究内容主要集中在对技术和概念的介绍以及简单系统的构造应用等方面,如对OLAP、数据立方体等基本概念的介绍;对SQLserver2000中提供的OLAP的查询组件的使用等。3.2 面向属性的归纳方法1991年,JiaweiHan等提出了面向属性的归纳方法(Attribute-Oriented,AO)[10],这是一种有效的、完整的知识发现算法,算法的一个关键就是攀升属性所对应的概念层次树,把原始数据集的数据泛化到用户感兴趣的概念层上,减少数据集的大小,从而降低知识发现过程的计算复杂度。国内对面向属性的归纳方法的研究比较少,研究内容主要集中在以下三方面:1)对面向属性的归纳方法进行改进。通过引入记录阈值的概念,利用属性阈值和记录阈值同时进行控制,从而产生更好的效果[11]。2)减少扫描次数以提高算法效率。文献[12]提出了基于规则的面向属性知识发现的无回溯算法,把背景知识理解为特殊的逻辑程序,并把它的子句展开为完全归结子句,再按用户要求,定义并确定各属性的恰当层次,各属性的多个值归纳为恰当层次中的值,只需一遍扫描,无需回溯。3)对概念层次进行研究。提出了概念层次的自动生成方法[13]。3.3 关联规则关联规则的挖掘最早是由R.Agrawal等人于1993年提出。在关联规则算法的研究中,生成所有的频繁项目集是核心问题。表2中有关关联规则的文章数量较多,技术相对比较成熟,是数据挖掘领域的重点研究方向之一。根据分析,目前国内对关联规则的研究主要集中在以下3方面:1)提高原有算法的效率在解决最大频繁项目集的生成问题上,为了提高对空间和时间的利用效率,对数据库的扫描次数进行了缩减,由最初的两次扫描减少为一次就可以生成最大频繁集,提高了算法的效率[14]。2)结合其它理论对关联规则进行研究引入粗糙集概念,使关联规则发现的模式具有较高的解释能力和精确度[15]。为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法[16];通过引入神经网络的概念,提出用相互激活与竞争网络来进行数据库中的关联规则的发现[17]等。可以看出通过引入其他领域的先进理论,丰富了关联规则研究的内容,提高了算法的有效性。3)不同形式关联规则的研究关联规则最早是由购物篮分析开始的,但是随着研究的扩展和深入,关联规则的应用范围不断扩大,因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[18],

由单层的关联规则扩展为多层次关联规则的研究[19],提出了

基于多维标度关联规则算法[20],其他类型的关联规则如借助

正态模糊数模型,软化数量属性的划分边界,生成语言值关联规则[21],引入正态云模型来替代对属性论域的划分,提出

—11—

Vol.18,No.3管 理 工 程 学 报2004年第3期了挖掘正态云关联规则的方法[22],基于关联规则的不足,还提出了转移规则[23]及其算法。另外对于关联规则挖掘指导思想也出现了变化,提出了概念指导的关联规则的挖掘算法[24]和基于概念格的关联规则的提取算法[25]。3.4 分类和预测分类和预测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要的分类方法有:决策树归纳分类法、贝叶斯分类法、后向传播分类法等。国内对于分类和预测方法的分析和研究近几年逐渐增多,并逐渐深入。国内的分类方法研究主要集中在以下内容:1)研究贝叶斯网络在分类方法中的应用利用贝叶斯网络可以找出数据之间潜在的关系[26],并且可以将简单贝叶斯方法应用于增量分类中[27],这样可以增量地修正分类器参数和增量地分类测试样本。2)结合其他理论进行算法研究通过遗传算法,对单个分类器进行优化并对多个分类器进行组合优化[28]。通过不同的相似性度量方法,复用完全相似或者条件相似的历史序列,提出一种多策略的基于CBR的趋势预测方法[29]。分类及预测中,神经网络技术的优点是其对噪声数据具有较高的承受能力,对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差,这影响了神经网络技术的使用。相对于神经网络技术,决策树技术的优点比较易于理解和解释,而它受到的典型批评是由于递归划分方式导致数据子集变小,失去了进一步划分的意义。贝叶斯分类方法从理论上讲具有最小的出错率,还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯分类的假定,当假定成立时,与其它分类算法相比是最精确的,然而,在实践中,假定不一定总是成立。从以上分析可以看出,不同的数据挖掘技术各有其优缺点,在实际的应用中,需要根据具体的条件选择合适的算法。3.5 聚类聚类是一个活跃的研究领域,聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象则差别较大,聚类算法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。聚类分析可以用作独立的数据挖掘工具,来获得对数据分布的了解,也可以作为其它数据挖掘算法的预处理步骤。国内对于聚类的研究与和分类预测的研究情况类似,开展比较晚,研究主要方向包括:1)对已经提出来的聚类算法进行分析和完善在原有的DBSCAN算法的基础上,以核心对象邻域中所有对象的代表对象为种子对象来扩展类,提出了FDBSCAN算法,该算法能够有效地对大规模数据库进行聚类,速度上数倍于DBSCAN[30],对原DBSCAN算法进行改进,提出了基于数据分区的DBSCAN算法,提高了聚类速度,改善了聚类质量[31]。

相关文档
最新文档