数据挖掘研究的现状与发展趋势_郑继刚

合集下载

数据挖掘研究及发展现状

数据挖掘研究及发展现状

数据挖掘研究及发展现状
数据挖掘是一种通过对数据的分析和探索,以发现其中隐藏的有用信
息的技术,在现今的信息时代具有重要的意义。

随着信息技术的发展与完善,数据挖掘应用于各个领域的研究也越来越广泛。

近几年来,数据挖掘
的研究和应用取得了特别的发展,建立了多种相关的理论模型,应用于社
会的各个领域,并得到了广泛的应用。

一、数据挖掘发展研究的现状
在社会和科学研究的各个领域,数据挖掘的应用已经取得了显著的成果。

从健康保障、交通、经济到社会政治、安全、财税等各个领域均有其
应用,在提高效率、降低成本和改善服务质量方面取得了突出成果。

其中,数据挖掘研究的主要内容包括:数据收集、处理、实验、分析、可视化以
及应用等。

1、数据收集
数据收集是进行数据挖掘研究的基础步骤,可以通过实际测量、实验
及分析等方法获得原始数据。

数据收集以及处理研究已经被广泛应用于社
会服务、医疗、管理决策、政策分析等多个领域,充分发挥了其作用。

2、数据处理
数据处理是数据挖掘研究中的重要环节,其主要内容包括:数据清洗、数据筛选、数据转换、数据统计等。

数据挖掘的发展趋势

数据挖掘的发展趋势

数据挖掘的发展趋势数据挖掘是一项利用统计学、人工智能和机器学习等方法从大量数据中发现模式和规律的过程。

近年来,随着计算能力的提高和大数据技术的发展,数据挖掘在各个领域中得到了广泛的应用和发展。

未来,数据挖掘的发展趋势主要包括以下几个方面。

首先,数据挖掘技术将更加智能化和自动化。

目前的数据挖掘往往需要专家的参与,需要手动选择算法、调参等。

未来,随着深度学习等技术的发展,数据挖掘将变得更加智能化,能够自动选择合适的算法并进行参数优化,大大减少人工干预的需求。

其次,数据挖掘将更加注重隐私保护和数据安全。

随着人们对隐私和数据泄露越来越关注,数据挖掘将面临更多隐私保护和数据安全的挑战。

未来,数据挖掘技术将不仅仅关注模式发现和规律挖掘,还要注重隐私保护和数据安全,采用更加安全可靠的算法和方法,确保数据的安全和隐私的保护。

再次,数据挖掘将更加注重多源数据的挖掘和整合。

目前,很多领域的数据来源于多个不同的数据源,如社交网络、传感器等。

未来,数据挖掘需要从多个数据源中寻找和挖掘有价值的信息,将不同数据源的信息整合起来,为决策提供更加全面和准确的数据支持。

此外,数据挖掘将更加注重实时性和动态性。

现在,数据挖掘主要关注静态数据集的挖掘和分析,很少关注动态数据和实时数据的挖掘。

未来,随着物联网和移动互联网的普及,数据挖掘将不仅仅关注静态数据,还要处理和挖掘大量的动态数据和实时数据,为决策提供及时的数据支持。

最后,数据挖掘将更加注重可解释性和可理解性。

现在的数据挖掘算法往往是黑盒子,很难解释和理解其结果和决策过程。

未来,随着人们对算法决策的要求越来越高,数据挖掘将更加注重可解释性和可理解性,研究开发更好的算法和方法,使数据挖掘的结果更加可解释和可理解。

综上所述,数据挖掘的发展趋势包括智能化、隐私保护和数据安全、多源数据挖掘与整合、实时性与动态性以及可解释性和可理解性。

随着技术的不断进步和应用场景的不断扩展,数据挖掘将在未来继续发展壮大,并为各个领域的决策和创新提供更加强大和可靠的支持。

数据挖掘研究的现状与发展趋势

数据挖掘研究的现状与发展趋势
华 .
数据挖掘是一门交叉学科 , 它把人们对数据的应 据中获得更有用 的信息. 实际上 , 这些数据 中只有一 用从 低层 次 的简 单 查 询 , 升 到从 数据 中挖 掘 知 识 , 提 小部分 有用 , 人们 却渴 求获 得知 识 , 面 临“ 据丰 提供决 策 支 持 . 建 立 在 数 据 库 、 工 智 能 、 器 学 但 正 数 是 人 机
的但又是潜 在有用 的信息 和知识 的过程 ]它 涉及 了四个阶段 : . 数据搜集、 数据访 问、 数据仓库和决策支 到对数 据库 中 的大量 数据 进 行 抽 取 、 转换 、 析 以及 持 ( 表 I ¨』 分 见 ) . 模 型化处 理 , 中提 取 辅助 决 策 的关 键 性 数 据 . 据 从 数 挖 掘可 以帮助 决 策者 寻找 规 律 , 现被 忽 略 的要 素 , 发
的努力 , 据 挖 掘 技 术 的研 究 已经 取 得 了 丰 硕 的成 数
Dsoeyi a bs, i vr nD t ae简称 K D) 是 2 纪 9 c a D , 0世 O年代 果 , 少软 件公 司 已研 制 出数 据 挖 掘 软 件 产 品 , 在 不 并 以来发展起 来 的数 据 库 系统 和 数据 库应 用 领 域 一 个 北 美 、 欧洲 等 国家得 到应用 . 欣欣 向荣 的前 沿学科 , 是从 大量 的、 不完 全 的 、 有噪 声 数 据挖 掘可 以认 为 是数 据库 技 术 和信 息 技 术 自 的、 糊 的、 模 随机 的实 际应 用 数据 中 , 取 隐含在 其 中 然 演变 的结 果 . 数据 库 业 界 , 据 挖 掘 的进 化 经 历 提 在 数
第 8卷 第 2期 2 1 4月 0 0年
红河学院学报
Jun l fHo g eU iest o ra n h nv ri o y

数据挖掘技术在医学领域中的应用现状与发展趋势

数据挖掘技术在医学领域中的应用现状与发展趋势

数据挖掘技术在医学领域中的应用现状与发展趋势导语:随着科技的不断发展,数据挖掘技术在医学领域中的应用越来越广泛。

利用大量的医疗数据进行分析和挖掘,可以帮助医疗工作者更好地了解疾病的发展规律,提高医疗保健水平。

本文将对数据挖掘技术在医学领域中的应用现状和发展趋势进行探讨。

一、数据挖掘技术在医学领域中的应用现状1. 疾病预测和诊断数据挖掘技术可以利用大量的患者数据,建立准确的疾病预测和诊断模型。

通过分析患者的生理指标、病史、基因信息等数据,可以帮助医生更精准地进行疾病的预测和诊断。

例如,利用机器学习算法和神经网络模型,可以预测患者患心脏病、糖尿病等疾病的风险,并提供相应的治疗方案。

2. 药物研发与个体化治疗数据挖掘技术可以帮助医药企业在药物研发过程中分析大量的药物数据和患者数据,从而更好地理解药物的作用机制、副作用及药物治疗的个体化问题。

通过挖掘患者的基因信息和药物治疗的效果数据,可以实现个体化的药物治疗,提高治疗效果。

同时,还可以挖掘患者的用药信息,帮助医生更好地判断患者的治疗依从性,减少药物滥用和不良反应的发生。

3. 医疗资源优化和运营管理利用数据挖掘技术,可以分析医疗机构的历史数据、患者的用药数据等,优化医疗资源的配置和运营管理。

通过对就诊人数、医院排队情况等数据的分析,可以合理安排医疗资源,提高服务效率和患者满意度。

同时,还可以通过挖掘患者的疾病数据和用药数据,进行疾病风险评估、医疗费用预测,更好地进行医疗计划和医保管理。

二、数据挖掘技术在医学领域中的发展趋势1. 结合深度学习算法深度学习算法在图像识别、自然语言处理等领域取得了重大突破,对于医学图像分析、疾病预测等问题具有较大的潜力。

未来,数据挖掘技术将更多地结合深度学习算法,提高医学数据的处理和分析能力。

2. 智能医疗助手的发展随着智能终端设备的普及和人工智能技术的发展,智能医疗助手正在成为医学领域的新趋势。

智能医疗助手可以根据患者的症状和疾病信息,给出个性化的医疗建议和健康管理方案。

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势

数据挖掘研究现状及发展趋势数据挖掘研究现状及发展趋势引言:随着信息时代的到来,人们对于数据的需求不断增加,数据的挖掘技术也逐渐崭露头角。

数据挖掘是指通过从大量的数据中发现隐含的知识和信息,进行模式识别、预测行为、分类和聚类等任务的过程。

近年来,数据挖掘技术在各个领域取得了广泛的应用,并且不断推动了科学研究和商业发展。

本文将介绍数据挖掘研究的现状及其未来的发展趋势。

一、数据挖掘的研究现状1. 数据挖掘算法数据挖掘算法是数据挖掘研究的核心。

目前,常见的数据挖掘算法包括决策树、聚类、关联规则挖掘、支持向量机等。

这些算法可以有效地从数据中发现知识和信息,并为决策提供支持。

此外,随着深度学习的兴起,神经网络等人工智能算法也被广泛应用于数据挖掘领域。

2. 数据挖掘应用数据挖掘技术在各个领域都有广泛的应用。

在商业领域,数据挖掘可以用于市场分析、客户关系管理、风险评估等。

在金融领域,数据挖掘可以用于预测股票价格、信用评估等。

在医疗领域,数据挖掘可以用于疾病诊断、药物发现等。

在科学研究中,数据挖掘可以用于发现科学规律、推动科学进展。

3. 数据挖掘工具为了帮助人们更好地进行数据挖掘研究,许多数据挖掘工具被开发出来。

例如,Weka、RapidMiner、Python的scikit-learn等工具,它们提供了丰富的功能和算法供用户选择,大大简化了数据挖掘的过程。

二、数据挖掘研究的发展趋势1. 大数据时代的挑战随着互联网的普及和物联网技术的发展,大量的数据被生成和存储。

数据量的急剧增加给数据挖掘技术提出了挑战。

未来,数据挖掘研究将面临如何高效处理和分析大数据的问题。

2. 非结构化数据挖掘现有的数据挖掘技术主要针对结构化数据,例如数据库中以表格形式存储的数据。

然而,随着社交网络、文本和多媒体数据的大量产生,非结构化数据挖掘成为了一个重要的研究方向。

未来的研究将致力于如何从非结构化数据中提取有效的信息和知识。

3. 隐私保护与数据安全随着个人数据的大规模收集和分析,数据隐私和安全成为了一个严峻的问题。

数据挖掘应用研究前沿和发展趋势

数据挖掘应用研究前沿和发展趋势

数据挖掘应用研究前沿和发展趋势作者:任冷来源:《科技与创新》2016年第16期摘要:互联网催生了大数据,在互联网渗透各个产业的过程中,同时也实现了数据电子化,使产生的大数据具备了前所未有的利用价值。

大数据将通过自己的“智慧”,重塑了很多产业。

因此,研究了数据挖掘在各行业的应用,以及在这些应用要求下面临的技术挑战和发展趋势。

关键词:数据挖掘;应用研究;新的挑战;发展趋势中图分类号:TP311 文献标识码:A DOI:10.15913/ki.kjycx.2016.16.007近年来,互联网已经融入我们生活中的方方面面,尤其是这几年以来,在互联网技术的推动下,很多行业都已经从传统的模式转变成了物联网模式,又从物联网变成了现在的“互联网+”运营模式了。

海量数据的分析就显得尤为重要,那么数据挖掘技术的发展就会有了质的飞跃,将来也会成为企业发展一个必需的依赖技术。

数据挖掘典型的应用领域包括金融、医疗、零售和电商、电信、交通等。

另外,由于新的数据类型也随着技术进步不断增加,因此本文指出了数据挖掘的发展趋势和所面临的挑战。

1 数据挖掘的应用数据挖掘所要处理的问题就是在庞大的数据中找出有价值的隐藏事件,并加以分析,获取有意义的信息和模式,为决策提供依据。

数据挖掘应用的领域非常广泛,只要有分析价值与需求的数据,都可以利用挖掘工具进行发掘分析。

目前,数据挖掘应用最集中地领域包括金融、医疗、零售和电商、电信和交通等,而且每个领域都有特定的应用问题和应用背景。

1.1 金融领域不管是银行,还是其他金融机构,都存储了海量的金融数据,比如信贷、储蓄与投资等金融数据。

对于这些数据,运用数据挖掘技术进行有针对性的处理,将会得到很多具有价值的知识。

金融数据具有可靠性、完整性和高质量等特点。

这在很大程度上利于开展数据挖掘工作以及挖掘技术的应用。

数据挖掘在金融领域中有许多具体的应用,例如分析多维数据,以把握金融市场的变化趋势;运用孤立点分析等方法,研究洗黑钱等犯罪活动;应用分类技术,对顾客信用进行分类,为维持与客户的关系以及为客户提供相关服务等决策提供参考。

数据挖掘技术的发展现状与未来发展趋势

数据挖掘技术的发展现状与未来发展趋势随着信息时代的到来,数据的产生和积累变得越来越巨大。

如何从这海量的数据中挖掘出有价值的信息,成为了当今学术界和产业界的一大挑战。

数据挖掘技术的发展正助力着人类社会的进步,在各个领域发挥着越来越重要的作用。

数据挖掘技术(Data Mining)是一种从大量数据中提取出隐含其中的、以往并没有被人们注意到的、但却具有重要价值的信息和知识的技术手段。

它结合了统计学、人工智能、机器学习等多个领域的方法和理论,通过构建模型、分析和预测,帮助人们在各种应用领域中做出准确的决策。

近年来,数据挖掘技术得到了广泛的应用。

在商业领域,数据挖掘技术被用于市场调研、客户关系管理、销售预测等,帮助企业提高效益和竞争力。

在医学领域,数据挖掘技术被用于医疗诊断、疾病预测等,为医务人员提供更好的辅助决策工具。

在社交网络中,数据挖掘技术被用于推荐系统、广告定向投放等,为用户提供个性化的服务。

在生物信息学中,数据挖掘技术被用于基因表达、蛋白质结构预测等,帮助研究人员更好地理解生命现象。

当前,数据挖掘技术正面临一些挑战和问题。

首先是数据规模的增长。

随着互联网的快速发展,数据量以指数级增长,如何高效地处理这些巨量数据成为了数据挖掘技术亟待解决的问题。

其次是数据质量问题。

由于数据的多源和异构性,数据的准确性和完整性难以保证。

这需要研究人员在挖掘过程中采用有效的处理方法,从而提高数据的质量。

另外,隐私保护也是一个重要的问题。

尽管数据挖掘可以帮助人们获取有价值的信息,但也有可能侵犯个人隐私。

因此,数据挖掘技术需要与法律、伦理等其他领域进行深入的结合,确保数据隐私得到保护。

未来,数据挖掘技术的发展趋势依然十分广阔。

首先,数据挖掘技术将更加自动化。

随着人工智能、机器学习等技术的进步,数据挖掘的算法和模型将越来越智能化,能够更好地适应各种复杂应用场景的需求。

其次,数据挖掘将与其他学科融合。

数据挖掘技术需要与统计学、数学、计算机科学等领域进行更密切的交叉合作,以获取更丰富的知识和信息。

数据挖掘技术的发展趋势

数据挖掘技术的发展趋势1. 机器研究与数据挖掘的结合机器研究是数据挖掘的关键组成部分,通过建立模型和算法来从数据中研究和预测。

近年来,机器研究技术发展迅速,为数据挖掘领域带来了许多创新。

未来,机器研究算法的改进和应用将继续推动数据挖掘技术的发展。

2. 大数据时代的数据挖掘随着互联网的普及和信息技术的快速发展,大数据时代已经到来。

海量的数据成为数据挖掘的新挑战和机遇。

数据挖掘技术在面对大数据时代需要适应更高的数据量、更复杂的数据结构和更高的算法效率。

因此,数据挖掘技术将继续发展和完善,以适应大数据时代的需求。

3. 数据挖掘在智能决策中的应用数据挖掘技术能够从大量的数据中发现隐藏的知识和模式,为决策提供支持和指导。

随着人工智能的发展和智能决策的需求增加,数据挖掘技术在智能决策中的应用前景广阔。

未来,数据挖掘技术将更加深入地与智能决策相结合,为各个领域的决策提供更准确、更可靠的支持。

4. 数据隐私和安全保护数据挖掘技术的发展也带来了一些挑战,其中之一是数据隐私和安全保护。

随着个人隐私意识的提高和相关法律法规的出台,数据挖掘技术在处理敏感信息时需要考虑隐私和安全保护问题。

未来,数据挖掘技术在隐私和安全方面的研究将成为一个重要的发展方向。

5. 跨领域合作和知识融合数据挖掘技术的应用已经渗透到各个领域,如医疗、金融、电子商务等。

在未来,数据挖掘技术将需要与其他学科和领域进行更紧密的合作,进行知识融合和交叉创新。

跨领域合作将为数据挖掘技术的发展带来更多的灵感和机遇。

综上所述,数据挖掘技术的发展趋势包括机器学习与数据挖掘的结合、大数据时代的数据挖掘、数据挖掘在智能决策中的应用、数据隐私和安全保护、以及跨领域合作和知识融合。

这些趋势将进一步推动数据挖掘技术的发展,为我们带来更多的机遇和挑战。

数据挖掘的现状及趋势研究

数据挖掘的现状及趋势研究近些年来,信息行业的发展带动了数据挖掘的快速兴起,面对数据挖掘的发展潮流趋势,数据挖掘领域已然成为各行业关注的焦点问题。

通过对数据挖掘研究现状和基本理论知识的介绍,着重分析了数据挖掘在市场、金融、电商等主要数据领域的一些应用现状,旨在突出数据挖掘的应用优势,为企业决策者监督和管理企业提供理论依据。

并针对发展过程中出现的数据挖掘方法不足、性能不足、缺少用户交互意识以及数据库与挖掘系统不匹配等一系列问题提出解决对策。

最后展望数据挖掘在未来的发展趋势,总结数据挖掘语言的标准化、数字化以及多种技术合作集成的发展趋势,有助于行业内竞争与发展,为未来的数据挖掘研究提供参考。

1.1 背景科学的发展,技术的更新,信息时代悄然走进我们的生活,各种网络新技术也随着而来,由各个行业搜集、储存的很多数据组成的大数据仓库,由于数据量巨大,之前的数据挖掘方法已经不适用发掘关键信息,导致很多数据无法显示出对行业发展有用的信息,所以迫于行业形势,决策者急需能够深入数据库内部快速分析、整理未被发现的价值信息的创新技术,以便指导企业的发展。

于是在这种情形下,全新的科学技术——数据挖掘(Data Mining.DM)技术被发现,并且发展成势不可挡。

数据挖掘是数据库知识发现(Knowledge-Discovery in Databases.KDD)里的一个步骤,两者有着紧密的关系,数据挖掘技术之所以受欢迎,是因为它能解决其它技术完不成的挖掘信息的问题,它能够在海量数据中获取藏匿其中的信息,这些信息的价值远远超过之前所挖掘出来的,在深入分析之后总结价值规律,提供给企业决策者,作为未来企业发展规划的理论根据。

伴随着二十多年的数据挖掘技术的发展,同时在研究人员的共同努力下,在理论研究方面,由于数据挖掘是综合性技术,必须与其他新技术相结合,所以DM 技术深入发掘理论基础,更新所需要的理论技术,完善自身不足;在实际应用上,基于自身的优势,使得应用广泛,前景大好,像一些行业如市场营销、保险金融等,数据仓库大,信息价值高。

数据挖掘技术的应用和发展趋势

数据挖掘技术的应用和发展趋势在当今的信息时代,数据成为了一种重要的资源,其改变了我们的生活方式,也为企业和组织提供了巨大的商机。

数据挖掘技术应运而生,它可以帮助人们从庞大的数据集中发现隐藏的模式和关联规律,为决策提供有力支持。

本文将探讨数据挖掘技术的应用领域和未来发展趋势。

一、零售业随着电子商务的兴起,零售业也面临着巨大的变革。

数据挖掘技术在这个领域中起到了至关重要的作用。

通过对顾客购物记录的分析,零售商可以了解顾客的购买偏好和行为习惯,进而进行精准的推荐和定价策略。

此外,数据挖掘还可以帮助零售商发现商品的潜在需求,提前预测热销产品,从而优化采购和库存管理。

二、金融业金融业是另一个数据挖掘技术得到广泛应用的领域。

通过对大量客户交易数据和风险数据的分析,金融机构可以预测客户的信用风险和欺诈行为,并制定相应的风控策略。

此外,数据挖掘还可以帮助金融机构发现新的市场机会和产品创新点,提升竞争力。

三、医疗保健在医疗保健领域,数据挖掘技术可以帮助医疗机构和研究人员从大规模的病例数据中找到疾病的风险因素和治疗方案。

例如,通过对癌症患者的基因数据和治疗记录进行分析,可以发现不同个体对药物的反应差异,从而实现个体化的治疗方案。

此外,数据挖掘还可以用于疾病的早期预测和流行病的监测,帮助提前采取措施防范和控制疫情。

四、社交媒体随着社交媒体的普及和快速发展,人们在其上产生了大量的文字、图片和视频等多媒体数据。

数据挖掘技术可以对这些数据进行情感分析、主题检测和用户画像构建等,帮助企业更好地了解用户需求和行为。

例如,通过分析用户在社交媒体上的言论和互动,企业可以更精准地进行广告投放和产品推荐,提升市场营销效果。

以上只是数据挖掘技术应用的几个例子,实际上,数据挖掘技术已经渗透到了各个领域。

未来,随着人工智能和大数据技术的进一步发展,数据挖掘技术将会迎来更广阔的应用前景。

首先,数据挖掘技术将与机器学习、深度学习等技术相结合,形成更加智能化的解决方案。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据挖掘研究的现状与发展趋势郑继刚,王边疆(保山学院数学系,云南保山678000)影响其空间分布的因素之间的关系;预测型的模型用来根据给定的一些属性预测某些属性,如分类模型和回归模型等.目前,主要在空间数据挖掘的体系结构和挖掘过程做了大量研究,包括面向对象的空间数据库的数据挖掘、模糊空间关联规则的挖掘、不确定性挖掘、聚类挖掘、挖掘空间数据的偏离和演变规则、基于多专题地图的挖掘、交叉概化、基于时空数据的概化、并行数据挖掘、统计分析与数据挖掘的协同和遥感影像的挖掘等,主要采用了基于统计学和概率论、集合论、机器学习、仿生物学、地球信息学的研究方法.4.2多媒体数据挖掘多媒体数据,包括图形、图像、文本、文档、超文本、声音、视频和音频数据等,数据类型复杂.随着信息技术的进步,人们所接触的数据形式越来越丰富,多媒体数据的大量涌现,形成了很多海量的多媒体数据库[8].这些数据大多是非结构化数据、异构数据,特征向量通常是数十维甚至数百维,转化为结构数据和降维成了多媒体数据挖掘的关键技术.有研究者提出了多媒体数据挖掘的系统原型MDMP,将多媒体数据的建模表示、存储和检索等多媒体数据库技术与数据挖掘技术有机地结合在一起,采用多媒体图像数据的相似性搜索、多维分析、关联规则挖掘、分类与聚类分析等挖掘方法,广泛地应用于医学影像诊断分析、卫星图片分析、地下矿藏预测等各种领域.4.3时序数据挖掘时序数据挖掘通过研究信息的时间特性,深入洞悉事物进化的机制,揭示其内在规律(如波动的周期、振幅、趋势的种类等),成为获得知识的有效途径.关键问题是要是寻找一种合适的序列表示方式,基于点距离和关键点是常用的算法,但都不能完整表示出序列的动态属性.时序数据挖掘的主要技术有趋势分析和相似搜索,在宏观的经济预测、市场营销、客流量分析、太阳黑子数、月降水量、河流流量、股票价格波动等众多领域得到了应用.国内对于时序数据的研究比较少,使用的方法和技术主要有人工神经网络技术,利用它预测和处理混沌观测时间序列能达到较高的精度[9].此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间,将时序数据映射为多维空间的点,在此基础上,有学者提出一种新的基于距离的离群数据挖掘算法[10].4.4Web数据挖掘随着Internet/Web技术的快速普及和迅猛发展,使各种信息可以在网络上获得,但是它是巨大的、分布广泛的、全球性多样的和动态变化的.面对如此大量的Web数据,如何在这个全球最大的数据集合中发现有用信息成为Web数据挖掘研究的热点.当前,Web数据挖掘可分为四类,即Web内容挖掘、Web结构挖掘、Web使用记录挖掘和Web用户性质挖掘.4.5不确定数据挖掘传统的数据挖掘技术处理位置已经被精确给定的对象,然而在实际应用领域,由于测量仪器的局限性会造成测量值的不准确,数据的不确定性是不可避免的.数据的不确定性主要可以分为存在的不确定性和值的不确定性两大类,存在的不确定性指的是不确定对象或元组的存在与否,如关系数据库的某个元组和一个概率相关联表示这个元组存在的可信度,值的不确定指的是一个元组的存在是确定的,但它的值是不确定的.现在对不确定数据挖掘的研究已成为热点,在聚类分析、关联规则、空间挖掘等方面都有突破,经典的K-means算法扩展到了UK-means算法,Apriori算法扩展到了UApriori算法等.5数据挖掘面临的问题数据挖掘任务、数据挖掘方法、用户交互、性能和各种数据类型的多样性,给数据挖掘提出了许多挑战性的课题.数据挖掘语言的设计,高效而有用的数据挖掘方法和系统的开发,交互和集成的数据挖掘环境的建立,以及应用数据挖掘技术解决大型应用问题,都是目前数据挖掘、系统、研究人员和应用开发人员所面临的主要问题[11].5.1挖掘方法和用户交互问题这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、知识的使用、特定的挖掘和知识可视化.如,数据库中挖掘不同类型的知识;多个抽象层的交互知识挖掘;结合背景知识;数据挖掘查询语言和特定的数据挖掘;数据挖掘结果的表示和可视化;处理噪声和不完全数据;模式评估即兴趣度问题.5.2性能问题主要包括数据挖掘算法的有效性、可伸缩性和并行处理等性能问题.如,数据挖掘算法的有效性和可伸缩性;并行、分布式和增量挖掘算法.5.3关于数据库类型的多样性问题如,关系的和复杂的数据类型的处理;由异种数47红河学院学报2009.2/数学表1数据挖掘研究的进化历程进化阶段支持技术产品厂家产品特点数据搜集(20世纪60年代)计算机、磁带和磁盘IBM、CDC提供历史性的、静态的数据信息数据访问(20年代80世纪)关系数据库、结构化查询语言、ODBCOracle、Sybase、Informix、IBM、Microsoft在记录级提供历史性的、动态的数据信息数据仓库、决策支持(20世纪90年代)联机分析处理、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)高级算法、多处理器计算机、海量数据库Pilot、Lockheed、IBM、SGI、其它初创公司提供预测性的信息3数据挖掘研究的现状与成果在国外,数据挖掘技术已被广泛的应用于各个领域,其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的SKICAT系统,能够帮助天文学家发现遥远的类星体,是人工智能技术在天文学和空间科学上的第一批成功应用之一;生物学研究中用数据挖掘技术对DNA进行分析;利用数据挖掘技术识别顾客的购买行为模式,对客户进行了分析;对银行或保险公司经常发生的诈骗行为进行预测;IBM公司开发的AS(AdvancedScout)系统针对NBA的比赛数据,帮助教练优化战术组合等[5].在学术研究上,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了数据挖掘专题或专刊,如IEEE的KnowledgeandDataEngi-neering会刊领先在1993年出版了数据挖掘技术专刊,在Internet上还有不少数据挖掘电子出版物,其中以半月刊KnowledgeDiscoveryNuggets最为权威.另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版,可向dstrial@tgc.com提出免费订阅申请.与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量.1993年国家自然科学基金首次支持数据挖掘领域的研究项目,目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及其应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等.例如,复旦大学施伯乐教授领导开发了数据挖掘工具集AMINER;北京大学智能科学系的唐世渭和杨冬青教授领导开发了基于空间数据挖掘的客户分析系统模型CASDM.此外,清华大学周立柱教授领导的数据挖掘研究小组,四川大学唐常杰教授领导的针对时间序列方面的数据挖掘研究小组,中国科技大学蔡庆生教授领导的针对关联规则的研究小组,复旦大学朱扬勇教授领导的数据挖掘工作组,云南大学王丽珍教授带领的针对不确定数据挖掘的研究小组等,都取得了许多重要的研究成果.在数据挖掘算法研究方面,中科院计算所史忠值研究员、清华大学石纯一、陆玉昌教授、武汉大学李德仁院士、北京科技大学杨炳儒教授、复旦大学周傲英教授等都取得了许多重要的研究成果.国内比较重要的会议有全国数据库学术会议(NationalDataBaseAcademicConference,简称ND-BC),权威的杂志有《计算机学报》、《软件学报》和《计算机研究与发展》等[6].4数据挖掘研究方向数据挖掘涉及的学科领域和方法很多,有不同的分类分支.根据挖掘任务可以分为:分类或预测模型发现、数据总结与聚类发现、关联规则发现、序列模式发现、相似模式发现、混沌模式发现、依赖关系或依赖模型发现、异常和趋势发现等;根据挖掘对象可以分为:关系型数据库挖掘、面向对象数据库挖掘、空间数据库挖掘、时态数据库挖掘、文本数据源挖掘、多媒体数据库挖掘、异质数据挖掘、遗产数据挖掘、Web数据挖掘等;根据挖掘方法可以分为:机器学习方法、统计方法、聚类分析方法、神经网络方法、遗传算法方法、数据库方法、近似推理和不确定性推理方法、基于证据理论和元模式的方法、现代数学分析方法、粗糙集方法和集成方法等;根据数据挖掘所发现的知识可以分为:挖掘广义型知识、挖掘差异型知识、挖掘关联型知识、挖掘预测型知识、挖掘异常型知识、挖掘不确定性知识等[7].4.1空间数据挖掘空间数据是从遥感、地理信息系统(GIS)、多媒体系统、医学和卫星图像等多种应用中收集而来,收集到的数据远远超过了人脑的分析能力.空间数据挖掘技术按功能划分可分为三类:描述、解释、预测.描述性的模型将空间现象的分布特征化,如空间聚类;解释性的模型用于处理空间关系,如处理一个空间对46郑继刚王边疆:数据挖掘研究的现状与发展趋势摘要:数据挖掘作为提取知识的过程,概述了数据挖掘研究的过去和现状,着重分析了目前数据挖掘的分支方向、面临的问题,并对数据挖掘技术的发展趋势作了展望.关键词:数据挖掘;分支;研究;现状;趋势中图分类号:TP311文献标识码:A文章编号:1008-9128(2010)02-0045-04进入信息时代,保存在计算机中的文件和数据库中的数据量正在以指数速度增长,同时人们期望从数据中获得更有用的信息.实际上,这些数据中只有一小部分有用,但人们却渴求获得知识,正面临“数据丰富而知识贫乏”的问题,所以迫切需要一种新的技术从海量数据中自动、高效地提取所需的有用知识,这时,数据挖掘技术由此而生.数据挖掘(DataMining,简称DM)所要处理的问题,就是在庞大的数据库中找出有价值的隐藏事件,并且加以分析,其主要的贡献在于从数据库中获取有意义的信息以及对数据归纳出有用的结构,作为企业进行决策的依据.此外,数据挖掘的也是发现数据库拥有者先前关心却未曾知悉的有价值信息.事实上,数据挖掘并不只是一种技术或是一套软件,而是一种结合数种专业技术的应用[1].1数据挖掘的定义数据挖掘又叫做数据库中发现知识(KnowledgeDiscoveryinDatabase,简称KDD),是20世纪90年代以来发展起来的数据库系统和数据库应用领域一个欣欣向荣的前沿学科,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的但又是潜在有用的信息和知识的过程[2].它涉及到对数据库中的大量数据进行抽取、转换、分析以及模型化处理,从中提取辅助决策的关键性数据.数据挖掘可以帮助决策者寻找规律,发现被忽略的要素,预测趋势,进行决策,也是对数据内在和本质的高度抽象与概括,是对数据从理性认识到感性认识的升华.数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持.是建立在数据库、人工智能、机器学习、神经网络、统计学、模式识别、高性能计算等技术基础上的一门新兴技术.因此,在这种需求牵引下,汇聚了不同领域的研究者,吸引了数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员投身到数据挖掘这一新兴的研究领域,形成新的技术热点.2数据挖掘研究的过去数据库中发现知识一词首次出现于1989年在美国底特律召开的第十一届国际联合人工智能学术会议上,到1995年在加拿大蒙特利尔召开的首届KDD&DataMining国际学术会议,再到以后每年都要召开一次的KDD&DataMining国际学术会议,经过十多年的努力,数据挖掘技术的研究已经取得了丰硕的成果,不少软件公司已研制出数据挖掘软件产品,并在北美、欧洲等国家得到应用[3].数据挖掘可以认为是数据库技术和信息技术自然演变的结果.在数据库业界,数据挖掘的进化经历了四个阶段:数据搜集、数据访问、数据仓库和决策支持(见表1)[4].收稿日期:2010-02-26作者简介:郑继刚(1983-),男,云南保山人,讲师,云南大学在读硕士.研究方向:数据挖掘. 据库和全球信息系统挖掘信息.6数据挖掘的发展趋势数据挖掘任务和数据挖掘方法的多样性对数据挖掘提出了许多挑战性的研究问题,在将来会形成更大的高潮,研究焦点可能会集中到以下几个方面:研究专门用于知识发现的数据挖掘语言,走向形式化和标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解,也便于在知识发现过程中的人机交互;研究在网络与分布式环境下的数据挖掘技术,特别是在Internet上建立数据挖掘服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据、多媒体数据;探索可伸缩的和可交互的数据挖掘方法,全面提高挖掘过程的总体效率,尤其是超大规模数据集中数据挖掘的效率;扩大数据挖掘应用范围,如金融分析、生物医药研制、犯罪侦查等;开发适应多数据类型、容噪的挖掘方法,以解决异质数据集的数据挖掘问题;动态数据和知识的数据挖掘等.结语在这个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进数据挖掘技术的发展,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入.虽然对数据挖掘的研究取得了一定的成果,但是数据挖掘研究仍然面临着许多问题和挑战,还存在许多问题等待我们去探索和研究.参考文献:[1]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发展[J].统计与信息论坛,2008(5):94-96.[2]JiaweiHan,MichelineKamber.数据挖掘概念与技术[M].北京:机械工业出版社,2007:25-26.[3]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006(2):46-49.[4]陆建江,张亚非,宋自林.模糊关联规则的研究与应用[M].北京:科学出版社,2008.[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(3):10-15.[6]徐雪琪.基于统计视角的数据挖掘研究[D].杭州:浙江工商大学,2007.[7]毛国君,段立娟,王实等.数据挖掘原理与算法[M].北京:清华大学出版社,2005.[8]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(5):44-47.[9]臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].数据采集与处理,2001(4):486-489.[10]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算法[J].控制与决策,2002(3):324-327.[11]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报,2007(2):1-4.[责任编辑宋焕斌]CurrentSituationandDevelopmentTrendofDataMiningZHENGJi-Gang,WANGBian-Jiang(BaoshanCollege,Baoshan678000,China)Abstract:Thispaperoutlinesthepastandpresentsituationofdataminingasaprocessofknowledgeextraction.ItfocusesonanalyzingthebranchofdataminingandProblemoffacing,givinganoutlookonthedevelopmenttrendofdataminingtechnology.Keywords:datamining;branch;research;currentsituation;trendClassNo:TP311DocumentMark:A48郑继刚王边疆:数据挖掘研究的现状与发展趋势。

相关文档
最新文档