图书馆数据挖掘方法

合集下载

数字图书馆中文献元数据自动提取与处理方法

数字图书馆中文献元数据自动提取与处理方法

数字图书馆中文献元数据自动提取与处理方法随着数字图书馆的快速发展和信息技术的不断进步,越来越多的中文文献被数字化并存储在数字图书馆中。

这些文献包含了各种各样的信息,如标题、作者、摘要、关键词等。

然而,由于文献数量庞大,人工提取和处理这些元数据变得非常耗时耗力。

因此,数字图书馆中文献元数据自动提取与处理方法应运而生。

数字图书馆中文献元数据的自动提取与处理是指利用计算机技术,通过对文献中的内容进行智能识别和分析,从中提取出关键信息,并进行进一步的处理和组织,以便更好地管理和利用这些文献。

下面介绍几种常用的方法:1. 文本挖掘技术:文本挖掘技术是一种通过机器学习和自然语言处理等方法,从文本数据中自动提取或推断出有价值的信息的技术。

在数字图书馆中,可以利用文本挖掘技术来提取文献的标题、作者、摘要等信息。

例如,可以使用自然语言处理技术分析文献中的文字,通过识别关键词、实体名称等来提取元数据。

2. 信息抽取技术:信息抽取技术是一种从非结构化文本数据中提取结构化信息的方法。

在数字图书馆中,可以利用信息抽取技术从文献中抽取出各种元数据信息。

例如,可以使用基于规则的抽取方法,通过事先定义的规则来抽取出标题、作者、摘要等字段的值。

另外,还可以使用基于机器学习的抽取方法,通过训练一个模型来自动学习和提取元数据。

3. 文献标引技术:文献标引技术是一种将文献内容与已知的标准词汇进行匹配和标注的方法。

在数字图书馆中,可以利用文献标引技术来提取文献的主题词、关键词等信息。

例如,可以使用现有的文献标引系统,通过匹配文献内容与标准词汇,自动提取出与文献内容相关的术语和关键词。

为了使提取和处理的元数据更加准确和可靠,需要注意以下几个方面:1. 强化数据清洗:在进行元数据提取和处理之前,需要对原始数据进行清洗,去除无用信息和噪声。

例如,去除文本中的HTML标签、过滤掉特殊字符等。

这样可以提高后续处理的准确性和效率。

2. 结合多种方法:元数据的提取和处理是一项复杂的任务,不存在一种单一的方法适用于所有文献。

基于数据挖掘技术的图书馆工作

基于数据挖掘技术的图书馆工作

在数字化 的今天 , 在很多领域 数据挖掘都得 到广泛 的应用 , 其是 尤
银行 、 电信 、 保险 、 、 售( 交通 零 如超级市场 ) 等商业领域 。同样 , 数据挖掘 技术也扩大了图书馆管理 工作的视野 , 在网书馆各项服务 _作 巾也有着 T
很 好 的适 用 性 。
即可建立决策树 。 【决策树 , 采 } J 可以将数据规则可视化 , 其输 出结果也容 易理解 。典型的决策树算法如 l 3 c . 5 , D ,4 ,. 该类方法的实用效 果好 , 5 0 影 响较大 。
1 数据挖 掘 的概念 和功 能
数据 挖掘就是从大量 数据 中获取有效 的 、 颖的 、 新 潜在有心 的 、 最终 可理解的模式 的非平 凡过程 , 简单地说 , 数据挖掘就 是从大量数 据 巾提 取或“ 掘” 挖 知识 。不仅能对过去 的数据进行查 询和遍 历 , 而且能够对将 来的趋势和行为进行 预测 , 自动探测 以前未发现 的模式 , 并 从而 很好地
中图 分 类 号 : 2 07 G5. 文 献 标 识 码 : A 它以信息论 巾的互信息 ( 信息 增益 ) 原理 为基础寻找数据库 巾具有最大 信息量 的字段 , 创建决策树 的一 个结点 , 根据字段的不 同取值建立树 再
的分枝 ;在每个 分枝 中继续 重复创建决策树的下层结点和分枝的过程 ,

据之间的隐藏 的关联规则 。 若两个或多个数据项的取值重复出现且 概率
很高时, 它们就很可能存在某种关联 , 可以建立 这些数据项 的关联规 则 , 即对数据 库巾数据相关性的描述。
() : 2 分类 分类 是找 i 一个类 别的概念描述 , n 它代表 了这类数据 的整
体信息 , 即该类 的内涵描述 , 并用这种描述来 构造模 型 . 一般用规则或决

图书馆流通数据挖掘模式研究

图书馆流通数据挖掘模式研究
E tr rs M i e 、 I I tl g n M i e 、 Un — n ep i e n r BM n el e t i n r i cp a RW 、 S S e n i e S i e e 、 Or c e P S Clme t 、 GI M n S t n a l
借 阅量 逐 年减 少 、借 阅量 不 变 的各 类 图书 .有 帮 助
于 了解 读 者 阅读 变 化 。
数 据进 行 挖 掘 ,找 出 图 书与 图书 之 间 、读 者 与读 者
之 间 、读 者 与图 书之 间 的关 系 和规律 ,为服务 读 者 、 藏 书建设 和管 理提 供决 策依 据 。 ( )挖 出读 者群 体 使 用 特性 。如 通 过 聚类 分 析 1
找 出借 阅率 高 、借 阅率 低 和 借 阅率 一 般 的读 者 ,对 借 阅率高 的读 者可 以提 高借 阅册数 。鼓励 其多 借 书 ;
s u yO1 atrso DaaM iigO i rr rt a 0 t a 1P t n f t e nn nL b ayCicl nDaa l t
HUANG e z n W n—ho g
(ot a ut Su e t f h nU ie i ; ir yo G agh uU ies , un z o 15 0 C ia P s rd ae tdn Wu a nvr t Lba f un z o nvr t G agh u 0 2 , hn ) g o sy r i y 5
2 数 据挖 掘 工具选 择

般 来 讲 ,数据 挖 掘 工 具根 据 其 适用 的 范 围分
为两 类 :专 用 数 据挖 掘工 具 ,如 KDI( 售 ) p 零 、O .

数据挖掘的方法有哪些

数据挖掘的方法有哪些

数据挖掘的方法有哪些数据挖掘是一种通过分析大量数据来发现模式、趋势和规律的过程。

它可以帮助人们从海量的数据中提取有用的信息,对商业决策、市场营销、科学研究等领域都有着重要的作用。

在数据挖掘的过程中,有许多不同的方法可以被使用,下面将介绍其中一些常见的方法。

1. 分类。

分类是数据挖掘中最常用的方法之一。

它通过对已知类别的数据进行学习,然后将这种学习应用到新的数据中,从而对新数据进行分类。

在分类过程中,常用的算法包括决策树、朴素贝叶斯、支持向量机等。

这些算法可以帮助我们对数据进行有效的分类,例如将邮件分类为垃圾邮件和非垃圾邮件,将疾病患者分类为患病和健康等。

2. 聚类。

聚类是另一种常见的数据挖掘方法,它将数据集中的对象分成若干个组,使得同一组内的对象相似度较高,而不同组之间的对象相似度较低。

聚类可以帮助我们发现数据中的隐藏模式和结构,对于市场细分、社交网络分析等领域有着广泛的应用。

常用的聚类算法包括K均值、层次聚类、DBSCAN等。

3. 关联规则挖掘。

关联规则挖掘是一种发现数据中项之间关联关系的方法。

它可以帮助我们发现数据中的潜在规律和趋势,对于超市商品搭配、交易分析等有着重要的作用。

常用的关联规则挖掘算法包括Apriori 算法、FP-growth算法等。

4. 异常检测。

异常检测是一种发现数据中异常值的方法。

它可以帮助我们发现数据中的异常情况,对于欺诈检测、设备故障预警等有着重要的应用。

常用的异常检测算法包括基于统计学的方法、基于距离的方法、基于密度的方法等。

5. 文本挖掘。

文本挖掘是一种对文本数据进行分析和挖掘的方法。

它可以帮助我们从海量的文本数据中提取出有用的信息,对于舆情分析、情感分析、文本分类等有着重要的作用。

常用的文本挖掘算法包括词袋模型、TF-IDF算法、主题模型等。

除了上述提到的方法,数据挖掘还涉及到回归分析、时间序列分析、神经网络等多种方法。

随着数据挖掘技术的不断发展,新的方法和算法也在不断涌现。

图书馆数据分析与利用

图书馆数据分析与利用

图书馆数据分析与利用随着信息技术的快速发展,图书馆作为知识获取和传播的重要场所,积累了大量的数据。

这些数据蕴含着丰富的信息和价值,通过数据分析与利用,可以帮助图书馆更好地服务读者、提升办馆效率,并为图书馆的发展指引方向。

一、图书馆数据分析的意义图书馆数据分析是指通过收集、整理和分析图书馆所产生的各类数据,挖掘出其中的价值信息,为图书馆管理和服务决策提供科学依据。

具体意义如下:1. 提升读者满意度。

通过分析读者借阅、查询和反馈等数据,图书馆可以了解读者的需求和偏好,并针对性地开展服务和采购,实现精准推荐和个性化服务,从而提升读者的满意度。

2. 优化图书馆资源配置。

图书馆数据分析可以帮助图书馆分析图书、期刊等文献资源的使用情况,了解哪些资源被频繁借阅,哪些资源存放时间过长等,进而对资源进行合理调配和更新,最大限度地发挥资源的效益。

3. 提高办馆效率。

通过对馆内人流、借阅流程等数据的分析,图书馆可以了解办馆繁忙时段和区域,合理安排工作人员,并优化工作流程,提高办馆效率和服务质量。

4. 支持决策制定。

图书馆数据分析可以为图书馆管理层提供决策参考,比如依据读者借阅数据制定采购计划、基于用户行为数据改进馆藏布局等,为图书馆的发展规划提供科学依据。

二、图书馆数据分析的方法与工具图书馆数据分析需要运用合适的方法和工具,以保证数据的准确性和分析的可行性。

常用的方法和工具如下:1. 数据收集与整理。

图书馆数据收集可以通过借阅记录、查询日志、用户调查等方式进行,需要注意保护读者隐私。

数据整理则是将收集到的庞大数据进行清洗、归纳和分类,以方便后续的分析处理。

2. 统计分析。

统计分析是对图书馆数据的基础处理,可以通过数据可视化、数据表现形式、运用统计学方法等手段,对图书馆数据进行总体和局部分析,抽取关键信息。

3. 数据挖掘。

数据挖掘是对大规模数据进行深入挖掘和分析,以发现其中的模式、关联和趋势等隐藏信息。

在图书馆数据挖掘中,可以运用分类、聚类、关联规则等算法,挖掘读者群体特征、文献资源关联等。

论数字图书馆数据挖掘系统模型研究

论数字图书馆数据挖掘系统模型研究

周 群
( 邑 大 学 图 书 馆 江 门 5 92 ) 五 2 0 0
摘 要 利 用 先 进 的 数 据 挖 掘 技 术 , 与 数 字 图 书馆 现 有 信 息 技 术 相 结 合 , 计 出新 的数 字 图书 馆 数 据 挖 掘 系统 模 并 设 型; 同时 , 该 系统 在 数 字 图 书馆 的 应 用 进 行 了详 细 阐 述 复 这 个 操 作 , 到 求 得 最 佳 或 较 佳 重 直
个 体 。在 数 据 挖掘 中 , 往 把 数 据 挖掘 任 务 表 达 为 一 种 搜 索 往
所 谓 数据 挖掘 技 术 是 指 从 大 量 的 、 完 全 的 、 噪 声 的 、 不 有
模糊 的 、 机 的 实 际 应 用 数 据 中 , 取 隐 含 在 其 中 的 、 们 事 随 提 人
程 , 数 据 抽 样 和建 模 、 如 判断 假设 以 及误 差 控 制 等 。
15 模糊数 学方法 , 模 糊 逻 辑 集 合 与 布 尔 逻辑 的融 合 . 一
个公 式 的 真 值 , 在 [ . ] 间 任 意 取 值 。 在 数 据 挖 掘 和 可 0 1 区 K D中 . 用来进行证据合成 、 信度计算等。 D 常 置
先 不 知道 的 、 在 有 用 的 信 息 和 知 识 的 过 程 。其 主 要 特 点 是 潜 对数 据 库 中 的 大量 数据 进 行 抽取 、 换 、 析 和 其 他 模 型 化 处 转 分 理 , 中 提 取 辅 助 决 策 的 关 键 性 数 据 。2 从 0世 纪 9' 代 以来 , 0 年 数据 挖掘 技术 就 开 始 活 跃 于信 息 技术 领 域 , 过 l 经 0多 年 的 发 展 , 际 上 典 型 数 据 挖 掘 的 方 法 和 技 术 主 要 有 6大 类 。 这 些 国 技 术 和方 法来 自相关 学 科 和技 术 领 域 , 主要 有 归 纳学 习法 、 仿

基于数据挖掘技术的图书馆借阅量估计模型

基于数据挖掘技术的图书馆借阅量估计模型

基于数据挖掘技术的图书馆借阅量估计模型随着数字化时代的到来,图书馆的角色和功能正在发生深刻的变化。

图书馆不再仅仅是储存书籍的场所,而是成为了知识服务的综合性机构,通过各种信息技术手段为读者提供更加便捷、高效的服务。

数据挖掘作为其中的重要技术手段之一,正在逐渐应用到图书馆管理中。

基于数据挖掘技术的图书馆借阅量估计模型,可以帮助图书馆更好地了解读者的借阅行为和阅读偏好,为图书馆的管理决策提供科学依据。

本文旨在探讨基于数据挖掘技术的图书馆借阅量估计模型的实现原理和应用价值。

一、数据挖掘技术在图书馆管理中的应用数据挖掘是指通过自动或半自动的方法,从大量的数据中寻找规律、模式和趋势的过程。

数据挖掘技术通过对数据的分析和挖掘,可以为图书馆提供重要的决策支持和信息服务。

在图书馆管理中,数据挖掘技术可以应用于读者画像分析、馆藏发展规划、阅读推荐系统、借阅量预测等方面。

图书馆借阅量的预测是数据挖掘技术在图书馆管理中的一个重要应用场景,在借阅量的预测模型设计中,图书馆可以通过分析历史借阅数据、读者信息和图书信息等多种数据,从而预测未来的借阅量情况。

1. 数据采集与预处理在构建基于数据挖掘技术的图书馆借阅量估计模型时,首先需要进行数据采集与预处理。

数据采集主要包括历史借阅数据、读者信息、图书信息等数据的获取与整理;数据预处理包括数据清洗、缺失值处理、异常值处理等环节,以确保数据的质量和完整性。

2. 特征选择与提取在数据挖掘模型中,特征选择与提取是一个关键步骤。

对于图书馆借阅量估计模型而言,可以选择包括时间特征、读者特征、图书特征等多种特征,以构建全面的特征集合。

在特征选择的过程中,可以通过相关性分析、信息增益等方法筛选出对借阅量有影响的重要特征。

3. 模型构建与训练基于数据挖掘技术的图书馆借阅量估计模型可以采用多种机器学习方法进行构建与训练,如决策树、神经网络、支持向量机等。

在模型构建与训练的过程中,需要将数据集划分为训练集和测试集,通过训练集对模型进行训练,再通过测试集对模型进行评估,并进行参数调优。

高校图书馆馆藏管理中的数据挖掘研究

高校图书馆馆藏管理中的数据挖掘研究

高校图书馆馆藏管理中的数据挖掘研究【关键词】数据挖掘;高校图书馆;系统模型1 数据挖掘和知识发现数据挖掘,就是从大型数据库的数据中提取人们感兴趣的知识。

这些知识是隐含的、事先未知的潜在有用信息,提取的知识表示为概念、模式、规则、规律等形式[1]。

知识发现是从大量数据中辨别可信的、新颖的、潜在有用的并能被人所理解的模式的高级处理过程。

数据挖掘和知识发现是随着数据库、数据仓库、机器学习、互联网等信息技术的发展而兴起的。

2 数据挖掘在高校图书馆馆藏管理中的应用作为教学与科学研究服务的学术性机构,高校图书馆功能可以分为两大类,一类是信息输入工作,即文献的搜集、整理和组织典藏工作,也称文献资源建设工作;一类是信息输出工作,即文献的使用和服务工作,也称读者服务工作。

这两部分工作共同构成了图书馆的业务工作体系[2]。

数据挖掘技术在高校图书馆馆藏工作中的应用,可以总结为三个方面:2.1 高校图书馆馆藏管理决策中的应用目前高校图书馆普遍采用了自动化集成管理系统,数据库的信息容量庞大,依靠人工找出有价值的信息是不可能的。

利用数据挖掘技术对数据库进行挖掘,进行科学合理地分析,得到有效的决策支持信息指导图书馆各项业务工作,为领导者科学决策提供支持,是高校图书馆发展的趋势之一。

2.2 文献采访工作、图书馆文献资源建设中的应用如何使用有限的资金发挥最大的作用一直是高校图书馆建设的一个难点问题,通过对流通数据、检索记录、咨询记录进行整体挖掘,可以得知哪种类型的图书缺口比较大,哪些已经接近饱和,这些信息为图书馆的文献采集工作指明方向。

2.3 为读者提供个性化服务中的应用通过对流通数据库中的历史记录进行挖掘分析,发现隐含在其中的知识,归纳出读者的借阅规则和兴趣,结合读者的个人注册信息等,利用关联规则、分类、聚类等技术对借阅的历史记录进行挖掘,对于不同的读者群,确定不同的有针对性的推荐服务。

如学计算机的读者借了一本《数据库系统概论》,为其推荐此书的相关书籍。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

30 40
置信度 (confidence)
confidence, c, conditional probability that a transaction having X also contains Y.
confidence(X⇒Y)=同时购买商品X和Y的交易 数/购买商品X的交易数
Customer buys beer Customer buys both Customer buys diaper
在商场中拥有大量的商品(项目),如:牛奶、面包等,客户 将所购买的商品放入到自己的购物篮中。 通过发现顾客放入购物篮中的不同商品之间的联系,分析顾客 的购买习惯: 哪些物品经常被顾客购买? 同一次购买中,哪些商品经常会被一起购买? 一般用户的购买过程中是否存在一定的购买时间序列?

数据离散化与概念分层
数据归约的一部分,通过数据的离散化和概念分层来规 约数据。
Forms of data preprocessing
关联规则挖掘——购物篮数据的二元形式表示
购物篮数据的二元形式表示。其中,每行对应一个事务,每列对应一个 项。项用二元变量表示,如果项在事务中出现,则它的主值为1,否则为 0。忽略了数据的某些重要方面,如所购商品的价格和数量等。 注:目前主要针对离散数据。

数据挖掘的步骤

数据准备
数据选择:目标数据 数据预处理:消除噪声、不一致、冗余等 数据变换:连续数据离散化、数据转化 数据归约:特征选择或抽取

数据挖掘算法的选择.
首先要明确任务,如数据总结、分类、聚类、关联规则发现、序 列模式发现等。 考虑用户的知识需求(得到描述性的知识、预测型的知识)。 根据具体的数据集合,选取有效的挖掘算法。
实上,多数数据被闲置。

数据量太大,无法用传统的统计方法进行处理(包括实现算法),
如同大型搜索引擎进行数据组织时使用倒排索引,而不是使用
数据库一样。

解决方法:数据挖掘技术,将传统的数据分析方法与处理海量数据
的复杂算法相结合。(面向实际应用,强调高性能算法的实现。而
统计更多的强调其理论特性如大数定理,假设检验等) 数据挖掘:在大量的数据中挖掘感兴趣的知识(规则,规律,或模 式)。

评注
影响挖掘结果质量的因素:采用的算法、数据本身的质量与数量 数据挖掘的过程是一个不断反馈的过程 可视化在数据挖掘过程的各个阶段都扮演着重要角色,如用散点图 或直方图等统计可视化技术来显示有关数据,以期对数据有一个初 步的了解。
数据挖掘: 数据库中的知识挖掘(KDD)
数据挖掘——知识挖掘的核心
用于描述确定性,即“值得信赖的程度”、 “用于推理的可靠性”
聚类分析

聚类是对数据对象进行划分的一种过程,与分类 不同的是,它所划分的类是未知的,故此,这是 一个“无指导的学习”(unsupervised learning) 过程,即聚类算法不需要“教师”的指导,不需 要提供训练数据,它倾向于数据的自然划分。 聚类分析( clustering analysis ): 是一个“无指导 的学习” 过程,它将数据对象分组成多个类或簇, 使得在同一个簇中个体的具有较高的相似度,而 不同簇中的个体差别较大。
������

������

数据、信息、知识、理解和先知

系统学专家Russell Ackoff博士认为人类大脑包涵的内容,分为五类: 数据(Data): 符号(Symbols )的集合,未加工、较为原始的形态 信息(Information): 数据经过处理后,有意义的,具有利用价值的,能够 回答4W为(“who”, “what”, “where”, and “when”)等问题 知识(Knowledge): 实践中产生、经过实践检验的一种客观规律。
概念/类描述:特征化和区分(定性与对比)

一个概念:对一个包含大量数据的数据集合总体情况的概述。

概念描述(concept
description):对含有大量数据的数据集合进行概述
性的总结并获得简明、准确的描述。

概念描述的主要方法: 对目标数据进行概述性的总结,数据泛化。 对两个数据集合概化后,进行对比并将对比结果进行概化。(以 表格或对比规则形式给出)
聚类分析

聚类是对数据对象进行划分的一种过程,与分类不同的是,它 所划分的类是未知的,故此,这是一个“无指导的学习” (unsupervised learning)过程,即聚类算法不需要“教师”的 指导,不需要提供训练数据,它倾向于数据的自然划分。

文本聚类(Text clustering): 将文本集合分组成多个类或簇, 使得在同一个簇中的文本内容具有较高的相似度,而不同簇中 的文本内容差别较大。它是聚类分析技术在文本处理领域的一
模式评估
数据挖掘
任务相关数据 数据仓库 选择
数据清理
数据集成 数据库
数据挖掘的主要功能 ——可以挖掘哪些模式?

一般功能
预测性的数据挖掘: 在当前数据上进行推断和预测,建模和 预测,主要包括分类(预测离散型的目标变量)、回归分析 (预测连续型的目标变量) 描述性的数据挖掘: 概括数据中潜在的联系模式(简单汇总、 关联、聚类、异常等)。

趋势和偏差: 回归分析 序列模式匹配:周期性分析 基于类似性的分析
数据挖掘的工具

SPSS ( +Clementine ) SAS Enterprise Miner Matlab Intelligent Miner (IBM) MSMiner (Intelligence Science Lab, CAS) DBMiner (DBMiner Technology Inc.) …..
数据挖掘的步骤

结果的解释评估(interpretation and evaluation)
对挖掘出来的结果(模式),经用户或机器评价,剔除冗余或无关 的模式。 模式不满足用户需求时,返回到某一步,重新挖掘。如:重新选择 数据、采用新的变换方法、设定新的数据挖掘参数,或者换一种挖 掘算法(如分类方法,不同的方法对不同的数据有不同的效果)。 挖掘的结果是面向用户的,对挖掘结果进行可视化或者转化为用户 易于理解的形式表示。
图书馆数据挖掘方法、 工具与案例分析
大纲

数据挖掘概述 数据挖掘的过程 数据挖掘方法与工具 图书馆数据挖掘案例分析
图书馆数据挖掘实践
数据挖掘的发展动力 ---需要是发明之母

信息技术的发展使得数据的收集和存储简单,且价格低廉。导致了:
数据极大丰富(data rich) ,知识极其匮乏(knowledge poor),事
数据预处理的主要方法

数据清理
填写空缺的值,平滑噪声数据,识别、删除孤立点,解 决不一致性来清理数据

数据集成
集成多个数据库、数据立方体或文件
数据变换
将数据转换或统一成适合于挖掘的形式。如数据规范化
数据归约
可以用来得到数据集的归约(压缩)表示,它小得多, 但仍保持数据的完整性。对归约后的数据集挖掘将更有 效,并产生相同(或几乎相同)的分析结果。

如一个大学中讲师、副教授的情况 讲师:75% (papers<3) and (teaching courses<2)
副教授:66% (papers>=3) and (teaching courses>=2)
关联规则

关联规则挖掘就是发现大量数据中项集之间有趣的关联 关联规则挖掘的典型案例:购物篮问题

聚类分析

在IR中的应用:早期主要是为了提高系统的查准率与查全率, 并被用于寻找给定文本的相近文本。 目前主要用于浏览文本、显示文本集合、组织搜索引擎的返 回结果,如 Vivisimo 的结果聚类,这有利于用户快速定位自 己需要的信息。 其他应用:如帮助市场分析人员从客户信息中发现不同的用 户群,并且用购买模式来刻画不同的用户群的特征。
什么是数据挖掘?

从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解 的模式的非平凡过程。 非平凡(的过程):有一定的智能性、自动性(仅仅给出所有 数据之和不能算做一个发现过程)。
有效性:所发现的模式对新的数据仍保持一定的可信度。
新颖性:所发现的模式应该是新的。 潜在有用性:所发现的模式将来有实际的效用。 最终可理解性:能被用户理解,如:简洁性

有趣性:有效性、新颖性、潜在有用性、最终可理解性的综合。
数据挖掘: 多个学科的融合
数据库系统 统计学
机器学习
数据挖掘
可视化
算法
其他学科
数据ห้องสมุดไป่ตู้掘的步骤

观点:数据挖掘是数据库中的知识发现 (KDD)的一个步骤。 --指挖掘的算法 粗略理解三部曲:
数据准备(data preparation)、 数据挖掘(data mining) --指挖掘的算法 结果的解释评估(interpretation and evaluation)
Items bought A, B, C
20
A, C
A, D B, E, F
支持度 (support), s, probability that a transaction contains XY
support(X⇒Y)=同时包含项目集X和Y的交 易数/总交易数 用于描述有用性。由于,低支持度的规则可 能只是偶尔出现,从商务角度去看,顾客很 少同时购买的商品可能对促销无益。但也有 例外,如贵重商品等。
(信息经过加工和改造成为知识),能够回答“how”的问题
理解(Understanding): “why”的正确评价
相关文档
最新文档