《高级人工智能》第九章知识发现和数据挖掘(2)

合集下载

2.数据挖掘技术基础知识

2.数据挖掘技术基础知识

8 8 8
3. 现在的问题是:网络之后的下一个技术 热点是什么?
㈡ 网 络 之 后 的 下 一 个 技 术 热 点
让我们来看一些身边俯拾即是的现象: 《纽约时报》由 60 年代的 10~20 版扩张至 现在的 100~200 版,最高曾达 1572 版; 《北京青年报》也已是 16~40 版;市场营 销报已达 100 版。 然而在现实社会中,人均日阅读时间通常 为 30~45 分钟,只能浏览一份 24 版的报纸。
数据

80

KDD
,的
,
18 18 18
以后人们却在逐渐使用数据挖掘中, 发现有 以后 许多工作可以由统计方法来完成, 并认为最好的 策略是将统计方法与数据挖掘有机的结合起来。
数 据 挖 掘 逐 渐 演 变 的 过 程 ㈥
数据仓库的发展促使数据挖掘越来越热 越来越热。 越来越热 数据仓库技术的发展与数据挖掘有着密切 的 。 。 是, 数据仓库并 为有 掘 。 多数据挖掘可 是数据挖掘的 作数据 , 中挖 的发展是促 数据挖掘越来越热的
的数据 ,
的 技术 的数据 数数据挖掘技术已可以马上投入使用, 因 为支持的它的基础技术已成熟,他们是: 1. 海量数据搜集
㈣ 支 持 数 据 挖 掘 技 术 的 基 础
商业数据库正以一个空前的速度增长,且数 据仓库正在广泛地应用于各行业。 2. 强大的多处理器计算机 已成熟的 行 cpu 的技术可以 越 越 的 。 3. 数据挖掘算法 ,且 10 于 的 已 成为一 的技术。 成熟,
了 用的阶段;
17 17 17
㈥ 数据挖掘逐渐演变的过程
数据 的 , , 过
一 、 数 据 挖 掘 技 术 的 由 来
KDD (Knowledge discovery in database) 的 数据 数据 , 的 的过程 , 的 ,掘 的 的 , KDD 数据 的 的 程 , 过 掘的过程, 的 的 , 的 的 80 , 数据挖掘 (data mining) 的 程 , ,挖掘 的 数据挖掘的 的 , 过程 ; , , 的 ,

高级人工智能

高级人工智能

智能科学技术著作丛书高级人工智能(第二版)史忠植 著北 京内 容 简 介 人工智能是计算机科学的一个分支,是一门研究机器智能的学科,即用人工的方法和技术研制智能机器或智能系统,来模仿、延伸和扩展人的智能,实现智能行为。

本书共16章。

第1~6章讨论人工智能的认知问题和逻辑基础,论述约束推理、定性推理、基于范例推理、概率推理。

第7~13章重点讨论机器学习,包括归纳学习、支持向量机、解释学习、强化学习、粗糙集、关联规则、知识发现。

第14章阐述分布智能。

第15~16章分别讨论进化计算和人工生命。

与第一版相比,增加了五章新内容。

其他章节也做了较大的修改和补充。

本书内容新颖,反映了该领域的最新研究进展,特别总结了作者多年的科研成果。

全书力求从理论、算法、系统、应用等方面讨论人工智能的方法和关键技术。

本书可以作为信息领域和相关专业的高等院校高年级学生和研究生的教材,也可以供有关科技人员学习参考。

 图书在版编目(CIP)数据 高级人工智能/史忠植著.—2版.—北京:科学出版社,2006 (智能科学技术著作丛书) ISBN7 03 017233 7 Ⅰ 高… Ⅱ 史… Ⅲ 人工智能 Ⅳ TP18 中国版本图书馆CIP数据核字(2006)第048294号责任编辑:田士勇 于宏丽/责任校对:刘亚琦责任印制:安春生/封面设计:陈 敬 出版北京东黄城根北街16号邮政编码:100717http://w w w.sciencep.co m天时彩色印刷有限公司印刷科学出版社发行 各地新华书店经销2006年9月第 一 版2006年9月第一次印刷印数:1—3000 开本:B5(720×1000)印张:36字数:679000定价:68 00元(如有印装质量问题,我社负责调换枙环伟枛)枟智能科学技术著作丛书枠编委会名誉主编:吴文俊主 编:涂序彦副主编:钟义信 史忠植 何华灿 蔡自兴 孙增圻 童安齐 谭 民秘书长:韩力群副秘书长:田士勇编 委:(按姓氏汉语拼音排序)蔡庆生(中国科学技术大学) 孙增圻(清华大学)蔡自兴(中南大学)谭 民(中国科学院自动化研究所)杜军平(北京工商大学)田士勇(科学出版社)韩力群(北京工商大学)童安齐(科学出版社)何华灿(西北工业大学)涂序彦(北京科技大学)何 清(中国科学院计算技术研究所)王国胤(重庆邮电学院)黄河燕(中国科学院计算语言研究所)王家钦(清华大学)黄心汉(华中科技大学)王万森(首都师范大学)焦李成(西安电子科技大学)吴文俊(中国科学院系统科学研究所)李祖枢(重庆大学)杨义先(北京邮电大学)刘 宏(北京大学)尹怡欣(北京科技大学)刘 清(南昌大学)于洪珍(中国矿业大学)秦世引(北京航空航天大学)张琴珠(华东师范大学)邱玉辉(西南师范大学)钟义信(北京邮电大学)阮秋琦(北京交通大学)庄越挺(浙江大学)史忠植(中国科学院计算技术研究所)枟智能科学技术著作丛书枠序“智能”是“信息”的精彩结晶,“智能科学技术”是“信息科学技术”的辉煌篇章,“智能化”是“信息化”发展的新动向、新阶段。

人工智能读书笔记

人工智能读书笔记

人工智能第一章:人工智能(1)人工智能基本概念、方法和技术:基本技术:知识表示、推理、搜索、规划(2)人工智能的主要研究、应用领域机器感知:机器视觉;机器听觉;自然语言理解;机器翻译机器思维:机器推理机器学习:符号学习;连接学习机器行为:智能控制智能机器:智能机器人;机器智能智能应用:博弈;自动定理证明;自动程序设计专家系统;智能决策;智能检索;智能CAD;智能CAI智能交通;智能电力;智能产品;智能建筑等(3)人工智能新技术计算智能:神经计算;模糊计算;进化计算;自然计算人工生命:人工脑;细胞自动机分布智能:多Agent , 群体智能数据挖掘:知识发现;数据挖掘(4)人工智能研究领域:重点介绍机器学习机器思维:就是让计算机模仿和实现人的思维能力,以对感知到的外界信息和自己产生的内部信息进行思维性加工。

机器思维包括:推理、搜索、规划等方面的研究。

机器感知是机器获取外界信息的主要途径,也是机器智能的重要组成部分。

所谓机器感知,就是要让计算机具有类似于人的感知能力,如视觉、听觉、触觉、味觉。

机器行为就是让计算机能够具有像人那样地行动和表达能力,如走、跑、拿、说、唱、写画等。

知识表示:知识表示的观点陈述性观点:知识的存储与知识的使用相分离优点:灵活、简洁,演绎过程完整、确定,知识维护方便缺点:推理效率低、推理过程不透明过程性观点:知识寓于使用知识的过程中优点:推理效率高、过程清晰缺点:灵活性差、知识维护不便知识表示的方法逻辑表示法:一阶谓词逻辑产生式表示法:产生式规则结构表示法:语义网络,框架谓词逻辑表示的应用机器人移盒子问题:分别定义描述状态和动作的谓词描述状态的谓词:TABLE(x):x是桌子EMPTY(y):y手中是空的AT(y, z):y在z处HOLDS(y, w):y拿着wON(w, x):w在x桌面上变元的个体域:x的个体域是{a, b}y的个体域是{robot}z的个体域是{a, b, c}w的个体域是{box}问题的初始状态:AT(robot, c)EMPTY(robot)ON(box, a)TABLE(a)TABLE(b)问题的目标状态:AT(robot, c)EMPTY(robot)ON(box, b)TABLE(a)TABLE(b)机器人行动的目标把问题的初始状态转换为目标状态,而要实现问题状态的转换需要完成一系列的操作描述操作的谓词条件部分:用来说明执行该操作必须具备的先决条件可用谓词公式来表示动作部分:给出了该操作对问题状态的改变情况通过在执行该操作前的问题状态中删去和增加相应的谓词来实现需要定义的操作:Goto(x, y):从x处走到y处。

知识发现与数据挖掘

知识发现与数据挖掘

知识发现与数据挖掘2007-6-12宋利【摘要】本文介绍了知识发现及其数据挖掘的发展历史,数据挖掘常用技术及应用。

【关键词】知识发现,数据挖掘1、引言随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。

进入九十年代,伴随着因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。

这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。

当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。

据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。

这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识)。

面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。

从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应运而生了。

2、知识发现过程知识发现(KDD)是从数据中发现有用知识的整个过程;数据开采(DM)是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。

1996年,Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。

论空间数据挖掘和知识发现_李德仁

论空间数据挖掘和知识发现_李德仁

论空间数据挖掘和知识发现李德仁1王树良1史文中2王新洲3(1武汉大学测绘遥感信息工程国家重点实验室,武汉市珞喻路129号,430079)(2香港理工大学土地测量与地理资讯学系,香港,九龙红石勘(3武汉大学科技部,武汉市珞珈山,430072)了将数据的最大价值挖掘出来,以取得最多的知识,1989年在美国底特律召开的第一届KDD(knowledge discovery from databases)国际学术会议上,又出现了一门称为从数据库中发现知识(即KDD)的新学科,从数据库中发现先前未知却有用的知识,为决策分析提供技术支持。

GPS、RS和GIS等技术的应用和发展,使空间数据的膨胀速度远远超出了常规的事务型数据,“数据爆炸但知识贫乏”的现象在空间数据中更为严重。

1994年在加拿大渥太华举行的GIS国际会议上,李德仁院士首次提出了从GIS数据库中发现知识———KDG(knowledge discovery from GIS)的概念。

他系统分析了空间知识发现的特点和方法,认为从GIS数据库中可以发现包括几何特征、空间关系和面向对象的多种知识,KDG能够把GIS有限的数据变成无限的知识,可以精练和更新GIS数据,使GIS成为智能化的信息系统,并第一次从GIS空间数据中发现了用于指导GIS空间分析的知识[1]。

1995年,在加拿大召开的第一届知识发现和数据挖掘国际学术会议上,数据库中的数据被形象地喻为矿床,再次出现了崭新的数据挖掘(data mining,DM,又译为数据发掘、数据开采或数据采掘等)学科。

随着研究和应用的深入,人们对KDD和DM的理解越来越全面,相继又出现了知识提取(knowledge extraction)、信息发现(informationdiscovery)、信息收获(information harvesting)、数据考古(data archaeology)等含义相同或相似的名称。

具体名称虽然不同,但其本质是相同的,都是从数据库中提取事先未知却有用的知识。

数据挖掘与知识发现(第二章)

数据挖掘与知识发现(第二章)

15
属性的类型也可以用不改变属性意义的变换来描述:
例: 如果长度分别用米和英尺度量,其属性意义是否有变化。计算平均长 度时,有什么变化? 例:温度 我们说“温度2度是1度的两倍”,用下列哪种测量有意义? 绝对标度?摄氏度?华氏度?
16
三、非对称的属性
对于非对称的属性,只有非零值才是重要的
例1:对象是学生,属性是学生是否选修某门大学课程。对某个学生,如果他选 择了对应某属性的课程,则该属性取1,否则取0。
22
稀疏数据矩阵
数据矩阵的特殊形式 属性类型相同 非对称
23
三、基于图形的数据
带有对象之间联系的数据
数据对象映射到图中的结点 对象之间的联系用对象之间和链、方向、权值表示
2 5 2 5 1
24
具有图形对象的数据
若对象具有结构(包含具有联系的子对象),则对象常用图形表示
25
34
一、测量误差和数据收集错误
测量误差:
测量过程中导致的问题,在某种程度上,记录的值与实际值不符 例: 一个人连续两次测量体重,得到的值不一样
数据收集错误:
遗漏数据对象或属性值,或不当的包含了其他数据对象 例: 一类特定种类动物研究可能包含了其他相关种类的动物,他们只是表面上与要 研究的种类相似。
12
二、属性类型
属性的性质不必与用来度量他的值的性质相同 属性类型告诉我们,属性的哪些性质反映在用于测量他的 值中。 例1:雇员年龄与ID号 这两个属性都可以用整数表示 雇员的平均年龄有意义,而平均ID却无意义 年龄有最大最小值,而整数却无此限制 但用整数来表示时,并未暗示有限制
13
例2:线段长度
TID
Items

数据挖掘与知识发现

数据挖掘与知识发现

数据挖掘与知识发现近年来,随着信息技术的不断发展以及大数据时代的来临,数据挖掘与知识发现作为一种重要的数据处理和分析方法,受到了广泛关注。

数据挖掘与知识发现通过从大规模数据集中提取出有用的信息和隐藏的模式,为决策和预测提供了有力支持,具有广泛的应用前景。

1. 数据挖掘的定义与应用领域数据挖掘是从大规模数据中发现并提取出潜在的、先前未知的、有价值的、可理解的知识的过程。

它结合了机器学习、模式识别、统计学等多个领域的技术和方法,可以广泛应用于商业、金融、医疗、交通等各个领域。

2. 数据挖掘的主要任务和过程数据挖掘的主要任务包括分类、聚类、关联规则挖掘和异常检测等。

其中,分类任务是根据已有的特征和标签,对新的数据进行分类。

聚类任务是将数据集中的样本按照相似性分成不同的组别。

关联规则挖掘是寻找数据集中不同项之间的相关性和关联性。

异常检测则是用于发现和识别数据集中的异常或异常事件。

数据挖掘的具体过程包括数据采集和预处理、特征选择和变换、模型建立和评估等。

数据采集和预处理是数据挖掘的第一步,它包括获取数据、清洗数据、选择合适的数据结构等。

特征选择和变换是为了从原始数据中提取出最有用的特征,减少数据的维度。

模型建立和评估是根据所选的任务和方法建立适当的模型,并评估模型的性能和效果。

3. 知识发现的意义和方法知识发现是数据挖掘的目标之一,它通过对数据进行整理、分析、建模和解释,从中发现并提炼出有用的知识。

知识发现的意义在于提高决策的准确性和效率,为业务的发展和创新提供支持。

知识发现的方法包括统计分析、数据可视化、机器学习等。

统计分析是利用统计学中的方法,对数据进行描述性和推断性分析。

数据可视化则通过图表、图像等形式,将数据转化为直观的可视化结果。

机器学习是一种通过训练样本和模型构建,实现从数据中学习并进行预测和决策的方法。

4. 数据挖掘与知识发现的挑战和发展趋势数据挖掘与知识发现面临着数据量大、数据质量差、模型复杂度高等挑战。

《数据挖掘》课程简介

《数据挖掘》课程简介

课程学习目标




了解数据挖掘的重要性与国内外的发展状况 及未来发展方向; 掌握数据挖掘的一些基本概念、算法、原理 及相关技术; 能熟练地运用数据挖掘技术及工具解决实际 应用问题; 为研究选题打下基础。
Hale Waihona Puke 课程内容与学时安排(36学时)

第1章 第2章 第3章 第4章 第5章 第6章 第7章 第8章
考核方式

期末开卷考试(笔试)

期末总成绩=期末考试成绩(60%)+平时成绩 (40%)。
平时成绩主要包括平时出勤( 20% )和作业 (20%)。

数据挖掘概述(6学时) 数据仓库与OLAP技术概述 (3学时) 数据预处理 (3学时) 概念描述:特征化与比较(3学时) 大型数据库中的关联规则的挖掘(6学时) 分类与预测(6学时) 聚类分析(6学时) 数据挖掘发展趋势(3学时)
教材及参考资料

教材: (加)韩家炜,堪博 著,范明,孟小峰 译.数据挖掘概念与技术 (原书第2版).机械工业出版社,2007. 参考教材: [1]毛国君.数据挖掘原理与算法(第二版.清华大学出版社,2007 [2] 纪希禹.数据挖掘技术应用实例.机械工业出版社,2009 [3]邓纳姆(Dunham,M.H.) 著;郭崇慧,田凤占,靳晓明 等译. 数据挖掘教程——世界著名计算机教材精选.清华大学出版社,2005 [4](美)唐(Tang,Z.H.),(美)麦克雷南(MaccLennan, J.) 著,邝祝芳,焦贤龙,高升 译. 数据挖掘原理与应用: SQL Server 2005数据库,2007 [5]王欣.SQL Server 2005 数据挖掘实例分析.水利水电出版 社,2008 [6]朱德利. SQL Server2005数据挖掘与商业智能完全解决方案 .电子工业出版社,2007
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
成的,内容相对稳定的、不同时间的数据集合,用以 支持经营管理中的决策制定过程。
2019/6/13
高级人工智能 史忠植
37
数据仓库的特征(1)
数据仓库中的数据是面向主题的
与传统数据库面向应用相对应的。主题是一个在 较高层次将数据归类的标准,每一个主题基本对应一 个宏观的分析领域
20世纪80年代,人们要利用现有的数据,进行分析和推理, 从而为决策提供依据。这种需求既要求联机服务,又涉及大量 用于决策的数据。而传统的数据库系统已无法满足这种需求:
所需历史数据量很大,而传统数据库一般只存储短期数据。
涉及许多部门的数据,而不同系统的数据难以集成。
对大量数据的访问性能明显下降
建模:
构造描述一种活动或状态的数学模型
2019/6/13
高级人工智能 史忠植
8
知识发现的方法(1)
统计方法:
传统方法: 回归分析、判别分析、聚类分析、探索性分析
模糊集(fuzzy set) Zadeh 1965 支持向量机(Support Vector Machine) Vapnik 90
2019/6/13
高级人工智能 史忠植
12
关联规则
属于知识发现任务中的相关性分析
由于条形码技术的发展,零售部门可以利用前端收款 机收集存储大量的售货数据。因此,如果对这些历史 事务数据进行分析,则可对顾客的购买行为提供极有 价值的信息。例如,可以帮助如何摆放货架上的商品 (如把顾客经常同时买的商品放在一起),帮助如何规 划市场(怎样相互搭配进货)。
• 如果L[k+1]为空集,则结束,L[1]∪L[2]∪…即为结果; 否则转(2),继续。
2019/6/13
高级人工智能 史忠植
20
思路的正确性
利用了大物品集向下封闭性,即大物品集X 的任意子集一定是大物品集,反过来说, 如果X有一子集不是大项集,则X肯定不是。
是宽度优先算法
2019/6/13
2019/6/13
高级人工智能 史忠植
17
关联规则的相关概念(4)
最小支持度minsup
用户规定的关联规则必须满足的最小支持度。
最小可信度minconf
用户规定的关联规则必须满足的最小可信度。
大项集(大项集、大物品集largeitemset)
支持度不小于最小支持度minsup的物品集
2019/6/13
高级人工智能 史忠植
21
经典的Apriori算法
(1) L[1]={large 1-itemsets}; (2) for (k=2; L[k-1]不为空; k++) do begin (3) C[k]=apriori-gen(L[k-1]); // 新候选物品集 (4) For all transactions t∈D do begin (5) C=subset(C[k],t); // t中的候选物品集 (6) For all candidates c∈C do
2019/6/13
高级人工智能 史忠植
15
关联规则的相关概念(2)
支持度
物品集A的支持度:称物品集A具有大小为s的支持度, 如果D中有s%的事务支持物品集X P(A)
1000个顾客购物,其中200个顾客购买了面包,
支持度就是20%(200/1000)。
关联规则A→B的支持度:关联规则A→B在事务数据 库W中具有大小为s的支持度,如果物品集A∪B的支持 度为s
100个顾客购买了面包和黄油,则面包→黄油 10%
2019/6/13
高级人工智能 史忠植
16
关联规则的相关概念(3)
可信度
设W中支持物品集A的事务中,有c%的事务同时也 支持物品集B,c%称为关联规则A→B的可信度。
P(B|A) 1000个顾客购物,200个顾客购买了面包,其中140个 买了黄油,则可信度是70%(140/200)。
insert into C[k] select p.item1,p.item2,...,p.item(k-1), q.item(k-1) from L[k-1] p, L[k-1] q where p.item1=q.item1, ...,p.item(k-2)=q.item(k-2),
p.item(k-1)<q.item(k-1)
2019/6/13
高级人工智能 史忠植
14
关联规则的相关概念(1)
设R={I1,I2……Im}是一组物品集,W是一组事务集。W 中的每个事务T是一组物品,TR。 假设有一个物品集A,一个事务T,如果AT,则称事 务T支持物品集A。 关联规则是如下形式的一种蕴含:A→B,其中A、B是 两组物品,AI,BI,且A∩B=。
(7) c.count++;
(8) end; (9) L[k]={c∈C[k]|c.count>=minsup};
(10) end; (11) Answer = L[1]∪L[2]∪…
2019/6/13
高级人工智能 史忠植
22
apriori-gen(L[k-1]) 分成两步:
join算法:从两个L[k-1]物品集生成候选 物品集C[k]
神经计算:
神经网络是指一类新的计算模型,它是模仿人脑神经网络的 结构和某些工作机制而建立的一种计算模型。常用的模型: Hopfield网 多层感知机 自组织特征映射 反传网络
可视化:
2019/6/13
高级人工智能 史忠植
11
KDD的技术难点
动态变化的数据 噪声 数据不完整 冗余信息 数据稀疏 超大数据量
2019/6/13
高级人工智能 史忠植
30
关联规则发现使用步骤
连接数据,做数据准备 给定最小支持度和最小可信度,利用知识发 现工具提供的算法发现关联规则 可视化显示、理解、评估关联规则
2019/6/13
高级人工智能 史忠植
31
关联规则在保险业务中的应用
最小支持度1%,最小可信度为50%
2019/6/13
2019/6/13
高级人工智能 史忠植
36
数据仓库的定义
信息处理技术的发展趋势是:从大量的事务型数据库中抽取 数据,并将其清理、转换为新的存储格。随着此过程的发展 和完善,这种九十年代初出现的支持决策的、特殊的数据存 储即被称为数据仓库(Data Warehouse)。
Inmon将数据仓库明确定义为: 数据仓库(Data Warehouse)是面向主题的,集
2019/6/13
高级人工智能 史忠植
5
2019/6/13
高级人工智能 史忠植
6
知识发现的任务(1)
数据总结:
对数据进行总结与概括。传统的最简单的数据总结方法是计 算出数据库的各个字段上的求和值、平均值、方差值等统计 值,或者用直方图、饼状图等图形方式表示。
分类:
根据分类模型对数据集合分类。分类属于有导师学习,一般 需要有一个训练样本数据集作为输入。
高级人工智能 史忠植
32
2019/6/13
高级人工智能 史忠植
33
2019/6/13
高级人工智能 史忠植
34
2019/6/13
高级人工智能 史忠植
35
数据仓库
在过去几十年,数据库技术,特别是OLTP(联机事务处 理),主要是为自动化生产、精简工作任务和高速采集数据服 务。它是事务驱动的、面向应用的。
规则、科学规律、方程或概念网。
2019/6/13
高级人工智能 史忠植
3
数据库知识发现
目前, 关系型数据库技术成熟、应用广泛。 因此, 数据库知识发现(Knowledge Discovery in Databases KDD)的研究非常活跃。
该术语于1989年出现,Fayyad定义为 “KDD是从数据集中识别出有效的、新颖的、 潜在有用的,以及最终可理解的模式的非平凡 过程”
2019/6/13
高级人工智能 史忠植
4
不同的术语名称
知识发现是一门来自不同领域的研究者关注的交 叉性学科,因此导致了很多不同的术语名称。
知识发现:人工智能和机器学习界。
数据挖掘(data mining):
统计界、数据分析、数据库和管理信息系统界
知识抽取 (information extraction)、 信息发现 (information discovery)、 智能数据分析 (intelligent data analysis)、 探索式数据分析 (exploratory data analysis) 信息收获 (information harvesting) 数据考古 (data archeology)
高级人工智能 史忠植
18
关联规则发现任务
给定一个事务数据库D,求出所有满足最小支 持度和最小可信度的关联规则。该问题可以分解 为两个子问题: 1) 求出D中满足最小支持度的所有大项集; 2) 利用大项集生成满足最小可信度的所有关联规
则。对于每个大项集A,若BA,B≠φ ,且 Confidence(B (AB))minconf,则构成 关联规则B (AB)2019Βιβλιοθήκη 6/13高级人工智能 史忠植
19
关联规则发现的基本思路
第2个子问题比较容易。目前大多数研究集中在第 一个子问题上,即如何高效地求出大项集。
• 首先生成长度为1的大项集(即单个物品),记为L[1];
• 在L[k]的基础上生成候选物品集C[k+1],候选物品集必须 保证包括所有的大项集。
• 用事务数据库D中的事务对C[k+1]进行支持度测试以生成 长度为k+1的大项集L[k+1],计算每个候选物品集的支持 度,如果大于minsup,则加入到L[k+1]中。
相关文档
最新文档