实验二 合著关系的数据挖掘
大数据分析师如何进行数据挖掘和关联分析

大数据分析师如何进行数据挖掘和关联分析一. 数据挖掘的概念和流程数据挖掘是通过运用统计分析、机器学习和模式识别等技术,从大量的数据中发现有用的模式、规律和知识。
数据挖掘的过程通常包括数据收集、数据预处理、特征选择、模型构建、模型评估和模型应用等步骤。
1. 数据收集数据挖掘的第一步是收集相关的数据。
数据可以来自各种来源,如数据库、文本文件、传感器、社交媒体等。
大数据分析师需要了解业务需求,确定需要收集的数据类型和来源,并采用合适的方法获取数据。
2. 数据预处理数据预处理是数据挖掘中非常重要的一步,它包括数据清洗、数据集成、数据转换和数据规约。
数据清洗是指去除数据中的噪声和异常值,确保数据的质量和准确性。
数据集成是将多个数据源的数据整合到一起,方便后续分析。
数据转换是对数据进行规范化和变换,以适应挖掘算法的需要。
数据规约是对数据进行简化和压缩,减少数据存储和计算的开销。
3. 特征选择特征选择是从大量的特征中选择出最具有代表性和区分性的特征。
通过特征选择可以减少数据维度,提高模型的训练和预测效率。
大数据分析师需要运用统计方法、信息论和机器学习等技术,对特征进行评估和选择。
4. 模型构建模型构建是数据挖掘的核心步骤,它根据业务需求选择合适的挖掘算法和模型。
常用的挖掘算法包括关联规则挖掘、分类和回归分析、聚类分析和时序分析等。
大数据分析师需要根据业务场景和数据特点选择合适的算法,并对模型进行建立和调优。
5. 模型评估模型评估是对挖掘模型进行性能评估和验证。
通过评估可以判断模型的准确性、稳定性和可信度。
评估方法包括交叉验证、混淆矩阵、ROC曲线等。
大数据分析师需要对模型进行评估,识别潜在的问题和改善的方向。
6. 模型应用模型应用是将挖掘模型应用到实际业务中,为决策提供支持和指导。
大数据分析师需要将挖掘结果进行解释和可视化,以便业务人员理解和接受,并根据反馈信息对模型进行迭代和优化。
二. 关联分析的方法和应用关联分析是一种常见的数据挖掘方法,它用于发现数据中的相关性和依赖关系。
数据挖掘实验报告结论(3篇)

第1篇一、实验概述本次数据挖掘实验以Apriori算法为核心,通过对GutenBerg和DBLP两个数据集进行关联规则挖掘,旨在探讨数据挖掘技术在知识发现中的应用。
实验过程中,我们遵循数据挖掘的一般流程,包括数据预处理、关联规则挖掘、结果分析和可视化等步骤。
二、实验结果分析1. 数据预处理在实验开始之前,我们对GutenBerg和DBLP数据集进行了预处理,包括数据清洗、数据集成和数据变换等。
通过对数据集的分析,我们发现了以下问题:(1)数据缺失:部分数据集存在缺失值,需要通过插补或删除缺失数据的方法进行处理。
(2)数据不一致:数据集中存在不同格式的数据,需要进行统一处理。
(3)数据噪声:数据集中存在一些异常值,需要通过滤波或聚类等方法进行处理。
2. 关联规则挖掘在数据预处理完成后,我们使用Apriori算法对数据集进行关联规则挖掘。
实验中,我们设置了不同的最小支持度和最小置信度阈值,以挖掘出不同粒度的关联规则。
以下是实验结果分析:(1)GutenBerg数据集在GutenBerg数据集中,我们以句子为篮子粒度,挖掘了林肯演讲集的关联规则。
通过分析挖掘结果,我们发现:- 单词“the”和“of”在句子中频繁出现,表明这两个词在林肯演讲中具有较高的出现频率。
- “and”和“to”等连接词也具有较高的出现频率,说明林肯演讲中句子结构较为复杂。
- 部分单词组合具有较高的置信度,如“war”和“soldier”,表明在林肯演讲中提到“war”时,很可能同时提到“soldier”。
(2)DBLP数据集在DBLP数据集中,我们以作者为单位,挖掘了作者之间的合作关系。
实验结果表明:- 部分作者之间存在较强的合作关系,如同一研究领域内的作者。
- 部分作者在多个研究领域均有合作关系,表明他们在不同领域具有一定的学术影响力。
3. 结果分析和可视化为了更好地展示实验结果,我们对挖掘出的关联规则进行了可视化处理。
通过可视化,我们可以直观地看出以下信息:(1)频繁项集的分布情况:通过柱状图展示频繁项集的分布情况,便于分析不同项集的出现频率。
数据挖掘概念与技术原书第2版第5章挖掘频繁模式、关联和相关

根据所挖掘的模式类型分类
◦ 频繁项集挖掘
从事务或关系数据集中挖掘频繁项集
◦ 序列模式挖掘
从序列数据集中搜索频繁子序列
◦ 结构模式挖掘
在结构化数据集中搜索频繁子结构
最简单的关联规则挖掘,即单维、单层、布尔关联规 则的挖掘。
Items Bought A,B,C A,C A,D B,E,F
Apriori算法由连接和剪枝两个步骤组成。 连接:为了找Lk,通过Lk-1与自己连接产生候选k-项 集的集合,该候选k项集记为Ck。
◦ Lk-1中的两个元素L1和L2可以执行连接操作 的条件 l1 l2 是
(l1[1] l2 [1]) (l1[2] l2 [2]) ... (l1[k 2] l2 [k 2]) (l1[k 1] l2 [k 1])
根据挖掘的模式的完全性分类:给定min_sup, 可以挖掘频繁项集的完全集,闭频繁项集和极大 频繁项集。也可以挖掘被约束的频繁项集(即满 足用户指定的一组约束的频繁项集)、近似的频 繁项集(只推导被挖掘的频繁项集的近似支持度 计数)、接近匹配的频繁项集(即与接近或几乎 匹配的项集的支持度计数符合的项集)、top-k 频繁项集 不同的应用对挖掘的模式的完全性有不同的要求, 我们主要研究挖掘频繁项集的完全集、闭频繁项 集和被约束的频繁项集
Ck是Lk的超集,即它的成员可能不是频繁的,但是所 有频繁的k-项集都在Ck中(为什么?)。因此可以通 过扫描数据库,通过计算每个k-项集的支持度来得到 Lk 。
◦ 为了减少计算量,可以使用Apriori性质,即如果一个k-项集 的(k-1)-子集不在Lk-1中,则该候选不可能是频繁的,可以 直接从Ck删除。
数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘

数据挖掘实验报告数据准备+关联规则挖掘+分类知识挖掘数据挖掘实验报告班级学号姓名课程数据挖掘实验名称实验⼀:数据准备实验类型实验⽬的:(1)掌握利⽤⽂本编辑软件⽣成ARFF⽂件的⽅法;(2)掌握将EXCEL表格⽂件转换为ARFF⽂件的⽅法;(3)掌握数据的预处理⽅法。
实验要求:(1)将下列表格中的数据利⽤⽂本编辑软件⽣成ARFF⽂件:姓名出⽣⽇期性别婚否⼯资职业信⽤等级黄⼤伟1970.05.08 男3580 教师优秀李明1964.11.03 男是4850 公务员优秀张明明1975.03.12 ⼥是职员优秀覃明勇1981.07.11 男是2980 职员良好黄燕玲1986.05.08 ⼥否2560 ⼯⼈⼀般表中没有填上的数据为缺失数据。
请列出你编辑ARFF⽂件并在WEKA中打开该⽂件。
(2)将EXCEL表格⽂件“bankdata.xls”转换为ARFF⽂件的⽅法,并将它另存为ARFF⽂件“bankdata.arff”, 在WEKA中打开该⽂件,写出操作过程。
(3)数值属性的离散化:在WEKA中打开ARFF⽂件“bankdata.arff”,对属性“age”和“income”分别按等宽分箱和等深分箱进⾏离散化为三个箱。
给出分箱的结果。
实验结果:(1) @relation book1@attribute 姓名{黄⼤伟,'李明',张明明,覃明勇,黄燕玲}@attribute 出⽣⽇期{1970.05.08,1964.11.03,1975.03.12,1981.07.11,1986.05.08}@attribute 性别{男,⼥}@attribute 婚否{是,否}@attribute ⼯资numeric@data黄⼤伟,1970.05.08,男,?,3580李',1964.11.03,男,是,4850张明明,1975.03.12,⼥,是,?覃明勇,1981.07.11,男,是,2980黄燕玲,1986.05.08,⼥,否,2560(2)先把bankdata.xls转化为CSV⽂件格式得到bankdata.csv,再在WEKA中打开,再另存为ARFF格式,就可以得到bankdata.arff。
数据挖掘实验报告(参考)

时间序列的模型法和数据挖掘两种方法比较分析研究实验目的:通过实验能对时间序列的模型法和数据挖掘两种方法的原理和优缺点有更清楚的认识和比较.实验内容:选用1952-2006年的中国GDP,分别对之用自回归移动平均模型(ARIMA) 和时序模型的数据挖掘方法进行分析和预测,并对两种方法的趋势和预测结果进行比较并给出解释.实验数据:本文研究选用1952-2006年的中国GDP,其资料如下日期国内生产总值(亿元)日期国内生产总值(亿元) 2006-12-312094071997-12-3174772 2005-12-311830851996-12-312004-12-311365151995-12-312003-12-311994-12-312002-12-311993-12-312001-12-311992-12-312000-12-31894041991-12-311999-12-31820541990-12-311998-12-31795531989-12-311988-12-311969-12-311987-12-311968-12-311986-12-311967-12-311985-12-311966-12-311868 1984-12-3171711965-12-311983-12-311964-12-311454 1982-12-311963-12-311981-12-311962-12-311980-12-311961-12-311220 1979-12-311960-12-311457 1978-12-311959-12-311439 1977-12-311958-12-311307 1976-12-311957-12-311068 1975-12-311956-12-311028 1974-12-311955-12-31910 1973-12-311954-12-31859 1972-12-311953-12-31824 1971-12-311952-12-31679 1970-12-31表一国内生产总值(GDP)是指一个国家或地区所有常住单位在一定时期内生产活动的最终成果。
(完整word版)数据挖掘实验报告-关联规则挖掘(word文档良心出品)

数据发掘实验报告(二)关系规则发掘姓名:李圣杰班级:计算机1304学号: 1311610602一、实验目的1. 1. 掌握关系规则发掘的 Apriori 算法;2.将 Apriori 算法用详细的编程语言实现。
二、实验设施PC 一台,三、实验内容依据以下的Apriori算法进行编程:四、实验步骤1.编制程序。
2. 调试程序。
可采纳下边的数据库 D 作为原始数据调试程序,获得的候选 1 项集、 2 项集、 3 项集分别为C1、C2、 C3,获得的屡次 1 项集、 2 项集、 3 项集分别为L1、 L2、 L3。
代码#include <stdio.h>if(flag==1)#include<string.h>{#define D 4 //事务的个数b[x]=a[i][j];#define MinSupCount 2 // 最小事务支持x++;度数}else flag=1;void main()}{}char a[4][5]={{'A','C','D'},// 计算挑选出的元素的支持度计数{'B','C','E'},for(i=0;i<D;i++){'A','B','C','E'},{{'B','E'}for(j=0;a[i][j]!='\0';j++)};{char for(k=0;k<x;k++)b[20],d[100],t,b2[100][10],b21[100{][10];if(a[i][j]==b[k])int{i,j,k,x=0,flag=1,c[20]={0},x1=0,i1c[k]++;break;=0,j1,counter=0,c1[100]={0},flag1=}1,j2,u=0,c2[100]={0},n[20],v=1;}int count[100],temp;}}for(i=0;i<D;i++)//对选出的项集进行挑选,选出支持度{计数大于等于 2 的,而且保留到d[x1]数组for(j=0;a[i][j]!='\0';j++)中{for(k=0;k<x;k++)// 用来判断以前保留的能否{和 a[i][j]同样,不同样就保留,同样就不if(c[k]>=MinSupCount)保留{for(k=0;k<x;k++)d[x1]=b[k];{count[x1]=c[k];if(b[k]!=a[i][j]) ;x1++;else}{}flag=0;break;//对选出的项集中的元素进行排序}for(i=0;i<x1-1;i++)}{// 用来判断能否相等for(j=0;j<x1-i-1;j++){a[i][k+1]=t;if(d[j]>d[j+1])}{}}t=d[j];d[j]=d[j+1];d[j+1]=t;}//把L1中的每一个元素都放在temp=count[j];count[j]=count[j b2[i][0]中+1];count[j+1]=temp;j1=x1;}for(i=0;i<j1;i++)}{}b2[i][0]=d[i];//打印出 L1}printf("L1 elements are:\n");// 把 L1 中的元素进行组合,K=2 开始,for(i=0;i<x1;i++)表示 x1 个元素选K 个元素的组合{for(k=2;b2[0][0]!='\0';k++)printf("{%c}=%d{ //u是用来计数组合总数的\n",d[i],count[i]);u=0;v=1;//v是用来在进行输出各样组合的表记数v=1说明正在进行输出for(i=0;i<100;i++)}{c2[i]=0;}// 计算每一行的元素个数,而且保留到for(i=0;i<j1;i++)n[] 数组中{for(i=0;i<D;i++)for(i1=i+1;i1<j1;i1++){{for(j=0;a[i][j]!='\0';j++);for(j=0;j<k-2;j++)n[i]=j;{}if(b2[i][j]!=b2[i1][j])// 对 a[][]数组的每一前进行排序{for(i=0;i<D;i++){flag1=0;break;for(j=0;j<n[i]-1;j++)}{for(k=0;k<n[i]-j-1;k++)}{// 进行组合的部分if(a[i][k]>a[i][k+1])if(flag1==1&&b2[i][k-2]!=b2[i1][k- {2])t=a[i][k];{a[i][k]=a[i][k+1];for(j2=0;j2<k-1;j2++){}j1=0;temp=0;//这里的 temp是b21[u][j2]=b2[i][j2];用来分行}// 对 u 种状况进行选择,选出支持度计数大于 2 的 */b21[u][k-1]=b2[i1][k-2];for(i=0;i<u;i++)u++;{}if(c2[i]>=MinSupCount)flag1=1;{}if(v==1)}{counter=0;printf("L%dfor(i=0;i<D;i++) //a数组有elements are:\n",k);5 行元素v=0;{}for(i1=0;i1<u;i1++)//printf("{");代表 x1 个元素选K 个元素的全部组合总数for(j=0;j<k;j++){// 输出每种组合k 个元素for(j1=0;j1<k;j1++){//K代表一个组合中的元素个数{b2[j1][j]=b21[i][j];for(j=0;a[i][j]!='\0';j++)// 逐一比printf("%c,",b2[j1][j]);较每一行的元素}{j1++;printf("\b}");if(a[i][j]==b21[i1][j1])printf("=%d counter++;\n",c2[i]);}temp++;}}if(counter==k)}c2[i1]++; //把每种组合数记录在c2 数b2[j1][0]='\0';组中}counter=0;}}五、结果截图。
数据挖掘 实验报告

数据挖掘实验报告数据挖掘实验报告引言:数据挖掘是一门涉及从大量数据中提取有用信息的技术和方法。
在当今信息爆炸的时代,数据挖掘在各个领域中扮演着重要的角色。
本实验旨在通过应用数据挖掘技术,探索数据中的隐藏模式和规律,以提高决策和预测的准确性。
一、数据收集与预处理在数据挖掘的过程中,数据的质量和完整性对结果的影响至关重要。
在本次实验中,我们选择了某电商平台的销售数据作为研究对象。
通过与数据提供方合作,我们获得了一份包含订单信息、用户信息和商品信息的数据集。
在数据预处理阶段,我们对数据进行了清洗、去重和缺失值处理。
清洗数据的目的是去除噪声和异常值,以确保数据的准确性。
去重操作是为了避免重复数据对结果的干扰。
而缺失值处理则是填补或删除缺失的数据,以保证数据的完整性。
二、数据探索与可视化数据探索是数据挖掘的重要环节,通过对数据的分析和可视化,我们可以发现数据中的潜在关系和规律。
在本次实验中,我们使用了数据可视化工具来展示数据的分布、相关性和趋势。
首先,我们对销售数据进行了时间序列的可视化。
通过绘制折线图,我们可以观察到销售额随时间的变化趋势,从而判断销售业绩的季节性和趋势性。
其次,我们对用户的购买行为进行了可视化分析。
通过绘制柱状图和饼图,我们可以了解用户的购买偏好和消费习惯。
三、数据挖掘建模在数据挖掘建模阶段,我们选择了关联规则和聚类分析两种常用的数据挖掘技术。
关联规则分析用于发现数据集中的频繁项集和关联规则。
通过关联规则分析,我们可以了解到哪些商品经常被一起购买,从而为销售策略的制定提供参考。
在本次实验中,我们使用了Apriori算法来挖掘频繁项集和关联规则。
通过设置支持度和置信度的阈值,我们筛选出了一些有意义的关联规则,并对其进行了解释和分析。
聚类分析用于将数据集中的对象划分为不同的组,使得同一组内的对象相似度较高,而不同组之间的相似度较低。
在本次实验中,我们选择了K-means算法进行聚类分析。
通过调整聚类的簇数和距离度量方式,我们得到了一些具有实际意义的聚类结果,并对不同簇的特征进行了解读和解释。
数据挖掘实例实验报告(3篇)

第1篇一、实验背景随着大数据时代的到来,数据挖掘技术逐渐成为各个行业的重要工具。
数据挖掘是指从大量数据中提取有价值的信息和知识的过程。
本实验旨在通过数据挖掘技术,对某个具体领域的数据进行挖掘,分析数据中的规律和趋势,为相关决策提供支持。
二、实验目标1. 熟悉数据挖掘的基本流程,包括数据预处理、特征选择、模型选择、模型训练和模型评估等步骤。
2. 掌握常用的数据挖掘算法,如决策树、支持向量机、聚类、关联规则等。
3. 应用数据挖掘技术解决实际问题,提高数据分析和处理能力。
4. 实验结束后,提交一份完整的实验报告,包括实验过程、结果分析及总结。
三、实验环境1. 操作系统:Windows 102. 编程语言:Python3. 数据挖掘库:pandas、numpy、scikit-learn、matplotlib四、实验数据本实验选取了某电商平台用户购买行为数据作为实验数据。
数据包括用户ID、商品ID、购买时间、价格、商品类别、用户年龄、性别、职业等。
五、实验步骤1. 数据预处理(1)数据清洗:剔除缺失值、异常值等无效数据。
(2)数据转换:将分类变量转换为数值变量,如年龄、性别等。
(3)数据归一化:将不同特征的范围统一到相同的尺度,便于模型训练。
2. 特征选择(1)相关性分析:计算特征之间的相关系数,剔除冗余特征。
(2)信息增益:根据特征的信息增益选择特征。
3. 模型选择(1)决策树:采用CART决策树算法。
(2)支持向量机:采用线性核函数。
(3)聚类:采用K-Means算法。
(4)关联规则:采用Apriori算法。
4. 模型训练使用训练集对各个模型进行训练。
5. 模型评估使用测试集对各个模型进行评估,比较不同模型的性能。
六、实验结果与分析1. 数据预处理经过数据清洗,剔除缺失值和异常值后,剩余数据量为10000条。
2. 特征选择通过相关性分析和信息增益,选取以下特征:用户ID、商品ID、购买时间、价格、商品类别、用户年龄、性别、职业。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
实验二合著关系的数据挖掘
1.实验目的
(1)熟悉与了解数据挖掘的基本理论与方法;
(2)使用Apriori等算法进行频繁项集的挖掘;
(3)通过使用SQL Server进行原始数据的各项处理,理解和掌握数据挖掘(本实验为关联关系挖掘)的一般过程和方法,同时进行SQL Server的数据库语言以及数据挖掘的实操练习。
(4)对于数据挖掘处理大规模的数据,有初步的认知与了解。
2.实验内容
(1)导入数据到数据库中;
(2)在数据库中,对作者与文章的数据进行挖掘,找出同时出现3次及以上的合著组成频繁项集(包括两位作者以及三位作者合著的关系),并列出该频繁项集对应的记录的全部信息;
3. 实验条件
(1)操作系统:Windows 7
(2) SQL Server 2008或以上版本
(3) Excel 2003或以上版本
4. 数据来源及说明
本次实验的所有数据皆来源于,DBLP数据集,DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。
按年代列出了作者的科研成果。
包括国际期刊和会议等公开发表的论文。
截止目前,DBLP数据集收录的数据已达900万余条。
DBLP数据集中的数据,主要有作者、题目、文章来源、发表日期、文章类型等属性,但是为了便于同学们进行挖掘操作,故而对于原始数据进行了一定程度的预处理,本来这部分工作需要同学们自己完成的,不过请同学们一定不要忽视数据预处理的重要性。
具体挖掘数据的格式,如上图所示,其中,ID为唯一标示,title为文章的名称,title相同的多条记录,表示有多名作者,author为文章的作者,rank 为文章作者的排序,rank=1,说明该作者是第一作者。
因为,文章的作者不同于一般的组合,是有顺序的,所以,在挖掘的过程中,如果出现author1-author2,与author2-author1的次序出现在不同文章中,则认为两者为不同的合作模式。
5. 实验要求
(1)将excel中的原始数据导入到SQL Server中,进行数据挖掘等操作。
(2)挖掘到三位作者的合著关系为止(包括每位作者的写作次数,两位作
者合著的次数,以及三位作者合著的次数);
(3)按时、按照要求提交实验报告。
6. 实验报告
实验报告内容至少包括“2. 实验内容”所示的内容。
具体内容:
(1)列出挖掘结果,包括:合著关系结果(即频繁项集),并列出该频繁项集对应的记录的全部信息;需要通过数据库实现的步骤要有结果截
图,方法等需要有文字说明。
(2)挖掘方法、过程截图及数据库语言代码。
在实验报告中,要写明挖掘的具体方法步骤,需要数据库进行操作的步骤,需要包含代码,并且
附加每一步分析的过程截图。
(3)从L3频繁集中,任选一组合著关系,按照50%的置信度,挖掘强关联规则,写出计算过程及结果。
注明:本实验各步骤的支持度,都取3/数据总量。
7. 实验步骤
7.1 安装SQL Server 2008(略去)
7.2 将excel中的原始数据导入到SQL Server 2008中
本次实验的所有数据皆来源于,DBLP数据集,DBLP是计算机领域内对研究的成果以作者为核心的一个计算机类英文文献的集成数据库系统。
按年代列出了作者的科研成果。
包括国际期刊和会议等公开发表的论文。
截止目前,DBLP
数据集收录的数据已达900万余条。
(1)创建数据库:打开SQL Server Management Studio,进入操作界面后,右键“数据库”→“新建数据库”→“常规”→“数据库名称:”→
“确定”;
(2)将EXCEL数据导入到上述创建的数据库中:右键“数据库”→“任务”→“导入数据”→“数据源:EXCEL”→“路径”→“版本1997-2003”
→“下一步”;
(3)按照提示一步一步进行以下操作;
8. Apriori算法
(1)数据挖掘采用的是Apriori算法,该算法采用频繁项集性质的先验知识,使用一种称为逐层搜索的迭代方法,其中k项集用于搜素k+1项集。
步骤如下:(2)通过扫描数据库,累计每个项的计数,并收集满足最小支持度的项,找出频繁1项集的集合,该集合记为L1。
(3)利用L1找出频繁2项集的集合L2。
使用L2找出L3,如此下去,直到不能再找到频繁k项集。
9. 操作提示与建议
9.1 缩小样本数据规模
由于整个DBLP数据集的记录条数达900万条,所以即便是对数据集进行一次简单的遍历,也要进行900万次的运算,如果同时进行一些复杂的数据选择、匹配等操作的话,进行的运算次数极有可能成为几百万的N次方次运算,这对于普通的计算机来说,是无法承受,且费时费力的;因此,为了达成本次数据分析的目的,在保证数据有效性的前提下,对数据集进行适当的预处理,而减少数据总量,降低运算总时间,是必要且可行的。
这部分工作,已由助教完成,但是大家依旧需要正视这项工作的重要性。
9.2 挖掘方法
(1)对于挖掘合著关系来讲,主要使用到的数据属性是作者、题目,可选的挖掘思路是,在样本数据中,使用数据库语言,将所有作者出现的次数进行统计,并设定一定的阈值,以超过此阈值的为频繁出现的作者。
(2)以上一步挖掘的独立频繁作者为基础,进一步挖掘这些独立频繁的作者中,两个作者同时出现在一篇文章中的次数。
这其中,可能需要几步SQL 语言查询与操作才能实现。
如:需要以文章名称相同为查询条件等。
挖掘出两位作者的频繁项集之后,再以此为基础,挖掘三位合著的频繁项集,以此类推。
9.3 参考步骤(只供参考,期待不同甚至更好的方法)
(1)利用group by author having count(author)>1的方法,去除一篇文章只有一位作者的记录,并且将所查询结果存入表1中。
(2)以表1中的名单为索引,索引样本表,将作者相对应的全部信息输出来,存入到表2中。
(3)将表2中的数据,全部复制到表3中,使用操作语言实现。
(4)通过表2和表3的关联查询,实现作者与作者间的两两关联,将查询结果,存入到表4中,表4中的属性可包括:ID,title,author1(来源于表2),author2(来源于表3),rank1(来源于表2),rank2(来源于表3);查询条件包括:文章题目一样,但是作者不同,并且author1的rank要小于author2的rank。
(5)同样的方法,可以应用到三位作者合著频繁项集的挖掘之中,但是需要做改进以及更多条件的约束。
10. 参考书籍
Jiawei Han, Micheline Kamber, Jian Pei等著,范明,孟小峰译.数据挖掘概念与技术(原书第三版)[M].2012.。