完全图所有子图算法

#include

using namespace std;

void genSubgraphs(struct Graph*); //generate subgraphs

void combination(int, int,int**); //get the C(n, k) combinations and store in int** int factorial(int n); //get the factorial value of n

void getIndex(int, int&, int&); //used when getting combinations of edges void printGraph(struct Graph*); //print the subgraphs to a txt file

int calc_cv(int, int); //calculate the value of C(n, k)

struct Graph

{

int vernum;

int *vertices;

int **edges;

};

int main(int argc, char *argv[])

{

int vernum;

cout<<"请输入完全图的顶点数";

cin>>vernum;

//set values to origional graph

struct Graph* origGraph = new Graph;

origGraph->vernum = vernum;

int *vertices = new int[vernum];

for(int i = 1; i <= vernum; i++)

{

vertices[i-1] = i;

}

int **edges = new int*[vernum];

for(int i = 0; i < vernum; i++)

{

edges[i] = new int[vernum];

}

for(int i = 0; i < vernum; i++)

for(int j = 0; j < vernum; j++)

{

if(i == j) edges[i][j] = 0;

else edges[i][j] = 1;

}

origGraph->vertices = vertices;

origGraph->edges = edges;

//generate subgraphs

genSubgraphs(origGraph);

//free memory

for(int i = 0; i < vernum; i++)

delete(origGraph->edges[i]);

delete(origGraph->edges);

delete(origGraph->vertices);

delete(origGraph);

system("PAUSE");

return EXIT_SUCCESS;

}

void genSubgraphs(struct Graph* graph)

{

int vernum = graph->vernum;

int count=0; //记录非空子图的个数

for(int i = 1; i <= vernum; i++)

{

Graph* subgraph = new Graph;

subgraph->vernum = i;

//initialize the edges

int** edges = new int*[i];

for(int row = 0; row < i; row++)

edges[row] = new int[i];

subgraph->edges = edges;

//get all the combination of i vertices

int m=calc_cv(vernum,i);

int** vcombs = new int*[m];

for(int l = 0; l < m; l++)

vcombs[l] = new int[i];

combination(vernum,i,vcombs);

for(int j = 0; j < m; j++)

{

subgraph->vertices = vcombs[j];

//get all the conbinations of edges

int edgenum = i*(i-1)/2;

for(int edge_k = 0; edge_k <= edgenum; edge_k++) {

//set the edges

for(int row = 0; row < i; row++)

{

for(int col = 0; col < i; col++)

edges[row][col] = 0;

}

if(edge_k == 0)

{

printGraph(subgraph);

count++;

continue;

}

//select edges

int combnum = calc_cv(edgenum,edge_k);

int** ecombs = new int*[combnum];

for(int l = 0; l < combnum; l++)

ecombs[l] = new int[edge_k];

combination(edgenum,edge_k,ecombs);

for(int k = 0; k < combnum; k++)

{

//set the edges

for(int row = 0; row < i; row++)

{

for(int col = 0; col < i; col++)

edges[row][col] = 0;

}

for(int index = 0; index < edge_k; index++)

{

//get the vertices of the selected edges

int row, col;

getIndex(ecombs[k][index],row,col);

edges[row][col] = 1;

edges[col][row] = 1;

}

printGraph(subgraph);

count++;

delete(ecombs[k]);

}

delete(ecombs);

}

delete(vcombs[j]);

}

//free memory

delete(vcombs);

delete(subgraph);

}

cout<

}

void printGraph(struct Graph* graph)

{

char* filename = "graph_result.txt";

fstream fout;

fout.open(filename,ios::app|ios::out);

fout<

for(int i = 0; i < graph->vernum;i++)

{

fout<vertices[i];

}

fout<

for(int row = 0; row < graph->vernum; row++)

{

fout<vertices[row];

for(int col = 0; col vernum; col++)

{

fout<edges[row][col];

}

fout<

}

fout.close();

}

void combination(int n, int k,int** combs)

{

int p=0;

int* array = new int[k];

for(int i = 0; i < k; i++)

{

array[i] = i + 1;

}

int cur = k-1;

do{

if(array[cur]-cur <= n-k+1)

{

for(int i = 0; i < k; i++)

combs[p][i] = array[i];

p++;

array[cur]++;

continue;

}else{

if(cur == 0) break;

array[--cur]++;

for(int i = 1; i < k-cur; i++)

array[cur+i] = array[cur]+i;

if(array[cur]-cur < n-k+1)

cur = k-1;

}

}while(1);

delete array;

}

int calc_cv(int n, int k)

{

if(k > n/2) return calc_cv(n,n-k);

int s = 1;

for(int i = n; i > n-k; i--)

s *=i;

return s/factorial(k);

}

int factorial(int n)

{

if(n == 0) return 1;

int s = 1;

for(int i = 2; i <= n; i++) s=s*i;

return s;

}

void getIndex(int n, int &i, int &j)

{

int k=0,l=0,sum=0;

int temp = 0;

while(sum < n)

{

sum += k;

k++;

if((sum + k) >= n)

{

l = n - sum - 1;

break;

}

i = k; j = l;

}

The number of non-empty subgraph is 40068.

频繁项集挖掘的Apriori改进算法研究

１０００－５８６２（２０１１）０５－０４９８－０５频繁项集挖掘的Ａｐｒｉｏｒｉ改进算法研究栗晓聪滕少华广东工业大学计算机学院，广东广州５１０００６摘要：针对Ａｐｒｉｏｒｉ算法的不足，提出了一种新的优化算法—ＩＡｐｒｉｏｒｉ．该算法应用散列技术优化产生频繁－２项集，优化连接操作减少连接判断的次数，通过对候选项集编码来减少扫描数据库的次数，优化逻辑“与”运算减少不必要的“与”操作次数，缩短生成频繁项集的时间．ＩＡｐｒｉｏｒｉ算法仅需３次扫描数据库．研究结果表明，该算法具有快速、直观、节省内存等优点．Ａｐｒｉｏｒｉ算法；频繁项集；候选项集；ＩＡｐｒｉｏｒｉ算法ＴＰ３１１Ａ２０１１－０７－１２广东省自然科学基金（０６０２１４８４，　９１５１００９００１０００００７）和广州市越秀区科技计划（２００７－ＧＸ－０２３）资助项目．滕少华（１９６２－），男，江西南昌人，教授，博士，主要从事协同工作、网络安全和数据挖掘方面的研究．

第５期

２０１１年

第５期

＠＠［１］王琳，滕少华，伍乃骐，等．基于协议分析的散列模式入侵检测方法［Ｊ］．计算机工程与设计，２００６，２７（１）：　５３－５５．＠＠［２］颜跃进，李舟军，陈火旺，等．基于ＦＰ－Ｔｒｅｅ有效挖掘最大频繁项集［Ｊ］．软件学报，２００５，１６（２）：　２１５－２２２．＠＠［３］郭宇红，童云海，唐世渭，等．基于ＦＰ－Ｔｒｅｅ的反向频繁项集挖掘［Ｊ］．软件学报，２００８，１９（２）：　３３８－３５０．＠＠［４］　Ｈａｎ　Ｊｉａｗｅｉ，　Ｐｅｉ　Ｊｉａｎ，　Ｙｉｎ　Ｙｉｗｅｎ，　ｅｔ　ａｌ．　Ｍｉｎｉｎｇ　ｆｒｅｑｕｅｎｔ　ｍａｔｔｅｒｎｓｗｉｔｈｏｕｔ　ｃａｎｄｉｄａｔｅ　ｇｅｎｅｒａｔｉｏｎ　［Ｊ］．　Ｄａｔａ　Ｍｉｎｎｉｎｇ　ａｎｄ　ＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒ，　２００４，　８（１）：　５３－８７．＠＠［５］Ｊｉａｗｅｉ　Ｈａｎ，Ｍｉｃｈｅｌｉｎｅ　Ｋａｍｂｅｒ．数据挖掘概念与技术［Ｍ］．范明，孟小峰，译．北京：机械工业出版社，２００７：１６７－１６１．＠＠［６］　Ｗｕ　Ｘｉｎｇｄｏｎｇ，　Ｖｉｐｉｎ　Ｋｕｍａｒ，　Ｒｏｓｓ　Ｑｕｉｎｌａｎ　Ｊ．　Ｔｏｐ　１０　ａｌｇｏｒｉｔｈｍｓ　ｉｎ　ｄａｔａ　ｍｉｎｉｎｇ　［Ｊ］．　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｓｙｓｔｅｍｓ，　２００８，１４（１）：　１－３７．＠＠［７］陈耿，朱玉全，杨鹤标，等．关联规则挖掘中若干关键技术的研究［Ｊ］．计算机研究与发展，２００５，４２（１０）：　１７８５－１７８９．＠＠［８］徐章艳，刘美玲，张师超，等．Ａｐｒｉｏｒｉ算法的三种优化方法［Ｊ］．计算机工程与应用，２００４，４０（３６）：　１９０－１９３．＠＠［９］傅慧，邹海．基于待与项集的频繁项集挖掘算法的研究［Ｊ］．计算机工程与设计，２００９，３０（１）：　１２９－１３１．＠＠［１０］徐健辉．生成频繁项集的逻辑“与”运算算法［Ｊ］．计算机应用，２００４，２４（１１）：　８８－９０．＠＠［１１］俞燕燕，李绍滋．基于散列的关联规则ＡｐｒｉｏｒｉＴｉｄ改进算法［Ｊ］．计算机工程，２００８，３４（５）：　６０－６２．＠＠［１２］柴华昕，王勇．Ａｐｒｉｏｒｉ挖掘频繁项集算法的改进［Ｊ］．计算机工程与应用，２００７，４３（２４）：　１５８－１６１．Ｔｈｅ　Ｒｅｓｅａｒｃｈ　ｏｎ　Ｉｍｐｒｏｖｅｍｅｎｔ　ｏｆ　Ａｐｒｉｏｒｉ　Ａｌｇｏｒｉｔｈｍ　Ｂａｓｅｄ　ｏｎＭｉｎｉｎｇ　Ｆｒｅｑｕｅｎｔ　Ｉｔｅｍｓｅｔｓ　ＬＩ　Ｘｉａｏ－ｃｏｎｇＴＥＮＧ　Ｓｈａｏ－ｈｕａ

《大数据时代下的数据挖掘》试题和答案与解析

《海量数据挖掘技术及工程实践》题目一、单选题（共80题） 1)( D )的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准？ (A) (a)警察抓小偷，描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务？(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型，通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务？(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法？ (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？ (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型：(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作：( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法： (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是： (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法？ (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为：(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为：一年级200人，二年级160人，三年级130人，四年级110人。则年级属性的众数是： (A) A.一年级 B.二年级 C.三年级 D.四年级

流数据频繁模式挖掘算法汇总

频繁模式挖掘常用的概念：事务数据库：时间ID：项集(item set)：重要算法： 1、A priori 主要思想就是从大小1开始遍历可能频繁集k，当满足V所有集合子集都在之前计算过的频繁集k中，且出现次数满足频繁要求，则V为k+1频繁集这样做有如下好处：如果一个集合是频繁集，那么它的所有子集都是频繁集；如果一个集合不是频繁集，那么它的所有超集都不会是频繁集缺点就是要多次扫描事务数据库 2、F P-growth 可以用来识别包含某个元素的最大频繁集。 FP-growth算法通过构造FP-tree来实现，FP-tree由频繁项集表和前缀树构成。 FP-tree的构建需要扫描两遍数据库，（1）第一遍对所有元素技术并降序排序，然后将数据库中每个事务里的元素按照这个顺序重新排序

（2）按照项头表的顺序逐渐插入元素 ··· （3）FP-tree的挖掘得到了FP树和项头表以及节点链表，我们首先要从项头表的底部项依次向上挖掘。对于项头表对应于FP树的每一项，我们要找到它的条件模式基。所谓条件模式基是以我们要挖掘的节点作为叶子节点所对应的FP子树。得到这个FP子树，我们将子树中每个节点的的计数设置为叶子节点的计数，并删除计数低于支持度的节点。从这个条件模式基，我们就可以递归挖掘得到频繁项集了。（1）先从F挖掘通过它，我们很容易得到F的频繁2项集为{A:2,F:2}, {C:2,F:2}, {E:2,F:2}, {B:2,F:2}。递归合并二项集，得到频繁三项集为{A:2,C:2,F:2}，{A:2,E:2,F:2},...还有一些频繁三项集，就不写了。当然一直递归下去，最大的频繁项集为频繁5项集，为{A:2,C:2,E:2,B:2,F:2}

聚类、关联规则挖掘、图数据库

聚类一、聚类的定义聚类，属于一种非监督学习方法，它试图在无标签的数据集中发现其分布状况或模式。通常，我们认为同一聚类中的数据点比不同聚类的数据点具有更大的相似性。二、传统的聚类算法的分类 1、基于划分的聚类算法主要思想：基于划分的聚类算法通过构造一个迭代过程来优化目标函数，当优化到目标函数的最小值或极小值时，可以得到数据集的一些不相交的子集，通常认为此时得到的每个子集就是一个聚类。典型方法： k-means算法 FCM算法。 2、层次聚类算法主要思想：层次聚类方法使用一个距离矩阵作为输入，经过聚类后得到一个反映该数据集分布状况的聚类层次结构图。层次聚类算法通常分为两种：凝聚的层次聚类算法：它首先把每个数据点看作是一个聚类，然后以一种自底向上的方式通过不断地选择最近邻居聚类对的合并操作，最终可以构造出一棵代表着该数据集聚类结构的层次树。分类的层次聚类算法：它首先把所有的数据点看作是一个聚类，然后以一种以自顶向下的方式通过不断地选择最松散簇进行分裂操作，最终可以构造出一棵代表着该数据集聚类结构的层次树。典型方法： AGNES (AGglomerative NESting) BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) CURE (Clustering Using REpresentative) 3、基于密度的聚类算法主要思想：基于密度的聚类算法试图通过稀疏区域来划分高密度区域以发现明显的聚类和孤立点，主要用于空间型数据的聚类。典型方法： DBSCAN (Density-based Spatial Clustering of Application with Noise) OPTICS (Ordering Points to Identify the Clustering Structure) 4、基于网格的聚类算法主要思想：基于网格的聚类算法是一种基于网格的具有多分辨率的聚类方法。它首先将数据集的分布空间划分为若干个规则网格(如超矩形单元)或灵活的网格(如任意形状的多

数据结构拓扑排序实验报告

拓扑排序 [基本要求] 用邻接表建立一个有向图的存储结构。利用拓扑排序算法输出该图的拓扑排序序列。 [编程思路] 首先图的创建，采用邻接表建立，逆向插入到单链表中，特别注意有向是不需要对称插入结点，且要把输入的字符在顶点数组中定位（LocateVex(Graph G,char *name)，以便后来的遍历操作，几乎和图的创建一样，图的顶点定义时加入int indegree，关键在于indegree 的计算，而最好的就是在创建的时候就算出入度，（没有采用书上的indegree【】数组的方法，那样会增加一个indegree算法，而是在创建的时候假如一句计数的代码(G.vertices[j].indegree)++;）最后调用拓扑排序的算法，得出拓扑序列。 [程序代码] 头文件： #define MAX_VERTEX_NUM 30 #define STACKSIZE 30 #define STACKINCREMENT 10 #define OK 1 #define ERROR 0 #define INFEASIBLE -1 #define OVERFLOW -2 #define TRUE 1 #define FALSE 0 typedef int Status; typedef int InfoType; typedef int Status; typedef int SElemType; /* 定义弧的结构*/ typedef struct ArcNode{ int adjvex; /*该边所指向的顶点的位置*/ struct ArcNode *nextarc; /*指向下一条边的指针*/ InfoType info; /*该弧相关信息的指针*/

一种高效频繁子图挖掘算法.2007,18(10)_2469-2480

ISSN 1000-9825, CODEN RUXUEW E-mail: jos@https://www.360docs.net/doc/cc3886782.html, Journal of Software , Vol.18, No.10, October 2007, pp.2469?2480 https://www.360docs.net/doc/cc3886782.html, DOI: 10.1360/jos182469 Tel/Fax: +86-10-62562563 ? 2007 by Journal of Software . All rights reserved. 一种高效频繁子图挖掘算法 ? 李先通, 李建中+, 高宏 (哈尔滨工业大学计算机科学与技术学院,黑龙江哈尔滨 150001) An Efficient Frequent Subgraph Mining Algorithm LI Xian-Tong, LI Jiang-Zhong +, GAO Hong (School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China) + Corresponding author: Phn: +86-451-86415827, E-mail: lijzh@https://www.360docs.net/doc/cc3886782.html,, https://www.360docs.net/doc/cc3886782.html, Li XT, Li JZ, Gao H. An efficient frequent subgraph mining algorithm. Journal of Software , 2007,18(10): 2469?2480. https://www.360docs.net/doc/cc3886782.html,/1000-9825/18/2469.htm Abstract : With the successful development of frequent item set and frequent sequence mining, the technology of data mining is natural to extend its way to solve the problem of structural pattern mining —Frequent subgraph mining. Frequent patterns are meaningful in many applications such as chemistry, biology, computer networks, and World-Wide Web. In this paper we propose a new algorithm GraphGen for mining frequent subgraphs. GraphGen reduces the mining complexity through the extension of frequent subtree. For the best algorithm before, the complexity is O (n 3·2n ), n is the number of frequent edges in a graph dataset. The complexity of GraphGen is ???? ?????n n O n log 25.2, which is improved )log (n n O ? times than the best one. Experiment results prove this theoretical analysis. Key words : frequent pattern mining; subgraph isomorphism; subtree isomorphism; frequent subgraph; spanning tree 摘要: 由于在频繁项集和频繁序列上取得的成功,数据挖掘技术正在着手解决结构化模式挖掘问题——频繁子图挖掘.诸如化学、生物学、计算机网络和WWW 等应用技术都需要挖掘此类模式.提出了一种频繁子图挖掘的新算法.该算法通过对频繁子树的扩展,避免了图挖掘过程中高代价的计算过程.目前最好的频繁子图挖掘算法的时间复杂性是O (n 3·2n ),其中,n 是图集中的频繁边数.提出的算法时间复杂性是???? ?????n n O n log 25.2,性能提高了)log (n n O ?倍. 实验结果也证实了这个理论结果. 关键词: 频繁模式挖掘;子图同构;子树同构;频繁子树;生成树中图法分类号: TP311 文献标识码: A ? Supported by the National Natural Science Foundation of China under Grant No.60473075 (国家自然科学基金); the Key Program National Natural Science Foundation of China under Grant No.60533110 (国家自然基金重点项目); the National Basic Research Program of China under Grant No.2006CB303000 (国家重点基础研究发展计划(973)); the Program for New Century Excellent Talents in University (NCET) under Grant No.NCET-05-0333 (国家教育部新世纪创新人才计划) Received 2006-09-08; Accepted 2006-11-14

有向图拓扑排序算法的实现

数据结构课程设计设计说明书有向图拓扑排序算法的实现学生姓名学号班级成绩指导教师魏佳计算机科学与技术系 2010年2月22日

数据结构课程设计评阅书注：指导教师成绩60%，答辩成绩40%，总成绩合成后按五级制记入。

课程设计任务书 2010—2011学年第二学期专业：信息管理与信息系统学号：姓名：课程设计名称：数据结构课程设计设计题目：有向图拓扑排序算法的实现完成期限：自2011 年 2 月22 日至2011 年 3 月 4 日共 2 周设计内容：用C/C++编写一个程序实现有向图的建立和排序。要求建立有向图的存储结构，从键盘输入一个有向图，程序能够自动进行拓扑排序。设计要求: 1）问题分析和任务定义：根据设计题目的要求，充分地分析和理解问题，明确问题要求做什么？（而不是怎么做？）限制条件是什么？确定问题的输入数据集合。 2）逻辑设计：对问题描述中涉及的操作对象定义相应的数据类型，并按照以数据结构为中心的原则划分模块，定义主程序模块和各抽象数据类型。逻辑设计的结果应写出每个抽象数据类型的定义（包括数据结构的描述和每个基本操作的功能说明），各个主要模块的算法，并画出模块之间的调用关系图； 3）详细设计：定义相应的存储结构并写出各函数的伪码算法。在这个过程中，要综合考虑系统功能，使得系统结构清晰、合理、简单和易于调试，抽象数据类型的实现尽可能做到数据封装，基本操作的规格说明尽可能明确具体。详细设计的结果是对数据结构和基本操作做出进一步的求精，写出数据存储结构的类型定义，写出函数形式的算法框架； 4）程序编码：把详细设计的结果进一步求精为程序设计语言程序。同时加入一些注解和断言，使程序中逻辑概念清楚； 5）程序调试与测试：采用自底向上，分模块进行，即先调试低层函数。能够熟练掌握调试工具的各种功能，设计测试数据确定疑点，通过修改程序来证实它或绕过它。调试正确后，认真整理源程序及其注释，形成格式和风格良好的源程序清单和结果； 6）结果分析：程序运行结果包括正确的输入及其输出结果和含有错误的输入及其输出结果。算法的时间、空间复杂性分析； 7）编写课程设计报告；以上要求中前三个阶段的任务完成后，先将设计说明数的草稿交指导老师面审，审查合格后方可进入后续阶段的工作。设计工作结束后，经指导老师验收合格后将设计说明书打印装订，并进行答辩。指导教师（签字）：教研室主任（签字）：批准日期：2011年2月21 日

频繁子图模式挖掘

数据挖掘与商务智能读书报告Using Association Rules for Product Assortment

英文标题：gSpan: Graph-Based Substructure Pattern Mining 中文标题：频繁子图模式挖掘文献来源：ICDM 2002 一、主要内容（2000～2500字）：（1）论文研究的问题概述数据挖掘技术及其算法是目前国际上数据库和信息决策领域最前沿的研究方向之一,本文就数据挖掘中基于图结构的gSpan挖掘算法及其应用进行了研究。本文研究了频繁字图挖掘在图数据集的新方法，提出了一种新的算法gSpan，它在没有候选集的情况下发现了频繁子结构。gSpan在图中建立了一种新的字典序，和各图形映射到一个唯一的最小DFS代码作为它的规范的标签。基于这种字典顺序，gSpan采用深度优先的搜索策略高效的挖掘频繁连通子图。研究表明，gSpan大大优于以前的算法。 gSpan算法是图挖掘邻域的一个算法，而作为子图挖掘算法，又是其他图挖掘算法的基础，所以gSpan算法在图挖掘算法中还是非常重要的。gSpan算法在挖掘频繁子图的时候，用了和FP-grown中相似的原理，就是模式增长方法，也用到了最小支持度计数作为一个过滤条件。图算法在程序上比其他的算法更加的抽象，在实现时更加需要空间想象能力。如果整个数据集图中可以容纳主存，gSpan可以直接应用，否则人们要首先执行基于图的数据投影仪，然后应用gSpan。gSpan是第一个在频繁子图挖掘中使用深度优先搜索的算法。本文介绍DFS字典序和最小DFS码这两种技术，它们形成一种新的规范的标识系统来支持DFS搜索。gSpan在一个步骤里结合了频繁子图的增长和检查，从而加速挖掘过程。（2）论文研究的理论意义及其应用前景频繁图挖掘是数据挖掘中一个非常广泛的应用。频繁图挖掘可以理解为从大量的图中挖掘出一些满足给定支持度的频繁图，同时算法需要保证这些频繁图不是重复的。gSpan是一个非常高效的算法，它利用dfs-code序列对搜索树进行编码，并且制定一系列比较规则，从而保证最后只得到序列“最小”的频繁图集合。由于大部分图挖掘算法都需要利用频繁子图,频繁子图挖掘逐渐成为了数据挖掘领域中的热点研究内容。目前,很多高效的频繁子图挖掘算法已经被提出。其中,gSpan算法是目前公认的最好的频繁子图挖掘算法。然而,在化合物数据集上,还可以利用化合物的特殊结构进一步优化gSpan算法的性能。文献利用了化合物分子结构的对称性和原子类型分布的不均衡

算法学习：图论之二分图的最优匹配(KM算法)

二分图的最优匹配（KM算法） KM算法用来解决最大权匹配问题：在一个二分图内，左顶点为X，右顶点为Y，现对于每组左右连接XiYj有权wij，求一种匹配使得所有wij的和最大。基本原理该算法是通过给每个顶点一个标号（叫做顶标）来把求最大权匹配的问题转化为求完备匹配的问题的。设顶点Xi的顶标为A[ i ]，顶点Yj的顶标为B[ j ]，顶点Xi与Yj之间的边权为w[i,j]。在算法执行过程中的任一时刻，对于任一条边(i,j)，A[ i ]+B[j]>=w[i,j]始终成立。 KM算法的正确性基于以下定理：若由二分图中所有满足A[ i ]+B[j]=w[i,j]的边(i,j)构成的子图（称做相等子图）有完备匹配，那么这个完备匹配就是二分图的最大权匹配。首先解释下什么是完备匹配，所谓的完备匹配就是在二部图中，X点集中的所有点都有对应的匹配或者是 Y点集中所有的点都有对应的匹配，则称该匹配为完备匹配。这个定理是显然的。因为对于二分图的任意一个匹配，如果它包含于相等子图，那么它的边权和等于所有顶点的顶标和；如果它有的边不包含于相等子图，那么它的边权和小于所有顶点的顶标和。所以相等子图的完备匹配一定是二分图的最大权匹配。初始时为了使A[ i ]+B[j]>=w[i,j]恒成立，令A[ i ]为所有与顶点Xi关联的边的最大权，B[j]=0。如果当前的相等子图没有完备匹配，就按下面的方法修改顶标以使扩大相等子图，直到相等子图具有完备匹配为止。我们求当前相等子图的完备匹配失败了，是因为对于某个X顶点，我们找不到一条从它出发的交错路。这时我们获得了一棵交错树，它的叶子结点全部是X顶点。现在我们把交错树中X顶点的顶标全都减小某个值d，Y顶点的顶标全都增加同一个值d，那么我们会发现： 1）两端都在交错树中的边(i,j)，A[ i ]+B[j]的值没有变化。也就是说，它原来属于相等子图，现在仍属于相等子图。 2）两端都不在交错树中的边(i,j)，A[ i ]和B[j]都没有变化。也就是说，它原来属于（或不属于）相等子图，现在仍属于（或不属于）相等子图。 3）X端不在交错树中，Y端在交错树中的边(i,j)，它的A[ i ]+B[j]的值有所增大。它原来不属于相等子图，现在仍不属于相等子图。 4）X端在交错树中，Y端不在交错树中的边(i,j)，它的A[ i ]+B[j]的值有所减小。也就说，它原来不属于相等子图，现在可能进入了相等子图，因而使相等子图得到了扩大。（针对之后例子中x1->y4这条边）现在的问题就是求d值了。为了使A[ i ]+B[j]>=w[i,j]始终成立，且至少有一条边进入相等子图，d应该等于： Min{A[i]+B[j]-w[i,j] | Xi在交错树中，Yi不在交错树中}。改进以上就是KM算法的基本思路。但是朴素的实现方法，时间复杂度为O(n4)——需要找O(n)次增广路，每次增广最多需要修改O(n)次顶标，每次修改顶标时由于要枚举边来求d值，复杂度为O(n2)。实际上KM算法的复杂度是可以做到O(n3)的。我们给每个Y顶点一个“松弛量”函数slack，每次开始找增广路时初始化为无穷大。在寻找增广路的过程中，检查边(i,j)时，如果它不在相等子图中，则让slack[j]变成原值与A[ i ]+B[j]-w[i,j]的较小值。这样，在修改顶标时，取所有不在交错树中的Y 顶点的slack值中的最小值作为d值即可。但还要注意一点：修改顶标后，要把所有的不在交错树中的Y顶点的slack值都减去d（因为：d的定义为 min{ (x,y)| Lx(x)+ Ly(y)- W(x,y), x∈ S, y? T }

基本的图算法

3. 要求对于邻接矩阵和邻接链表给出从G 到T G 的算法，并计算其复杂度。对于邻接矩阵问题十分简单，直接求矩阵的转置即可，意味着把行换成列，把列换成行，对每行操作为O(|V|)，需要对|V|行操作，时间复杂度为O （|V|^2）。对于邻接链表，很明显要遍历链表的所有结点来看：如果对于u 结点其指向的结点中有v,则在新的链表中，创建一条从v 的链表指向u 的路径，因此需要遍历所有的链表元素，因此时间复杂度为O （|V|+|E|）。 3. 给出一个多图（多图为包含重复边和自循环边的图）去除冗余边的复杂度为O(V+E)的算法。遍历邻接链表的所有结点，对于结点u ，如果其链表中还有u ，则去除所有的u ；如果还有重复的v ，则去除除了第一个v 以外的v 结点（这里的标记方法有很多种，可以用个数组）。这样的复杂度应该在O(V+E)。 4. 求解平方图的问题算法如下：遍历G 的邻接矩阵，对于结点u ，如果存在u 到v 的路径，则在G^2的邻接矩阵u 中加入v,然后再遍历v 结点的链表，如果存在v 到w ，则将w 也加入到G^2的邻接矩阵u 中。时间复杂度：这样，再遍历u 的时候，如果遍历到了u →v 这条边，那就在看v 的链表，而v 的链表里最多有|V|个结点，因此总的复杂度为O （|V|+|V|·|E|）。 6. 邻接矩阵求通用汇点（入度为|V|-1但是出度为0）的算法算法如下：从（1，1）开始扫描邻接矩阵，如果（i,j ）是0，则下一个扫描（i,j+1）;如果（i ，j ）是1，则下一个扫描（i+1，j ）,当i 或者j 任一方到达|V|时停止。这样，在最坏的情况下，扫描一行加一列或者一列加一行的结点，一共有2*|V|-1时间复杂度，因此为O(V)。 7. 关联矩阵，说明BB^T 每个元素是什么意思。其中bij = -1 （如果边j 从结点i 发出） 1（如果边j 进入i 结点） 0（其他）此处需要分类讨论：要明白B^T 中i 行相当于B 中第i 列。 ①BB^T 对角线上的元素，T B B （i ，i ） = ∑=| E |1 j 2 bij ，这样如果存在一条由i 发出或者进入i 的边，都会在T B B （i ，i ）中加一（因为就算是-1平方之后也是1），因此T B B （i ，i ）就是代表由多少条边从i 发出或者进入。 ②BB^T 非对角线元素，T B B （i ，j ） = ∑=| |1 k E jk ik b b ,由公式或者读者自己画矩阵图可以得出，如果k 边从i 发出从j 进入，或者反过来，bik*bjk 就等于-1，否则就为0。原因是i,j

数据挖掘实验三应用 Apriori 算法挖掘频繁项集

实验三、应用 Apriori 算法挖掘频繁项集学院计算机科学与软件学院 ?实验目的：（1）熟悉 VC++编程工具和 Apriori 频繁项集挖掘算法。（2）根据管理层的需求，确定数据挖掘的任务，明确数据挖掘的功能，也就是明确要挖掘什么。（3）由确定的数据挖掘任务，从实验一处理后的结果中，采用切块或切片等联机分析处理技术，选择出挖掘任务相关数据。（4）用 VC++编程工具编写 Apriori 算法的程序，对任务相关数据运行 Apriori 算法，挖掘出所有的频繁项集。 1.写出实验报告。 ?实验原理： 1 、Apriori 算法 Apriori 使用一种称作逐层搜索的迭代方法，k 项集用于探索（k+1）项集。首先，通过扫描数据库，累计每个项的计数，并收集满足最小支持度的项，找出频繁 1 项集的集合。该集合记作 L 1 。然后，L 1 用于找频繁 2 项集的集合L 2 ，L 2 用于找 L 3 ，如此下去，直到不能再找到频繁 k 项集。找每个 L k 需要一次数据库全扫描。 2、提高频繁项集逐层产生的效率 Apriori 性质：频繁项集的所有非空子集也必须是频繁的。三、实验内容： 1、实验内容在给定的数据中提取统一购物篮购买的商品信息，由这些数据构成事务数据库 D，挖掘其中的频繁项集 L。挖掘频繁项集的算法描述如下： Apriori 算法：使用逐层迭代找出频繁项集输入：事务数据库 D；最小支持度阈值。输出：D 中的频繁项集 L。（1） L 1 = find_frequent_1-itemsets(D); // 挖掘频繁 1-项集，比较容易（2） for (k=2;L k-1 ≠Φ ;k++) { （3） C k = apriori_gen(L k-1 ,min_sup); // 调用 apriori_gen 方法生成候选频繁 k-项集分为两步：合并、减枝（4） for each transaction t ∈ D { // 扫描事务数据库 D （5） Ct = subset(C k ,t); （6） for each candidate c ∈ Ct （7） c.count++; // 统计候选频繁 k-项集的计数（8） } （9） L k ={c ∈ Ck|c.count≥min_sup} // 满足最小支持度的 k-项集即为频繁 k-项集

图的两种存储结构及基本算法

一、图的邻接矩阵存储 1.存储表示 #define vexnum 10 typedef struct{ vextype vexs[vexnum]; int arcs[vexnum][vexnum]; }mgraph; 2.建立无向图的邻接矩阵算法 void creat(mgraph *g, int e){ for(i=0;ivexs[i]); for(i=0;iarcs[i][j]=0; for(k=0;karcs[i][j]=1; g->arcs[j][i]=1;} } 3.建立有向图的邻接矩阵算法 void creat(mgraph *g, int e){ for(i=0;ivexs[i]);

for(i=0;iarcs[i][j]=0; for(k=0;karcs[i][j]=w; } } 二、图的邻接表存储 1.邻接表存储表示 #define vexnum 10 typedef struct arcnode{ int adjvex; struct arcnode *nextarc; }Arcnode; typedef struct vnode{ vextype data; Arcnode *firstarc; }Vnode; typedef struct{ Vnode vertices[vexnum]; int vexnum,arcnum;

拓扑排序课程设计报告

拓扑排序一问题描述本次课程设计题目是：编写函数实现图的拓扑排序二概要设计 1.算法中用到的所有各种数据类型的定义在该程序中用邻接表作为图的存储结构。首先，定义表结点和头结点的结构类型，然后定义图的结构类型。创建图用邻接表存储的函数，其中根据要求输入图的顶点和边数，并根据要求设定每条边的起始位置，构建邻接表依次将顶点插入到邻接表中。拓扑排序的函数在该函数中首先要对各顶点求入度，其中要用到求入度的函数，为了避免重复检测入度为零的顶点，设置一个辅助栈，因此要定义顺序栈类型，以及栈的函数：入栈，出栈，判断栈是否为空。 2.各程序模块之间的层次调用关系第一部分，void CreatGraph(ALGraph *G)函数构建图，用邻接表存储。这个函数没有调用函数。第二部分，void TopologicalSort(ALGraph *G)输出拓扑排序函数，这个函数首先调用FindInDegree(G,indegree)对各顶点求入度indegree[0……vernum-1];然后设置了一个辅助栈，调用InitStack(&S)初始化栈，在调用Push(&S,i)入度为0者进栈，while(!StackEmpty(&S))栈不为空时，调用Pop(&sS,&n)输出栈中顶点并将以该顶点为起点的边删除，入度indegree[k]--,当输出某一入度为0的顶点时，便将它从栈中删除。第三部分，主函数，先后调用void CreatGraph(ALGraph *G)函数构建图、void TopologicalSort(ALGraph *G)函数输出拓扑排序实现整个程序。 3.设计的主程序流程

数据挖掘一些面试题总结

数据挖掘一些面试题总结（Data Mining）摘录一段企业面对海量数据应如何具体实施数据挖掘，使之转换成可行的结果/模型？首先进行数据的预处理，主要进行数据的清洗，数据清洗，处理空缺值，数据的集成，数据的变换和数据规约。请列举您使用过的各种数据仓库工具软件（包括建模工具，ETL工具，前端展现工具，OLAP Server、数据库、数据挖掘工具）和熟悉程度。 ETL工具：Ascential DataStage ，IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream 市场上的主流数据仓库存储层软件有：SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 请谈一下你对元数据管理在数据仓库中的运用的理解。元数据能支持系统对数据的管理和维护，如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中，元数据机制主要支持以下五类系统管理功能：（１）描述哪些数据在数据仓库中；（２）定义要进入数据仓库中的数据和从数据仓库中产生的数据；（３）记录根据业务事件发生而随之进行的数据抽取工作时间安排；（４）记录并检测系统数据一致性的要求和执行情况；（５）衡量数据质量。数据挖掘对聚类的数据要求是什么？（1）可伸缩性（2）处理不同类型属性的能力（3）发现任意形状的聚类（4）使输入参数的领域知识最小化（5）处理噪声数据的能力（6）对于输入顺序不敏感（7）高维性（8）基于约束的聚类（9）可解释性和可利用性简述Apriori算法的思想，谈谈该算法的应用领域并举例。思想：其发现关联规则分两步，第一是通过迭代，检索出数据源中所有烦琐项集，即支持度不低于用户设定的阀值的项即集，第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则，其中，第一步即挖掘出所有频繁项集是该算法的核心，也占整个算法工作量的大部分。在商务、金融、保险等领域皆有应用。在建筑陶瓷行业中的交叉销售应用，主要采用了Apriori 算法通过阅读该文挡，请同学们分析一下数据挖掘在电子商务领域的应用情况（请深入分析并给出实例，切忌泛泛而谈）？单选题 1. 某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理

拓扑排序算法

图的拓扑排序操作一、实验内容题目：实现下图的拓扑排序。 5 二、目的与要求（一）目的 1、了解拓扑排序的方法及其在工程建设中的实际意义。 2、掌握拓扑排序的算法，了解拓扑排序的有向图的数据结构。（二）要求用C语言编写程序，实现图的拓扑排序操作。三、设计思想首先对有向图，我们采取邻接表作为数据结构。且将表头指针改为头结点，其数据域存放该结点的入度，入度设为零的结点即没有前趋。在建立邻接表输入之前，表头向量的每个结点的初始状态为数据域VEX（入度）为零，指针域NXET为空，每输入一条弧< J, K > 建立链表的一个结点，同时令k 的入度加1，因此在输入结束时，表头的两个域分别表示顶点的入度和指向链表的第一个结点指针。在拓扑排序的过程之中，输入入度为零（即没有前趋）的顶点，同时将该顶点的直接后继的入度减1。（1）、查邻接表中入度为零的顶点，并进栈。（2）、当栈为空时，进行拓扑排序。（a）、退栈，输出栈顶元素V。（b）、在邻接表中查找Vj的直接后继Vk，将Vk的入度减一，并令入度减至零的顶点进栈。（3）、若栈空时输出的顶点数不是N个则说明有向回路，否则拓扑排序结束。为建立存放入度为零的顶点的栈，不需要另分配存储单元，即可借入入度为零的数据域。一方面，入度为零的顶点序号即为表头结点的序号，另一方面，借用入度为零的数据域存放带链栈的指针域（下一个入度的顶点号）。

四、具体算法设计 #include #include #include #include #include using namespace std; #define MAX 9999 stackmystack; int indegree[MAX]; struct node { int adjvex; node* next; }adj[MAX]; int Create(node adj[],int n,int m)//邻接表建表函数，n代表定点数，m代表边数{ int i; node *p; for(i=0;i<=n-1;i++) { adj[i].adjvex=i; adj[i].next=NULL; } for(i=0;i<=m-1;i++) { cout<<"请输入第"<>u>>v; p=new node; p->adjvex=v; p->next=adj[u].next; adj[u].next=p; } return 1; } void print(int n)//邻接表打印函数 { int i; node *p; for(i=0;i<=n-1;i++) { p=&adj[i]; while(p!=NULL) { cout<adjvex<<' '; p=p->next; } cout<

拓扑排序(算法与数据结构课程设计)

拓扑排序一、问题描述在AOV网中为了更好地完成工程，必须满足活动之间先后关系，需要将各活动排一个先后次序即为拓扑排序。拓扑排序可以应用于教学计划的安排，根据课程之间的依赖关系，制定课程安排计划。按照用户输入的课程数，课程间的先后关系数目以及课程间两两间的先后关系，程序执行后会给出符合拓扑排序的课程安排计划。二、基本要求 1、选择合适的存储结构，建立有向无环图，并输出该图； 2、实现拓扑排序算法； 3、运用拓扑排序实现对教学计划安排的检验。三、算法思想 1、采用邻接表存储结构实现有向图；有向图需通过顶点数、弧数、顶点以及弧等信息建立。 2、拓扑排序算法void TopologicalSort(ALGraph G) 中，先输出入度为零的顶点，而后输出新的入度为零的顶点，此操作可利用栈或队列实现。考虑到教学计划安排的实际情况，一般先学基础课（入度为零），再学专业课（入度不为零），与队列先进先出的特点相符，故采用队列实现。 3、拓扑排序算法void TopologicalSort(ALGraph G)，大体思想为： 1)遍历有向图各顶点的入度，将所有入度为零的顶点入队列； 2)队列非空时，输出一个顶点，并对输出的顶点数计数； 3)该顶点的所有邻接点入度减一，若减一后入度为零则入队列； 4)重复2)、3)，直到队列为空，若输出的顶点数与图的顶点数相等则该图可拓扑排序，否则图中有环。 4、要对教学计划安排进行检验，因此编写了检测用户输入的课程序列是否是拓扑序列的算法void TopSortCheck(ALGraph G)，大体思想为： 1)用户输入待检测的课程序列，将其存入数组； 2)检查课程序列下一个元素是否是图中的顶点（课程），是则执行3)，否则输出“课程XX不存在”并跳出； 3)判断该顶点的入度是否为零，是则执行4)，否则输出“入度不为零”并跳出； 4)该顶点的所有邻接点入度减一； 5)重复2)、3)、4)直到课程序列中所有元素均被遍历，则该序列是拓扑序列，否则不是拓扑序列。