中文文本分类算法设计及其实现_毕业设计

中文文本分类算法设计及其实现_毕业设计
中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书

毕业设计(论文)

题目中文文本分类算法的设计及其实现

电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文)

毕业设计(论文)任务书

电信学院计算机系84 班学生丰成平

毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学

课题的背景、意义及培养目标

随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。

设计(论文)的原始数据与资料

1、文本语料库(分为训练集与测试集语料库)。

2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。

3、中科院文本分词工具(nlpir)。

4、文本分类中需要用到的各种分类方法的资料描述。

课题的主要任务

1.学习文本特征向量的构建方法及常用的降维方法。

2.学习各种分类器的基本原理及其训练与测试方法。

3.设计并编程实现文本分类器。

毕业设计(论文)任务书

4、对试验结果进行分析,得出各种结论。

5、撰写毕业论文。

6、翻译一篇关于文本分类的英文文献。

课题的基本要求(工程设计类题应有技术经济分析要求)

1、程序可演示。

2、对源代码进行注释。

3、给出完整的设计文档及测试文档。

完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等)

1、提交毕业论文

2、提交设计和实现的系统软件源程序及有关数据

3、提交外文资料翻译的中文和原文资料

主要参考文献:

自然语言处理与信息检索共享平台:https://www.360docs.net/doc/4317532206.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.360docs.net/doc/4317532206.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.360docs.net/doc/4317532206.html,/p-030716713857.html

TF-IDF的线性图解:https://www.360docs.net/doc/4317532206.html,/blog-170225-6014.html

东南大学向量降维文献:https://www.360docs.net/doc/4317532206.html,/p-690306037446.html

指导教师相明

接受设计(论文)任务日期2013-02-21~2013-06-20

学生签名:

毕业设计(论文)任务书

西安交通大学

毕业设计(论文)考核评议书

院系(专业) 班级指导教师对学生所完成的课题为

的毕业设计(论文)进行的情况,完成的质量及评分的意见:

指导教师

年月日毕业设计(论文)评审意见书评审意见:

评阅人职称

年月日

西安交通大学本科毕业设计(论文)

毕业设计(论文)答辩结果

系(专业) 毕业设计(论文)答辩组对学生所完成的课题为的毕业设计(论文)经过答辩,其意见为

并确定成绩为

毕业设计(论文)答辩组负责人

答辩组成员

年月日

摘要

论文题目:中文文本分类算法的设计及其实现

学生姓名:丰成平

指导教师:相明

摘要

随着当今社会,计算机的普遍使用,出现了连绵不断的文本文件,如何对这些毫无逻辑、毫无层次的文件进行分门别类的整理,做到井井有条,层次鲜明呢?

文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,工作人员可以去做更多有意义的事情。

文本分类主要有以下三个方面:

第一、文本的空间向量表示:由于计算机并不能识别真正的文本,本质上只懂得0,1,因此若要对文本进行分类,首先要让计算机能够“读懂”每篇文章,引入文本空间向量表示,将文章里面的特征词形成空间向量,通过计算向量之间的差距,来实现分门别类。

第二、文本特征的降维:由于中文词汇成千上万,那么形成的文本向量肯定也很长,计算起来会很麻烦,因此要对向量进行处理。

第三、文本分类器的设计:文本分类方法例如:KNN、朴素贝叶斯、SVM、决策树,BP神经网络,运用这些算法设计分类器,从而处理文本向量之间的关系,实现对文本的分门别类。

最后,将文本分类运用于众多领域,例如:信息过滤、文档管理、网络安全、电子图书整理、网络图书馆,搜索引擎,这样则不是通过关键字过滤,而是基于文本内容的过滤或者是搜索,能大大提高过滤的可靠性以及搜索的准确性,无疑使文本领域的一项重大的突破

关键词:文本向量;特征降维;分类算法;分类器设计。

西安交通大学本科毕业设计(论文)

Title: The design and implementation of Chinese text classification algorithm Name: Feng Chengping

Supervisor: Xiang Ming

ABSTRACT

With today's society, the widespread use of computers, the continuous of the text file, how about these no logic, no level of sort, classify files on do in perfect order, hierarchy and bright?

Text automatic classification is according to the above situation, using the machine, through a certain constraint condition and some classification algorithm, automatic to traverse these files, so as to realize classify. So using machines instead of people to "read", to "finish", replacing workers with machines not only reduce the burden of the staff, and greatly saves time and staff to do more meaningful things.

Text classification is mainly has the following three aspects:

First, Text space vector said: because of the computer and can't identify the real text, essentially understand only 0, 1, so if you want to categorize text, first of all, allow the computer to "read" each article, introduction of text vector space, said the article in the formation of key space vector, vector by calculation, the gap between to classify.

Second, Text feature dimension reduction: due to the hundreds of thousands of Chinese vocabulary, then form the text vector is also very long, calculate it will be very trouble, so want to deal with vector.

Third,Text classifier design: text classification method for example: KNN, naive bayes, the SVM and the decision tree, BP neural network, using these design classifier algorithm, to process the text vector, the relationship between the implementation of text categorization.

Finally, the text classification used in many fields, such as: information filtering, document management, network security, electronic books and network library, search engine, it is not by keyword filtering, but based on text content filter or search, can greatly improve the accuracy of the reliability of the filter and search, no doubt make a significant breakthrough in the field of text

Key words: text vector; Characteristics will be; Classification algorithms; Classifier design.

Key words: text vector; feature reduction; Classification algorithms; Classifier design.

目录

目录

第一章绪论 (6)

1.1、文本分类背景和意义 (6)

1.2、文本分类的应用领域 (6)

1.2.1、Internet上面应用 (6)

1.2.2、网络图书馆方面的应用 (7)

1.2.3、网络安全方面 (7)

1.2.4、电子邮件方面 (7)

1.3、目前国内外研究现状 (7)

1.4、文本分类的发展趋势展望 (8)

1.5、本章小结 (8)

第二章文本分类主要过程 (9)

2.1、文本分类的过程图 (9)

2.2、关于语料库 (10)

2.2.1、文本分类语料库介绍 (10)

2.2.2、文本分类,训练阶段的主要步骤 (10)

2.2.3、文本分类,分类(测试)阶段的主要过程 (10)

2.3、关于文本分词 (10)

2.4、文本空间向量的形成 (11)

2.4.1、VSM(Vector Space Model) (11)

2.4.2、常见的权值计算方法 (12)

2.4.2.1、布尔框架(Booolean weighting) (12)

2.4.2.2、TF-IDF计算权值算法 (12)

2.4.3、词典 (14)

2.4.3.1、用户词典 (14)

2.4.3.2、停用词词典 (14)

2.5、常用的降维方法 (14)

2.5.1、信息增益方法 (15)

2.5.2、互信息方法 (16)

2.5.3、期望交叉熵方法 (17)

2.5.4、X^2统计方法 (17)

2.5.5、文本证据权方法 (18)

2.6、本章小结 (18)

西安交通大学本科毕业设计(论文)

第三章常用的文本分类方法 (19)

3.1、k临近分类器 (19)

3.1.1、KNN算法概述 (19)

3.1.2、KNN算法用于文本分类器构造 (19)

3.1.3、KNN算法用于分类 (20)

3.1.4、KNN算法效果评价 (20)

3.2、支持向量机分类器 (21)

3.2.1、SVM算法概述 (21)

3.2.2、SVM构造分类器 (21)

3.2.2.1、线性可分 (21)

3.2.2.2、线性不可分 (22)

3.2.2.3、映射函数(核函数) (23)

3.2.4、SVM分类评价 (24)

3.3、决策树算法分类器 (24)

3.3.1、决策树概述 (24)

3.3.2、决策树分类器的构造 (26)

3.3.3、决策树分类器的构造 (27)

3.4、朴素贝叶斯分类器 (27)

3.4.1、贝叶斯算法原理 (27)

3.4.2、贝叶斯分类器 (28)

3.4.3、贝叶斯进行分类 (28)

3.5、BP神经网络分类器 (29)

3.5.1、BP神经网络原理 (29)

3.5.2、BP神经网络分类器 (30)

3.5.3、BP神经网络进行分类 (31)

3.6、本章小结 (31)

第四章试验结果分析统计 (32)

4.1、试验结果评估指标简介 (32)

4.2、使用KNN分类算法部分结果分析 (32)

4.2.1、训练总篇数对分类结果的影响 (32)

4.2.2、不同的K值对分类结果的影响 (33)

4.2.3、降维深度对分类结果的影响 (35)

4.2.4、采用不同的降维方法对试验结果的影响 (36)

4.2.5、分而统计各个类别的详细信息 (36)

4.3、使用SVM分类算法结果分析 (37)

目录

4.3.1、训练总篇数对分类结果的影响 (37)

4.3.2、降维深度对分类结果的影响 (38)

4.3.3、采用不同的降维方法对试验结果的影响 (39)

4.3.4、分而统计各个类别的详细信息 (40)

4.4、本章小结 (41)

总结与展望 (42)

参考文献 (44)

致谢 (45)

附录................................................................................................... 错误!未定义书签。

西安交通大学本科毕业设计(论文)

第一章绪论

1.1、文本分类背景和意义

互联网发展,网上电子图书(txt文档、pdf文档、微小说、期刊论文等等),企业公司内部文件整理,电子文档的增加,为了高效访问和使用这些文档数据,如果人为的对这些文件信息进行处理,不仅需要花费大量的时间翻阅每一篇文章,了解每篇文章的大体内容,而且要付出很大的精力去统计。毕竟人的大脑工作能力有限,长期处于这种工作环境中,会造成大脑极大的负担,很可能由于一时疏忽而出现了错误,甚至信息量太过庞大,人脑不可能记录这么多类别信息,在最后评估的时候也有可能做出错误的判断。不仅耽误时间,而且不能实现分布式管理,如果由多人进行这项工作,很可能导致意见不同而导致纠纷等等。甚至同一个人,在不同的时间不同的地点,对一篇文章的分类页不尽相同,这样,很多严峻的问题随之而来。

文本自动分类就是针对上述情况,采用机器,通过一定的约束条件和一些分类算法,自动的对这些文件进行遍历,从而实现分门别类。这样用机器代替人来“阅读”文章,用机器代替人来“整理”文章,不仅减轻了工作人员的负担,而且大大节省了时间,这样工作人员就有更多的时间来处理其他的事情。用机器代替人来工作,这样在整理的过程中也不会出现一时疏忽而出现错误,更可以夜以继日的进行分类,一旦有新的文章进入,就可以通过机器“读取”这篇文章,然后自动的进行处理,可以带来很多的方便

1.2、文本分类的应用领域

1.2.1、Internet上面应用

把文本分类系统结合到搜索引擎(谷歌、百度)之类,可以大大提高搜索的准确性,目前大部分搜索引擎是通过查找关键字进行匹配,用这种方法必须要遍历每篇文章,找出其中的关键字,然后统计结果输出,这种查询的精度不是很高,速度方面由于要遍历很多文章,速度当然不会很快。如用引入文本分类系统,当查询某个关键字的时候,可以自动判定与之相关的文件类别,基于内容的查询,可以直接命

第一章绪论

中目标,查询速度和精度能得到有效的提升

1.2.2、网络图书馆方面的应用

任何一个图书馆的馆藏资源成千上万,如果没能很好的分门别类,大量的图书便会

杂乱无章,不仅浪费工作人员的时间进行整理和查询,而且读者在找寻自己想要的图书方面也会花费很大的时间。因此可以使用文本分类引擎实现电子图书的分门别类,使管理更加方便,是查询更加简单。

1.2.3、网络安全方面

internet的普及,人们上网浏览信息,很多是对读者有用的,但是也有不法分子将不健康的信息通过internet进行传播,不仅影响了读者的时间,更会影响读者的情绪,影响工作效率。如果将文本分类引擎引入绿色上网功能中,对用户要访问的内容事先进行分析,去除没有用的垃圾信息,就可以为用户带来很多方便。目前电信绿色上网,360绿色上网等都可以考虑引入此引擎,相信效果会更上一层楼。

1.2.4、电子邮件方面

可以自动为用户预处理邮件,将邮件分门别类,而且必要的时候,可以自动屏蔽一些没有用的垃圾邮件,给用户带来了很多方便。

1.3、目前国内外研究现状

国外主要的研究单位:CMU、斯坦福。国内主要的研究单位有:上海复旦大学、中科院计算所等,国内的方法一般是在了解国外已有分类算法或者分类方法之后,在此基础上进行创新和改进,以进一步适应中文文本分类的需求。

到目前为止,文本自动分类在国外大致经历了三个发展阶段:

预测分析阶段(1958-1964)判断文本分类是否能够真正的在现实社会中起到作用

实际运用构思阶段(1965-1974)主要进行文本分类的初步构思,形成大概的理论和框架。

开发应用阶段(1975-至今)进行实际使用和运用阶段,在电子邮件分类、网络安全、信息过滤等方面取得较为广泛的应用。

我国文本分类的研究工作始于20世纪80年代,大体经历了可行性探讨、辅助分类

西安交通大学本科毕业设计(论文)

系统、自动分类系统三个阶段。总体来书,中文文本分类还处于在试验研究阶段,正确分类率约为60%~90%,目前已经在国内受到重视,相关的学术研究成果也层出不穷,相信不久以后,文本分类将涉及到中文的各个领域,发挥自己的一技之长。

1.4、文本分类的发展趋势展望

只要汉语甚至语言文字依旧在使用,那么文本分类将永远有自己的重要性,而且随着文字数目的增多,文件类别的加剧,文本分类引擎将会越来越得到各界人士的关注,运用领域将会越来越广泛,重要性也会越来越高。相信在不就的将来,nternet 方面、

电子邮件、网络图书馆、绿色上网安全方面,都会运用文本分类引擎以达到更好的效果,研究文本分类,必定会发展自己的独特优势,为用户带来更多的方便。

1.5、本章小结

本章主要从文本分类的背景以及应用方面入手,提出了文本分类的研究的历史背景,以及对应的应用领域,叙述了众多文本分类的好处,通过对比国内外的相关研究成果,分析国内目前文本分类的现状对文本分类的前景趋势进行展望。

第二章文本分类的主要过程

第二章文本分类主要过程

2.1、文本分类的过程图

首先把文本分类的总体流程图展示出来,主要包括对文本的处理,对处理之后向量的降维,然后对训练集测试集语料库进行仿真,文本分类过程图如图所示。

开始

训练集、测试集语料库

输入文本

采用中科院nlpir分词

文本分词

TF-IDF计算权值

空间文本向量

降维方法

向量降维

分类方法:svm/决策树...

进行文本分类

Weka、C++、matlab仿真

最终结果

图2-1 文本分类过程图

西安交通大学本科毕业设计(论文)

2.2、关于语料库

2.2.1、文本分类语料库介绍

本次试验中采用复旦大学语料库,分为训练集与测试集,训练集20个类别,共计9804篇,测试集20个类别,共计9833篇。由于计算时间的关系,如果全部语料库用来测试,那么逐篇文章遍历,生成空间向量,需要太长的时间,因此试验过程中为了研究某些统计特征,只是从语料库中随机抽取样本进行测试,分析最后结果。

复旦大学语料库提供的预料有20个类别,但是各个类别里面的文章数差别太大,有的累里面有一千多篇,但是有的类别只有几十篇,此处从中抽取样本数较多的10个类别进行分析研究,10个类别分别是:环境、计算机、经济、军事、历史、农业、太空、艺术、运动、政治,在实验过程中都是随机选取其中的文章进行试验,没有人为的对实验结果进行定向干涉,保证了结果的随机性。也就是说,在试验的过程中,尽可能减少人的主观性思维,尽量避免实验者的主观因素去影响试验结果,力求结果的可靠性、可认证性。

2.2.2、文本分类,训练阶段的主要步骤

(1)定义类别集合C={C1,C2,···Ci···Cm},在本次实验中一共有10个类别,那么m的值为10,分别是:环境、计算机、经济、军事、历史、农业、太空、艺术、运动、政治。

(2)文本集合Cm={S1,S2,···Sj···Sn},Sn表示某个类别里面的一片文章,每篇文章Sn都有所属的类别Cm,例如Sn属于环境类,那么就有标识。

(3)对于训练集中的所有文本,对其进行处理,形成空间文本向量,然后根据该特征向量和该文本所属的类别,依据特定训练分类规则,形成分类器。这样分类器就形成了

2.2.3、文本分类,分类(测试)阶段的主要过程

(1)对于某个等待分类的文本,先对该文本进行分词形成空间向量,然后根据分类器采用的规则判断该文本属于训练集中的哪一类。

(2)然后输出所有分类的文本的类别,并对结果进行统计。

2.3、关于文本分词

第二章文本分类的主要过程

对于随意给出的一篇文章,或者一则短消息,要获取消息或者文章的内容,须从中提取关键词语,因此使用中科院张华平教授研发的中文分词工具:NLPIR(原名:ICTCLAS)汉语分词工具,把文章分词.

关于nlpir:NLPIR汉语分词系统,主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;新增微博分词、新词发现与关键词提取;张华平博士先后倾力打造十余年。

为何要对文章进行分词,词是构成文章的基础,计算机去识别一篇文章就是需要先对文章进行分词,进而将词表示成空间向量的形式,这样才能进行计算,因此分词的好坏直接影响到最后的分类结果的好坏,一个好的分词工具当然是词分的越细越好,词语提取的越准确越好,nlpir的分词效果,较一般的分词工具分的更准确,更权威。

如下图是对语料库里面的一篇文章的分词处理结果:

图2-2 一篇文章的分词展示

有了分词工具之后,接下来就是怎样将一篇文章形成一个空间向量。

2.4、文本空间向量的形成

2.4.1、VSM(Vector Space Model)

俗称向量空间模型。根据一篇文章中词或者字出现的频率,以及权值,将文本形象的转化为一个很长维的向量,向量的总维数长度与字典里面的词字个数相同,如果某个词在该文章中并没有出现,那么相应的此处的值为0,如果出现次数比较多,

西安交通大学本科毕业设计(论文)

权重比较高,则为:1,2,3(实际计算形成的权值一般是实数,很少是整数)...等等。 这样就把文本转化为计算机可以处理计算的向量形式。然后通过比较向量之间的相似度,或者通过分析向量之间的差别来进行文本的识别。

最后,一篇文章就被转化为一个n 维向量空间中的一个点,n 可以理解为词典中包括的总词/短语数。用数学公式表示为:N=(W1,W2,W3,W4.···Wi ···Wn ),其中Wi 为某个词/短语的权值。

说明:①、向量是有顺序的,如果在词典中未出现,那么该位标记为0或者在该向量形成的时候,前面做标记位进行识别。

② 、词典是包含了所有语料库中出现的词根/词/短语 ,没有重复字词。 ③ 、即使是一篇很短的文章,也可能形成维数很长的向量。

2.4.2、常见的权值计算方法

2.4.2.1、布尔框架(Booolean weighting )

对于某个特征词i ,布尔框架对其权值的定义为:

权值定义为:

W ik =

分析:此种方法只是显示了特征词是否存在,但是出现的次数不能得到很好的统计,当然对分类结果也不能达到很好的要求,因此在实验过程中,不选择此种框架,而采用另外一种框架TF-IDF 框架

2.4.2.2、TF-IDF 计算权值算法

TF-IDF (term frequency –inverse document frequency ),TF-IDF 是一种统计方法,即根据某个词/短语在自身文章中出现的比例,以及该短语在总体语料库中出现的比例,来计算该词/短语的权值,权值越高,证明该词越能表示这篇文章的类别,相反权值越低,该词对文章的贡献度越小,用这种方法来评估一个字词对于一篇文章或一个语料库的重要程度。词频与反文档频率的大体思想是:一个字词对这篇文章的重要性随着它在本篇文章中出现的次数正比例增加,但是相对整体语料库而言,如果在整体语料库中出现的次数太多,该字词的表征作用会呈反比例下降。 1 特征词i 出现在文档k 中

0 特征词i 未出现在文档k 中 (2-1)

第二章 文本分类的主要过程

TF (词频)计算公式

Q M TF i i =

(2-2)

其中Mi 表示某个词在该篇文中中出现的次数,Q 表示文中出现的总词数,相同的词第二次出现则Q 不会叠加,Q 统计的总次数,不存在重复。

举例1:在一篇科普类文章中,地球在文中出现次数为7,文章中的总词数是1000,那么地球这个词的词频为:TF=3/1000=0.7%

IDF(反文档频率)计算公式

i i S D lg

IDF = (2-3)

其中D 表示语料库文章总数,Si 表示在D 的样本中,包含词i 的文章篇数。

举例2:在总语料库中,含有地球的文章数量为100,总文章数为100000,那么地球这个词的反文档频率为:IDF=lg(100000/100)=3 。

TF-IDF 最后得到i 的权值公式为

i i i i i S D lg Q M IDF TF W *=*= (2-4)

举例3:综合例1,例2,那么地球这个词,在语料库中的权值为:TF*IDF=0.007*3=0.021

TF-IDF 计算权值的好处分析

首先,如果不使用此方法,例如地球的公转,“地球” 、“的”、 “公转” 在文章中出现的次数分别为7、100、5,如果只是统计词频,假设文章有一千词,那么三个词的词频分别为:0.007 ,0.100 ,0.005 显然,“的”的词频很大,三个词总共的贡献度为0.112,但是“的”占了绝大部分,显然这个词不能表示本文的特征,反之,地球与公转这两个词能表征文本大意,但是所占的比例却相当的小。

西安交通大学本科毕业设计(论文)

其次,引入IDF,此问题就能得到很好的解释:如上例子,还是以“地球”、“的”、“公转”为例,出现次数如上所示。语料库含有的总文章数为:10^5 ,含有“地球”文章数为10^2,含有“的”的文章数为10^5,含有“公转”的文章数为10^3,那么根据DF-IDF计算公式,计算得出

W(地球)=0.007*lg(10^5/10^2)=0.021

W(的)=0.100*lg(10^5/10^5)=0

W(公转)=0.005*lg(10^5/10^3)=0.010

这样计算,得出的结果“的”的权值为0,而地球和公转分别占了0.021和0.010,这样的结果符合正常的逻辑情况。

2.4.3、词典

2.4.

3.1、用户词典

在对语料库中所有的文章进行分词之后,势必会有很多的字以及词语,每当产生一个新的词语的时候,相应的用户词典就会把这个词加入进去,每当有新词进入的时候,词典的长度就会加一,这样对于训练集,训练集越大形成的词典也就越大,相应的对各篇文章的区分度会更好,有词典的存在,每当出现新词的时候,用户也不用担心,加入词典就可以。最终的词典长度和空间向量的长度是相同的。

2.4.

3.2、停用词词典

停用词,顾名思义,就是文本分类过程中不需要用到的词语,这些词语千篇一律,不仅对文章没有表征作用,而且会增加处理的复杂度,如果把这些词加入计算,会影响计算的时间,因此专门设计一个停用词词典,对这些词不加入计算,停用词里面的内容,见后面附录...

2.5、常用的降维方法

当一个空间向量形成之后,由于词典词数肯定是成千上万,可想而知向量的长度肯定也是相当的长,在这样长的向量之间运用分类算法,效果一般不是很好,计算的时间可能也会相当的长,因此要用一些算法,对这些空间向量进行一定的处理,以减少向量的长度。常用的降维方法有:信息增益、互信息、期望交叉熵、X^2统计、文本证据权等方法。

当然对于某些算法,不使用降维直接对空间向量进行计算,效果也不一定会很差,但是对于绝大多数算法,运用降维之后处理还是方便一些。

毕业设计撰写格式规范_毕业设计

毕业设计撰写格式规范_毕业设计 毕业设计撰写格式规范 发布时间:2017-07-201.书写毕业设计统一使用学校制作的封面、稿纸(a4纸打印),手写时必须用黑或蓝黑墨水,正文中的任何部分不得写到文稿纸边框以外,文稿纸不得随意接长或截短。汉字必须使用国家公布的规范字。2.标点符号毕业设计中的标点符号应按新闻出版署公布的"标点符号用法"使用。3.名词、名称科学技术名词术语尽量采用全国自然科学名词审定委员会公布的规范词或国家标准、部标准中规定的名称,尚未统一规定或叫法有争议的名称术语,可采用惯用的名称。使用外文缩写代替某一名词术语时,首次出现时应在括号内注明其含义。外国人名一般采用英文原名,按名前姓后的原则书写。一般很熟知的外国人名(如牛顿、达尔文、马克思等)可按通常标准译法写译名。4.量和单位量和单位必须采用中华人民共和国的国家标准gb3100~gb3102-93,它是以国际单位制(si)为基础的。非物理量的单位,如件、台、人、元等,可用汉字与符号构成组合形式的单位,例如件/台、元/km。5.数字毕业设计中的测量统计数据一律用阿拉伯数字,但在叙述不很大的数目时,一般不用阿拉伯数字,如"他发现两颗小行星"、"三力作用于一点",不宜写成"他发现2颗小行星"、"3力作用于1点"。大约的数字可以用中文数字,也可以用阿拉伯数字,如"约一百五十人",也可写成"约150人"。6.标题层次毕业设计的全部标题层次应有条不紊,整齐清晰。相同的层次应采用统一的表示体例,正文中各级标题下的内容应同各自的标题对应,不应有与标题无关的内容。章节编号方法应采用分级阿拉伯数字编号方法,第一级为"1"、"2"、"3"等,第二级为"2.1"、"2.2"、"2.3"等,第三级为"2.2.1"、"2.2.2"、"2.2.3"等,但分级阿拉伯数字的编号一般不超过三级,两级之间用下角圆点隔开,每一级的末尾不加标点。各层标题均单独占行书写。第一级标题居中书写;第二级标题序数顶格书写,后空一格接写标题,末尾不加标点;第三级和第四级标题均空两格书写序数,后空一格书写标题。第四级以下单独占行的标题顺序采用a.b.c.…和a.b.c.两层,标题均空两格书写序数,后空一格写标题。正文中对总项包括的分项采用⑴、⑴、⑴…单独序号,对分项中的小项采用①、②、③…的序号或数字加半括号,括号后不再加其他标点。7.注释毕业设计中有个别名词或情况需要解释时,可加注说明,注释可用页末注(将注文放在加注页的下端)或篇末注(将全部注文集中在文章末尾),而不可行中注(夹在正文中的注)。注释只限于写在注释符号出现的同页,不得隔页。8.公式公式应居中书写,公式的编号用圆括号括起放在公式右边行末,公式和编号之间不加虚线。9.表格每个表格应有表序和表题,表序和表题应写在表格上方正中,表序后空一格书写表题。表格允许下页接写,表题可省略,表头应重复写,并在右上方写"续表××"。10.插图毕业设计的插图必须精心制作,线条粗细要合适,图面要整洁美观。每幅插图应有图序和图题,图序和图题应放在图位下方居中处。图应在描图纸或在白纸上用墨线绘成,也可以用计算机绘图。11.参考文献参考文献一律放在文后,参考文献的书写格式要按国家标准gb7714-87规定。参考文献按文中出现的先后统一用阿拉伯数字进行自然编号,一般序码宜用方括号括起,不用园括号括起。湖南现代物流职业技术学院XX-3-11 毕业设计模板湖南现代物流职业技术学院毕业设计毕业设计题毕业设计类型□ 产品设计□工艺设计□方案设计姓名共2页,当前第1页12毕业设计撰写格式规范相关内容:经济管理专业毕业设计 设计题目:超市存货清查方案设计摘要21世纪是连锁超市飞速发展的时代,在我国连锁超市在经济发展中的地位日益重要。自1994年开始,中国连锁超市的平均增长速度在70%

毕业课程设计格式模板

克拉玛依职业技术学院 毕业设计 题目 专业 班级 学号 学生姓名 指导教师

摘要 摘要部分说明: “摘要”是摘要部分的标题,不可省略。 标题“摘要”选用模板中的样式所定义的“摘要”;或者手动设置成字体:黑体,居中;字号:小三;1.5倍行距,段前为0行,段后1行。 设计摘要是设计的缩影,文字要简练、明确。内容要包括目的、方法、结果和结论。单位制一律换算成国际标准计量单位制,除特殊情况外,数字一律用阿拉伯数码。文中不允许出现插图,重要的表格可以写入。 摘要正文选用模板中的样式所定义的“正文”,每段落首行缩进2个汉字;或者手动设置成每段落首行缩进2个汉字,字体:宋体,字号:小四,行距:多倍行距 1.25,间距:前段、后段均为0行,取消网格对齐选项。 篇幅以一页为限,摘要正文后列出3-5个关键词,关键词与摘要之间空一行。 “关键词:”是关键词部分的引导,不可省略,黑体,小四。 关键词请尽量用《汉语主题词表》等词表提供的规范词。关键词之间用分号间隔,末尾不加标点。

1 正文格式说明 (1) 1.1 设计格式基本要求 (2) 1.2 设计页眉页脚的编排 (2) 1.3 设计正文格式 (2) 1.4 章节标题格式 (3) 1.5 各章之间的分隔符设置 (3) 1.6 正文中的编号 (3) 2 图表及公式的格式说明 (5) 2.1 图的格式说明 (5) 2.1.1 图的格式示例 (5) 2.1.2 图的格式描述 (5) 2.2 表的格式说明 (6) 2.2.1 表的格式示例 (6) 2.2.2 表的格式描述 (7) 2.3 公式的格式说明 (7) 2.3.1 公式的格式示例 (7) 2.3.2 公式的格式描述 (8) 2.4 参考文献的格式说明 (8) 2.4.1 参考文献在正文中引用的示例 (8) 2.4.2 参考文献在正文中引用的书写格式 (8) 2.4.3 参考文献的书写格式 (8) 2.4.4 参考文献的书写格式示例 (9) 2.5 量和单位的使用 (9) 2.5.1 使用方法 (9) 2.5.2 中华人民共和国法定计量单位 (9) 2.6 规范表达注意事项 (11) 2.6.1 名词术语 (11) 2.6.2 数字 (11) 2.6.3 外文字母 (12) 2.6.4 量和单位 (12) 2.6.5 标点符号 (12) 3 打印说明 (13)

文本分类综述

山西大学研究生学位课程论文(2014 ---- 2015 学年第 2 学期) 学院(中心、所):计算机与信息技术学院 专业名称:计算机应用技术 课程名称:自然语言处理技术 论文题目:文本分类综述 授课教师(职称):王素格(教授) 研究生姓名:刘杰飞 年级:2014级 学号:201422403003 成绩: 评阅日期: 山西大学研究生学院 2015年 6 月2日

文本分类综述 摘要文本分类就是在给定的分类体系下,让计算机根据给定文本的内容,将其判别为事先确定的若干个文本类别中的某一类或某几类的过程。文本分类在冗余过滤、组织管理、智能检索、信息过滤、元数据提取、构建索引、歧义消解、文本过滤等方面有很重要的应用。本文主要介绍文本分类的研究背景,跟踪国内外文本分类技术研究动态。介绍目前文本分类过程中的一些关键技术,以及流形学习在文本分类中降维的一些应用。并且讨论目前文本分类研究面临的一些问题,及对未来发展方向的一些展望。 关键词文本分类;特征选择;分类器;中文信息处理 1.引言 上世纪九十年代以来,因特网以惊人的速度发展起来,到现在我们进入大数据时代互联网容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。这里所指的文本可以是媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。基于机器学习的文本分类系统作为处理和组织大量文本数据的关键技术,能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,方便用户准确地定位所需的信息和分流信息。 利用文本分类技术可以把数量巨大但缺乏结构的文本数据组织成规范的文本数据,帮助人们提高信息检索的效率。通过对文本信息进行基于内容的分类,自动生成便于用户使用的文本分类系统,从而可以大大降低组织整理文档耗费的人力资源,帮助用户快速找到所需信息。因此文本分类技术得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。 2.文本分类技术的发展历史及现状 2.1文本分类技术发展历史 国外自动分类研究始于1950年代末,早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法费时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则。H.P.Luhn在这一领域进行了开创性的研究,他将词频统计的思想用于文本分类中。这一时期,主要是分类理论的研究,并将文本分类应用用于信息检索。在这一段时期,提出了很多经典文本分类的数学模型。比如1960年Maron在Journal of ASM上发表了有关自动分类的第一篇论文“On relevance Probabilitic indexing and informarion retriral”,这是Maron和Kuhns提出概的率标引(Probabilitic indexing )模型在信息检

大连理工大学本科生毕业设计(论文)文本格式要求

大连理工大学本科毕业设计(论文)大连理工大学本科毕业设计(论文)题目 业: 学生姓名: 学号: 指导教师: 评阅教师: 完成日期: 大连理工大学 Dalian University of Technology

摘要 “摘要”是摘要部分的标题,不可省略。 标题“摘要”选用模板中的样式所定义的“标题1”,再居中;或者手动设置成字体:黑体,居中,字号:小三,1.5倍行距,段后11磅,段前为0。 摘要是毕业设计(论文)的缩影,文字要简练、明确。内容要包括目的、方法、结果和结论。单位采用国际标准计量单位制,除特别情况外,数字一律用阿拉伯数码。文中不允许出现插图。重要的表格可以写入。 摘要正文选用模板中的样式所定义的“正文”,每段落首行缩进2个汉字;或者手动设置成每段落首行缩进2个汉字,字体:宋体,字号:小四,行距:多倍行距 1.25,间距:段前、段后均为0行,取消网格对齐选项。 摘要篇幅以一页为限,字数为400-500字。 摘要正文后,列出3-5个关键词。“关键词:”是关键词部分的引导,不可省略。关键词请尽量用《汉语主题词表》等词表提供的规范词。 关键词与摘要之间空一行。关键词词间用分号间隔,末尾不加标点,3-5个;黑体,小四,加粗。

The Subject of Undergraduate Graduation Project (Thesis) of DUT Abstract 外文摘要要求用英文书写,内容应与“中文摘要”对应。使用第三人称,最好采用现在时态编写。 “Abstract”不可省略。标题“Abstract”选用模板中的样式所定义的“标题1”,再居中;或者手动设置成字体:Times New Roman,居中,字号:小三,多倍行距1.5倍行距,段后11磅,段前为0行。 标题“Abstract”上方是论文的英文题目,字体:Times New Roman,居中,字号:小三,行距:多倍行距 1.25,间距:段前、段后均为0行,取消网格对齐选项。 Abstract正文选用设置成每段落首行缩进2字,字体:Times New Roman,字号:小四,行距:多倍行距 1.25,间距:段前、段后均为0行,取消网格对齐选项。 Key words与摘要正文之间空一行。Key words与中文“关键词”一致。词间用分号间隔,末尾不加标点,3-5个;Times New Roman,小四,加粗。 Key Words:Write Criterion;Typeset Format;Graduation Project (Thesis)

1.0皖西学院本科毕业设计(论文)撰写格式规范(试行)

1.0皖西学院本科毕业设计(论文)撰写格式规范(试行)

皖西学院本科毕业设计(论文)撰写格式规范(试行)根据《皖西学院本科毕业设计(论文)管理规定》的要求,为统一我校本科毕业设计(论文)撰写格式,特制定本规范。 一、毕业设计(论文)打印页面设置 1、页面设置 纸张大小:A4,单页打印。页边距及行间距:上2.54厘米,下2.54厘米,左2.5厘米,右2.5厘米,左侧装订,页眉1.5厘米,页脚1.75厘米。除一、二级标题及特别注明外,正文统一为1.5倍行距。 2、文档设置 毕业设计(论文)应由一个Word文档构成,至少分为3节,第1节包括封面页、承诺书和目录页;第2节包括正文部分(含中英文摘要、关键词、参考文献);第3节包括附录部分、致谢页。节与节之间用分节符分隔,关于Word分节功能参见Word相关技术文档。 (1)第1节包括封面页、承诺书和目录页,本节不插入页眉页脚,不编页码。 (2)第2节包括正文(含中英文摘要、关键词、参考文献),本节要求插入页眉和页脚。 页眉:页眉用五号宋体居中。奇数页页眉填写:皖西学院XXXX届本科毕业设计(论文);偶数页页眉填写:“设 计(论文)题目”。 页脚:页脚用五号宋体居中。插入页码,节内页码连续编号,注意在页码设置/页码格式中去掉“链接到前一节”,页码编号从1开始,不选“续前节”。 (3)第2节正文中参考文献的引用建议采用尾注形式,引用部分自动附于第2 节正文最后,方便作者于修改调整引用位置。

(4)第3节包括附录部分、致谢页,不编页码。 3、字体、字号及段落格式 按以下相应部分的要求分别设置。 二、毕业设计(论文)内容构成及格式要求 1、封面页:独立一页(具体见格式模板) 2、诚信承诺书(具体见格式模板): 本科毕业设计(论文)诚信承诺书按教务处统一格式的要求打印,该页独立成一页,附于封面页后的第一页。填写要求:(1)用标准A4打印纸打印,不编页码,不在论文目录中体现;(2)在承诺书中“《》”的空白部分,用楷体字填写毕业设计(论文)的题目,要求题目准确完整,与封面页、正文中的题目完全一致;(3)学生签名需用黑色签字笔,由毕业设计(论文)作者签名,日期填写完整。 3、目录页:独立一页。 目录页中正文部分的内容只列到二级标题为止。除“目录”用黑体三号居中、中间空4个字距外,其他统一用宋体小四号,1.5倍行距。论文目录及页码部分由正文中定义的标题自动生成。在完成论文正文文字录入后,按下述步骤排版: (1)点击菜单“格式”中“样式与格式”,打开“样式与格式”窗口。 (2)选中文中相应的标题行,点击“样式与格式”窗口中的“标题1”定义“一级标题”,“标题2”定义“二级标题”…。并按对各级标题的格式要求修改标题格式(如字体、字号、段前、段后行距等)。 (3)选中已定义好的标题。双击格式刷,将格式刷到其它同类标题上。 (4)所有各级标题定义完毕后,编辑点移至准备插入目录的地方,再点击主菜单中“插入”→“引用”→“索引和目录”即可生成自动生成目录。目录页中只生成至二级标题。

杭州电子科技大学本科毕业设计论文的写作规范及格式要求

杭州电子科技大学本科毕业设计(论文)的写作规范及格式要求本科毕业论文是本科学生毕业前提交的一份旨在取得学士学位而撰写的学位论文,也是一份具有一定理论和实际价值的学术论文;本科毕业设计则是工科学生毕业前提交的一份旨在取的学士学位而进行的工程设计,其撰写的为毕业设计说明书。本科毕业设计(论文)的内容千差万别,文科与理工科的要求明显不同,毕业设计说明书与毕业论文的撰写格式也有较大的差别。但是,就本科毕业设计(论文)的写作规范和格式而言,仍然是类似的。 为了提高学士学位论文的质量,做到学位论文在内容和格式上的规范化与统一化,根据由国家标准局批准颁发的GB7713—87《科学技术报告、学位论文和学术论文的编写格式》,参考省教育厅组织编撰的《普通高等学校本科毕业设计(论文)指导》,特作如下规定: 一、毕业设计(论文)写作规范 论文或设计说明书内容一般应由八个主要部分组成,依次为:题目,中、英文摘要,关键词,目录,文本主体,致谢,参考文献,附录(必要时)。各部分的具体要求如下: 1、题目 题目应该用极为精炼的文字把论文的主题或总体内容表达出来。题目字数一般不宜超过20个汉字。有特殊要求的,如为了给题目加以补充说明,或为了强调论文所研究的某一个侧面等,则可加注副标题。 2、中、英文摘要 本科毕业设计(论文)摘要包含中文摘要与英文摘要两种。论文摘要以简要文字介绍研究课题的目的、方法、内容及主要结果。在论文摘要中,要突出本课题的创造性成果或创新见解。中文摘要一般不超过400个汉字,英文摘要的内容则要与中文摘要相一致。 3、关键词 本科毕业设计(论文)关键词包括中文与英文两种。关键词是表述论文主题内容信息的单词或术语,其数量一般为3-6个。每一个英文关键词必须与中文关键词相应。 4、目录 目录是论文各组成部分的小标题,文字应简明扼要。一般的说,本科毕业设计(论文)目录按三级标题编写,应标明页数,以便阅读。目录中的标题应与正文中的标题一致。目前通用的标题序次结构有以下二种,文科类一般采用第一种,理工科类一般采用第二种。 第一种序次:一、(一)、1…… 第二种序次:1.、1.1、1.1.1…… 5、文本主体 本科毕业设计(论文)正文要符合一般学术论文的写作规范,要求文字流畅、语言准确、层次清晰、论点清楚、论据准确、论证完整严密,有独立的观点和见解,应具备学术性,科学性和一定的创造性。对英语专业的学生,要求文本主体不得少于6000个英文单词,其它各专业的毕业设计(论文)文本主体一般不得低于15000个汉字。 文本主体一般包括引言(或称前言、序言等)、正文和结论三部分。

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

毕业设计格式要求

附件5 毕业设计报告(论文)文本要求 一、报告的结构与要求 报告包括标题、内容提要、索引关键词、目录、正文、后记、参考文献和附录等部分。正文部分一般要求在3000字以上。报告一律打印,不得手写。 1.报告标题 报告标题应体现报告的核心内容、专业特点,符合毕业设计任务的要求。要简短、明确,有概括性,不得设副标题,不得使用标点符号,报告标题用词必须规范,不得使用缩略语或外文缩写词,字数不得超过20个汉字。 2.内容摘要 内容摘要应扼要叙述报告的主要内容、特点,文字简练,是一篇具有独立性和完整性的短文,包括主要成果和结论性意见。摘要中不应使用公式及图表,不标注引用文献编号,并应避免将摘要撰写成目录式的内容介绍。内容摘要一般不超过200字。 3.索引关键词 索引关键词是供检索用的主题词条,应采用能够覆盖报告主要内容的通用专业术语,一般列举3-5个,按照词条的外延层次从大到小排列,并应出现在内容摘要中。 4.目录 目录应独立成页,包括报告中的章节及所在页码。 5.正文 包括绪论、报告主体和结论等部分。正文从页首开始。 绪论一般作为专业技术类报告的第一章,应综述前人在本领域的工作成果,说明毕业设计选题的背景、目的和意义、国内外文献资料

情况以及所要研究的主要内容。经济管理类和文法类报告的绪论即全文的开始部分,不编写章节号。一般包括对写作目的、意义的说明,对所要研究的问题的认识并提出问题。 报告主体是全文的核心部分应结构合理,层次清晰,重点突出,文字通顺简练。 结论是对主要成果的归纳,要突出创新点,以简练的文字对主要工作进行评价。 正文一级及以下子标题序号格式如下: 专业技术类:第一章;1.1;一、;1. ;(1) 经济管、文法类:1;1.1;一、;(一);(1) 6.后记 对整个毕业设计工作进行简单的回顾总结,对指导教师和为毕业设计工作、报告撰写等提供帮助的组织或个人表示感谢。内容尽量简洁明了。 7.参考文献 参考文献是报告不可缺少的组成部分。它反映了毕业设计工作中取材的广博程度。参考文献应以近期发表或出版的与本专业密切相关的学术著作和学术期刊文献为主,数量不少于7篇。 产品说明、技术标准、未公开出版或发表的研究报告等不列为参考文献,有确需说明的可在后记中予以说明。网上参考文献应注明准确网页地址。 8.附录 对不宜放在正文中但对报告却有作用的材料(如公式的推导过程、较大型的程序流程图、较长的程序代码、图纸、数据表格等),可以编制成报告的附录,附录字数不计入报告应达到的文字数量。 二、打印要求

毕业设计(论文)撰写格式要求内容

毕业设计(论文)撰写标准 一、毕业设计(论文)的编写格式: 1.“摘要”、“目录” 黑体,三号,居中排列。 2.“引言”、“结论” 、“参考文献”黑体,四号,左对齐排列,“致谢”、“附录”黑体,四号,居中排列。 3.正文:各章标题黑体,四号,居左排列。各章下的节标题黑体,小四号,居左排列。正文内容中文为宋体,小四号。正文中的图名和表名及相应内容用宋体,五号字体,图名置于图正下方,表名置于表正上方。 4.页眉:宋体五号,居中排列。内容为“桂林电子科技大学毕业设计(论文)”。 5.页码:宋体小五号,页脚居中排列。页码从引言开始编号,一直编到附录。 二、毕业设计(论文)的前置部分: 毕业设计(论文)的前置部分包括封面、中文摘要、目录等。 1.题目:题目是以最恰当、最简明的词语反映论文中最重要的特定内容的逻辑组合。中文题目(包括副题和标点符号)一般不宜超过20字。 2.中文摘要及关键词 (1)中文摘要内容,宋体,小四号,一般为300字左右。摘要中不宜出现公式、非公用的符号、术语等。 (2)每篇论文选取3~5个关键词,关键词排列在摘要的左下方一行,顶格写:“关键词:”为黑体,小四号,内容采用小四号、宋体、接排、各个关键词之间有分号隔开。 3.目录:按照引言、论文的章节、结论、参考文献、致谢、附录等前后顺序,编写序号、名称和页码。目录页排在中文摘要之后,目录要求自动生成。 三、毕业设计(论文)的主体部分: 毕业设计(论文)的主题部分包括引言、正文、结论、参考文献、致谢等。字数(正文部分)要求8000字以上。 1.引言:简要说明作者所作工作的目的、范围、国内外进展情况、前人研究成果、本人的设想、研究方法等。 2.正文:毕业设计(论文)的核心部分,包括理论分析、数据资料、实验方法、结果、本人的论点和结论等内容,还要附有各种有关的图表、照片、公式等。 (1)图:图序号一律用阿拉伯数字分章依序编码,如:图1.1、1.2,图2.1、2.2等。图

基于TAN结构的贝叶斯文本分类器

2012.1 53 基于TAN 结构的贝叶斯 文本分类器研究 王景中 易路杰 北方工业大学信息工程学院 北京 100144 摘要:朴素贝叶斯分类器是一种简单且有效实现的文本自动类方法,但其独立性假设在实际中是不存在的。在TAN 结构贝叶斯分类算法中,考虑了两两属性间的关联性,对属性间的独立性假设有了一定程度的降低。 关键词:文本分类;贝叶斯;TAN 0 引言 朴素贝叶斯分类器是贝叶斯分类中一种最常见且原理简单,实际应用很成功的方法。朴素贝叶斯分类器中的“朴素”主要是指假设各属性间相互独立。在文本分类中,假设不同的特征项在确定的类别下的条件概率分布相互独立,这样在计算特征项之间的联合分布概率时可以大大提高分类器的速度。目前,很多文本分类系统都采用贝叶斯分类算法,在邮件分类、电子会议、信息过滤等方面都有了广泛的应用。 1 朴素贝叶斯分类器 1.1 贝叶斯公式介绍 贝叶斯定理为:设S 为试验E 的样本空间,A 为E 的事件,1B ,2B ,…n B 为S 的一个划分,且有P(A)>0,P(i B )>0 (i=1,2,…n),则有: 1 (/)() (/)(/)() i i i n j j j P A B P B P B A P A B P B ==∑ ,i=1,2,…n 。 1.2 贝叶斯文本分类 贝叶斯文本分类模型是一种基于统计方法的分类模型,是现有文本分类算法中最有效的方法之一。其基本原理是:通过样本数据的先验概率信息计算确定事件的后验概率。在文本分类中的应用为:通过计算给定文本的特征值在样本库中某一确定类i C 中的先验概率, 得出给定文本的特征值属于 i C 类的后验概率,再通过比较,得出后验概率最大的即为给 定文本最可能属于的类别。因此,贝叶斯类别判别式为: 12arg max (/,,)NB i n C P C w w w = (1) 本文采用布尔表示法描述文本,每个文本表示为特征矢 量(1w ,2w , …V w ),V 为特征词表,V 为特征词表总词数,V=(1B ,2B ,…V B )。特征矢量中的i w ={0,1},1表示特 征词表中的第i 个词出现,0表示没有出现。 根据贝叶斯公式: 121212(,,/)() (/,,)(,,) n i i i n n P w w w C P C P C w w w P w w w = (2) 式中()i P C 为样本集中属于i C 类的概率,12(,,/)n i P w w w C …为i C 类中给定文本特征词的概率。 要求12max (/,,)i n P C w w w …,(2)式中分母12(,,)n P w w w …在给定的所有类别中为固定值,即为常量。因此,只需求: 12arg max (,,/)()NB n i i C P w w w C P C = (3) 式中()i P C 的值为每个类别在样本集中的频率,即为样本集中属于i C 类的文本数与样本集中的总的文本数的比率。12(,,/)n i P w w w C …的值计算比较困难,理论上只有建立一个 足够大的样本集才能准确得到。如何得出12(,,/)n i P w w w C …的值也是贝叶斯算法的关键,直接影响分类的性能。目前只能通过估算得出。 由于贝叶斯分类模型的假设,文本特征属性之间独立同分布,因此各属性联合概率等于各属性概率的乘积,即:

毕业论文排版格式

毕业论文(设计)规范化要求 根据中华人民共和国国标GB7713-87《科学技术报告、学位论文和学术论文的编写格式》,结合我校特点,对毕业论文(设计)文本结构规范要求如下: 一、毕业论文(设计)文本结构规范及要求 (一)毕业论文(设计)文本结构规范 毕业论文(设计)文本由毕业论文(设计)封面、目录、任务书、文献综述或开题报告、指导教师审查意见、评阅教师评语、答辩会议记录、中外文摘要、正文、参考文献、致谢和附录组成。 1.封面 2.目录 3.毕业论文(设计)任务书 4.文献综述或开题报告 5.指导教师审查意见 6.评阅教师评语 7.答辩会议记录 8.中外文摘要 9.正文(以理工类毕业设计为例): ⑴前言 ⑵选题背景 ⑶方案论证 ⑷过程(设计或实验)论述 ⑸结果分析 ⑹结论或总结 10.参考文献 11.致谢 12.附录 注:1.文科及其它学科,可根据学科特点,参照上述结构制定统一的正文结构规范。 2.外文参考资料原文、译文单独装订成册。 (二)对以上内容的要求 1.毕业论文(设计)封面由教务处统一要求,由学生按要求填写,指导教师负责把关。 2.毕业论文(设计)目录一般要列出二级标题,并标明对应的页码。 3.毕业论文(设计)任务书、指导教师审查意见由指导教师按要求详细填写。 4.文献综述或开题报告的有关要求见“毕业论文文献综述撰写要求”或“毕业设计开题报告撰写内容及要求”。 5.评阅教师评语由评阅教师按要求详细填写。 6.答辩会议记录由答辩委员会秘书按要求详细填写。 7.中外文摘要含题目、学生、指导教师及所在单位(院系或工作单位)署名、摘要、关键词。题目下方正中为学生和指导教师及所在单位署名。中文摘要字数应在400字左右,

毕业论文撰写标准格式.doc

毕业论文撰写标准格式 一份完整的毕业论文应包括下列内容:封面、目录、题目、摘要及关键词、正文、参考文献等。分述如下: (一) 封面 (二) 目录 毕业论文要求层次分明,必须按其结构顺序编写目录,它是文章展开的步骤,也是作者思路的直接反映。目录独立成页。 目录 1 ************ **** .......................................................... .. (1) 1.1 *************** ............................................... . (1) 1.1.1 ******************* ........................................... .. (2) 1.1.2 ********************** ........................................ .. (3) 1.2

************ .................................................. . (3) 1.2.1 ************************ ...................................... . (5) 1.2.2 **************************** (6) 目录格式虽然只是论文的结构层次,但它反映了作者的逻辑思维能力,要注意的是所用格式应全文统一,各级标题独立成行,层次下的正文必须另起一行。 (三) 题目 题目的名称应力求简短、明确、有概括性、直接反映毕业论文的中心内容和学科特点。题目长度一般不超过个20字,如确有必要,可用副 标题做补充。 (四) 摘要及关键词 题目之后,要求写出毕业论文摘要及关键词。以精炼的文字对论文观点、方法、成果和结论进行高度概括,具有独立性,自成一篇短文,富有报导色彩。摘要以不超过300字为宜。 关键词(也叫主题词),是反映内容主题的词或词组,一般3-8个。关键词放在摘要的下面。摘要及关键词独立成页。 (五)正文

中文文本分类算法设计及其实现_毕业设计

毕业设计(论文)任务书 毕业设计(论文) 题目中文文本分类算法的设计及其实现 电信学院计算机系84班设计所在单位西安交通大学计算机系

西安交通大学本科毕业设计(论文) 毕业设计(论文)任务书 电信学院计算机系84 班学生丰成平 毕业设计(论文)工作自2013 年 2 月21 日起至2013 年 6 月20 日止毕业设计(论文)进行地点:西安交通大学 课题的背景、意义及培养目标 随着文本文件的增多,对其自动进行分门别类尤为重要。文本分类是指采用计算机程序对文本集按照一定的分类体系进行自动分类标记。文本分类器的设计通常包括文本的特征向量表示、文本特征向量的降维、以及文本分类器的设计与测试三个方面。本毕设论文研究文本分类器的设计与实现。通过该毕业设计,可使学生掌握文本分类器设计的基本原理及相关方法,并通过具体文本分类算法的设计与编程实现,提高学生的实际编程能力。 设计(论文)的原始数据与资料 1、文本语料库(分为训练集与测试集语料库)。 2、关于文本分类的各种文献(包括特征表示、特征降维、以及分类器设计)以及资料。 3、中科院文本分词工具(nlpir)。 4、文本分类中需要用到的各种分类方法的资料描述。 课题的主要任务 1.学习文本特征向量的构建方法及常用的降维方法。 2.学习各种分类器的基本原理及其训练与测试方法。 3.设计并编程实现文本分类器。

毕业设计(论文)任务书 4、对试验结果进行分析,得出各种结论。 5、撰写毕业论文。 6、翻译一篇关于文本分类的英文文献。 课题的基本要求(工程设计类题应有技术经济分析要求) 1、程序可演示。 2、对源代码进行注释。 3、给出完整的设计文档及测试文档。 完成任务后提交的书面材料要求(图纸规格、数量,论文字数,外文翻译字数等) 1、提交毕业论文 2、提交设计和实现的系统软件源程序及有关数据 3、提交外文资料翻译的中文和原文资料 主要参考文献: 自然语言处理与信息检索共享平台:https://www.360docs.net/doc/4317532206.html,/?action-viewnews-itemid-103 Svm(支持向量机)算法:https://www.360docs.net/doc/4317532206.html,/zhenandaci/archive/2009/03/06/258288.html 基于神经网络的中文文本分析(赵中原):https://www.360docs.net/doc/4317532206.html,/p-030716713857.html TF-IDF的线性图解:https://www.360docs.net/doc/4317532206.html,/blog-170225-6014.html 东南大学向量降维文献:https://www.360docs.net/doc/4317532206.html,/p-690306037446.html 指导教师相明 接受设计(论文)任务日期2013-02-21~2013-06-20 学生签名:

毕业设计文本格式要求

附件2:毕业设计格式要求: 毕业设计文本格式要求 一、封面 封面示例(下页)。 二、目录 三、中文摘要 四、英文摘要 五、正文 各设计题目按照任务书中设计内容要求自定一、二、三级标题。 六、毕业设计报告的版面要求 (一)纸型:A4纸型。 (二)页码:放在页面的底端,采用“页面底端居中”的格式“—5 —”。 (三)字体:汉语撰写部分统一采用“宋体”,数字、英语、法语、俄语、德语、西班牙语、朝鲜语、阿拉伯语、意大利语等外语撰写部分采用“时代新罗马(Times New Roman)”字体,用日语撰写的论文采用“明朝体”。 (四)页边距:采用默认页边距,即上2.54厘米,下2.54厘米,左3.17厘米,右3.17厘米。 (五)装订线:左边1厘米。 (六)页眉页脚:页眉1.5厘米,页脚1.75厘米。 (七)行距:报告全文采用1.5倍行距。 (八)对齐方式:论文正文采用“两端对齐”的方式。 (九)一级标题为小三号、黑体字;序号为汉语数字,如“一”、“二”等,序号和标题之间加顿号。

二级及以下标题为标准小四号、宋体字,左起空两个字或首行缩进2字符;二级标题序号为汉语数字,数字号加括号,如:“(一)”、“(二)”等,序号和标题之间不加顿号。 三级标题序号为阿拉伯数字,如“1”“2”序号和标题之间加“.”。(十)所有标题均可自拟。 七、毕业设计题目:(指导老师安排) 八、毕业设计提交时间:2013.4.25 2013年1月8日

重庆航天职业技术学院XXXXXXX(设计题目) 专业飞行器制造工艺 班级 学号___ __________ 姓名___ 杨建伟 _ __ 指导教师 起止日期2013.1 ~ 2013.4 机电信息工程系制

文本分类入门(八)中英文文本分类的异同

从文本分类系统的处理流程来看,无论待分类的文本是中文还是英文,在训练阶段之前都要经过一个预处理的步骤,去除无用的信息,减少后续步骤的复杂度和计算负担。 对中文文本来说,首先要经历一个分词的过程,就是把连续的文字流切分成一个一个单独的词汇(因为词汇将作为训练阶段“特征”的最基本单位),例如原文是“中华人民共和国今天成立了”的文本就要被切分成“中华/人民/共和国/今天/成立/了”这样的形式。而对英文来说,没有这个步骤(更严格的说,并不是没有这个步骤,而是英文只需要通过空格和标点便很容易将一个一个独立的词从原文中区分出来)。中文分词的效果对文本分类系统的表现影响很大,因为在后面的流程中,全都使用预处理之后的文本信息,不再参考原始文本,因此分词的效果不好,等同于引入了错误的训练数据。分词本身也是一个值得大书特书的问题,目前比较常用的方法有词典法,隐马尔科夫模型和新兴的CRF方法。 预处理中在分词之后的“去停止词”一步对两者来说是相同的,都是要把语言中一些表意能力很差的辅助性文字从原始文本中去除,对中文文本来说,类似“我们”,“在”,“了”,“的”这样的词汇都会被去除,英文中的“ an”,“in”,“the”等也一样。这一步骤会参照一个被称为“停止词表”的数据(里面记录了应该被去除的词,有可能是以文件形式存储在硬盘上,也有可能是以数据结构形式放在内存中)来进行。 对中文文本来说,到此就已初审合格,可以参加训练了(笑)。而英文文本还有进一步简化和压缩的空间。我们都知道,英文中同一个词有所谓词形的变化(相对的,词义本身却并没有变),例如名词有单复数的变化,动词有时态的变化,形容词有比较级的变化等等,还包括这些变化形式的某种组合。而正因为词义本身没有变化,仅仅词形不同的词就不应该作为独立的词来存储和和参与分类计算。去除这些词形不同,但词义相同的词,仅保留一个副本的步骤就称为“词根还原”,例如在一篇英文文档中,经过词根还原后,“computer”,“compute”,“computing”,“computational”这些词全都被处理成“compute”(大小写转换也在这一步完成,当然,还要记下这些词的数目作为compute的词频信息)。 经过预处理步骤之后,原始文档转换成了非常节省资源,也便于计算的形式,后面的训练阶段大同小异(仅仅抽取出的特征不同而已,毕竟,一个是中文词汇的集合,一个是英文词汇的集合嘛)。 下一章节侃侃分类问题本身的分类。

毕业论文编写格式规范

管理施工精品卓越创造未来 毕业论文编写格式规范 一、毕业论文的基本框架 论文的各个组成部分按下述顺序依次排列后装订: 1、封面 2、内容摘要 3、目录 4、引言 5、正文 6、结论 7、参考文献 8、附录 9、后记 二、毕业论文编辑的具体要求 1.封面:采用统一格式。 题目:要求中文题目,楷体二号字加粗,题目应以简明的词语概括论文中最重要的特定内容(不超过20字),避免使用不常用的缩略词、缩写字、字符、代号和公式等。 2.内容摘要(中文):仿宋小四号字,500字左右。摘要应说明研究工作的目的、方法、成果和结论,要突出本论文的新见解,语言精炼。提要应具有独立性和自含性。为便于检索,应在本页左下方注明本文的中文关键词(黑体小四号字,3—8个)。 3.目录:从正文开始直至全文结束,依据正文中页码顺序按章节排列至三级标题,一级标题宋体四号字,二、三级标题宋体小四号字。 4.引言:宋体小四号字,简要说明研究工作的目的、范围、相关领域的前人工作和知识空白、理论基础和分析、研究方法、预期结果和意义等,应言简意赅,不要与摘要雷同。 5.正文:是学位论文的核心,占主要篇幅。要求逻辑严密、观点明确、结构合理、紧凑而充实。一般应包括研究背景、主题研究内容和结论等部分。论文不得模糊作者与他人的研究界限,严禁抄袭、非法占有他人的成果。 字数: 8000~10 000字;宋体小四号字。 标题:采用三级标题形式。 一级标题:黑体三号字,第1章第2章第3章 (新的篇章另起一页); 二级标题:黑体四号字,1.1 1.2 1.3 ……2.1; 三级标题:宋体小四号字加粗,1.1.1 1.1.2 1.1.3 ……2.1.1……。 在末级标题下,标号的顺序依次为: (1)① 第一 例: 第1章 X X X X(居中) 1.1X X X X(居中) 1.1.1 X X X X(左对齐) (1) 页码:宋体小五号字。从“正文”数(包括引文、正文、结论、参考文献、附录、后记),用阿拉伯数字按自然数升序编排,居于页面底端右侧。 引用:引用的参考文献统一列示于正文之后的参考文献之中,直接引用的文字、数据、表格等应在本页中直接标注于正文(引用处的右上方,按①、②、③……顺序);并在本页的最末行按编号(如①)、作者、文章题目、书名(期刊名)、出版社、出版日期、引用起止页码(如P11-16)的顺序注释(宋体小5号字)。 图、表:所有图、表应按章编号排序,图、表中的内容用宋体五号字。图、表均应有标题(图、表说明),图、表的左下方注明资料来源,使用他人的图、表必须在左下方注明出处。如:资料来源:国家统计局《统计年鉴1997》,本人编制应注明,如:作者。 图号及标题应在图下方居中标明(黑体五号字); 表号及标题应在表上方居中标明(黑体五号字),

毕业设计论文格式模板

毕业设计论文格式模板 毕业设计论文格式模板1、毕业设计(论文)的基本任务是:培养学生综合运用所学知识和技能,分析解决工程实际问题的能力。 2、毕业设计应使学生受到综合训练,培养独立工作能力。如调查研究、查阅文献(中、外文资料)、理论分析、制订设计方案,工程设计、计算与绘图、实验研究与数据处理、计算机应用、技术经济分析、质量效益分析等能力,撰写论文或设计说明书。 3、毕业设计应重视开发学生的创造力。 4、毕业设计应培养学生正确的设计思想和树立严谨、科学的工作作风。 5、各专业应对毕业设计下达毕业设计(论文)任务书,内容包括:毕业设计任务(题目);毕业设计内容;完成毕业设计任务(设计时间、完成标准)的要求等。 1、选题应符合本专业培养目标要求,体现本专业特色,力求与工作实际、科学研究及实验室建设相结合,题目应有综合性,有利于巩固、深化和扩充学生所学知识,有利于学生得到较全面的工程训练,有利于培养学生的独立工作能力和勇于创造的科学精神。 2、题目大小和难度适度,设计工作量要饱满,能在教

学计划规定的时间内保质保量按时完成任务。 3、题目类型:理工类以“工程设计”为主;经管类可作“论文”,撰写开发研究报告等。 1、指导教师应由具有中级职称及中级以上职称的老师担任。为保证毕业设计质量,原则上每名教师指导本科毕业生人数不能超过5人,指导专科学生人数不能超过7人。 2、指导教师职责:认真拟定设计任务书、做好设计或实验的必要准备,指导查阅文献和收集、分析资料,指导编制设计工作计划及进程,审定设计总体方案,指导设计或实验,检查设计情况和进度,审阅毕业设计(论文),认真书写老师评语,力求真实全面反映设计(论文)水平。在指导过程中要教书育人、严格要求、培养学生独立工作的能力,积极引导学生发挥创造性。 3、指导教师应增加面授指导时间,每周不应少于8学时。要根据学生的基础和特点,启发引导,切忌包办代替或放任自流,要认真掌握进度,经常检查及协调。 1、在设计工作中应坚持科学的态度,要有高度的责任感,刻苦钻研、努力创新、高质量地独立完成毕业设计。 2、尊重导师,虚心向导师和参与指导的工程技术人员学习。 3、加强组织纪律性,服从领导、遵守纪律,做好技术保密工作。

相关文档
最新文档