基于多元信息加权协调的超文本分类算法
基于大数据的文本分类与情感分析

基于大数据的文本分类与情感分析随着互联网时代的到来,数据的处理和应用成为了关注的焦点。
现在,几乎所有领域都涉及到数据的收集和利用。
特别是随着互联网和社交网络的发展,人们在日常生活中产生的数据量急剧增加。
这一现象使得数据分析变得更加重要和必要。
数据分类和情感分析是数据处理的两个重要应用,其重要性逐渐被人们所认识。
随着大数据技术的不断发展,这两个应用的效率和准确性也在不断提升。
1. 大数据的文本分类基于大数据的文本分类是指对文本内容进行分类分析,以处理文本数据为对象,从中提取有用信息。
文本分类应用广泛,如文本垃圾邮件过滤、新闻分类、用户评论分类等。
目前文本分类算法主要分为两种:基于特征的文本分类和基于深度学习的文本分类。
基于特征的文本分类是采用传统的文本分类算法,特征一般采用信息增益和互信息等经典统计方法,常用方法包括朴素贝叶斯、最大熵和支持向量机等。
该方法的优点是处理速度快、分类效果好,但需要人工提取特征。
基于深度学习的文本分类是基于深度神经网络的方法,利用词向量等特征进行文本分类。
常用的深度神经网络有卷积神经网络和循环神经网络等。
该方法的优点是可以自动提取特征,较少需要人工干预,但需要大量数据支持。
2. 大数据的情感分析情感分析是对文本内容进行情感的判断,如判断是否是正向情感和负向情感,也被称为情感极性分类。
目前,情感分析主要分为两种:基于词语本身的情感分析和基于语料库的情感分析。
基于词语本身的情感分析是指从词汇本身判断情感的这样一种方法。
首先对于所有的词语进行标注,将它们对应的情感类别进行映射,如积极、消极、中性等。
然后依据每个文本中各个词语出现的情感进行加权平均,最后得到整个文本所对应的情感。
基于语料库的情感分析是指依赖大规模的语料库,基于真实用户的情感反馈,采用机器学习等算法自动识别文本情感。
它是通过机器学习让计算机识别出大量的情感标签,然后通过情感分类模型来预测从未被见过的文本数据的情绪。
基于多任务学习的文本分类方法研究

基于多任务学习的文本分类方法研究文本分类是信息检索领域中最为基础和重要的技术之一,其主要是将文本数据按照一定的标准进行分类,以帮助用户更快、更准确地找到所需信息。
在文本分类任务中,通常需要采用机器学习算法从大量的文本数据中自动识别和提取出特征,然后根据这些特征对文本进行分类。
目前,随着互联网的普及和使用,文本数据的增长速度非常快,比如新闻报道、社交媒体评论、产品评论等等。
因此,如何快速、准确、自动地对文本数据进行分类,成为了一个急需解决的问题。
在文本分类中,多任务学习已经被证明是一种有效的方法。
多任务学习是一种旨在同时解决多个相关任务的机器学习模型。
与传统的单任务学习不同,多任务学习学习可以同时研究多个相关任务。
因此,多任务学习可以成功地解决单个任务学习所固有的数据稀疏性和过度拟合等问题。
在文本分类领域,采用多任务学习方法可以同时处理多个相关任务,并且有效地提高了分类准确率和泛化能力。
本文将介绍一种基于多任务学习的文本分类方法,包括数据预处理、特征提取和模型设计。
1. 数据预处理在文本分类任务中,数据预处理是一项非常重要的任务。
首先,必须从原始文本数据中提取出特征信息,这需要进行文本分词、去除停用词等预处理工作。
这些步骤旨在使原始文本数据转换为向量表示。
其次,需要对文本数据进行标注。
标注可以是二元标签(如情感分析中的正面和负面)或多元标签(如主题分类中的多个标签)。
标注可以通过人工标注或自动化标注的方式进行。
最后,需要对数据进行平衡处理。
在文本分类任务中,经常会遇到样本不均衡的情况,这可能导致分类器更偏向于数量较多的类别。
因此,需要对数据进行平衡处理,以消除这种偏差。
2. 特征提取在经过数据预处理之后,我们得到了向量表示的文本数据。
接下来的任务是从这些向量中提取有用的特征信息。
人工设计特征可能会非常耗时和困难。
因此,研究人员通常会采用自动化特征提取技术,例如词袋模型、TF-IDF等。
这些技术可以从文本中自动提取出高质量的特征信息。
基于Albert_与TextCNN_的中文文本分类研究

第 22卷第 4期2023年 4月Vol.22 No.4Apr.2023软件导刊Software Guide基于Albert与TextCNN的中文文本分类研究李飞鸽,王芳,黄树成(江苏科技大学计算机学院,江苏镇江,212100)摘要:互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。
该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。
并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。
实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。
关键词:向量;文本特征提取;多标签;文本分类DOI:10.11907/rjdk.221591开放科学(资源服务)标识码(OSID):中图分类号:TP391.1 文献标识码:A文章编号:1672-7800(2023)004-0027-05Research on Chinese Text Classification Based on Albert and TextCNNLI Fei-ge, WANG Fang, HUANG Shu-cheng(School of Computer, Jiangsu University of Science and Technology, Zhenjiang 212100, China)Abstract:Due to the large amount of Internet data, in order to efficiently manage the massive Chinese text data on the Internet, a Chinese text classification method based on Albert and TextCNN (referred to as ATT) is proposed. This method introduces Albert model to solve the problem of polysemy. TF-IDF algorithm is used to extract the five words with the highest weight in the current text data to build the whole docu‐ment keyword table. The keyword table and the word vector generated by Albert are vector spliced to form a polysemy word vector that inte‐grates keyword information. Moreover, on the basis of traditional TextCNN, the window size of convolution kernel is adjusted according to the characteristics of Chinese language to extract the deep local features of text data. The experimental results show that the ATT model, compared with the traditional model without TF-IDF keyword list and without adjusting the size of convolution kernel, increases the F1 value by 1.88% and 2.26% respectively, providing a new method for Chinese text classification.Key Words:word vector; text feature extraction; multi-label; text classification0 引言在移动互联时代,文本数据呈现爆炸式增长。
文本分类算法研究

文本分类算法研究作者:赵岩周斌陈儒华来源:《软件导刊》2013年第10期摘要摘要:文本分类是文本数据挖掘领域的重要技术之一。
从分类算法对文本语义信息的利用程度这一角度出发,将文本分类划分为基于词形的算法和基于语义的算法两类,对每类算法进行了描述,并对当今文本数据的多样性及文本分类算法改进的可选方向进行了研究。
关键词关键词:文本分类;机器学习;语义信息;数据挖掘中图分类号:TP301.6文献标识码:A文章编号文章编号:16727800(2013)0010005403基金项目:国家重点基础研究发展计划(973计划)项目(SQ2012CB03747);国家自然科学基金重点课题(60933005)作者简介:赵岩(1986-),男,国防科学技术大学计算机学院硕士研究生,研究方向为数据挖掘;周斌(1971-),男,博士,国防科学技术大学计算机学院研究员,研究方向为数据挖掘、海量数据处理;陈儒华(1987-),男,国防科学技术大学计算机学院硕士研究生,研究方向为数据挖掘、社交网络分析。
0引言文本分类是指在带有类别标签的文本集合中,根据每个类别的文本子集合的共同特点,找出一个分类模型,以便在后续过程中将未标识文本映射到已有类别的过程。
文本分类是一种文本处理手段,能较好地解决大量文档信息归类的问题进而应用到很多场景中,如基于受控词典的文档自动索引、文档过滤、元数据的自动生成、词义辨别、资源层次分类等,同时,它也是很多信息管理任务的重要组成部分[1]。
自动分类的研究可以追溯到上世纪50年代;上世纪80年代末之前,自动分类问题大多采用知识工程的方法,即利用专家规则来进行分类;上世纪90年代以后,统计方法和机器学习的方法被引入到文本自动分类中,取得了丰硕的成果并逐渐取代了知识工程方法。
文本分类的一般流程为文本预处理、特征抽取、构建分类器和分类结果评价。
目前,针对文本分类的算法主要集中在特征抽取和分类器构建这两个方面。
本文主要介绍文本分类中的几种常用算法。
一种基于聚类加权的文本特征生成算法_张凤琴

计 算 机 应 用 研 究 Application Research of Computers
Vol. 30 No. 1 Jan. 2013
一种基于聚类加权的文本特征生成算法
1 张凤琴 ,王 1 1 磊 ,张水平 ,王 2 鹏 ,程
*
超
1
( 1. 空军工程大学 信息与导航学院 指挥自动化工程系,西安 710077 ; 2. 北京航空航天大学 软件学院,北京 100191 ) 摘 IDF 评价函数来计算单 要: 目前的文本特征生成算法一般采用加权的文本向量空间模型, 该模型使用 TF-
Text feature generation algorithm based on clustering weighted
ZHANG Fengqin1 ,WANG Lei1 ,ZHANG Shuiping1 ,WANG Peng2 ,CHENG Chao1
( 1 . Dept. of C I, Institute of Information & Navigation,Air Force Engineering University,Xi ’ an 710077 , China; 2 . School of Software, Beihang University,Beijing 100191 ,China)
。
常用的文本特征生成方法有很多种, 典型的方法有文档频
2 率( DF) 、 信息增益( 、 期望
交叉熵、 文本证据权、 优势率等
[2 ]
。 这些方法的基本思想都是
对每一个特征计算某种统计度量值, 再设定一个阈值 T, 把度 剩下的即为文本特征。 量值小于阈值 T 的特征过滤掉, 3] 文献[ 从词语权重公式方面进行分析, 利用遗传算法训 练、 优化公式中参数的方法提取文本特征, 但未对特征语义环 境进行分析处理。 4] 文献[ 分析了统计方法具有算法简单 、 易于实现、 过滤 速度快、 不依赖具体领域和语言等优点, 但是由于缺乏对文档 的语法语义分析, 不能深层次地理解文本所表达的主题意思, 因而很难取得较好的选择效果 。 5] 文献[ 从文本中的语义特性进行分析, 并提出了相应的
学习笔记:NLP概述和文本自动分类算法详解

学习笔记:NLP概述和⽂本⾃动分类算法详解感谢:https:///articles/2018-07-25-5⼀、 NLP 概述1.⽂本挖掘任务类型的划分⽂本挖掘任务⼤致分为四个类型:类别到序列、序列到类别、同步的(每个输⼊位置都要产⽣输出)序列到序列、异步的序列到序列。
同步的序列到序列的例⼦包括中⽂分词,命名实体识别和词性标注。
异步的序列到序列包括机器翻译和⾃动摘要。
序列到类别的例⼦包括⽂本分类和情感分析。
类别(对象)到序列的例⼦包括⽂本⽣成和形象描述。
2.⽂本挖掘系统整体⽅案达观数据⼀直专注于⽂本语义,⽂本挖掘系统整体⽅案包含了 NLP 处理的各个环节,从处理的⽂本粒度上来分,可以分为篇章级应⽤、短串级应⽤和词汇级应⽤。
篇章级应⽤有六个⽅⾯,已经有成熟的产品⽀持企业在不同⽅⾯的⽂本挖掘需求:垃圾评论:精准识别⼴告、不⽂明⽤语及低质量⽂本。
黄反识别:准确定位⽂本中所含涉黄、涉政及反动内容。
标签提取:提取⽂本中的核⼼词语⽣成标签。
⽂章分类:依据预设分类体系对⽂本进⾏⾃动归类。
情感分析:准确分析⽤户透过⽂本表达出的情感倾向。
⽂章主题模型:抽取出⽂章的隐含主题。
为了实现这些顶层应⽤,达观数据掌握从词语短串分析个层⾯的分析技术,开发了包括中⽂分词、专名识别、语义分析和词串分析等模块。
3.序列标注应⽤:中⽂分词同步的序列到序列,其实就是序列标注问题,应该说是⾃然语⾔处理中最常见的问题。
序列标注的应⽤包括中⽂分词、命名实体识别和词性标注等。
序列标注问题的输⼊是⼀个观测序列,输出的是⼀个标记序列或状态序列。
举中⽂分词为例,处理「结合成分⼦」的观测序列,输出「结合/成/分⼦」的分词标记序列。
针对中⽂分词的这个应⽤,有多种处理⽅法,包括基于词典的⽅法、隐马尔可夫模型(HMM)、最⼤熵模型、条件随机场(CRF)、深度学习模型(双向 LSTM 等)和⼀些⽆监督学习的⽅法(基于凝聚度与⾃由度)。
4.序列标注应⽤:NER命名实体识别:Named Entity Recognition,简称 NER,⼜称作「专名识别」,是指识别⽂本中具有特定意义的实体,主要包括⼈名、地名、机构名、专有名词等。
基于演化超网络的中文文本分类方法
8 6 . 9 %和 7 0 . 5 %的宏 召 回率 、 8 7 . 0 %和 7 1 . 5 % 的宏 F , 接 近 或优 于 K N N和 S V M 分类 方法. 所提 出
的方 法是 一种 有效 的 中文文本 分 类手段 . 关键 词 :文本分 类 ;中文信 息 处理 ; 智 能 系统 ; 模 式识 别 ; 演化 超 网络 中图分 类号 : T P 3 9 1 . 4 文 献标 志码 : A 文章 编号 : 1 6 7 1 — 7 7 7 5 ( 2 0 1 3 ) 0 2— 0 1 9 6— 0 6
-
t e s t me t h o d wa s u s e d t o r eห้องสมุดไป่ตู้a l i z e f e a t u r e s e l e c t i o n,a n d t h e f e a t u r e we i g h t wa s c a l c u l a t e d b y Bo o l e a n
Ch i n e s e t e x t c a t e g o r i z a t i o n b a s e d o n e v o l u t i o n a r y h y p e r ne t wo r k
Wa n g J i n 一,J i n L i x i o n g ,S u n K a i w e i
( 1 . C o l l e g e o f C o m p u t e r S c i e n c e a n d T e c h n o l o g y ,C h o n g q i n g U n i v e r s i t y o f P o s t s a n d T e l e c 0 mm u n i c a t i 0 n s ,C h o n g q i n g 4 0 0 0 6 5,C h i n a 2 . C h o n g q i n g K e y L a b o r a t o r y o f C o m p u t a t i o n a l I n t e l l i g e n c e ,C h o n g q i n g 4 0 0 0 6 5 ,C h i n a )
一种基于TextRank的文本二次聚类算法
一种基于TextRank的文本二次聚类算法潘晓英;胡开开;朱静【摘要】针对传统文本聚类技术中存在的聚类精度一般或者运算时间复杂度过高等问题,文中首先介绍了两种较为常用的文本聚类技术:基于划分的K-means和基于主题模型的LDA。
在分析各自缺陷的基础上,提出一种基于TextRank的文本二次聚类算法。
该算法借鉴主题模型的思想,在传统的聚类过程中引入词聚类,并在关键词提取阶段融合词语的位置与跨度特征,减少了由局部关键词作为全局关键词带来的误差。
实验结果表明,改进后的算法在聚类效果上要优于传统的VSM 聚类和基于主题模型的LDA算法。
%In view of the existing problems in the traditional text clustering technology,such as the general accuracy or the higher time complexity,two kinds of the commonly used text clustering technology are introduced at first,including K -means based on the division and LDA based on the theme. On the basis of the analysis of their respective defects,a secondary text clustering algorithm based on the TextRank is presented. Reference of idea of theme model,the algorithm introduces the word clustering in the process of traditional cluste-ring,and merges the futures of location and span in the keyword extraction phase,reducing the error by local keywords as global key-words. The experimental results show that the improved algorithm on the cluster effect is superior to the traditional VSM clustering and LDA algorithm based on the theme model.【期刊名称】《计算机技术与发展》【年(卷),期】2016(026)008【总页数】5页(P7-11)【关键词】文本聚类;TextRank;提取;向量空间模型;LDA【作者】潘晓英;胡开开;朱静【作者单位】西安邮电大学计算机学院,陕西西安 710121;西安邮电大学计算机学院,陕西西安 710121;西安邮电大学计算机学院,陕西西安 710121【正文语种】中文【中图分类】TP391.9随着大数据时代的来临,互联网上的文档数据呈爆炸式增长,如何从这些海量数据中获取有效信息已经成为NLP(Nature Language Processing,自然语言处理)领域的重点[1]。
文本分类算法研究与优化
文本分类算法研究与优化随着互联网信息的爆炸式增长,海量的文本数据已成为研究的重要对象和挑战。
文本分类作为信息检索、自然语言处理、情感分析等领域的核心技术之一,具有重要的应用前景。
其中,文本分类算法的优化与改进是提高分类准确率、降低模型复杂度和提高效率的关键所在。
一、文本分类的常用算法文本分类算法分为传统算法和深度学习算法两大类。
其中,传统算法包括向量空间模型、朴素贝叶斯、支持向量机、决策树等。
这些算法最初是为了处理小规模数据而设计的,它们用词袋模型将每个文本转换成向量,在特征维度上进行分类。
但是,随着文本数据规模的不断增大,这些算法的分类效果和运行时间都面临着较大的压力。
而深度学习算法是近年来兴起的一种文本分类算法。
它通过一系列由简到复杂的单元(如卷积神经网络、循环神经网络、递归神经网络等)来对文本进行抽象表示和特征提取,在大规模数据集上能够取得不错的分类效果。
但是,深度学习算法的训练过程需要大量的计算资源,其可解释性也不如传统算法。
二、文本分类算法的优化策略1. 特征选择与文本表示特征选择是影响文本分类准确率的一个关键因素。
传统算法中,特征选择通常采用信息熵、tf-idf、互信息等方法。
而深度学习算法则通过词嵌入、卷积神经网络、循环神经网络等方式对文本进行表示和特征提取。
在特征选择和文本表示时,需要注意到以下几点:- 特征选择过程中,要选取与分类目标相关、具有较强判定能力的特征,并且避免选取冗余特征。
- 对于传统算法,可采用词袋模型或tf-idf算法将文本表示成向量;对于深度学习算法,可以采用词向量或子词建模等方式。
- 文本表示的过程中,需要注意到词汇表的构建、文本清洗、词形还原等问题,以提高文本表示的质量和准确度。
2. 模型优化模型优化是文本分类中进一步提高准确率和降低复杂度的关键之一。
优化过程中,需要注意到以下几点:- 对于传统算法,可以采用加权方法、交叉验证等方式进一步优化模型参数;对于深度学习算法,可以采用dropout、正则化、批归一化等技巧提高模型泛化能力。
GCN-PU基于图卷积网络的PU文本分类算法
目前处在一个信息快速增长的时代,如何根据用户给出的感兴趣文本,从海量的文本集中挑选出相关文本成为一个急需解决的问题。
在实际应用中,用户只保留了感兴趣的文本集以及大量的未标注文本集,即只有正类样本和未标注的样本。
传统的有监督学习和半监督学习都需要正类样本和负类样本来训练分类器[1]。
与传统的有监督学习和半监督学习不同,PU学习(Positive and Unlabeled)的分类器建立在正类样本集P和未标注样本集U的基础上,其中未标注样本集同时含有正类样本和负类样本[2]。
PU学习算法可以分成两类,一类是“两步法”,即从未标注样本集中不断选择可靠的负类样本来构建分类器;另一类是“直接法”,即直接在正类样本和未标注样本上构建分类器[3]。
“两步法”包括S-EM[4]、Roc-SVM[5]和AdaSampling[6]等算法。
S-EM算法的第一步采用了间谍技术(Spy Technique),即随机选取少量已经标注的正类样本作为间谍集S放入未标注样本集中,然后以P-S作为正类样本集,以U∪S作为负类样本集训练基于EM算法的分类器,最后以间谍集S的类别概率确定选择可靠负类样本的阈值。
Roc-SVM算法的第一步采用Rocchio算法筛选出可靠的负类样本集后,利用SVM训练文本分类器。
AdaSampling是一种基于Bootstrap采样的算法,U中被选择作为可靠负类样本的概率为上一轮分类器GCN-PU:基于图卷积网络的PU文本分类算法姚佳奇,徐正国,燕继坤,王科人盲信号处理重点实验室,成都610041摘要:针对PU(Positive and Unlabeled)文本分类问题,提出了一种基于图卷积网络的PU文本分类算法(GCN-PU),基本思想是给未标注样本加以不同的损失权重。
将未标注样本全部视为负类样本,用以训练基于卷积神经网络的文本分类器;取卷积神经网络的倒数第二层的向量为文本的特征向量,以及对应的类别概率,作为图卷积网络的输入;利用图卷积网络得出的类别概率计算每个未标注样本的损失权重,重新训练文本分类器。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
K y od H prx l s ctn I o ao prx R l ,ighpr x i o ao C -e t ew rs yet t a i ao n r t no h e et u o  ̄n yeetn r tn ow i - e c sf i fm i f y t s ef t fm i h g
i no ma o g n ifr t n. i
1 引 言
随着 It t ne 的迅 速增 长 , me 对高 效 的超 文本 分类 方 法 的
Y “ a 对近年来 的工作加 以分析 , 出超 文本分类 一些 指 未解 决 的问题 , 如 , 用超 链 接上 的单词 进行 分类 , 例 利 对于 F rkaz unr 所用的 WeK n b B数 据集 可 以提 高分 类精 度 , 对 于 但 C arbr 所用 的 IM专 利文档 数 据集却 降低 了分类 性能 。 hkaat i B
为什 么用类似 的方法 分类 对 于不 同数 据集 效果 不 同?数 据 集的不同对分类性能 的影 响有 什么不同?此外 , 用不 同的分 类算法对分类性能 的影响有 什么 不 同?Y n ag总结 了一 些利
需 要也 越来 越迫切 。w嗍 上超 过 2 0亿个 网页是 通过 超链 接互连的 , 这使得在 We b上找 到准确 信息 的困难 日益增 加 。 最近有研 究 表 明_ , 户 经 常通 过预 分 类 的 目录来 浏 览 网 2用 ] 页, 这种 提供 目录检索网页 的方式使得用 户可 以在较短 的时 间 内找到更 多 的相 关信 息 。例 如 , oo !就 支持 这 种 目录 Y ho 结构的 网页搜索 。超 文本 具有 区别 于纯 文本 的丰 富结构 化 信息 ( 如超链 接 、 T L标 记 、 HM 元信 息和标 题等 等 ) 这为 提高 , 分类效率 提供了非常有效而丰富 的资 源 , 并使 得 自动 的超 文 本 分类方法的研究变得越来越重要 。近年来 , 许多研 究者开 始利用超文本的多元化信息进行 自动分类 “ 。 Cl【b _研 究 了 I M专 利 文档 分类 之 间 的引用 , lla 3 a] r B 将
l t lo prx, e n rao nte a t hpr x dcm n t tc o edw i t u n a rh nt l f yet t t i o tni h t ss yet t ou etae e r t nne e i dr l i m BO h e h f m i i d ae e s f r x ai h g g n i g t g o
Hale Waihona Puke w i hv r u l —i omain rls o y e tx h v e n e ly d o b t rr e temut l n t cu e no ・ hc a i smut n r t e f p r t a e b e mpo e .T et s lp ea d s u trd ifr o i f o u h e e i h i r
维普资讯
僵息技术 与僵息亿
基 于 多元 信 息 加 权 协 调 的超 文本 分 类 算 法
Hy e tx a s c t n Al o i m a e n Co- ih i g Mu t_ f r t n p re tCls i a i g rt B s d o ・ g t lii o ma i i f o h we n ・n o
专利文档之间 的引用看成是 超链 接 , 将相 关论题 的文档分在 同一 目录下 。同样 C ar ai hka r 也对一个小型 的具有超链 接的 bt
用超文本信息 的规则 , 并且对于不 同算法 和不 同的超 文本数 据集 , 就这 些不同的信 息规则 做 了直接 的 比较 和总结 , 是 但 并没有对这些信息规则加 以综 合分析和利用 。 以上所 总结的对超文本 分类的研究 , 这些工作利用超文 本 中不同于纯文本 的各种信 息进行 自动分类 , 仍只是初 步 但
超 文 本 分 类 超 文 本 结 构信 息 超 文本 信 息使 用规 则 信 息加 权 协 调
i i p p r n n t s a e ,i h
Al r e Hy etx lsi c t n ag r h b s d o o w ih n l・noma o sp o  ̄  ̄ at p r t a s a o lo i m a e n c - eg t gmu t i r t ni mp e c i f i t i i f i
ca s c t n x e i na e ut o he i ee t aa s t s o a e po o e g r h p r r t r a l lsi a o .E p r i f i me tl s l n tr e df r n t es h w t t rp sd a o i m e oms b t n t - r s d h t h l t f e et h S
鲁 薇
耽
本文综合利用超文本的各种 多元化信息规则 , 出一种基 于 多元 信息加 权协调 的超 文本 分类算 法。该 提 算法在分类时 , 通过对抽取到的数据集超文本文档 中的超文本信息进行加权 处理 , 更好 的综合协调地利 用了超 文本的 多元结构化信息。通过三个数据集的综合 实验 , 结果表 明, 较于单独 利用某种超 文本 结 相 构信息进行分类的方 法, 基于 多元信息加权协调超文本算法具有较好的性能。