基于最大熵模型的中文词与句情感分析研究pdf
基于最大熵模型的观点句主观关系提取

2 评价词与评价对象主观关系的提取
本文采用最大熵模型,通过在模型中应用基本特征和语 义特征,获取观点句子中评价词与评价对象之间的主观关系。 2.1 最大熵模型
最大熵模型广泛应用于分词、词性标注、词义排歧、机 器翻译等自然语言处理的各个领域中。最大熵的主要思想是 找到一个概率分布,它满足所有已知的事实,且不受任何未 知因素的影响。
基于最大熵方法汉语基本短语分析

Ab t a t T i a e r s n s b sc sr c : h s p p r p e e t a a i Ch n s p r s p r ig i e e h a e a sn mo e , ih e a a e t e r d c in f t e h a e o n ay d l whc s p r ts h p e it o h p r s b u d r o lc t n n tg i g a o a i a d a g n , ma i m e t p me h d s d p e t ov h d l r s e t eyTh fc s o o x mu nr y o t o i a o td o s le t e mo e ,e p ci l . e o u v f ME mo e i o t dl s h w o s lc u eu fau e . h r c d r n ag r h f f au e ee t n wi f au e s a e r i e . p r n a r s l e n e e t s f l e t r s e p o e u e a d lo i ms o e t r s lc i t e t r p c ae g v nEx e i T t o h me tl e u t d mo — s srt h t t e p e iin fr p e i t g t e p r s o n a s 9 . 7 . n h r cso f p r s a gn s 9 . %. tae t a h r c s o r d ci h h a e b u d r i 52 % a d t e p e i n o h a e t g i g i 62 o n y i Ke r s y wo d :p r s a sn ;ae ts na ; xmu e to y p i cp e h a e p ri g l tn y t ma i m n r p r il x n
基于最大熵模型的汉语词性标注研究的开题报告

基于最大熵模型的汉语词性标注研究的开题报告一、课题背景和意义随着自然语言处理技术的不断发展和应用,对汉语的语言分析需求也日益增长,其中词性标注是其中一个重要的语言分析任务。
词性是指词语所具有的语法范畴和语义类别,词性标注是指给定一个句子,将句子中的每个词语标记出其所属的词性类别,是文本处理、信息检索、语音识别等领域的基础技术之一。
目前,汉语词性标注已经成为NLP领域中的研究热点之一,常常作为其他任务的前置处理,如命名实体识别、文本分类、信息抽取等。
而最大熵模型由于其高效性、准确性和较好的可解释性,已被广泛应用于自然语言处理中,包括词性标注、命名实体识别、文本分类等任务。
无论是在学术界还是工业界,最大熵模型都是自然语言处理中的重要技术之一。
本研究旨在探究基于最大熵模型的汉语词性标注算法,提高该算法的标注准确率,为汉语自然语言处理的研究和应用提供技术支持。
二、研究内容和方法本研究将采用最大熵模型对汉语句子进行词性标注,具体研究内容包括:1. 研究最大熵模型的基本原理及其在词性标注中的应用。
2. 研究汉语词性标注中的特征选取方法和特征模板设计,探究不同特征组合对词性标注效果的影响。
3. 实现基于最大熵模型的汉语词性标注算法,并与其他词性标注算法在不同数据集上进行比较和分析。
具体的研究方法包括:1. 阅读汉语词性标注相关文献,并了解最大熵模型的基本原理和应用情况。
2. 针对汉语词性标注中的特征选取和特征模板设计问题,分析现有算法中采用的特征和模板,结合最大熵模型特性,提出适用于汉语词性标注的特征选取和特征模板设计方法。
3. 根据上述方法,开发基于最大熵模型的汉语词性标注算法,并使用不同数据集进行测试和评估。
三、预期成果和意义本研究的预期成果包括:1. 提出适用于汉语词性标注的特征选取和特征模板设计方法,用以改进现有的词性标注算法,并提高算法的准确率和鲁棒性。
2. 实现基于最大熵模型的汉语词性标注算法,并通过实验验证其效果。
基于最大熵模型的汉语依存分析

ma i m ob blt a e oban d xmu pr a ii c n b tie .Th o e s e p rme tl pov d stsyn i pe iin n h s b e a p id i ie e n trl y e m d li x ei nal r e aif ig n rcso a d a e n p l n aChn s aua y e
及不连接 3 种动作选取其 ・ 。用最大熵 原 ̄Y断每个动作 的概率 ,得到依 存树I各边 的概_ ,然后找出具有最大概率 的依存 炎系树 实验 .l 4 } | 啐 i
结果表明 ,凌模型具有较好的分析精度 。 目前,该模 型已被麻用 。基‘ 自 t t 然语言 的信息检索项 日中。
关翻
ln ug te a poet a g aer r v l rjc. ei
[ e od !S ttaprn; eedny r ma Mai net p rc l K y rs tii l a i D pnec a r x w a sc s g gm ; mm n oy i i e r pnp
维普资讯
第 3 卷 第 1 期 2 1
V12 o. 3
・
计
算
机
工
程
20 0 6年 6月
J n 0 6 u e2 0
№
l l
Co mp t rEn i e r n u e gn e i g
人工智能及识别技术 ・
文 缩 0 _ 48 I )— 2 _ 3 文 标 码。 章 号t 0 _ 2(l l _ l _ 1 o 3 2I l 0 0 I 6 献 识 A
中 分 号一 P9 圈 类 T3
基于 最大熵模 型 的汉语依 存 分析
使用最大熵模型进行中文文本分类

! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! !
使用最大熵模型进行中文文本分类
李荣陆 王建会 陈晓云 陶晓鹏 胡运发
关键词
文本分类; 最大熵模型; 特征; ; & X 1 3 6
, ( ) $; , $ Y
中图法分类号
> 引
言
键技术 研究利用计算机进行自动文档分类 G 所 以, 成为自然语言处理和人工智能领域中一项具有重要 应用价值的课题 G现 有 的 分 类 方 法 主 要 是 基 于 统 计 理论和机器学习 方 法 的, 比较著名的文档分类方法
9 : " , ’ ; ,
, I E 8 =8 = 91 3 E >> 9 @ 9 4 / 6 9 2 8/ 5I / 1 4 >I E > 9I 9 N 8 9 O 8< 4 3 ; ; E 5 E < 3 8 E / 2= 3 ;N 9 < / 6 98 = 9P 9 7 7 K
8 9 < = 2 / 4 / E 2/ 1 3 2 E Q E 2 2 >7 1 / < 9 ; ; E 2 3 1 93 6 / 0 2 8/ 5> / < 0 6 9 2 8> 3 8 3 GR 3 O E 6 0 69 2 8 1 / / > 9 4E ;3 F K F F3 F4 F 7 K6 1 / N 3 N E 4 E 8 ; 8 E 6 3 8 E / 28 9 < = 2 E 0 9T E > 9 4 ; 9 >5 / 13@ 3 1 E 9 8 52 3 8 0 1 3 4 4 3 2 0 3 98 3 ; P ; G! 8/ 5 5 9 1 ;3< 4 9 3 23 2 > 7 K9 S K0 K/ F F 3 < < / 66 / > 3 N 4 9 5 1 3 6 98 /< / 6 N E 2 9> E @ 9 1 ; 97 E 9 < 9 ;/ 5< / 2 8 9 O 8 0 3 4 E 2 5 / 1 6 3 8 E / 28 /9 ; 8 E 6 3 8 98 = 97 1 / N 3 N E 4 E 8 53 K/ , / 1 < 9 1 8 3 E 2 4 E 2 0 E ; 8 E < ;7 = 9 2 / 6 9 2 3 G, = E ; 3 1 / 3 < = 5 / 16 3 2 8 3 ; P ; / 5# H -7 9 1 5 / 1 62 9 3 1 ; 8 3 8 9 & / 5 & 8 = 9 & 3 1 8 4 9 @ 9 4 F 7 7 K / 0 8 9 1 5 / 1 6/ 8 = 9 1< / 6 9 8 E 2 1 / N 3 N E 4 E 8 9 8 = / > ;T = 9 28 1 3 E 2 9 >3 2 >8 9 ; 8 9 >0 2 > 9 1; E 6 E 4 3 1< / 2 > E 8 E / 2 ; G 7 7 F7 K6 , L / T 9 @ 9 11 9 4 3 8 E @ 9 4 4 E 8 8 4 9T / 1 P= 3 ;N 9 9 2> / 2 9/ 23 4 E 2 3 O E 6 0 69 2 8 1 / / > 9 4 8 /8 9 O 8< 3 8 9 / 1 E Q 3 8 E / 2 K 7 7 K F6 7 K6 F ,2 1 / N 4 9 6 ; G! 23 > > E 8 E / 2 /7 1 9 @ E / 0 ;T / 1 P= 3 ;5 / < 0 ; 9 >/ 20 ; E 2 3 O E 6 0 69 2 8 1 / / > 9 4E 2< 4 3 ; ; E 5 E 2 7 F6 7 K6 K F * = E 2 9 ; 9> / < 0 6 9 2 8 ; GR 3 O E 6 0 69 2 8 1 / / > 9 4 E ; 0 ; 9 > 5 / 1 8 9 O 8 < 3 8 9 / 1 E Q 3 8 E / 2 G! 8 ; < 3 8 9 / 1 E Q 3 8 E / 27 9 1 5 / 1 6 3 2 < 9 7 K6 F F , E ; < / 6 3 1 9 >3 2 >3 2 3 4 Q 9 >0 ; E 2 E 5 5 9 1 9 2 8 3 1 / 3 < = 9 ; 5 / 1 8 9 O 8 5 9 3 8 0 1 9F 9 2 9 1 3 8 E / 2 > E 5 5 9 1 9 2 8 2 0 6 N 9 1 / 5 5 9 3 8 0 1 9 7 K F> 7 7 , ,V##3 3 2 >; 6 / / 8 = E 2 9 < = 2 E 0 9 GR / 1 9 / @ 9 1 E 29 O 9 1 E 6 9 2 8 ; E 8 E ;< / 6 3 1 9 >8 /U 3 9 ; 2 >" WR, 3 2 >E 8 E ; F8 S 7 7 K ; = / T 2 8 = 3 8 E 8 ;7 9 1 5 / 1 6 3 2 < 9 E ;= E = 9 18 = 3 2U 3 9 ;3 2 >< / 6 3 1 3 N 4 9T E 8 = V##3 2 >" WR G! 8 E ;37 1 / 6 E ; E 2 F K 7 F 8 9 < = 2 E 0 9 5 / 1 8 9 O 8 < 3 8 9 / 1 E Q 3 8 E / 2 G S F ;6 ; ;; < 2 . 1 " 8 9 O 8 < 4 3 ; ; E 5 E < 3 8 E / 2 3 O E 6 0 69 2 8 1 / / > 9 4 5 9 3 8 0 1 9 ; & X 1 3 6 7 K6 0=
最大熵语言模型

最大熵语言模型最大熵语言模型是一种常用的自然语言处理模型,它通过最大化模型的熵来选择最合适的语言模型。
在这篇文章中,我将详细介绍最大熵语言模型的原理和应用。
一、最大熵语言模型的原理最大熵语言模型是基于信息论的原理,通过最大化模型的熵来选择最合适的语言模型。
熵是衡量不确定性的度量,对于一个事件的概率分布而言,其熵越大,表示其不确定性越高。
在语言模型中,我们希望选择一个概率分布模型,使得其熵最大,从而能够更好地表示语言的不确定性。
最大熵语言模型的基本思想是,在给定一些已知条件的情况下,选择一个概率分布模型,使得其熵最大。
这些已知条件可以是一些语言上的约束,比如某些词语之间的关联关系。
具体来说,最大熵语言模型可以通过最大熵原理来定义模型的概率分布。
最大熵原理认为,当我们对一个事件的概率分布没有任何先验知识时,我们应该选择熵最大的分布。
为了构建最大熵语言模型,我们需要定义一组特征函数,这些特征函数描述了词语之间的关联关系。
然后,通过最大熵原理,我们可以得到一组权重,这些权重表示了特征函数的重要性。
最后,通过这些权重,我们可以计算出给定条件下的概率分布。
最大熵语言模型在自然语言处理领域有着广泛的应用。
其中最常见的应用是语言模型的建模,即给定一个句子,预测下一个词的概率分布。
最大熵语言模型通过考虑词语之间的关联关系,能够更好地预测下一个词的可能性。
最大熵语言模型还可以用于机器翻译、语音识别等任务。
在机器翻译中,我们可以使用最大熵语言模型来选择最合适的翻译结果。
在语音识别中,我们可以使用最大熵语言模型来提高识别准确率。
最大熵语言模型的优点在于其灵活性和泛化能力。
由于最大熵原理的约束,最大熵语言模型能够处理各种不同类型的特征函数,从而能够更好地适应不同的语言模型任务。
然而,最大熵语言模型也存在一些限制。
首先,模型的训练需要大量的数据,否则很难得到准确的结果。
其次,模型的训练和计算复杂度较高,需要耗费大量的时间和计算资源。
基于最大熵方法的汉语词性标注

收稿日期:2003-07-16;修订日期:2003-09-23 基金项目:国家自然科学基金资助项目(69975008);国家973规划资助项目(G1998030507) 作者简介:林红(1966-),女,福建仙游人,工程师,主要研究方向:中文信息处理、数据分析; 苑春法(1946-),男,河北曲阳人,教授,主要研究方向:中文信息处理、信息抽取; 郭树军(1968-),男,河北邯郸人,副高级工程师,主要研究方向:数据分析和挖掘.文章编号:1001-9081(2004)01-0014-03基于最大熵方法的汉语词性标注林 红1,苑春法2,郭树军1(1.河北省气象局省气象台,河北石家庄050021; 2.清华大学计算机科学与技术系,北京100084)(linhong78426@ )摘 要:最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。
研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。
实验结果证明该模型是有效的,词性标注正确率达到97.34%。
关键词:语言模型;最大熵模型;词性标注中图分类号:TP182;TP391.1 文献标识码:AA Chinese Part of Speech T agging MethodB ased on Maximum Entropy PrincipleL IN Hong 1,YUAN Chun 2fa 2,GUO Shu 2jun(1.Hebei Meteorological Observatory ,Hebei Meteorological B ureau ,S hijiaz huang Hebei 050021,China ;2.Depart ment of Com puter Science and Technology ,Tsinghua U niversity ,Beijing 100084,China )Abstract :A lot of researches have been made on the application of the maximum entropy modeling in the natural lan 2guage processing during recent years.This paper presents a new Chinese part of speech tagging method based on maximum entropy principle because Chinese is quite different from many other languages.The feature selection is the key point in this system which is distinct from the one used in English.Experiment results have shown that the part of speech tagging accura 2cy ratio of this system is up to 97.34%.K ey w ords :language model ;maximum entropy ;part of speech tagging1 引言目前汉语的词性标注基本上采用二元语法模型[1]和三元语法的隐马尔可夫模型,它们虽然也都有较好的标注效果,但由于预测信息的不足,对词性标注,特别是未登录词的词性标注精度影响很大,在上述模型中一般对未登录词的词性采用猜测(如猜测为名词)的方法。
汉语复句中基于依存关系与最大熵模型的词义消歧方法研究

计算机与数字工程 Computer & Digital Engineering
总第 339 期 2018 年第型的词义 消歧方法研究∗
李 源 翟宏森 刘凤娇 黄文灿 杨梦川
(华中师范大学计算机学院 武汉 430079)
摘 要 词义消歧是自然语言信息处理领域的基础研究,对自然语言信息处理领域的研究至关重要。为解决词义消歧 中提取关联词语不精确进而影响词义消歧正确率的问题,该文依存句法模板设计了 5 种复合特征模板,并结合最大熵模型 进行训练。实验证明,使用该复合模板,不仅降低了计算复杂度,而且提高了词义消歧的性能。对 500 余条复句进行词义消 歧,取得了较好的词义消歧正确率。
Key Words word sense disambiguation,feature template,maximum entropy model,dependency relation Class Number TP391.1
1 引言
在汉语自然语言中,由于复句运用的灵活性和 网络用语的广泛使用,复句中经常会出现一词多意 的现象,多义词的使用非常普遍[1]。但在特定的语 境 中 ,根 据 特 定 上 下 文 ,多 义 词 的 义 项 是 确 定 的 。 如“卖”为动词词性具有三个词义,分别表示“交易” “背叛”“卖弄”,虽然使用频率最高的是“交易”的意
LI Yuan ZHAI Hongsen LIU Fengjiao HUANG Wencan YANG Mengchuan (School of Computer,Huazhong Normal Universitiy,Wuhan 430079)
Abstract Word sense disambiguation is a basic research in the field of natural language information processing. It is very im⁃ portant for the study of natural language information processing. In order to solve the problem of inaccuracy of word association in word sense disambiguation,this paper proposes a dependency syntax template,and designs five kinds of compound templates, which are combined with the maximum entropy model. Experiments show that the proposed method can reduce the computational complexity and improve the performance of word sense disambiguation. More than 500 complex sentences are disambiguation and the correct rate of word sense disambiguation is higher.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于最大熵模型的中文词与句情感分析研究*董喜双,关毅,李本阳,陈志杰,李生哈尔滨工业大学,哈尔滨,150001dongxishuang@, guanyi@, libenyang012566@, ruoyu_928@,lisheng@摘要:本文将研究焦点对准喜、怒、哀、惧四类情感分析问题,重点解决中文词、句的情感分析问题。
将词的情感分析处理为候选词情感分类问题。
首先通过词性过滤获得候选词,进而根据特征模板获取候选词情感特征,然后应用最大熵模型判断候选词情感类别,最后应用中性词典、倾向性词典、复句词表、否定词表过滤候选情感词分类错误得到情感词集合。
句的情感分析首先根据情感词典和倾向词典提取词特征,并采用规则提取词序列特征,然后采用最大熵模型对句子进行情感分类。
在COAE2009评测中词与句情感分析取得较好结果。
关键词:情感分析;情感极性;最大熵;分类;Sentiment Analysis on Chinese Words and Sentences Based on Maximum Entropy ModelDong Xi-Shuang, Guan Yi, Li Ben-Yang, Chen Zhi-Jie, Li ShengHarbin Institute of Technology, Harbin 150001dongxishuang@, guanyi@, libenyang012566@, ruoyu_928@,lisheng@Abstract: This paper presents a method to analyze sentiments on Chinese words and sentences, where the sentiments include happy, angry, sad, and fear. In the case of words, sentiment analysis was processed as the sentiment classification of candidate words. The candidate words were firstly obtained by POS filtering, then Maximum Entropy (ME) model was adopted to judge sentiment categories of the words, which sentiment features were gained with feature templates. Finally, errors in the word classification would be removed through filtering with a neutral lexicon, a sentiment polarity lexicon, a connective word list of complex sentences, and a negative word list. In the case of sentences, word features in sentences were extracted on the basic of the sentiment lexicon and the sentiment polarity lexicon, and word sequence features were extracted by rules while processing sentiment analysis on sentences, then ME model was used to classify the sentences. Good performance of sentiment analysis was gained in COAE 2009.Keywords: Sentiment Analysis, Sentiment Polarity, Maximum Entropy, Classification1 引言情感分析的主要任务为识别文本对某一事物的观点[1]。
情感包含两方面信息:情感极性与情感强度。
情感极性指情感要素(词、短语、句子以及篇章)表达的情感倾向。
情感强度指情感要素表达情感的强弱程度。
情感分析包含四方面研究内容:词级情感分析、短语级情感分析、句级情感分析以及篇章级情感分析。
词级情感分析包括识别候选情感词、判断候选情感词情感极性与强度以及构建情感字典[2]。
短语级情感分析为根据情感词识别*董喜双,1981年出生,男,黑龙江省哈尔滨市,博士研究生。
本项研究受到国家自然科学基金项目支持,项目批准号:60975077,60736044情感短语并判定情感极性与强度[3]。
句级情感分析为识别句级观点持有人、评价对象以及判断句子的情感倾向[2][4]。
篇章级情感分析为识别篇章对某一事物的观点[5-6]。
文本情感分析可用来决定获取何种信息并且如何呈现和组织信息。
例如信息检索系统可应用情感分析过滤、获取支持某一特定政治倾向的文本[7]。
问答系统可根据观点扩展查询,获得更加全面、精准的答案[8]。
本文主要涉及情感分析两方面:词级情感分析和句级情感分析。
词级情感分析要求在一定的上下文环境中抽取出能够明确表达作者情感的词,并判断该情感词所属的类别。
句级情感分析要求在一定的上下文环境中抽取出能够明确表达作者情感的句子,并判断该情感句所属的类别。
其中情感类别包括:喜(happy)、怒(angry)、哀(sad)和惧(fear)。
两方面问题难点在于情感类别增至四类使分类更加困难。
因而本文将这一困难作为研究重点。
本文结构组织如下:第二部分介绍相关研究工作;第三部分简介最大熵模型;第四部分重点描述词、句级情感分析的方法及优缺点;第五部分分析实验结果;最后给出结论与展望。
2 相关研究词级情感倾向分析主要任务是判断候选词情感。
当前方法主要有两种:(1)基于电子词典的候选词情感分析;(2)基于机器学习的候选词情感分析。
利用电子词典判断候选词的情感相关工作包括:文献[9]利用WordNet和General Inquirer(GI)[10]的同义词集和反义词集获取候选词的情感倾向信息;文献[11]利用HOWNET提供的语义相似度方法计算词与基准情感词集的语义相似度值,以此推断该候选词的情感倾向;文献[12]利用《同义词词林》中的同义词词群扩展基准情感词集。
这些方法缺点在于对已有的电子词典具有较强的依赖性。
基于机器学习的候选词情感分析方法包括基于无监督学习和基于有监督学习的候选词情感分析。
文献[3]计算词与种子情感词的点互信息(Pointwise Mutual Information, PMI),以此推断该词的情感倾向。
文献[13]则在PMI方法的基础上结合文本中连接上下文的关联词处理,进一步挖掘文本中的情感词。
无监督的机器学习方法依赖于处理语料的领域范围,同样存在着对基准情感词的依赖性问题,而且正确率较低。
基于有监督学习方法如:文献[14]利用词语搭配模式发现在主观性文本中的倾向性词语及其搭配关系;文献[15]利用从情感标注语料中抽取的上下文模板,统计词与上下文模板之间的关系,进而判断该词的情感倾向。
基于有监督学习方法精度较高,但缺陷是人工标注语料库的缺乏以及语料库标注的不一致性。
句级情感倾向分析主要任务是判别句子的情感倾向性。
文献[2]通过获取特定区域(窗口1:句子内部;窗口2:句中评论人与评价对象之间;窗口3:窗口2前后两个词;窗口4:窗口2到句尾)内的情感特征,分别利用情感倾向累乘模型、情感强度调和平均模型以及情感强度几何平均模型判断句子情感倾向性。
实验表明在窗口4区域内识别特征并结合情感倾向累乘模型准确度达到81%。
该方法主要缺陷在于需正确标注评价人和评价对象,同时情感累乘模型无法准确判断否定句情感倾向。
文献[7]将观点句分析处理为分类问题,并利用朴素贝叶斯分类模型达到90%精度。
该方法难点在于精准的提取情感特征。
文献[16]将情感句分析类比为句子的情感序列化标注问题。
该方法不仅从句子本身的情感分析角度出发,还考虑其临近句子对其情感倾向的影响以及整个篇章对其情感倾向影响。
该方法明显优点是考虑了不同级别情感分析之间的相互影响,但其缺点在于复杂的编码和解码过程。
本文解决词级情感分析问题时首先构建情感词典,然后借鉴文献[17]思想,采用情感词分类方法,通过提取候选词周围的不同特征,利用最大熵模型判断候选词的情感极性,并以类别概率作为结果的置信度。
句级情感分析在文献[7]的基础上,采用情感分类方法判别句的情感极性。
首先介绍本文使用的分类模型。
3 最大熵模型文献[18]基于信息熵理论建立了最大熵模型。
在一定的限制条件下,选择一个系统的最优分布时,如果这些限制条件无法确定唯一的系统分布,那么最好的分布就是在满足所有限定条件下,系统信息熵最大的分布。
给定H 代表特征集合,最大熵模型的目标是寻找最优的标记T (使条件概率)|(H T p 的条件熵最大)。
由最大熵的独立性假设,不考虑标记之间影响,以 t 代表一个特定的状态,h 代表该状态的上下文观测值,条件熵可被定义为:∑∈∈−=H h T t h t f h t p h p p H ,~),()|()()((1) 其中,)(~h p 为特征h 的先验概率,),(h t f 为特征函数,)|(h t p 为状态t 的条件概率。
由于最大熵模型的解是存在的且唯一,因此可通过运算得到:)()),(exp()|(h Z h t f h t p i i i ∑=λ (2)其中,i f 为特征i 的特征函数,∑∑=t i i i h t f h Z )),(exp()(λ为归一化因子。
i λ是特征i 的权重,训练过程就是用数值算法求每个i λ值的过程。
最大熵模型在自然语言处理领域应用广泛,其中文献[19]最早在自然语言处理领域使用最大熵模型。
本文在词、句情感分析中采用最大熵模型作为分类器并取得较好效果,下面详细描述词、句情感分析过程。
4 词句情感分析4.1 词级情感分析首先通过三种模型构建情感词典。
然而情感词典中情感词数量有限,因此采用最大熵分类模型进一步挖掘情感词。
本文在搜狗实验室[20]提供的互联网语料库(SogouC)以及聚友网[21]上的博客、论坛文章上构建情感词典,语料规模有近15000篇文章,大小近70M 。
应用如下三种模型构建情感词典:(1)字符情感分值计算方法Ku 在NTUSD[22]词典的基础上引入了字符情感分值计算方法。