基于最大熵的情感倾向研究

合集下载

浅谈“熵”概念及对学生情感态度与价值观的教育功能

终，又在生态环境中以高熵垃圾形式把低熵输入排出掉。如果社
时指出：高中物理课程在内容上应精选学生终身学习必备的基 “
础知识与技能，加强与学生生活、现代社会及科技发展的联系，反映当代科学技术发展的重要成果和新的科学思想，注物理学的关技术应用所带来的社会问题，养学生的社会参与意识和对社会培
・
８４・
跨世纪
２００８年１１月第１６卷第１期１
ＣｏｓＣｎｒ，ｏｅｂｒ０８Ｖｌ６ｏ１ｒｓｅｔｙＮｖｍｅ０，ｏ１，Ｎ．１ｕ２
浅谈 “ ＂念及对学生情感态度熵概与价值观的教育功能
汤超
（陕西省宝鸡教育学院，陕西，宝鸡，２０１７１０）
能沿着一个方向转换，即从可利用到不可利用，有效到无效，从从有秩序到无秩序（就是说宇宙万物从一定的价值与结构开始，不可挽回地朝着混乱与荒废发展）。它指出了物质和能量的转换是不可逆的过程，且是自界中存在的一个普遍规律。而然
会以高于自然本身转化的速度把借用的低熵物质能量转化成效用和垃圾，赤字便会上升。这就要求我们在发展经济的同时， ” 一定要注意节约能源，保护自然资源，保护环境，做到人与自然的要
和谐相处。
说，能量完全均匀地分布，那么，这个系统的熵就达到最大值。

新闻报道文本的情感倾向性研究

２ＩｓｔｔｏＣｍｐｔｔｎｌｉｇｉｉｓＰｋｎｉｅｓｙＢｉｎ０８１．ｎｔｕｅｆｏｕａｏａＬｎｕｓｃ，ｅｉｇＵｎｖｒｉ，ｅｉｇ１０７）ｉｉｔｔｊ
［ｓｒｃ］Ｔｉｐｐｒｓｓｍａｈｎｅｒｉｇｔｃｎｑｅｏｉｅｔｅｒｌｓｏｓｌｅｓｎｉｎｌｓｉｃｔｎｏｅｘ，ｎｅｅｒｈｓＡｂｔａｔｈｓａｅｅｃｉｅｌａｎｎｈｉｕｓｃｍｂｎｄｗｉｔｅｏｖｅｔｔａｓｆａｉｆｗｓｔｔａｄｒｓａｃｅｕｅｈｈｕｔｍｅｃｉｏｎｅ
ｒｌｓｅｐｒｍｅｔｌｅｕｌｉｉｒｖｄｎｏｄｒｔｅｔｕｉｅｓｌｙｏｅｃｍｂｎｄｍｅｈｄｍｏｅｅｐｒｍｅｔａｅｎＫＮＮｎｙｓｃａｓｆｒｕｅ，ｘｅｉｎａｓｔｓｍｐｏｅＩｒｅｏｔｓｎｖｒａｉｆｔｏｉｅｔｏ，ｒｘｅｉｎｓｂｓｄｏｒｔｈａｄＢａｅｌｓｉｅｉ
。
通过观察语料发现，赞扬类正确率低的主要原因是赞扬
类的一些规则覆盖了喜悦类语料。这种错误不存在极性的差
绝对词频（Ｆ：特征项在文本中出现的次数。Ｔ）
倒排文档频度（Ｆ：Ｉ）Ｄ
ｌ・ｂＮ
＝
别，仅是程度的区别，是可以接受的。
３２统计方法．
３２１特征选择．．
其中，Ｆ是训练集中出现特征项ｆ的文档数；Ｎ为训练集全／
部的文档数。
ＴＦ．ＤＦ：Ｉ ×ｌｂ
刀

【国家自然科学基金】_文本情感分类_基金支持热词逐年推荐_【万方软件创新助手】_20140729

科研热词情感分类语义理解计算机应用文本挖掘文本情感分析支持向量机在线评论中文信息处理跨领域资源建设语义特征评测褒贬分类网络推手综述特征选择特征权重正负情感正文抽取机器学习有用性文本特征文本情感分类抱怨文本识别情绪压力情感向量空间模型情感分析情感倾向性情感信息的检索与归纳情感信息抽取情感信息分类客户抱怨在线口碑效应图排序口碑倾向识别倾向性分析主题分类主观性识别主观性文本主客观表达形式 web文本 em算法 boosting bayesian
科研热词情感分类文本分类语义倾向计算机应用观点挖掘神经网络特征词识别模拟退火算法最大熵文本挖掘支持向量机意见检索意见挖掘情感极性情感分析态度分类分界点中文信息处理
推荐指数 3 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2010年序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
科研热词情感分类情感分析微博跨领域混合模型文本分类 lda 非平衡数据集成学习通用背景模型迁移学习识别评论挖掘评论观点句识别观点句表情符号网购评论网络评论统计语言模型统计分析粗糙集签到行为短文本分类短文本直觉模糊集特征融合热传导模型段落标签传播无监督学习文本挖掘文本情感分类文本情感分析文本分析数字音频取证支持向量机(svm) 支持向量机意见领袖情感词典情感细分类情感文摘情感字典情感句模情感倾向分析情感倾向录音设备来源识别实验设计多极性形容词多媒体取证技术复合分类法基于位置的社交网络

文本情感分析方法研究综述

文本情感分析方法研究综述一、本文概述随着信息技术的飞速发展和大数据时代的到来，文本情感分析作为自然语言处理领域的一个热门研究方向，正受到越来越多的关注。

本文旨在对文本情感分析方法进行全面的研究综述，旨在梳理和分析当前情感分析的主要方法、技术及其发展趋势，以期为读者提供一个清晰、系统的认识框架。

本文将简要介绍文本情感分析的研究背景和意义，阐述情感分析在社交媒体分析、舆情监控、产品评价等领域的重要应用。

随后，文章将重点回顾和总结情感分析的发展历程，包括早期的基于词典的方法和规则的方法，以及近年来兴起的基于机器学习和深度学习的情感分析方法。

在详细分析各类情感分析方法时，本文将深入探讨各种方法的原理、优缺点以及适用场景。

文章还将关注情感分析领域的一些前沿研究，如基于深度学习的情感分析模型、多模态情感分析以及情感分析的跨领域应用等。

本文将对未来的研究方向和挑战进行展望，以期为推动文本情感分析技术的发展提供有益的参考和启示。

通过本文的综述，读者可以对文本情感分析方法有一个全面、深入的了解，为相关领域的研究和实践提供有益的借鉴和指导。

二、文本情感分析的发展历程文本情感分析，也称为观点挖掘或情感挖掘，是自然语言处理（NLP）领域的一个重要研究方向。

自20世纪90年代起，随着计算机科学和的飞速发展，文本情感分析逐渐受到了广泛关注，经历了从简单规则到复杂模型的发展历程。

早期的研究主要基于规则或词典的方法。

研究者们通过构建情感词典或情感词汇列表，结合简单的文本处理规则，对文本进行情感倾向的判断。

然而，这种方法受限于情感词典的完备性和规则设计的灵活性，难以处理复杂的语言现象和上下文依赖。

随着机器学习技术的兴起，文本情感分析开始进入新的发展阶段。

研究者们开始尝试使用各种机器学习算法，如朴素贝叶斯、支持向量机（SVM）、最大熵模型等，对文本进行情感分类。

这些算法能够从大量数据中学习出有效的特征表示，从而提高了情感分析的准确性和鲁棒性。

python 最大熵模型 -回复

python 最大熵模型-回复Python最大熵模型（Maximum Entropy Model）是一种经典机器学习算法，它在自然语言处理、信息提取和文本分类等任务中有广泛的应用。

本文将围绕Python最大熵模型展开讨论，并逐步回答你关于该模型的问题。

首先，让我们来了解一下什么是最大熵模型。

最大熵模型是一种统计模型，它是由最大熵原理推导出来的。

最大熵原理认为，在没有任何先验知识的情况下，我们应该选择具有最高熵的模型。

在信息论中，熵是对不确定性的度量，因此最大熵原理可以理解为选择最不确定的模型。

最大熵模型的目标是在满足已知约束条件的情况下，选择最不确定的模型。

下面，让我们来看一下如何使用Python实现最大熵模型。

在Python中有多种库可以实现最大熵模型，其中较为常用的库有NLTK（Natural Language Toolkit）和Scikit-learn。

这两个库都提供了丰富的函数和类来支持最大熵模型的训练和预测。

首先我们需要准备训练数据。

最大熵模型是一种有监督学习算法，因此需要标注好的训练数据来进行模型训练。

训练数据一般由特征和标签组成，特征是用来描述样本的属性，标签是该样本所属的类别。

在NLTK 和Scikit-learn中，通常将特征表示为一个包含多个键值对的字典，其中键表示特征的名称，值表示特征的取值。

接下来，我们可以使用NLTK或Scikit-learn中提供的函数或类进行最大熵模型的训练。

这些函数或类提供了一些参数来进行模型训练的配置，如正则化参数、最大迭代次数和收敛条件等。

我们可以根据具体任务的需求来选择不同的参数配置。

在模型训练完成后，我们可以使用训练好的模型来进行预测。

预测过程同样需要提供待预测样本的特征表示。

最大熵模型会根据已学到的模型参数来为待预测样本进行分类，输出预测结果。

最后，我们可以对模型进行评估。

常用的评估指标包括准确率、召回率、F1值等。

这些指标可以帮助我们评估模型的性能，并做出进一步的改进。

基于最大熵的情感倾向研究

２０１３年第０５期

科技强向导
◇ 高教论述◇
基于最大熵的情感倾向研究
（上海Ｓ－ｒ￣学韩卓中国上海２０００９３）
【摘要】随着电子商务的迅速发展，网络上涌现了许多购物网站和产品论坛，这些购物网站和产品论坛为消费者提供了发表评论的平台。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。本文利用最大熵方法对网络产品评论的情感倾向进行识别．通过实验表明最大熵方法是一种非常有前途的文本分类方法。
如果没有其他任何先验知识，根据滴的性质，式（３）得到最大值的０．引言随着电子商务的迅速发展．近年来．自有服装品牌、网站销售的购条件是：物模式得到了越来越多顾客的认可．如凡客诚品、梦芭莎等，因为是自ｐ（ａＩｂ）＝（４）有品牌，所以这些购物网站的商品质量相对统一。越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信因为∑ｐ（ａｌｂ）＝ｌ息通过互联网上的产品评论．消费者可以了解其他用户对产品的态度但是，尽管训练语料中不能给出所有二元组（ａ，ｂ）的概率值，但能倾向．从而做出更好的购买决策．对于销售商和生产商．可以及时获得或某些概率需要满足的条件即问题变用户对其产品和服务的反馈．了解用户对自己和对竞争对手的评价．从够给出部分二元组的概率值．而改进产品．改善服务，获得竞争优势。因此．作为非结构化信息挖掘的成求部分信息下的最大滴或满足一定约束的最优解如何表示这些部分信息呢研究者引人了特征函数的概念ｆ有时简个新兴领域．产品评论的情感倾向研究引起了人们极大的兴趣【ｌＪ称为特征）．特征函数一般情况下是一个二值函数他６）一［０，１１，例如对１．最大熵模型于上述的文本分类问题，我们可以定义特征函数为：最大嫡模型是用来进行概率估计的：假设是某个事件．ｂ是事件ａｆ１，（ａ＝事类）＾（ｂ＝飞机）发生的环境（或称上下文），我们想知道ａ和ｂ的联合概率，记为ｐａ，ｂ）。，＿０Ｊ＝｛０ｏｔｈｅｒｓｉｚｅ更一般地．设所有可能发生的事件组成的集合为Ａ．所有环境组成的集合为Ｂ，我们想知道，对于任意给定的ａ ∈ Ａｂ ∈ Ｂ，概率ｐ（ａ＇ｂ）是多少？对于特征函数关，它相对于经验概率分布ｐ（ａ，ｂ）的期望值为我们把这个问题放到自然语言处理的领域来讨论．对于文本分类 ∑ （（６）（５）问题．一个文档分到某个类别可以看成一个事件．文档中出现的词可以看成这个事件发生的环境．我们想知道包含词ｂ的文档属于某一类特征函数相对于模型Ｐ６）的期望值为ａ的概率。很容易想到的方法是通过训练语料进行统计。给定一个训

中文文本情感分析综述

篇章级的情感分析是指将文本从整体上区分为褒义、贬义或中性。谭松波等人［16］使用中文分词及词性标注工具
ICTCLAS 解析并标注中文文本，分别采用文本频率、CHI 统计量、互信息、信息增益四种特征选择方法，以中心向量法、K 近邻、Winnow、朴素贝叶斯和支持向量机作为不同的文本分类方法，在不同的特征数量和不同规模的训练集情况下进行了实验，并对实验结果进行了比较。对比结果表明：采用文档频率特征表示方法优于其他特征选择方法和支持向量机分类方法优于其他分类方法。在足够大训练集和选择适当数量特征的情况下，文本的情感倾向分类能取得较好的效果。但是文本的主题不同对分类的结果有影响。孟凡博等人［17］设计并实现了一个基于关键词模板的文本褒贬倾向判定系统。该系统定义Байду номын сангаас关键词类别、建立了关键词库、关键词模板库，并设计了模板匹配算法和文本褒贬倾向值算法，对测试文本进行关键词及模板匹配进而判断测试文本的褒贬倾向。李寿山等人［18］具体研究四种不同的分类方法在中文情感分类上的应用，并且采用一种基于 Stacking 的组合分类方法，用以组合不同的分类方法。实验结果表明该组合方法在所有领域都能够获得比最好基分类方法更好的分类效果。
文本情感分析是指对包含用户表示的观点、喜好、情感等的主观性文本进行检测、分析以及挖掘。文本情感倾向分析作为一个多学科交叉的研究领域，涉及包括自然语言处理、计算语言学、信息检索、机器学习、人工智能等多个领域。文献［1 － 3］对文本情感分析的目的、主要任务以及主流技术做了简要的介绍，但主要是介绍针对英文的文本情感分析，对中文文本情感分析并没有重点介绍。本文主要介绍针对中文文本情感分析的主流方法与研究进展。

最大熵模型(matlab应用)

04
最大熵模型的优化
正则化技术
L1正则化
也称为Lasso正则化，通过在损失函数中添加权重向量的L1范数，使得权重向量中的某些元素变为零，从而实现特征选择。
L2正则化
也称为Ridge正则化，通过在损失函数中添加权重向量的L2范数，使得权重向量的所有元素都变小，从而防止过拟合。
特征选择优化
基于互信息的特征选择
金融领域
最大熵模型在金融领域中可用于风险评估、股票预测和信用评分等任务。
02
最大熵模型的建立
特征选择
特征选择
在建立最大熵模型之前，需要选择与目标变量相关的特征。通过特征选择，可以去除无关或冗余的特征，提高模型的精度和泛化能力。
特征选择方法
常见的特征选择方法包括基于统计的方法、基于信息论的方法、基于模型的方法等。在Matlab中，可以使用如 fitcdiscr等函数进行特征选择。
图像识别
总结词
详细描述
最大熵模型在图像识别中也有着重要的应用，尤其在处理复杂图像时表现出色。
最大熵模型可以用于图像分类、目标检测和人脸识别等任务。通过训练最大熵模型，可以学习到图像的特征，并根据这些特征对图像进行分类或检测目标。最大熵模型在处理复杂图像时具有较好的鲁棒性，能够有效地处理噪声和光照变化等因素。
它基于信息论中的熵概念，熵表示随机变量的不确定
性或混乱程度。
03
在统计推断和机器学习中，最大熵原理常用于模型选
择和特征提取。
最大熵模型的定义
01
最大熵模型是一种基于最大熵原理的概率模型，它通过最大化熵值来选择概率分布。
02
在形式上，最大熵模型通常表示为一系列约束条件下的优化问

基于XGBoost算法的电商评论文本情感识别模型

基于XGBoost算法的电商评论文本情感识别模型作者：苏兵杰周亦鹏梁勋鸽来源：《物联网技术》2018年第01期摘要：由于电子商务网站上商品评论数量激增，对商品评论信息进行数据挖掘和情感分析显得尤为重要。

文中立足于电子商务平台上生鲜产品的评论文本，将情感识别问题抽象为分类问题，结合TF-IDF和卡方检验方法提取文本特征，利用XGBoost算法训练分类器建立商品评论文本的情感识别模型，将海量的商品评论数据转换为人们需要的信息。

关键词：电子商务；用户评论；XGBoost算法；情感识别中图分类号：TP39 文献标识码：A 文章编号：2095-1302（2018）01-00-040 引言互联网和电子商务的发展，使网络上的商品评论文本数量激增，这些商品评论对购买同种商品的买家具有指导作用。

然而面对数量庞大的商品评论，买家若通过逐个查看的方式获取信息必将耗费大量精力，效果也不好。

同时电子商务平台上的评论分类并不能准确表达已购买用户真正的情感倾向。

在eBay信誉机制研究中Resnick等曾指出，买家由于担心差评会遭到卖家的报复会在评论时选择给出好评[1]，比如2012年轰动一时的“寿衣门”事件。

因此，大量消费者在评论时会再三思虑，造成了许多负面评价隐藏在好评之下。

面对这些问题，迫切需要对评论文本进行情感倾向识别。

文本情感分析实质上是对带有情感色彩的主观性文本进行分析、归纳和处理的过程[2]，吸引着不同领域研究者的广泛关注，比如人工智能、自然语言处理以及数据挖掘等[3-6]，涌现出大量相关的研究工作。

目前在文本情感分析方面最常用的两种方法是基于语义词典和基于机器学习的分类算法 [7]。

基于语义词典的情感计算方法利用通用情感词典或编纂情感词表来进行情感分析。

文献[8]提出合并通用情感词典并利用word2vec工具扩充词典构建酒店领域情感词典，可有效对酒店领域的评论进行情感分析。

文献[9]针对网络在线中文评论的特点，将领域本体和情感词典相结合进行商品评论倾向性分析。

最大熵模型的基本原理及其应用

最大熵模型的基本原理及其应用概述最大熵模型是一种常用的概率建模方法，广泛应用于自然语言处理、信息检索、图像识别等领域。

本文将介绍最大熵模型的基本原理，并探讨其在文本分类和情感分析中的应用。

一、最大熵模型的原理最大熵模型的核心思想是在给定一些已知条件的情况下，选择最平均、最不确定性的模型。

它通过最大化熵来选择概率模型，以保持模型的最大不确定性。

最大熵原理认为，当我们缺乏先验信息时，应该假设所有可能的结果都是等概率的，这样可以避免引入任何决策者的主观偏见。

二、最大熵模型的数学表示最大熵模型的数学表示可以通过最大熵优化问题来描述。

给定一些已知条件，最大熵模型要求找到满足这些条件的概率分布，使得该分布的熵最大。

通过求解最大熵优化问题，可以得到最大熵模型的参数估计。

三、最大熵模型在文本分类中的应用在文本分类任务中，最大熵模型可以用来训练一个分类器，将文本分类到事先定义好的类别中。

最大熵模型通过学习文本特征与类别之间的关系，自动挖掘特征的重要性，并据此进行分类。

最大熵模型的主要优点是能够处理大规模的特征空间和非线性问题，具有很强的表达能力。

四、最大熵模型在情感分析中的应用情感分析是研究文本情感倾向的任务，最大熵模型在情感分析中也具有广泛的应用。

最大熵模型可以学习文本特征与情感倾向之间的关系，从而实现情感分类的功能。

通过训练一个最大熵分类器，可以对文本进行情感分类，判断其是正面还是负面的情感。

最大熵模型在情感分析中的优势在于可以灵活地利用各种特征，并且能够处理多类别情感分类问题。

五、最大熵模型的应用挑战尽管最大熵模型在文本分类和情感分析中有广泛的应用，但也存在一些挑战。

首先，最大熵模型在处理大规模数据时要求计算量较大，需要考虑模型的训练和推断效率。

其次，最大熵模型对特征的表示非常敏感，需要合理选择和设计特征，以提高模型的性能。

此外，最大熵模型的参数估计问题也比较复杂，需要采用合适的算法和技巧来优化模型的参数。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

基于最大熵的情感倾向研究【摘要】随着电子商务的迅速发展，网络上涌现了许多购物网站和产品论坛，这些购物网站和产品论坛为消费者提供了发表评论的平台。

越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。

本文利用最大熵方法对网络产品评论的情感倾向进行识别，通过实验表明最大熵方法是一种非常有前途的文本分类方法。

【关键词】用户评论；文本分类；最大熵模型；情感倾向【Abstract】With the rapidly expand of electronic commerce，it has emerged many shopping websites and the product forum in the net，these shopping websites and the product forums provide specially the platform for the consumers to publish their reviews.More and more people like to browse the user and the media published some product reviews and the report information before making a decision.Maximum entropy model is used to Sentiment Analysis.In experiments，maximum entropy model is a promising technique for sentiment analysis.【Key words】Customer reviews；Test classification；Maximum Entropy Model；Sentiment；Analysis0.引言随着电子商务的迅速发展，近年来，自有服装品牌、网站销售的购物模式得到了越来越多顾客的认可，如凡客诚品、梦芭莎等，因为是自有品牌，所以这些购物网站的商品质量相对统一。

越来越多的人在做出消费决策前喜欢到互联网上参考用户和媒体对某产品的评论和报道信息。

通过互联网上的产品评论，消费者可以了解其他用户对产品的态度倾向，从而做出更好的购买决策，对于销售商和生产商，可以及时获得用户对其产品和服务的反馈，了解用户对自己和对竞争对手的评价，从而改进产品，改善服务，获得竞争优势。

因此，作为非结构化信息挖掘的一个新兴领域，产品评论的情感倾向研究引起了人们极大的兴趣。

[1]1.最大熵模型最大嫡模型是用来进行概率估计的：假设是某个事件，b是事件a 发生的环境（或称上下文），我们想知道a和b的联合概率，记为p（a，b）。

更一般地，设所有可能发生的事件组成的集合为A，所有环境组成的集合为B，我们想知道，对于任意给定的a∈A b∈B，概率p（a，b）是多少？我们把这个问题放到自然语言处理的领域来讨论，对于文本分类问题，一个文档分到某个类别可以看成一个事件，文档中出现的词可以看成这个事件发生的环境，我们想知道包含词b的文档属于某一类a的概率。

很容易想到的方法是通过训练语料进行统计。

给定一个训练集，定义A=（a1，a2，···，am）是文档所属类别集，B=（b1，b2，···，bn）是文档的特征词集，num（ai，bj）为训练集中二元组（ai，bj）出现的次数，那么我们可以使用如下公式进行概率估计：（ai，bj）= （1）这个方法有个很大的问题，即“稀疏事件”（sparse evidence）问题，即便是很大的训练文本，很多二元组仍然没有出现，武断地认为它的概率为0，显然是不可取的。

最大熵模型是这样来解决稀疏事件问题的，它使未知事件的概率分布总是尽可能均匀，即倾向于得到最大嫡[2]。

例如一个军事、政治和科技的3类文本分类问题，我们得知，出现“飞机”这个词的80%的文档属子军事类别，对于“飞机”这个词在其他两类中的分布未知.根据最大嫡原则，如果给定一个包含“飞机”这个词文档，那么认为文档以0.8的概率属于军事类别，分别以0.1的概率属子其他两类；如果文档中不包含“飞机”这个词，那么认为文档分别以相同的1/3的概率属于每一个类.即在符合已知约束的情况下，使未知事件的分布尽可能均匀。

具体来说，根据Shannon[2]的定义，嫡的计算公式如下：H（P）=-p（x）log2p（x）（2）那么，求解满足最大嫡原则的概率分布的公式如下：p*=arg maxH（P）（3）如果没有其他任何先验知识，根据滴的性质，式（3）得到最大值的条件是：p（a|b）= （4）因为p（a|b）=1但是，尽管训练语料中不能给出所有二元组（ai，bj）的概率值，但能够给出部分二元组的概率值，或某些概率需要满足的条件。

即问题变成求部分信息下的最大滴或满足一定约束的最优解。

如何表示这些部分信息呢研究者引人了特征函数的概念（有时简称为特征）.特征函数一般情况下是一个二值函数f（a，b）→[0，1]，例如对于上述的文本分类问题，我们可以定义特征函数为：f（a，b）=1，（a=事类）∧（b=飞机）0 othersize对于特征函数关，它相对于经验概率分布（a，b）的期望值为：Ef=（a，b）f（a，b）（5）特征函数f相对于模型（a|b）的期望值为：Epf=（b）（a|b）f（a，b）（6）我们限制在训练集中，这商个期望值相同，即Epf=Ef （7）我们将式（7）称为约束。

显然，可以定义很多的特征函数，它们之间可以是互不相关的，甚至问题的角度也可以是完全不同的刻问题的力度也可大可小总之，特征函数很灵活地将许多散、零碎的知识组合起来完成同一个任务.给定k 个特征函数f1，f2，···，fk我们可以得到所求概率布的k组约束，Epf=Ef其中，i=1，2，···，k。

现在，我们的何题就变成了满足一组约束条件的最优解问题，即p={p|Epf=Ef，i=1，2，···，k}p*=arg H（p）（9）求解这个最优解的经典方法是拉格朗日乘子算法，本文直接给出结论。

式（9）要求的p*具有下面的形式：p*（a|b）=exp（λifi（a，b）（10）其中，π（b）是规一化因子。

π（b）=exp（λifi（a，b）（11）λi是参数，可以看成特征函数的权值，如果通过在训练集上进行学习，知道了的值，就得到了概率分布函数，完成了最大嫡模型的构造。

设|A|是事件集的大小，k是特征函数的数目，从式（10）我们可以看到塌大嫡模型的时间复杂度是O（k|A|）。

为了构造最大嫡模型，我们必须求出参数λ，文本中我们使用了GIS算法。

设N是训练样本集的大小，|A|是事件集的大小，算法经过P次迭代后收敛，则整个复杂度是O（NP|A）。

2.实验基于网络产品评论的倾向化研究实验，我们选取了凡客诚品购物网。

凡客诚品购物网网是国内著名的拥有自主品牌，网络销售的以服装类销售为主的购物网站，该网站包括数万个款式的服装，数百万个注册用户和数千万条评论数据。

本文选择了包含评论最多的100款服装作为研究对象。

本文实验的结果主要有两个评价指标：召回率和准确率。

召回率是模型正确判断的结果占所有正确结果的比率；准确率是模型正确判断的结果占所有判断结果的比率[3]。

为了综合评价系统的性能，一般还会计算一个F值，即准确率和召回率的加权几何平均值[4]。

以上三个评价指标的计算公式如下：其中，β是召回率和准确率的相对权重，本文取β=1，即认为召回率和准确率同等重要。

主观评论一般分为三类：正面褒扬类、中立类、反面贬斥类，可以根据评论中出现的情感词进行判别[5]。

本文的实验语料为用户对100款服装的评论，从中选出800条评论语句。

本文首先将原始语料进行了处理，为了不破坏评论中情感词的上下文关系，更好地将评论的倾向性看作一个序列，降低数据拟合对实验结果的影响，我们抽取其中的600条评论作为训练集，200条评论作为测试集。

评论的标记情况如表1所示：利用最大熵模型对其中600条标记的评论进行训练，得到一个模板文件，然后根据此模板文件对剩余200条测试语料进行测试，实验结果如表2所示。

从下表可以看出，200条测试评论人工标注的结果为褒扬类100条，贬斥类80条，中立类20条，而模型判断的结果为：褒扬类87条，贬斥类67条，中立类46条。

由于受到客观中立类冗余标记的影响，有些本身带有情感倾向的评论没有被模型正确识别出来，而是误将它们划分到了中立的类别中，同时，有些本身不包含情感倾向的中立类评论被误分到了褒扬或贬斥的类别中[5]。

上表中匹配标记指的是模型判断出的结果与人工标注的结果相一致的标记，也就是指模型判断正确结果的总数。

整体来看，三类标记取得的准确率和召回率不是很高，仅为61.5%，尤其是中立类的准确率不到30%，是因为在训练过程中，模型受客观冗余标记的影响，将一些褒扬或贬斥类的评论误分到了中立类别中，导致模型判断出的中立类结果总数增多，从而降低了其准确率。

3.结论在评论中可能出现了情感词表中未能包含的情感词汇或者是出现了在否定词表和程度副词表中没有包括的否定词和程度副词，因为情感词表是我们人工标注的，由于精力有限，使得情感语料规模有限，这也使得统计不够全面。

对于评论中的一些词汇是否包含情感，是否是情感词汇，只能通过人工才能判断，无论是采用基于规则的，还是基于统计的方法，目前的机器计算都还无法判断出来的[6]。

以上这两方面可能是造成我们的结果精确度不高的原因。

总的来说，取得了不错的准确率和召回率，都达到了60%以上，表明使用最大熵模型做情感倾向研究是很有效的。

【参考文献】[1]姚天昉，娄德成.汉语语句主题语义倾向分析方法的研究.中文信息学报，2007，21（05）：73-79.[2]徐琳宏，林鸿飞，杨志豪.基于语义理解的文本倾向性识别机制阴.中文信息学报，2007，21（1）：96-100.[3]周俊生，戴新宇，尹存燕，陈家骏.自然语言信息抽取中的机器学习方法研究.计算机科学，2005，32（03）：186-190.[4]Adam L.Berger，Stephen A.Della Pjetra，and Vincent J.Della Pjetra .A Maximum EntropyApproach to Natural Language putational Linguistic，1996，22（l）：39-71.[5]姚天防，程希文，徐飞玉等.文本意见挖掘综述[J].中文信息学报，2008，V ol.22（No.3）.[6]许洪波，姚天防，黄营等等.“中文倾向性分析评测技术报告”.北京：第二届中文倾向性分析评测会议（COAE2009），2009.[7]S.Blair-Goldensohn，K.Hannan，R.McDonald，T.Neylon，G.A.Reis，J.Reynar. Building a sentiment summarizer for local service reviews.Proceedings of NLP Challenges in the Information Explosion Era.Beijing：Academic Press，2008：1-9.。