浅谈基于CRFs和领域本体的中文微博评价对象抽取研究

合集下载

基于在线评论特征的领域本体概念获取方法

基于在线评论特征的领域本体概念获取方法

基于在线评论特征的领域本体概念获取方法作者:曹书芳李金海来源:《中国集体经济》2018年第26期摘要:文章对纳入在线评论观点挖掘过程中的领域本体的概念获取方法研究现状进行了分析,发现存在一些不足,之后基于这些不足与在线评论的特点,提出了基于领域划分与观点五元组的领域本体概念获取方法。

关键词:在线评论;观点挖掘;本体构建;概念获取一、研究背景在线评论指消费者通过互联网提交的有关产品或者公司的评论信息,是网络口碑的重要来源。

不少学者尝试从在线评论中自动提取有用信息,并逐渐形成了观点挖掘方法体系,即从带有情感色彩的主观性文本中抽取用户对话题、产品、个人、组织和服务等的情绪、意见、喜好、情感倾向。

观点挖掘主要任务有产品特征识别、情感识别、情感计算与汇总。

最初学者采用基于统计、机器学习、词典等方法,但由于语义描述模块的缺失,存在一定局限,如韩忠明等(2017)提出句子中观点内容指向的是具有层次关系或者从属关系的对象,因此需要能够自动识别对象间层次关系的方法来帮助提高整个模型的有效性。

基于此,随着本体理论的发展,国内外学者开始尝试将本体引入观点挖掘过程,主要原理是利用领域本体对特征等概念间的关系进行描述,从而实现模型效果的提升。

如王付国(2014)基于对象本体与情感本体实现本体推理,设计了一个基于领域本体的网络评论观点挖掘模型。

随着研究的深入,少量学者对领域本体的构建进行了研究,普遍认为首要步骤就是领域概念的获取。

本文重点关系领域本体概念获取的方法,分析现有成果与不足,并构建了改善的方法。

二、领域本体相关理论技术(一)领域本体的概念本体是共享概念模型的明确的形式化规范说明,领域本体(domain ontology)是指对一定领域范围内的概念进行描述的本体,它通过定义类、实例、属性、关系、公理等元素,刻画出领域中的类和实例及其之间的关系,对领域知识进行归纳和抽象。

一个本体需要满足四个基本特征。

1.概念化。

指通过对客观世界中的具体现象进行抽象归纳出的相关概念而获得的模型。

基于本体的微博客用户行为模型研究

基于本体的微博客用户行为模型研究
客 的研 究 方 法 与 模 型 层 出 不 穷 . si B l r 基 于 J h 和 es e o a
博 客 研 究 的 聚焦 逐 渐 转 向 了微 博 客 ,使 得 微 博 客 研 究 成 为 学 术 界 的 一 个 研 究 新 课 题 . 博 客 自 20 微 0 6年
推 出以来 , 政界 、 在 信息界等领域便产 生 了极大 的影 响与作用 , 着对微博 客的使用与研究持续 升温 , 随 国
基 于 博 主 对 电影 的评 论 数 据 。提 出 了预 测 电影 票 房
出了一个新 的信息 检索框架 ,有效地解决 了微博信 息量大 , 以提炼有用信息等 问题 ( 难 8 ] . 随着 微 博 客 的 不 断 发 展 ,企 业 用 户 数 量 不 断 提 升, 包含 的信 息量越来越 大 , 如何从繁杂 的数据 中提 取 有 用 的 信 息 , 而 提 高 Mi o bo 从 c — lg的商 业 价 值 , r 成
中 图 分 类 号 : P3 9 T 9 文献 标识 码 : A 文 章 编 号 :6 2—4 2 2 1 )2一o 2 17 0 X(0 0 0 0 7一o 4
0引 言
博 客( o) 一 种新 型 的具有 开 放 性 的互 联 网 bg l 是 应 用 , 早 出现 于美 国 ,0 2年 进 人 中 国 , 用 户 数 最 20 其 近 几 年 迅 速 发 展 . 文 是 一 个 巨 大 的 知 识 库 , 知 识 博 其 覆 盖 面 大 、 时 性 强 . 何 从 博 客 中 获 取 知 识 , 为 实 如 成 国 内外 信 息 管 理 领 域 一 个 热 点 课 题 . 国外 , 于 博 在 关
内外 相 继 出现 了对 微 博 客 的相 关 理 论 与 应 用 研 究 成 果 . ne J sn等 人 基 于 分 类 技 术 的研 究 结 果 发 现 ,0 a 8 % 的微 博 都 是 信 息 搜 索 或共 享 ,而 近 2 %包 含 了博 主 0 个 人 的情 感 表 述 [.ao 引A rn等 人 基 于 信 息 扩 散 原 理 , 提

评价对象、短语、搭配关系抽取及倾向性判断

评价对象、短语、搭配关系抽取及倾向性判断

评价对象、短语、搭配关系抽取及倾向性判断朱圣代【期刊名称】《电脑知识与技术》【年(卷),期】2013(000)009【摘要】观点挖掘近年来已经成为自然语言处理领域的热点问题,该文对观点挖掘的几项关键技术—评价对象、评价短语、主观性关系抽取、倾向性判断进行了研究.在评价对象抽取阶段,通过统计得到所有的名词和名词短语作为候选,然后结合词频,词共现等特征进行过滤得到最终的评价对象;在评价短语抽取阶段,使用基于观点词词典的匹配方法,并把观点词前面的副词也作为评价短语的一部分;在搭配关系抽取阶段,目的是抽取评价对象和评价短语的关联关系,采取的方法是将在句中距离评级对象最近的评价短语作为该短语的评级短语;在情感倾向分析阶段,通过将情感句进行分类,然后制定规则进行无监督的倾向性判断.%@@@@Abstact: In recent years, opinion mining has become a hot issue in natural language processing field. This paper carries out a re?search on several key technologies of opinion mining, such as the object of evaluation, evaluation phrases, subjective relationship extraction and orientation judgment. In the phase of evaluating objects, all the nouns and noun phrases collected through statistics are regarded as candidates and then we associate them with word frequency and co-occurrence to filtrate and finally gets the ob?ject of evaluation. In the phase of evaluation phrases extraction, the writher applies a matching methodology which is based on af?fection and takes the adverbs which precede the affective words as apart of evaluating phrases. The goal in the phase of subjective relationship extraction is to extract the incidence relation between evaluation object and evaluation phrases and the solution that we have adopted is to take the evaluation phrase which is close to the evaluation object as rating phrases. In the phase of orienta?tion judgment, we classify the affective sentences and then develop rules for non-supervised orientation judgment .【总页数】2页(P2044-2045)【作者】朱圣代【作者单位】杭州电子科技大学计算机学院云计算实验室,浙江杭州310018【正文语种】中文【中图分类】TP311【相关文献】1.认知语义学视角下短语动词的搭配机制——以带"up"的短语动词为例 [J], 梁庆2.网络信息中评价搭配识别及倾向性判断 [J], 汝承森;饶岚;王挺3.评价对象及其倾向性的抽取和判别 [J], 顾正甲;姚天昉4.评价对象抽取及其倾向性分析 [J], 刘鸿宇;赵妍妍;秦兵;刘挺5.基于短语成分表示的中文关系抽取 [J], 刘娜娜; 程婧; 闵可锐; 康昱; 王新; 周扬帆因版权原因,仅展示原文概要,查看原文内容请购买。

实体—属性抽取的GRU+CRF方法

实体—属性抽取的GRU+CRF方法

中的实体、 关系以及事件等内容[1] 。 ACE 的目标是发展包 括自动识别和标识文本在内的自动内容抽取技术, 以支持 对语料库的自动处理[2] 。
本文研究的实体是文本中描述的对象, 或者说是文本 中包含的特定事实信息, 例如产品评论中的产品、 服务、 商家等。 与此对应, 属性是描述产品或服务的特定属性的 特征, 例如, 属性的一些示例是品牌、 颜色、 材料、 包装、
Entity-Attribute Extraction with GRU+CRF Method
Wang Renwu Meng Xianru Kong Qi ( Department of Information Management, Faculty of Economics and Management,
〔 关键词〕 实体属性抽取; GRU; 循环神经网络; 条件随机场; 命名实体识别
DOI:10.3969 / j.issn.1008-0821.2018.10.009 〔 中图分类号〕 TP391������ 1 〔 文献标识码〕 A 〔 文章编号〕 1008-0821 (2018) 10-0057-08
〔 摘 要〕 [ 目的 / 意义] 研究利用深度学习的循环神经网络 GRU 结合条件随机场 CRF 对标注的中文文本序列进行预测, 来抽取在线评论文本中的实体—属性。 [ 方法 / 过程] 首先根据设计好的文本序列标注规范, 对评论语料分词后进行实体及其属 性的命名实体标注, 得到单词序列、 词性序列和标注序列; 然后将单词序列、 词性序列转为分布式词向量表示并用于 GRU 循环 神经网络的输入; 最后输出层采用条件随机场 CRF, 输出标签即是实体或属性。 [ 结果 / 结论] 实验结果表明, 本文的方法将实 体—属性抽取简化为命名实体标注, 并利用深度学习的 GRU 捕获输入数据的上下文语义以及条件随机场 CRF 获取输出标签的 前后关系, 比传统的基于规则或一般的机器学习方法具有较大的应用优势。

评价对象及其倾向性的抽取和判别

评价对象及其倾向性的抽取和判别
第2 6卷 第4期 2 0 1 2年7月
中文信息学报 J OUR NA L O F CH I N E S E I N F O RMAT I ON P R O C E S S I NG Байду номын сангаас
V o l . 2 6,N o . 4 , 2 0 1 2 J u l .
( ) 文章编号 : 1 0 0 3 0 0 7 7 2 0 1 2 0 4 0 0 9 1 0 7 - - -
我们称此类文本为意见型主观性 义成分 的 语 句 ,
1 引言
主观性文本是相对于客观性文本而言的一种自 然语言文本表 达 形 式 。 它 主 要 描 述 了 作 者 对 事 物 、 事件 、 人物等的组织 、 个人或群体的想法或看法 。 这 类文本通常出现在 互 联 网 ( 如 论 坛、 电 子 公 告、 购物 网站的评论板块 ) 报刊( 如 读 者 意 见) 等 媒 体 上。 其 中, 在文本中包含有表达意见的语句 , 即具有褒贬意
通过观察31节中的第二类情感动词有时候名词也会有明显的情感倾向性并且当句时可以发现这类既带有褒义极性词又带贬义极名词的褒贬程度较高时就容易出现本章开始处提性词的子句中往往都会有如但而却之类的到的名词形容词化的现象如很艺术很败转折连词它们在语句中起到转换语气和转折语义的作用否则整个子句的语义倾向性是不变的
( , , ; 1. S c h o o l o f S o f t w a r e S h a n h a i J i a o T o n U n i v e r s i t S h a n h a i 2 0 0 2 4 0, C h i n a g g y g , , ) 2. D e a r t m e n t o f C o m u t e r S c i e n c e a n d E n i n e e r i n S h a n h a i J i a o T o n U n i v e r s i t S h a n h a i 2 0 0 2 4 0, C h i n a p p g g g g y g : A b s t r a c t O i n i o n m i n i n b a s e d o n t h e s u b e c t i v e t e x t i s a l a n u a e t e c h n o l o w i d e l u s e d i n v a r i o u s f i e l d s .T h i s p g j g g g y y , ,A s t u d i e s o n t h e e v a l u a t i o n m o r h e m e e m l o i n S B V t r a n s f e r a l o r i t h m, a n a h o r a r e s o l u t i o n T T a e r o l a r i t p p y g g p p p p y c h a i n a l o r i t h m a n d m u t u a l i n f o r m a t i o n a l o r i t h m t o e x t r a c t e v a l u a t e d o b e c t s f r o m c o r u s r e s u l t s o f L T P. D i f f e r e n t g g j p o f s e n t e n c e s a r e t a k e n i n t o c o n s i d e r a t i o n t o i d e n t i f t h e o r i e n t a t i o n o f s e n t i m e n t w o r d s . T h e e f f e c t s o f a d v e r b t e s y y p , , ” , a n d c o n u n c t i o n e s e c i a l l t h e n o r m a l a d v e r b n e a t i v e a d v e r b a n d a d v e r b“ T a i a r e d i s c u s s e d i n d e t a i l . F i n a l l a n j p y g y , , r e s e n t e d s o l u t i o n i s w i t h l o w a l o r i t h m c o m l e x i t c l e a r s t r u c t u r e a n d e a s t o u n d e r s t a n d .H o w e v e r d u e o v e r a l l p g p y y , a t t e r n r o o s e d t o t h e a d o t i o n o f b a s i c s n t a c t i c a n a l s i s a n d e x e r i e n c e b a s e d l a n u a e t h e s o l u t i o n i s d e e n d e n t p y y p - g g p p p p s n t a c t i c a n a l s i s r e s u l t s . o n y y : ; ; K e w o r d s e v a l u a t e d o b e c t o r i e n t a t i o n S B V o l a r i t t r a n s f e r a l o r i t h m; a n a h o r a r e s o l u t i o n j p y g p y

基于机器学习的中文关系抽取技术研究与应用

基于机器学习的中文关系抽取技术研究与应用

基于机器学习的中文关系抽取技术研究与应用中文关系抽取技术是自然语言处理中的一个热门研究领域,它涉及的内容非常广泛,从中文句子的语义理解到文本分类、信息抽取等方面。

本文将重点讨论基于机器学习的中文关系抽取技术的研究与应用。

一、什么是中文关系抽取技术中文关系抽取技术是指通过机器学习算法,从中文文本中自动识别和提取实体之间的关系,可以有效地用于自然语言处理、信息检索、情感分析等多个领域。

例如,在金融领域,可以通过对新闻报道的分析,提取公司的财务信息和市场状况等关系,从而实现风险预警和投资决策。

在医疗领域,可以通过对医学论文的分析,提取疾病和药物之间的关系,从而实现药物研发和治疗方案的优化。

二、中文关系抽取技术的研究中文关系抽取技术的研究主要涉及以下三个方面:1. 特征提取特征提取是中文关系抽取技术中的重要环节,它通过将文本转化为计算机可以处理的向量形式,提取有用的特征信息,从而实现关系抽取。

常用的特征包括实体的词性、句法结构、依存关系等。

此外,还可以使用词嵌入技术,将单词映射到高维空间中的向量表示,从而更好地捕捉文本的语义信息。

2. 关系分类关系分类是中文关系抽取技术中的核心问题,它通过对提取的特征信息进行分类,实现对实体之间关系的判定。

常用的分类器包括决策树、支持向量机、神经网络等。

近年来,深度学习技术的发展为关系分类提供了更加有效的解决方案。

例如,卷积神经网络(CNN)可以自动从文本中学习到关系分类的特征表示,深度注意力模型(DAN)可以更好地捕捉实体之间的局部和全局依存关系。

3. 数据集建立数据集建立是中文关系抽取技术中的关键问题,它决定了关系分类模型的性能和泛化能力。

通常情况下,为了训练一个准确的关系分类模型,需要大量的标注数据。

目前,已经有一些中文关系抽取数据集被公开发布,例如Semeval2010、DuIE、LCQMC等。

此外,还可以利用人工或自动标注的方法,构建新的关系抽取数据集。

三、中文关系抽取技术的应用中文关系抽取技术已经在各个领域得到了广泛的应用,以下列举几个典型的应用场景:1. 金融领域在金融领域,中文关系抽取技术可以应用于股票市场预测、投资决策等方面。

基于LDA主题模型的评价对象抽取

基于LDA主题模型的评价对象抽取何甜;解建军【摘要】评价对象抽取是自然语言处理中情感分析研究领域的一项重要任务.本文研究基于LDA进行中文评价对象的抽取问题.利用中文倾向性评测中任务3的Digital语料进行相关实验.首先对语料进行分词,词性标注以及去除干扰内容等预操作,然后利用LDA主题模型进行处理,最后对抽取的评价对象进行分析.数据结果表明,将LDA方法运用到评价对象抽取问题具有一定的研究和实用价值.【期刊名称】《电脑与信息技术》【年(卷),期】2017(025)002【总页数】3页(P11-13)【关键词】潜在狄利克雷分配;评价对象;情感分析;主题模型【作者】何甜;解建军【作者单位】河北师范大学数学与信息科学学院计算机科学与技术系,河北石家庄050024;河北师范大学数学与信息科学学院计算机科学与技术系,河北石家庄050024【正文语种】中文【中图分类】TP301随着互联网和移动网络的迅猛发展,各种网络应用层出不穷,极大地激发了人们对Web的参与热情,人们开始在互联网上发表自己对事物的观点或评论。

利用现有技术可以高效快捷地获取这些主观认识的文本信息,如何从这些文本中抽取发表者的意见和观点再加以正确运用就成为了研究焦点。

文本情感分析是对用户带有情感色彩的主观性文本进行分析、处理、归纳和推理的计算过程[1]。

情感分析在很多领域都有实际用途。

如网上电子购物,作为买家,通常都要先看一下以往客户对该商家和所购商品的评价,来决定自己的购买意向;作为卖家,需要及时从评论信息中获取用户对商品和自身服务质量的反馈。

当网上出现热点人物或事件时,及时地进行情感分析,可以预测由这些热点人物或事件的发展态势,从而可以进行正确的防范与准备。

情感分析包括很多极具挑战性的任务,如情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[1]。

评价对象抽取是情感信息抽取的基本任务,是细粒度级别的情感分析。

评价对象也称为意见目标,一般是指主观性文本所意指的评论主体,如,“衣服颜色很漂亮!”,评价对象或意见目标就是“衣服颜色”或“颜色”,对它的评价词为“漂亮”,评价词的极性为正,即褒义。

基于改进BiLSTM-CRF模型的网络安全知识图谱构建

现代电子技术Modern Electronics TechniqueMar. 2024Vol. 47 No. 62024年3月15日第47卷第6期0 引 言随着互联网技术的发展,企业的网络资产比重逐渐增大。

根据2022年中国互联网发展报告[1]显示,来自网络空间的安全威胁愈发严重,经济财产损失风险逐年攀升。

前沿网络安全防控智能化技术更注重于从全维度、多视角的方面来感知网络空间威胁,而挖掘企业各类网络攻击的关联性、策略、后果等要素能够有效地提升企业对网络安全运维管理的效率[2]。

知识图谱(Knowledge Graph, KG )通过在特定领域海量数据中抽取的知识构建领域知识图谱,数据规模、特殊语义关系使其实用性变得更强[3]。

目前,企业内的网络空间中所存在的威胁知识大部分没有形成很好的知识组织,在面向企业的网络安全运维的场景下,缺少能够有效涵盖网络空间威胁信息、反映企业网络安全态势以及支撑辅助安全决策的知识图谱;开源的漏洞信息库和威胁信息库等大多都是半结构化知识,而企业日常的网络安全运维数据中又包含大量的结构化和非结构化的报告,这些异构数据难以被企业直接利用来进行网络空间的防护。

知识图谱能够有效地整合这些存在潜在联系的网络安全运维相关知识,将离散的多源异构数据通过基于深度学习的信息提取模DOI :10.16652/j.issn.1004‐373x.2024.06.003引用格式:黄智勇,余雅宁,林仁明,等.基于改进BiLSTM‐CRF 模型的网络安全知识图谱构建[J].现代电子技术,2024,47(6):15‐21.基于改进BiLSTM⁃CRF 模型的网络安全知识图谱构建黄智勇1,2, 余雅宁1, 林仁明2, 黄 鑫1, 张凤荔1(1.电子科技大学 信息与软件工程学院, 四川 成都 610054; 2.四川省市场监督管理局数据应用中心, 四川 成都 610066)摘 要: 针对网络安全领域的图谱构建任务,基于BiLSTM‐CRF 模型引入了外部网络安全词典来加强网络安全文本的特征,并结合多头注意力机制提取多层特征,最终在网络安全数据集取得了更优异的结果。

深度学习技术下的中文微博情感的分析与研究

深度学习技术下的中文微博情感的分析与研究刘艳梅【摘要】Micro-blog sentiment analysis is to find the user’s view for some hot events. The existing researches cost expensive manual annotation, such as SVM, CRF and other traditional algorithms. This paper purposed a new technique solution by sentiment analysis and deep learning. Namely, it crawled some data from Micro-blog, and then after corpus pretreatment, as input sample of CNN, it built classifier based on SVM/RNN. Finally, the paper judged emotional ori-entations of each sentence. Verified by example, validation result is good.%微博情感分析主要在于发现用户对某种热点事件的观点和态度,已有的研究,诸如SVM、CRF等传统算法,付出了昂贵的手工标注的代价。

本文在研究情感分析、深度学习等技术的基础上,提出了一种新的技术方案:即通过网络爬虫技术从微博上抓取部分数据,经过词料预处理后,作为卷积神经网络的输入样本,并基于 SVM/RNN 构建分类器。

最后在给定的测试集中判断每个句子的情感倾向性,实验结果良好。

【期刊名称】《软件》【年(卷),期】2016(037)005【总页数】3页(P22-24)【关键词】微博情感分析;深度学习;卷积神经网络;分类器【作者】刘艳梅【作者单位】武汉设计工程学院信息工程学院,武汉430205【正文语种】中文【中图分类】TP181本文著录格式:刘艳梅.深度学习技术下的中文微博情感的分析与研究[J].软件,2016,37(5):22-24随着移动互联网的发展,社交应用也进入到新的阶段,借助LBS、兴趣、通讯录等功能,以解决用户沟通、分享、服务、娱乐等为立足点,满足用户不同场景下需求。

基于情感分析的微博用户情感评价模型研究

基于情感分析的微博用户情感评价模型研究随着社交媒体的日益普及,越来越多的人开始在微博上分享他们的想法和情感,这也使得微博的数据变得越来越丰富和有价值。

在这样的背景下,情感分析技术的应用也越来越广泛。

本文旨在探讨基于情感分析的微博用户情感评价模型研究。

一、情感分析简介情感分析,也称为意见挖掘,其基本思想是从文本中挖掘出作者的情感倾向。

在数据挖掘领域,情感分析被广泛应用于舆情监测、产品推广、营销策略等方面。

情感分析技术可以分为两类:基于规则的情感分析和基于机器学习的情感分析。

基于规则的情感分析是一种基于规则和词典的方法,它的主要思想是通过构建一个情感词典,根据文本中出现的情感词汇的数量和种类来判断文本的情感极性;而基于机器学习的情感分析则是通过利用机器学习算法从已标注的语料库中学习情感特征,来判断文本的情感极性。

二、微博用户情感评价模型研究基于情感分析的微博用户情感评价模型研究旨在通过情感识别技术,对微博用户的情感进行评价。

一般来说,情感评价模型主要包括如下几个方面:1.情感词典构建情感词典是基于规则的情感分析的核心。

对于情感分析而言,情感词典的优劣对分析结果影响很大。

为构建一个准确可靠的情感词典,一般采用以下方法:(1)手动标注手动标注是一种精度较高但工作量较大的情感词典构建方法。

通过专业人员或众包方式标注一部分文本中的情感词汇,并在此基础上建立情感词典。

(2)自动标注基于机器学习的自动标注方法可以将以前标记了情感情况的文本作为标准,再用该标准为训练集对情感进行标注,最终构建一个情感词典。

这种方法虽然准确性无法保证,但是工作量较小,能够满足一定范围内的情感分析需求。

2.情感极性分析情感极性分析是情感分析的核心任务之一。

情感极性分析主要通过判断文本中出现的情感词汇的数量和种类,进而判断文本的情感极性。

其中,情感极性可以分为正面、中性和负面三种类型。

对于微博用户的情感分析,在情感极性分析方面,一般采用基于机器学习的情感分析方法。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

浅谈基于CRFs和领域本体的中文微博评价对象抽取研究1 引言微博(Microblogs)作为一种基于用户关系的信息分享、传播以及获取的平台,是网民发表对热点事件或话题看法的主要载体。

通过微博的情感分析,可以得到用户对事物的喜好、情感、态度等,及时了解群众对热点话题的看法,帮助政府机构掌握突发事件后的社会群体心理,实现突发事件预警以及舆情监控;还可以作为企业进行市场分析、客户管理、产品升级时的重要依据。

由此可见,微博情感分析研究具有重要理论与应用价值。

评价对象抽取是微博情感分析研究的重要任务之一,旨在抽取出微博中的结构化信息,如评价对象、属性等。

开展微博评价对象的抽取研究将有助于为上层情感分析任务提供服务,为深层次的微博评论信息挖掘提供支持。

传统的评价对象抽取都是针对长文本,而微博作为一种短文本,对其进行评价对象抽取面临的主要难点有:(1)微博评论信息都在140字以内,其关键词词频低,导致无法使用现有文本处理中常用的特征提取算法进行特征选择与计算;(2)微博作为一种即时信息发布工具,其内容中存在大量的同音词、同义词,导致微博评论信息的表示不够准确,影响评价对象抽取的结果;(3)微博用户发布的内容比较随意,导致网络新词不断涌现,能否准确地识别新词也会影响特征提取的准确性。

为了提高中文微博评价对象抽取的准确率,本文研究了微博评论本体的构建方法,借助本体的形式化描述和定义来更加准确地表示微博评论信息,深入分析中文微博的特点,尝试从词、词性、情感词以及本体四个方面选择特征,采用CRFs模型对评价对象进行抽取。

2 相关工作2.1 评价对象抽取方法概述当前关于评价对象的抽取研究一般有三种方法:(1)基于规则/模板的方法;(2)基于自然语言处理的方法;(3)基于机器学习模型的方法。

基于规则/模板的方法主要是由专家归纳总结出抽取规则,构建规则库,借助于模式匹配的方式来抽取出评价对象,该方法虽易于理解,但是无法保证规则库的完整,并且系统移植性差;基于自然语言处理的方法主要是通过语法分析、语义角色标注等来解析句子的构成,抽取评价对象,该方法适合处理语义清晰、成分完整的句子,对于处理成分缺失或者长度偏长的文本存在问题;基于机器学习模型的方法则是通过建立统计模型来进行评价对象的抽取,依照模型的自动化程度可以分为有监督的机器学习、半/无监督的机器学习。

有监督的机器学习模型需要标注好的训练语料,评价对象抽取准确率高、泛化能力好;半/无监督的机器学习模型需要较少的训练语料或者无需训练语料,通过聚类、繁殖等方式实现评价对象的抽取,虽然不需要大量的训练语料,但相对于有监督的机器学习模型来说,准确率比较低。

2.2 CRFs模型在评价对象抽取中的相关工作目前,评价对象抽取的研究工作中经常使用的是条件随机场模型。

条件随机场(Conditional Random Fields,CRFs)最早是由Lafferty 等人于2001年提出来的,其思想主要来源于最大熵模型。

我们可以将条件随机场看成是一个无向图模型或马尔科夫随机场,可以用来进行标记和切分序列化数据。

CRFs模型是在给定需要标记的观察序列的条件下,计算整个标记的联合概率,而不是在给定当前状态的条件下,定义下一个状态的分布。

其不同于产生式模型,它可以使用丰富的、彼此重叠的观察序列的特征,而且不需要很严格的前提假设;同时,不同于最大熵马尔可夫模型等概率模型,不对单个标记归一化,而是在整个观测序列求解一个最优的标记序列,避免了标记偏置问题。

因此,条件随机场模型非常适用于中文命名实体识别等任务。

由于评论对象抽取与命名实体识别具有相似性,也可将评价对象抽取看作是对中文序列中的每个词选择正确的评论对象标记的过程,越来越多的研究者借助于CRFs模型来进行评价对象抽取研究。

目前关于CRFs模型在评价对象抽取方面的研究主要分为两个方面:1)不同特征的选择;2)CRFs模型的优化。

基于CRFs模型的评价对象抽取的主要思路是将评价对象抽取看成是序列标注问题,以条件随机场为学习模型进行训练。

相关工作如下:Lafferty J和McCallum A等在2001年首先提出了将条件随机场模型应用于对序列化数据集进行切分和标记的研究工作。

Jakob等采用CRFs学习词、词性和句法的依赖关系、最近名词和句子倾向性特征进行评价对象的抽取,并对英文条件下各特征的效用进行了分析;徐冰等选择了词、词性、上下文特征、位置特征和浅层句法特征,并借助于CRFs模型进行评价对象抽取,并将方法运用到COAE2008的评价对象抽取任务中,之后又采用了N-gram、词性和词典特征进行评价对象的抽取,并将该方法运用到在COAE2009任务4中;王中卿等考虑了词、词性、依存关系等特征,借助CRFs模型对评价对象抽取结果F值在COAE2011评价搭配的抽取任务中排名第一;张莉等利用规则抽取句子的核心句,分析句子的句法结构后采用CRFs结合词、词性和句法结构特征抽取出句子的评价对象,但并未对缺失评价对象的观点句进行处理;王荣洋等通过条件随机场模型,研究多种特征在评价对象抽取任务中的表现,并将特征归纳为词法、依存关系、相对位置和语义四大类别;郑敏洁等通过特征对比实验验证了结合了词、句子倾向性、词性、语法依赖关系、邻近名词等特征的条件随机场方法对于中文句子评价对象的抽取更有效;之后又提出了一种基于层叠CRFs的中文句子评价抽取方法,该方法通过低层条件随机场获得候选评价对象集,然后通过降噪模型对噪声进行过滤、补充模型对缺失的候选评价对象进行补充、合并模型对复合短语候选评价对象进行合并,最后由高层模型抽取出评价对象。

从现有研究中可以看出,特征选择对于评价对象抽取的结果有很大的影响,如何选择有效的特征也成为研究的热点和难点。

本文在现有研究的基础上,结合CRFs模型在评价对象抽取方面的优势,尝试引入本体特征来提高评价对象抽取的准确率。

2.3 本体本体的经典定义是由Gruber给出的:本体是一种清晰、明确、规范的概念化说明。

领域本体通常给出一个领域内的概念与概念之间关系的描述,它可以将文本信息转化为计算机可理解和处理的知识,建立人与机器间的交流。

本体能够通过定义概念、概念的属性以及概念间的关系、公理和约束等对知识进行语义层次的表示,提供对领域知识的共同理解,确定能够被领域共同认可的术语,并且可以被计算机自动理解和处理。

微博作为一种具有语义特征的信息,其内容中包含了关于评价对象的相关概念、评价对象所具备的属性及属性间可能存在的关系。

首先,借助于本体可以将微博中评论对象及其属性等进行语义层次的表示,更加准确地表达出微博本身的内容及其语义,清晰地体现出用户的观点,有助于微博评价对象的抽取;其次通过构建微博评论信息的本体可以使微博评论信息更加容易被计算机自动理解和识别,有助于更加准确和深入地挖掘微博评论信息。

本文基于课题组前期提出的基于顶层本体的领域本体构建方法,从本体工程方法论的成熟度和领域本体构建的特点出发,借鉴Mike UschoIdKing的骨架法和斯坦福大学的七步法,并融合叙词表和顶层本体(如SUMO)资源,结合中文微博的特点,进行相关领域本体的构建,以支持中文微博评价对象的自动抽取。

该方法是在确定本体领域和范围的基础上,考察复用现有的相关本体,选择本体的词汇来源,借助相关的规范词表和顶层本体对所选择的词汇进行规范化处理;其次,抽象并归纳出本体的核心大类,将核心大类作为本体的顶层类进行扩展细化,进而确定类的等级体系;同时结合中文微博本体构建的应用需求评价对象抽取,分析并定义本体中类间的关系。

在此基础上,定义类的属性来丰富类的内容。

在定义关系和属性的过程中,选择合适的顶层本体直接复用其关系和属性定义或用标准化本体中自定义的关系和属性。

3.方法本文提出基于领域本体和CRFs模型进行中文微博评价对象抽取方法,该方法的具体思路。

评价对象的自动抽取主要包括语料预处理、特征选择与转换、CRFs模型的训练与测试三部分工作,具体描述如下。

(1)语料预处理该部分工作首先对微博语料进行分词及词性标注,准备抽取工作所需要的情感词典和本体,之后引入标注结果标记集,进行特征的选择与转换。

语料分词及词性标注:使用分词软件对语料进行分词及词性标注。

情感词典构建:微博作为社交网站来说,其语言的随意性强,用户表达情感的方式也多种多样。

因此,越来越多的情感词也在不断涌现。

将这些情感词加入到情感词典中,将更加有利于评价对象的抽取。

微博评论本体构建:微博评论作为一种具有语义特征的信息,包含了能够影响用户的重要信息,如评论对象、评论的情感倾向性等,通过构建微博评论本体可以使微博评论信息被计算机自动理解和识别,有助于研究者对微博评论信息的深入分析与研究。

标注结果标记集:本文引入三类标记符号集用于评价对象抽取,L={OBJ,I,O}。

其中OBJ表示评价对象或是评价对象的词开始,I表示评价对象的词内部,O表示非评价对象。

在抽取评价对象时,要求抽取出尽可能完整和明确的对象,例如三星手机的屏幕很棒!应抽取出三星手机的屏幕,所以本文引用I来标记此类被分词软件切分开的词组内部,完整明确地表达评价对象。

(2)特征选择与转换微博作为一种短文本,其内容简短,句子结构可能不完整。

因此本文选择了词、词性、情感和本体四个特征来表示微博,并通过特征选择预实验分析评价对象抽取的结果,选择效果最好的特征组合来完成微博的评价对象抽取。

在特征确定后,依照CRFs模型的特征模板对特征进行转换。

(3)CRFs模型的训练与测试语料准备:将微博语料分为训练语料与测试语料,并将其转换为CRFs 模型所需要的特征模板的格式。

CRFs模型训练:将特征转换后的训练语料输入到CRFs模型中,得到训练后的模型文件。

CRFs模型测试:借助于训练得到的模型文件,对测试语料进行测试,得到评价对象抽取的结果。

4.实验与测评4.1 数据集本文使用COAE2014的评价对象抽取任务Task5所提供的数据集。

在该测评任务中,测评委员会提供了COAE2013中Task4的已标注语料作为训练集,该语料是关于牛奶领域的微博数据,其样本约为2 000条。

COAE2014中Task5的数据集规模约为40 000篇,其中标注样本约为7 000篇,主要包括手机、翡翠、保险三个领域,为防止作弊,加入了33 000篇干扰样本,干扰样本也可能是含有倾向的,而评测只对其中7 000篇进行。

4.2 微博评论本体构建通过对COAE2013以及COAE2014的观点句评价对象抽取语料的分析,该数据集包含了四个领域的微博评论信息,主要包括牛奶、保险、翡翠和手机,本文在课题组之前构建手机领域本体的基础上主要构建了牛奶、保险、翡翠三个领域的本体。

相关文档
最新文档