文本意见挖掘综述

合集下载

文本挖掘技术在新闻媒体中的应用

文本挖掘技术在新闻媒体中的应用

文本挖掘技术在新闻媒体中的应用近年来,随着大数据时代的来临,文本挖掘技术越来越受到广泛的关注和应用。

在新闻媒体领域,文本挖掘技术的应用已经成为了一种趋势,对于新闻媒体的管理、分析和传播起到了至关重要的作用。

一、文本挖掘技术的概述文本挖掘技术,是指对于大量的文本数据进行预处理、文本特征提取、文本分类、文本聚类等数据挖掘技术的应用。

其核心思想是利用计算机自动分析文本数据中的关键信息和规律,通过对文本数据的各种操作和处理,从中提取出有用的信息和知识,以便更好地支持决策和研究工作。

文本挖掘技术的应用主要包括三个方面:信息提取、情感分析和关键词提取。

其中,信息提取是指通过自然语言处理技术对文本数据进行解析,提取出其中的实体和关系,并对这些实体和关系进行分类和统计分析;情感分析是通过对文本中表达情感的词汇和语句进行分析,判断文本作者在表达情感方面的意图和态度;关键词提取是通过算法和统计模型来寻找文本数据中最具代表性和概括性的词汇,以便更好地展示文本的主题和内容。

二、文本挖掘技术在新闻媒体中的应用在新闻报道和编辑工作中,文本挖掘技术的应用已经成为了一种趋势。

这主要体现在如下几个方面。

1. 新闻文本分类利用文本挖掘技术对新闻稿件进行分类和标注。

通过对不同的文本数据进行分类和标注,可以更好地实现新闻数据的归类和管理。

例如,可以将新闻稿件分为不同的主题(如政治、经济、娱乐等),以实现对不同类型新闻的分层管理和传播。

2. 新闻内容分析利用文本挖掘技术对新闻稿件的内容进行分析和统计。

通过对新闻稿件中的信息、事件、人物和主题等内容进行分析和统计,可以更好地了解新闻报道的趋势和引导方向,为新闻传播提供有力的支撑和服务。

3. 新闻事件关系挖掘利用文本挖掘技术对新闻报道中出现的事件和人物关系进行挖掘。

通过建立新闻事件之间的关系图,可以更好地掌握新闻事件的脉络和演变过程,既方便编辑和报道,也方便公众了解相关事件。

4. 新闻模板生成利用文本挖掘技术对新闻稿件和报道进行分析和挖掘,生成新闻稿件模板,通过对不同类型的新闻报道的统计和分析,得出新闻模板,并进行自动生成,以提高新闻报道的效率和质量。

AI辅助下的文本挖掘技术

AI辅助下的文本挖掘技术

AI辅助下的文本挖掘技术近年来,随着人工智能技术的不断发展,AI辅助下的文本挖掘技术已经成为了一个备受关注的话题。

它可以帮助我们从大量的文本数据中抽取有价值的信息,并进行分析和处理,进而支持人们做出更加科学合理的决策。

一、文本挖掘技术的现状文本挖掘技术,顾名思义就是从文本数据中挖掘出有价值的信息。

随着互联网技术的迅速发展,越来越多的文本数据被生成和积累,而这些文本数据可能同时包含了大量的无效信息和重要信息。

因此,如何高效地从这些文本数据中抽取有价值的信息,成为了一个非常重要的问题。

目前,文本挖掘技术已经成为数据挖掘领域中的重要分支。

它可以帮助人们从大量的文本数据中发现规律、分析趋势和预测未来。

不仅仅是在商业领域,文本挖掘技术也广泛应用于社交媒体、新闻媒体、科学研究等领域。

二、AI辅助下的文本挖掘技术随着人工智能技术的不断发展,AI辅助下的文本挖掘技术也越来越受到人们的关注。

相对于传统的文本挖掘技术,AI辅助下的文本挖掘技术具有以下的特点。

1. 自动化程度高AI辅助下的文本挖掘技术,通常会使用一些机器学习算法和模型,自动地从大量的文本数据中抽取有用的信息。

这可以大大减轻人力负担,并提高工作效率和精度。

2. 数据处理能力强传统的文本挖掘技术,通常需要将文本数据转换成结构化数据,才能进行深入的分析和处理。

而AI辅助下的文本挖掘技术,可以在不进行数据转换的情况下,直接对大量文本数据进行处理和分析,从而更便捷、高效地实现数据挖掘的目的。

3. 个性化定制能力强AI辅助下的文本挖掘技术可以根据不同应用场景定制不同的算法模型,针对不同的需求,提供个性化的分析和处理服务。

这可以更好地满足用户的需求,并提高数据挖掘的效果。

三、AI辅助下的文本挖掘技术的应用AI辅助下的文本挖掘技术已经广泛应用于各个领域,其中重要的应用领域包括:1. 市场情报分析通过分析社交媒体和网站上的评论和留言,AI辅助下的文本挖掘技术可以帮助企业了解消费者对产品和服务的需求和满意度,以及竞争对手的市场表现,从而调整产品策略,提高销售业绩。

文本挖掘的步骤

文本挖掘的步骤

文本挖掘的步骤随着互联网的发展,数据量呈现爆炸式增长,如何从海量的数据中提取有价值的信息成为了一个重要的问题。

文本挖掘作为一种数据挖掘技术,可以从文本数据中提取出有用的信息,为企业决策和科学研究提供支持。

本文将介绍文本挖掘的步骤。

一、数据收集文本挖掘的第一步是数据收集。

数据可以来自于各种渠道,如互联网、社交媒体、新闻报道、论文等。

在数据收集过程中,需要注意数据的质量和可靠性,避免收集到噪声数据和虚假信息。

二、数据预处理数据预处理是文本挖掘的重要步骤,它包括文本清洗、分词、去停用词、词干提取等操作。

文本清洗是指去除文本中的噪声数据和无用信息,如HTML标签、特殊符号、数字等。

分词是将文本按照一定的规则划分成词语的过程,可以采用基于规则的分词方法或基于统计的分词方法。

去停用词是指去除一些常用词语,如“的”、“是”、“在”等,这些词语对文本分析没有太大的帮助。

词干提取是将词语还原为其原始形式的过程,如将“running”还原为“run”。

三、特征提取特征提取是将文本转换为数值型向量的过程,以便于计算机进行处理。

常用的特征提取方法包括词袋模型、TF-IDF模型、主题模型等。

词袋模型是将文本表示为一个词语的集合,每个词语作为一个特征。

TF-IDF模型是在词袋模型的基础上,对每个词语进行加权,以反映其在文本中的重要性。

主题模型是将文本表示为一组主题的分布,每个主题包含一组相关的词语。

四、建模分析建模分析是文本挖掘的核心步骤,它包括分类、聚类、关联规则挖掘等操作。

分类是将文本分为不同的类别,如将新闻分类为政治、经济、文化等。

聚类是将文本按照相似性进行分组,如将新闻按照主题进行聚类。

关联规则挖掘是发现文本中的关联规律,如发现购买了A商品的人也会购买B商品。

五、模型评估模型评估是对建模分析结果进行评估和优化的过程。

常用的评估指标包括准确率、召回率、F1值等。

准确率是指分类器正确分类的样本数占总样本数的比例。

召回率是指分类器正确分类的正样本数占所有正样本数的比例。

面向产品评论的意见挖掘研究综述

面向产品评论的意见挖掘研究综述

/ பைடு நூலகம்
文章 编 号 : 1 0 0 7 — 1 4 2 3 ( 2 0 1 3 ) 0 7 — 0 0 1 1 - 0 6
D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 7 — 1 4 2 3 . 2 0 1 3 . 0 7 . 0 0 3
面 向产 品 评 论 的意 见 挖 掘研 究 综 述
针 对 产 品 评 论 的 意 见 挖 掘 一 直 是 意 见 挖 掘 领 域 的 热
近年来 . 随 着 以用 户 为 中 心 的 We b 2 . 0技 术 的快 速
发展 和应用 的不断扩 展 , 人 们可 以通过微 博 、 博客 、 论 坛 、电子商务 网站等多种途径发 表 自己 的对 于某件产 品或服务 的意见 或观点 .这些评论 信息 中包含 了用户
点。 文献『 2 1 认为, 意 见 是 意 见 持 有 者 针 对 某 个 实 体 或 实 体某个方 面的正面或者 负面的观点 、 态度 、 情 感 或 者 评 价. 其 中意 见 的表 达 对 象 可 以是 任 何 事 物 , 例如 产 品 、 服务 、 事件 、 主题等 , 意 见 的 持 有 者 可 以是 个 人 或 组 织 。 在 本 章 中 .我 们 将 利 用 来 自 A m a z o n . c n的一 段 关 于 笔 记 本 电脑 的评 论 来 进 一 步 阐述 意 见 挖 掘 这 个 问题 “ ( 1 ) 十一 月 底 打 特价 买 的 这 个 本 。 ( 2 ) 开 箱 封 条 是 完 整的 , 货运保护措施 也很到位 。( 3 ) 可 是 本 本 后 面 几 颗 螺 丝 有 非 常 明 显 的划 痕 . 还 有 屏 幕 上 有 几 条 划 痕 。

文本挖掘实验报告

文本挖掘实验报告

文本挖掘实验报告一、实验目的本文旨在介绍文本挖掘的基本概念和应用,并通过实验验证其在自然语言处理中的有效性。

二、实验流程1. 数据收集我们选择了一份包含2000篇新闻文章的数据集,在数据预处理环节中,我们使用了Python中的pandas库对数据进行了清洗和去重。

2. 数据预处理在数据预处理阶段,我们首先对原始数据进行了分词处理,然后使用停用词表去除了常见的无意义词汇。

接着,我们对文本进行了词干化和词形还原等操作,将单词转换为其基本形式以便于后续分析。

最后,我们使用TF-IDF算法计算每个单词在整个语料库中的重要性,并将其作为特征向量。

3. 模型训练我们采用朴素贝叶斯算法和支持向量机算法分别对数据进行分类。

其中朴素贝叶斯算法是一种基于贝叶斯定理和特征条件独立假设的分类方法;而支持向量机则是一种基于间隔最大化思想构建超平面分类器的方法。

4. 模型评估为了评估模型效果,我们采用了准确率、精确率、召回率和F1值等指标。

其中准确率是指分类器正确分类的样本占总样本数的比例,精确率是指分类器正确分类的正样本占所有预测为正样本的样本数的比例,召回率是指分类器正确分类的正样本占所有实际为正样本的样本数的比例,而F1值则是综合考虑了精确率和召回率。

三、实验结果我们将数据集按照8:2的比例分为训练集和测试集,并使用朴素贝叶斯算法和支持向量机算法进行了模型训练。

在测试集上,朴素贝叶斯算法取得了87.5%的准确率、90.4%的精确率、85.3%的召回率和87.8%的F1值;而支持向量机算法则取得了88.2%的准确率、90.9%的精确率、86.0%的召回率和88.4%的F1值。

四、实验结论通过对比两种算法在测试集上表现,我们可以发现支持向量机算法略优于朴素贝叶斯算法。

此外,在数据预处理环节中,使用停用词表可以有效地去除无意义词汇,从而提高模型效果。

最后,我们可以得出结论:文本挖掘技术在自然语言处理中具有重要的应用价值,可以为文本分类、情感分析等任务提供有效的解决方案。

汪顺玉文本挖掘概论

汪顺玉文本挖掘概论

汪顺玉文本挖掘概论1. 引言随着信息时代的到来,文本数据量呈爆炸式增长,文本挖掘技术应运而生。

文本挖掘是一种从大量文本数据中提取有价值信息和知识的技术,广泛应用于信息检索、智能推荐、情感分析等领域。

本文将介绍文本挖掘的基础、预处理、分析方法以及应用案例,并探讨未来趋势。

2. 文本挖掘基础文本挖掘通常采用基于统计和机器学习的方法。

统计方法主要包括词频分析和关联规则等,而机器学习方法则包括朴素贝叶斯、决策树和神经网络等。

这些方法可以帮助我们发现文本中的模式和关系,提取出有用的信息。

3. 文本预处理文本预处理是文本挖掘的重要步骤,包括分词、去停用词、词干提取等。

分词是将文本分割成单个词语或词条;去停用词是指去除对文本挖掘无用的词语,如“的”、“是”等;词干提取则是对词语进行变形,提取出原词语的基本形式。

4. 词频分析词频分析是通过统计词语在文本中出现的频率,发现词语之间的关系和趋势。

常见的词频分析方法包括词云和关键词提取。

词云是一种以图形化方式展示文本数据中词语频率的方法,可以帮助我们快速发现高频词语;关键词提取则是通过计算词语的权重和相关性,提取出文本中的重要词语。

5. 主题模型主题模型是一种用于发现文本主题和语义结构的模型。

常见的主题模型包括潜在狄利克雷分布(LDA)和概率潜在语义索引(PLSI)。

LDA通过构建主题-文档-词项的三元组模型,挖掘文档的主题;PLSI 则通过建立语义空间和文档-词项的联合概率分布,发现文档的语义结构。

6. 情感分析情感分析是通过自然语言处理技术,对文本的情感倾向进行分析和提取。

情感分析可以分为基于词典方法和基于机器学习方法两类。

基于词典方法通过匹配词典中的情感词来确定文本的情感倾向;基于机器学习方法则通过对大量文本数据进行训练和学习,自动识别文本的情感倾向。

情感分析广泛应用于产品评论、社交媒体监测等领域。

7. 文本可视化文本可视化是将文本数据以图形化方式呈现,帮助人们更好地理解和发现文本中的信息和知识。

文本情感分析方法研究综述

文本情感分析方法研究综述

文本情感分析方法研究综述一、本文概述随着信息技术的飞速发展和大数据时代的到来,文本情感分析作为自然语言处理领域的一个热门研究方向,正受到越来越多的关注。

本文旨在对文本情感分析方法进行全面的研究综述,旨在梳理和分析当前情感分析的主要方法、技术及其发展趋势,以期为读者提供一个清晰、系统的认识框架。

本文将简要介绍文本情感分析的研究背景和意义,阐述情感分析在社交媒体分析、舆情监控、产品评价等领域的重要应用。

随后,文章将重点回顾和总结情感分析的发展历程,包括早期的基于词典的方法和规则的方法,以及近年来兴起的基于机器学习和深度学习的情感分析方法。

在详细分析各类情感分析方法时,本文将深入探讨各种方法的原理、优缺点以及适用场景。

文章还将关注情感分析领域的一些前沿研究,如基于深度学习的情感分析模型、多模态情感分析以及情感分析的跨领域应用等。

本文将对未来的研究方向和挑战进行展望,以期为推动文本情感分析技术的发展提供有益的参考和启示。

通过本文的综述,读者可以对文本情感分析方法有一个全面、深入的了解,为相关领域的研究和实践提供有益的借鉴和指导。

二、文本情感分析的发展历程文本情感分析,也称为观点挖掘或情感挖掘,是自然语言处理(NLP)领域的一个重要研究方向。

自20世纪90年代起,随着计算机科学和的飞速发展,文本情感分析逐渐受到了广泛关注,经历了从简单规则到复杂模型的发展历程。

早期的研究主要基于规则或词典的方法。

研究者们通过构建情感词典或情感词汇列表,结合简单的文本处理规则,对文本进行情感倾向的判断。

然而,这种方法受限于情感词典的完备性和规则设计的灵活性,难以处理复杂的语言现象和上下文依赖。

随着机器学习技术的兴起,文本情感分析开始进入新的发展阶段。

研究者们开始尝试使用各种机器学习算法,如朴素贝叶斯、支持向量机(SVM)、最大熵模型等,对文本进行情感分类。

这些算法能够从大量数据中学习出有效的特征表示,从而提高了情感分析的准确性和鲁棒性。

文本挖掘与文本分析

文本挖掘与文本分析

文本挖掘与文本分析文本挖掘与文本分析是一种以信息技术的方法来操作文本数据,从中发现其中的隐含信息。

它的应用非常广泛,比如可以用于商业研究、社会科学研究、科学研究等。

随着越来越多的文本数据被收集存储,文本挖掘和文本分析也变得越来越重要。

文本挖掘与文本分析可以从三个方面来进行,即文本挖掘、文本分析和文本分类。

文本挖掘是指从文本数据中发现文本中未知的模式和关系,并利用它们深入分析文本,以揭示其含义。

文本分析指的是分析文本的结构和内容,以便深入了解文本。

文本分类是将文本数据分类,以便根据其特征来识别相关信息。

文本挖掘和文本分析是一个复杂的过程,其中包括有三个重要组件:文本正文选择、文本预处理和文本分析。

文本正文选择是指从文本数据中挑选研究的内容,以便确定研究的范围和目的。

文本预处理是指对文本数据进行处理,以转换为深入分析和解释所需的结构化数据。

文本分析则是在经过文本正文选择和文本预处理的基础上,对文本数据进行深入分析,以发现其中的隐含信息。

文本挖掘和文本分析使用的技术非常多,可以根据研究目标从中选择合适的技术。

其中包括有聚类分析、关联规则挖掘、统计模式挖掘和图挖掘等。

这些技术能够从大量的文本数据中发现有意义的隐含信息,从而帮助用户更加有效地去理解文本数据。

同时,文本挖掘和文本分析也有许多挑战,比如文本数据的质量、处理文本数据的成本、从文本数据中发现有效信息的困难等。

因此,研究者需要运用各种新的技术,不断地提高文本挖掘和文本分析的能力,以更有效地从文本数据中提取信息。

文本挖掘和文本分析在商业研究、社会科学研究、科学研究中都有重要的应用。

它们可以从大量文本数据中发现有用的隐含信息,为人们提供有用的知识支持。

另外,文本挖掘和文本分析还具有很强的容错性,能够有效的处理文本数据中的噪声和不准确性。

这些都使得文本挖掘和文本分析变得更加重要。

综上所述,文本挖掘和文本分析在今天具有重要的且不可替代的意义。

它们已经在某些领域得到了广泛的应用,并且研究者也正不断开展新的研究,提高文本挖掘和文本分析的能力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第22卷 第3期2008年5月中文信息学报J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN GVol.22,No.3May ,2008文章编号:100320077(2008)0320071210文本意见挖掘综述姚天 1,程希文2,徐飞玉2,汉思・乌思克尔特2,3,王睿3(1.上海交通大学计算机科学与工程系,上海200240;2.德国人工智能研究中心,德国萨尔布吕肯D 266123;3.德国萨尔州大学计算语言学系,德国萨尔布吕肯D 266041)摘 要:意见挖掘是针对主观性文本自动获取有用的意见信息和知识,它是一个新颖而且十分重要的研究课题。

这种技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。

本文首先对意见挖掘进行了定义,然后阐述了意见挖掘研究的目的,接着从主题的识别、意见持有者的识别、陈述的选择和情感的分析四个方面对意见挖掘的研究现状进行了综述,并介绍了几个成型的系统。

此外,我们针对汉语的意见挖掘做了特别的分析。

最后对整个领域的研究进行了总结。

关键词:计算机应用;中文信息处理;意见挖掘;主观性文本;综述中图分类号:TP391 文献表示码:AA Survey of Opinion Mining for T extsYAO Tian 2fang 1,CH EN G Xi 2wen 2,XU Fei 2yu 2,Hans USZKOREIT2,3,WAN G Rui3(1.Dept.of Computer Science and Engineering ,Shanghai Jiao Tong University ,Shanghai 200240,China ;2.German Research Center for Artificial Intelligence ,Saarbr cken D 266123,Germany ;3.Dept.of Computational Linguistics ,Saarland University ,Saarbr cken D 266041,G ermany )Abstract :Opinion Mining is a novel and important research topic ,aiming to automatically acquire usef ul opinioned information and knowledge in subjective texts.This technique has wide and many real 2world applications ,such as e 2commerce ,business 2intelligence ,information monitoring ,public 2opinion poll ,e 2learning ,newspaper and publica 2tion compilation ,business management ,etc.In this paper ,we give a definition for opinion mining and then describe the motivation of this research.Afterwards ,we present a survey on the state 2of 2the 2art of opinion mining on top of four subtasks :topic extraction ,holder identification ,claim extraction and sentiment analysis ,followed by an over 2view of several existing systems.In addition ,specific analysis on Chinese Opinion Mining is performed.Finally ,we provide the summarization of opinion mining research.K ey w ords :computer application ;Chinese information processing ;opinion mining ;subjective texts ;survey收稿日期:2007206211 定稿日期:2007209229基金项目:国家自然科学基金资助项目(60773087)作者简介:姚天 (1957—),男,博士,副教授,主要研究方向为意见挖掘、信息抽取、机器学习等;程希文(1980—),女,硕士,助理研究员,主要研究方向为意见挖掘,信息抽取等;徐飞玉(1969—),女,博士,高级软件工程师,项目经理,主要研究方向为意见挖掘、信息抽取、机器学习等。

1 意见挖掘的定义近年来,对描述非事实(Non 2fact ual )的主观性文本(Subjective Text s )处理方面的研究十分活跃,主要的特点是对基于断言(Allegations )或评论(Comment s )的文本进行处理,此类文本内容包含有个人、群体、组织等的意见(Opinions )、情感(Feel 2ings )和态度(Attit udes )等。

其中对意见型的主观性文本进行研究形成了一个新颖而且十分重要的研究课题—意见挖掘(Opinio n Mining )。

主观性文本是相对于客观性文本而言的一种自然语言文本表达形式。

它主要描述了作者对事物、人物、事件等的个人(或群体、组织等)想法或看法。

中文信息学报2008年这类文本通常出现在报刊(如读者意见)、互联网(如论坛、电子公告)等媒体上。

其中,在文本中包含有表达意见的语句,即具有褒贬意义成分的语句,我们称此类文本为意见型主观性文本。

根据Kim和Hovy对意见的定义[1]:意见由四个元素组成:即主题(Topic)、持有者(Holder)、陈述(Claim)、情感(Sentiment)。

这四个元素之间存在着内在的联系,即意见的持有者针对某主题发表了具有情感的意见陈述。

需要指出的是,有时主题也被称为焦点或对象(Focus),以区别可能产生的歧义。

例1:“我昨天买了一台笔记本电脑,它不但外观漂亮,而且功能强大。

”在上例的句子中,一共有三句子句。

第一句是客观句,所以它不是包含意见的陈述。

第二、三句子句则是主观句,而且是包含意见的陈述。

对于这两个陈述,它们的主题分别是“外观”和“功能”,它们都是“笔记本电脑”的性质。

这两个陈述的意见持有者是作者“我”。

在陈述中所描述的情感是“漂亮”和“强大”,都是褒义的。

意见挖掘的过程就是要在自然语言文本中自动确定这些元素以及它们之间的关系。

一般来说,它的主要子任务有:a)主题抽取(Topic Ext raction):识别主题术语和指派领域相关的本体概念;b)意见持有者识别(Holder Identification):确定意见表述的作者和谈话者;c)陈述的选择(Claim Selection):确定意见表述的范围和过滤客观性表述;d)情感分析(Sentiment Analysis):决定意见陈述的语义倾向(Semantic Orientation)(即极性(Polarity))。

意见挖掘是一个多学科综合的研究领域,与文本挖掘、信息抽取、信息检索、机器学习、自然语言处理、概率论、统计数据分析、本体学(Ontology)、语料库语言学、可视化技术等均相关。

2 意见挖掘研究的目的目前,互联网上的信息与日剧增,蕴藏着巨大的信息量。

但是,要想在很短的时间内获得人们对于诸如人物、事件、传媒、产品等有价值的评价信息,往往是十分困难的。

例如,对产品的各种评价出现在各大论坛、电子公告板以及门户网站上,厂商需要了解顾客使用其产品的反馈意见,潜在的购买者也需要作出是否购买某个产品的决定。

如果采用人工方式对这浩如烟海的信息进行查询、统计,显然是低效和不切合实际的。

面对这样的现实问题,意见挖掘技术应运而生。

一方面,它基于数据挖掘(Data Mining)和文本挖掘(Text Mining)技术,另一方面,它又具有相当的文本理解(Text U nderstanding)的能力。

所以,它是比文本挖掘技术更接近人工智能目标的一种新技术。

它与以往的信息抽取(Information Ext rac2 tion)、文本分类(Text Classification)和文本摘要(Text Summarization)技术不同。

虽然信息抽取和意见挖掘都需要深层的语义理解,但信息抽取主要是获取具体的语言表达结构,如命名实体、命名实体关系、事件等,这些成分一般为显式表达结构;而意见挖掘是挖掘意见的元素和它们之间的关系,即主题、意见持有者、陈述、情感和它们之间的关系,这些成分表达形式多样,而且常常不是显式地、独立地表达。

文本分类是在预定的用户需求下把文本进行分类,并没有涉及到深层次的语义理解。

文本摘要是用简练的语言表达长篇文本的中心思想,但文本中对事物的具体看法和评价则没有被清晰地提取出来。

实际上,意见挖掘技术弥补了上述这些技术的不足,是更具有应用价值的一种新技术。

意见挖掘涉及各个语言分析层面,不但涉及到词汇层(如分词和词性标注)、句法层(如命名实体识别和语法分析)和语义层(如语义分析),还涉及到篇章层(如跨句的指代消解)。

意见挖掘与一些语言技术有关,例如,信息检索、文本分类、信息抽取、自动摘要、数据融合、问答系统、自然语言生成、对话系统、机器翻译等。

意见挖掘技术可以应用于现实生活中的许多方面,如电子商务、商业智能、信息监控、民意调查、电子学习、报刊编辑、企业管理等。

例如,采用意见挖掘系统从来自网上的产品(如笔记本电脑)评价意见中快速地获得意见分类统计结果,可以提供给厂商以进一步改进产品的质量,可以提供给潜在的顾客作为选择购买什么型号产品的参考,也可以提供给代销商作为进货品种和数量的依据。

图1说明了在意见挖掘处理中所涉及的语言分析层面、相关语言技术和部分应用领域。

273期姚天 等:文本意见挖掘综述图1 意见挖掘所涉语言分析层面、相关语言技术和部分应用领域 虽然国际国内的一些研究者已经开展了对意见挖掘技术的研究,也产生了一些应用系统(见下一节“意见挖掘研究现状”)。

但它还是面临一些尚未解决的问题,如意见挖掘方法的精度和鲁棒性不理想、隐式主题(陈述中不包含具体表示主题的词汇或短语)的识别以及细颗粒度的主题和情感关系识别(如多主题和多情感的对应关系)等。

相关文档
最新文档