中文语义角色标注的特征工程

中文语义角色标注的特征工程
中文语义角色标注的特征工程

第21卷 第1期2007年1月

中文信息学报

J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN G

Vol.21,No.1J an.,2007

文章编号:100320077(2007)0120079206

编者按 中国中文信息学会于2006年8月在沈阳航空工业学院人机智能研究中心成功地召开了“第三届全国学生计算语言学研讨会(SWCL2006)”。会议的程序委员会向本刊推荐出八篇优秀论文(经专家评审后,作者又做了修改),编辑部得到授权,在此发表,以飨读者。

中文语义角色标注的特征工程

刘怀军,车万翔,刘挺

(哈尔滨工业大学信息检索实验室,黑龙江哈尔滨150001)

摘 要:基于统计机器学习的语义角色标注在自然语言处理领域越来越受到重视,丰富多样的特征直接决定语义角色标注系统的性能。本文针对中文的特点,在英文语义角色标注特征的基础上,提出了一些更有效的新特征和组合特征:例如,句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等,并在

Chinese Proposition Bank (CPB )语料数据上,使用最大熵分类器进行了实验,系统F 2Score 由89.76%增加到91.31%。结果表明,这些新特征和组合特征显著提高了系统的性能。因此,目前进行语义角色标注应集中精力寻

找丰富有效的特征。

关键词:计算机应用;中文信息处理;语义分析;语义角色标注;特征工程;最大熵分类器中图分类号:TP391 文献标识码:A

Feature Engineering for Chinese Semantic Role Labeling

L IU Huai 2jun ,CHE Wan 2xiang ,L IU Ting

(Information Retrieval Laboratory ,Haerbin Institute of Technology ,Haerbin ,Heilongjiang 150006,China )Abstract :In the natural language processing field ,researchers have experienced a growth of interest in semantic role labeling by applying statistical and machine 2learning https://www.360docs.net/doc/d13063967.html,ing rich features is the most important part of semantic parsing system.In this paper ,some new effective features and combination features are proposed ,such as next word of the constituent ,predicate and phrase type combination ,predicate class and path combination ,and so on.And then we report the experiments on the dataset from Chinese Proposition Bank (CPB ).After these new features used ,the final system improves the F 2Score f rom 89.76%to 91.31%.The results show that the performance of the system has a statistically significant increase.Therefore it is very important to find better features for semantic role labeling.

K ey w ords :computer application ;Chinese information processing ;semantic parsing ;semantic role labeling ;feature engineering ;maximum entropy classifier

收稿日期:2006207215 定稿日期:2006210209

基金项目:自然科学基金(60575042,60503072,60675034)

作者简介:刘怀军(1982—

),男,硕士生,主要研究方向为信息检索。1 引言

语义分析的目标,就是根据句子的句法结构和句中每个实词的词义,推导出能够反映这个句子意

义的某种形式化表示。对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要目标。随着自然语言处理基础技术,如:中文分词、词性标注、句法分析等的逐步成熟,以及语义分析在问答系统、信息抽取、机器翻译等领域的广泛应用,使得其越来越受到从事自然语言处理的学者

中文信息学报2007年

们的重视。

语义角色标注(Semantic Role Labeling,SRL)是目前语义分析的一种主要实现方式,它采用“谓语动词—角色”的结构形式,标注句法成分为给定谓语动词的语义角色,每个语义角色被赋予一定的语义含义。例如“[委员会Agent][明天Tmp]将要[通过V][此议案Passive]。”其中,“通过”是谓语动词,“委员会”、

“此议案”和“明天”分别是其施事、受事和动作发生的时间。语义角色标注通常被看作分类问题,目前的研究大多基于有指导的机器学习方法,比如支持向量机(SVM)[1],最大熵(Maximum Ent ropy)[2],SNo W(Sparse Network of Winnows)[3]等。由于各种机器学习方法都已经比较成熟,仅依靠单纯机器学习算法的改进,在性能上很难有质的提高。所以,丰富有效的特征对语义角色标注来说更加重要。

文章第2部分简单介绍中文语义角色标注的语料库资源。第3部分介绍中文语义角色标注系统,重点描述其基础特征、扩展特征和一些组合特征。接下来第4部分给出系统的分析和实验结果的讨论。最后第5部分对本文进行总结并对后期工作进行展望。

2 语料资源

我们的实验使用了来自Chinese Proposition Bank(CPB)[4]的数据。CPB是Upenn基于Penn Chinese Treebank标注的汉语浅层语义标注资源,在Penn Chinese Treebank句法分析树的对应句法成分中加入了语义信息。Penn Chinese Treebank 的标注数据主要来自新华新闻专线、Sinorama新闻杂志和香港新闻。CPB包含20多个语义角色,相同的语义角色对于不同目标动词有不同的语义含义。其中核心的语义角色为Arg025六种,Arg0通常表示动作的施事,Arg1通常表示动作的影响等等。其余的语义角色为附加语义角色,用前缀ArgM表示,后面跟一些附加标记(Secondary Tags)来表示这些参数的语义类别,如ArgM2LOC 表示地点,ArgM2TM P表示时间等等[5]。图1是CPB中一个句子的标注实例。

CPB基于Penn Chinese Treebank手工标注的句法分析结果,准确率较高。它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,因此覆盖范围更广,可学习性更强。我们的实验选取了760个文档,共10384个句子。其中9288个句子作训练语料,剩余1096个句子作测试语料

图1 Chinese Proposition Bank中一个句子的标注实例3 中文语义角色标注系统

3.1 标注步骤和分类器

语义标注的基本单元可以是句法成分(Constit uent)、短语(Phrase)、词(Word)或者依存关系(Dependency Relation)等等,现在多数语义角色标注系统通常都以句法成分为基本标注单元。句法成分就是句法分析树中非终结节点,比如图1的句法分析树中,N P2SBJ,N P2TM P,V P等都是句法成分。因为语义角色多与句法成分对应,所以我们采用句法成分作为标注单元可获得较高的性能。

语义角色标注系统一般通过三个阶段实现[6]:首先,使用一些启发式规则把多数不可能是语义角色的句法成分过滤掉;其次进行语义角色识别,用二元分类器把角色候选分为语义角色和非语义角色;最后使用多类分类器把第二阶段识别的语义角色分到对应的类别。也有系统会加入基于启发式规则的后处理阶段。为了提高系统召回率,避免过滤过程中语义角色的丢失,我们系统中没有使用过滤。并且由于最大熵分类器的效率很高,类别数量对分类效率影响不大,因此我们把角色识别和分类一步实现,属于语义角色的成分被分到对应类别,不属于任何角色的成分被赋予空类别。

3.2 基本特征

特征一直是决定统计自然语言处理系统性能的重要因素。相比特征空间较小的底层自然语言处理任务,比如分词、词性标注和命名实体(N E)识别,语义角色标注任务的一个显著特性就是特征空间很大。在Xue等人[7,8]的语义角色标注工作中使用了

08

1期刘怀军等:中文语义角色标注的特征工程

许多有效的特征,我们实验中也采用了这些特征,并且引入了更多有效的特征。下面我们简要介绍部分基本特征并分析其有效性。

1.短语类型。

2.中心词及其词性:在中心词提取中,我们使用Sun 等人[9]的中心词规则(Head rules for Chinese )。

3.句法分析树中左、右兄弟句法成分的短语

类型。

4.子类框架:谓语动词父节点及其子节点。如图2中,“通过”的子类框架是V P →VV 2N P 2OBJ 。

5.谓语动词的类别信息:目前的中文语义角色标注任务中还没有统一规范的动词分类,文章使用Xue 等人[8]的方法来对动词分类。

6.路径:句法分析树中从当前句法成分到谓语动词的句法路径。如图2中,N P 2TM P 的路径是N P 2TM P ↑V P ↓V P ↓VV 。

7.部分路径:对路径特征的一种泛化,指当前句法成分到它和当前谓语动词的最近共同父节点的句法路径。如图2,N P 2TM P 的部分路径是N P 2TM P ↑V P

图2 句法成分特征

8.位置:句法成分在谓语动词前面还是后面,

这是一个二值特征。

9.句法成分的句法框架:句法框架特征包含谓语动词和围绕谓语动词的名词短语。如图2中句法成分N P 2OBJ 的句法框架是np_np_v_N P 2OBJ 。我们的实验,训练和测试数据不是按动词来划分,因此总有一些仅在测试数据中出现的动词。通过统计,测试语料中1211个动词有227个动词在训练语料中没有出现过,从训练数据中学习的最大熵模型就不能很好的对这些动词进行预测。CPB 中许多动词有相似的语义结构,比如动词“显现”和“显示”都带两个核心语义角色,主语指描述的实体,

宾语指所描述实体的特性。这样,动词类别信息就

可以在动词稀疏的情况下正确预测角色类别。3.3 扩展特征

上节介绍了中文语义角色标注中一些基本特征,这节将描述我们引入的一些新特征。

1.句法成分的句法功能:CPB 手工标注的句法分析中,短语类型后缀有功能标记,比如2IO 表示间接宾语,2OBJ 表示直接宾语,2SBJ 表示主语等。这些功能标记作为特征能够有效暗示语义角色的类型。

2.句法成分前一个词和后一个词。

3.从句层数:在Xue 等人[10]有关Penn Chinese Treebank 的句法标注文章中,对汉语句子提出了几种类型:带补语的子句(CP )、简单子句(IP )、不带疑问词的疑问句(IP 2Q )等。我们把句法成分到谓语动词的路径上经历的子句IP 、CP 、IP 2Q 等的个数作为特征。

4.句法成分到谓语动词的路径上出现的名词短语个数。

5.句法成分和谓语动词的相对位置:我们从

三方面来考察他们的相对位置:它们是否兄弟节点

关系,是否属于相同动词短语(V P )的儿子节点,是否属于相同子句IP 或CP 短语的儿子节点。

6.句法成分和谓语动词的共同最近父节点。

7.谓语动词的搭配模式:CPB 语料数据中,Arg2大多情况在含有下面5种结构的句子中出现:

介词—动词结构、使—动词结构、把—动词结构、被—动词结构、动词—数量词结构五种搭配结构。这种搭配模式能够提高对Arg2的预测效果,比如

对于动词“修到”,Arg2表示修建的地点,那么在语

句“把公路修到山顶上”中“把—动词结构”就暗示句法成分“公路”属于角色Arg2。

许多单一特征对语义角色分类已经非常有效,而把这些单一特征组合在一起时,能更有效的增强分类能力。由于最大熵分类器不能够自动地对特征进行组合,因此我们通过基础特征和扩展特征构造了一些组合特征,比如谓语动词和短语类型、谓语动词和中心词、谓语动词类别信息和路径等。3.4 后处理阶段

我们系统中会出现两个标注的句法成分位置上包含的情况,但在CPB 标注语料中,这是不允许的。最大熵分类器能够预测每一个类别的概率,所以当

1

8

中文信息学报2007

两个标注的句法成分发生嵌套时,我们保留了概率最大的那个句法成分。CPB标注语料中允许标注为相同语义角色的多个句法成分在句子中同时出现。处理这种情况时,我们设置一个阈值,当这些句法成分预测概率都大于阈值时全部保留,否则仅保留概率最大的那个句法成分。语义角色Arg02PSR 和Arg02PSE表示持有和被持有关系,在句子中往往成对出现。我们系统的标注结果中,可能出现一个句子只有Arg02PSR或Arg02PSE的情况,当对应句法成分预测概率高于某个阈值时,我们保留旧的标注,否则,把标注更新为最大熵预测的概率次高的那个语义角色类型。

4 实验结果及讨论

4.1 评测指标和系统分析

对于语义角色标注系统的性能评测,我们使用信息检索中的评测方法,采用F2Score对最终系统的性能进行评价。其定义如下:

F2Score=2

3Precision3Recall

Precision+Recall

其中准确率(Precision)和召回率(Recall)的定义为: Precision=

正确标注为语义角色的个数

分类器预测为语义角色总数Recall=

正确标注为语义角色的个数

测试数据中语义角色总数

我们的实验,首先建立一个基于基础特征的系统,称为基础系统;然后把扩展特征和组合特征逐个加入基础系统中,表1列出了加入这些特征后系统性能的变化。在F2Score列中,粗体表示性能提高,前面加星号表示性能显著提高。

实验中我们采用χ2(自由度为1)显著性检验,测试数据中角色总数n=10882,χ2检验的上侧α分位数α=0.10,基础系统性能为F b,加入一个新特征后系统性能为F n,则

χ2=(nF b-nF n)

2

nF n

+

(nF b-nF n)2

n(1-F n)

则仅当χ2≥χ2α(1)=2.706时,性能F n增加显著。

表1 每个扩展特征和组合特征对系统性能的影响

特 征Precision(%)Recall(%)F2Score(%)基础系统90.9488.6289.76

逐个加入扩展特征

+句法成分的功能90.9988.7789.87 +句法成分前一个词91.1588.7089.91 +句法成分后一个词91.5889.14390.34 +句法成分前一个词的词性90.9788.7189.82 +句法成分后一个词的词性91.0588.8689.94 +从句层数91.0188.9189.95 +谓词到句法成分的路径上名词短语个数90.9388.6989.80 +句法成分和谓语动词的相对位置90.9788.8189.88 +句法成分和谓语动词的共同最近父节点90.8788.6889.76 +谓语动词的搭配模式91.0888.8189.93

逐个加入组合特征(冒号前后为组合对应的单一特征)

+谓语动词:短语类型91.6489.19390.40 +谓语动词:中心词91.4888.7590.09 +谓语动词:位置91.2788.7990.01 +谓语动词:路径91.4488.9890.19 +谓语动词类别信息:路径91.5889.06390.30 28

1期刘怀军等:中文语义角色标注的特征工程

续表特 征Precision(%)Recall(%)F2Score(%) +谓语动词的搭配模式:位置91.0188.4589.71 +句法成分的句法框架:短语类型90.8188.6289.70 +谓语动词:句法成分的句法框架91.2288.8790.03 +中心词:中心词词性:路径91.1588.5989.85 +短语类型:路径91.0988.7589.90

从表1可以看出,加入句法成分后一个词、谓语

动词和短语类型的组合、谓语动词类别信息和路径

的组合都显著提高了系统的性能F2Score值。其它

特征或特征组合加入后,除了少数特征和特征组合

的加入使得性能降低,多数都使系统性能提高。

句法成分后一个词能够显著提高系统的性能,

一方面是由于汉语语法的一个重要特点就是十分重

视词序,词序不同表达的意思就不同;另一方面,句

法成分后一个词作为上下文特征,能够反映当前句

法成分的特定语境意义。短语类型是一个非常有效

的特征,这是由于不同句法类型的短语总是趋向于

充当不同的语义角色,而当给定句子中谓语动词时,

这种特性就更加明显,所以谓语动词和短语类型的组合显著提高了系统的性能。比如例句“今年比去年同期增长九十点七亿美元”,对于动词“增长”,其后的数词短语往往趋向于做Arg2。路径特征在谓语动词已知时非常有效,但是两者组合会导致数据稀疏,所以我们采用谓语动词类别信息和路径组合,显著提高了系统的性能。

4.2 结果讨论

我们在基础系统上加入了使性能提高的扩展特征和组合特征,构成了新系统。表2列出了基础系统和新系统的性能。

表2 加入扩展特征和组合特征前后的系统性能

实 验Precision(%)Recall(%)F

2Score(%)基础系统90.9488.6289.76

新系统 92.6889.9791.31

从上表可以看出:尽管每个特征单独加入后,系统性能的增加幅度不是很大,但这些特征全部加入后,系统的性能就有了明显的改进,增加了1.55个百分点。

从我们实验的结果可以看出,在汉语手工标注句法语料上性能能够达到91.31%,主要有下面的

一些因素:首先,动词类别信息能够有效提高系统性能。因为汉语中动词一词多义的现象比较少,并且汉语中形容词作谓语的情况很多,这样谓语动词的角色相对单一,句法实现也简单。其次,在中文语义角色标注的训练语料数据中,有更多附加角色ArgMs,相对少的而又难分辨的核心角色Arg3, Arg4,这样使得角色的识别和分类更加容易。并且,Penn Chinese Treebank使用了更加层次化的结构方式,在完全句法分析树中,使用了许多空标记(2NON E2)来表示深层的含义。如图3句法分析中: (2NON E2321)和(2NON E2322)表示指代关系的索引,指代节点(NR张三)。

图3 CPB中的空标记

通过对分类错误的语义角色进行分析,这些错误主要由如下几方面引起:首先,一般动词的主语(Subject)被标为Arg0,宾语(Object)被标为Arg1。但也有一些动词例外,比如“出现”。例如:这支新队伍以新面孔出现在世人面前。其中“这支新队伍”做主语却被标注为Arg1。其次,占比例较高的角色Arg2的召回率较低。在汉语里中,Arg2,Arg3, Arg4这几类角色非常灵活,对于不同的动词表示不同的含义,这种灵活性增加了分析的难度。下面是角色Arg2的例子:

1.他们都给我肯定的答复。

2.中国对外贸易合作部派驻澳门的直属企业。

3.外商独资企业增加了百分之四点一二,达八千四百八十四个。

在上面的三个句子中,例句1中Arg2表示“给”的接受者;例句2中Arg2表示“派驻”的地点;

38

中文信息学报2007年

例句3中Arg2表示“增加”的数额。

5 结论

我们使用最大熵(Maximum Ent ropy)机器学习算法,在Chinese Proposition Bank(CPB)的语料数据上进行了中文语义角色标注的实验。实验中,除了使用一些基础特征外,也引入了一些新的单一特征和组合特征。我们对引入的每个新特征进行了显著性验证,并且分析了对系统性能贡献的显著性。把这些新特征中有效提高系统性能的特征加入基础系统中后,系统性能明显提高,F2Score从89.76%提升到91.31%。

尽管CPB的语料规模很小,中文语义角色标注系统还是达到了很高的性能。一方面取决于手工标注句法分析的高准确度,另一方面汉语有独特的语法特性,还有一个重要因素是我们使用了丰富有效的单一特征和组合特征。比如句法成分后一个词、谓语动词和短语类型的组合、谓语动词类别信息和路径的组合等。因此寻找合适有效的特征一直是语义分析领域研究的重点。

我们目前的工作是基于手工标注的句法分析结果,因此下一步我们将使用自动句法分析进行中文语义角色标注,并考虑加入命名实体、依存关系等信息来进一步改善中文语义角色标注系统的性能。

参考文献:

[1] S.Pradhan,K.Hacioglu,V.Krugler,et al.Support

vector learning for semantic argument classification

[J].Machine Learning Journal,2005,vol.60,no.12

3,11239.

[2] N.Kwon,M.Fleischman,E.Hovy.Senseval auto2

matic labeling of semantic roles using Maximum Entro2 py models[A].Senseval23:Third International Work2 shop on the Evaluation of Systems for the Semantic A2 nalysis of Text[C].Barcelona,Spain:Association for Computational Linguistics,2004,129132.

[3] P.K oomen,V.Punyakanok,D.Roth,et al.Gener2

alized Inference with Multiple Semantic Role Labeling Systems[A].In:Proceedings of the Ninth Conference on Computational Natural Language Learning(CoN2 LL22005)[C].Ann Arbor,Michigan:Association for Computational Linguistics,2005,181184.

[4] N.Xue,M.Palmer.Annotating the Propositions in

the Penn Chinese Treebank[A].In:Proceedings of

the Second SIGHAN Workshop on Chinese Language

Processing[C].Sapporo,J apan:2003,4754.

[5] M.Palmer,D.G ildea,P.Kingsbury.The Proposi2

tion Bank:An Annotated Corpus of Semantic Roles [J].Computational Linguistics,2005,31(1),712 106.

[6] V.Punyakanok,D.Roth,W.Y ih.The Necessity of

Syntactic Parsing for Semantic Role Labeling[A].In:

Proceedings of CoNLL204[C].2004,111721123. [7] N.Xue,M.Palmer.Calibrating features for semantic

role labeling[A].In:Proc.of the EMNL P22004

[C].Barcelona,Spain:2004.

[8] N.Xue,M.Palmer.Automatic semantic role labeling

for Chinese verbs[A].In:Proc.I J CAI2005[C].Ed2 inburgh,Scotland:2005.

[9] H.Sun and D.J uraf sky.Shallow semantic parsing of

Chinese[A].In:Proceedings of NAACL2004[C].

Boston,USA:2004.

[10] N.Xue,F.Xia.The Bracketing Guidelines for the

Penn Chinese Treebank[D],IRCS Report00208U2

niversity of Pennsylvania,Oct2000.

48

汉语语义角色标注研究概述

中文语义角色标注研究概述 南京师范大学文学院陈菜芳1 摘要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。 关键词:浅层语义分析语义角色标注资源语义角色标注 0 引言 语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。 1 中文语义角色标注语料资源 语义角色标注离不开语料资源的支持。英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。 Chinese Proposition Bank(CPB)同英文PropBank基本类似。在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。 中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。中文Nombank加入了语义角色层的标注信息,与CPB一样,也标注了核心语义角色和附加语义角色这两类语义角色。中文NomBank中的角色位置有两类情况:一是角色在以名词性谓词为核心词的名词短语中;二是当以名词性谓词为核心词的名词1陈菜芳,女,南京师范大学2010级硕士研究生,研究方向计算语言学

语义分析

语义分析 1.语义分析? 机器机和人不一样的地方是人可以直接理解词的意思,文章的意思,机器机不能理解。 人看到苹果这两个字就知道指的是那个圆圆的,挺好吃的东西,搜索引擎却不能从感性上理解。但搜索引擎可以掌握词之间的关系,这就牵扯到语义分析。 可参考:https://www.360docs.net/doc/d13063967.html,/dispbbs.asp?boardID=2&ID=74541 2.为什么要使用语义分析? 我国中文自然语言处理普遍采用西基于拉丁语系的“关键词”技术,以此来分析理解中文。然而,中文本身的特点决定它与西语之间巨大的区别,所以从汉语信息处理的需要看,当前急迫需要突破的是语义问题。 可参考: https://www.360docs.net/doc/d13063967.html,/dicksong2008/blog/item/88fb751e9ac9501a4134 17f4.html 2.1中文与西语不同决定我们无法采用西语的架构体系来处理中文,具体区别在于: 西语词间有间隔,汉语词间无间隔。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。 例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。 “我是一个学生”,分词的结果是:“我是一个学生”。中文分词就成了计算机处理的难题。 汉语形态不发达,句尾没有形态标记。英语动词、名词很清楚,加上词尾可以是副词;西语有时态,过去式、现在式等等非常清楚,中文则依靠词语或者依靠自己的判断来确定时态。 同音字多增加了机器识别的难度。 汉语语义灵活,由于形态不发达,所以语序无规律。在一次学术会议上,一位著名的人工智能专家说:“按…主-谓-宾?或…名-动-名?这一规则,计算机可显出…牛吃草?,也可显出…草吃牛?。从语法格式上看,…草吃牛?也不错,但这句话是说不通的。 人依靠自己的经验可以判断,机器如何来判断呢?

深度学习综述

深度学习综述 摘要:深度学习可以让那些拥有多个处理层的计算模型来学习具有多层次抽象的数据的表示。这些方法在许多方面都带来了显著的改善,包括最先进的语音识别、视觉对象识别、对象检测和许多其它领域,例如药物发现和基因组学等。深度学习能够发现大数据中的复杂结构。它是利用BP算法来完成这个发现过程的。BP算法能够指导机器如何从前一层获取误差而改变本层的内部参数,这些内部参数可以用于计算表示。深度卷积网络在处理图像、视频、语音和音频方面带来了突破,而递归网络在处理序列数据,比如文本和语音方面表现出了闪亮的一面。 Review of Deep learning Abstract: Deep learning allows computational models that are composed of multiple processing layers to learn representations of data with multiple levels of abstraction. These methods have dramatically improved the state-of-the-art in speech recognition, visual object recognition, object detection and many other domains such as drug discovery and genomics. Deep learning discovers intricate structure in large data sets by using the backpropagation algorithm to indicate how a machine should change its internal parameters that are used to compute the representation in each layer from the representation in the previous layer. Deep convolutional nets have brought about breakthroughs in processing images, video, speech and audio, whereas recurrent nets have shone light on sequential data such as text and speech. 1 引言 机器学习技术在现代社会的各个方面表现出了强大的功能:从Web搜索到社会网络内容过滤,再到电子商务网站上的商品推荐都有涉足。并且它越来越多地出现在消费品中,比如相机和智能手机。 机器学习系统被用来识别图片中的目标,将语音转换成文本,匹配新闻元素,根据用户兴趣提供职位或产品,选择相关的搜索结果。逐渐地,这些应用使用一种叫深度学习的技术。传统的机器学习技术在处理未加工过的数据时,体现出来的能力是有限的。几十年来,想要构建一个模式识别系统或者机器学习系统,需要一个精致的引擎和相当专业的知识来设计一个特征提取器,把原始数据(如图像的像素值)转换成一个适当的内部特征表示或特征向量,子学习系统,通常是一个分类器,对输入的样本进行检测或分类。特征表示学习是一套给机器灌入原始数据,然后能自动发现需要进行检测和分类的表达的方法。深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次的,更加抽象的表达。通过足够多的转换的组合,非常复杂的函数也可以被学习。对于分类任务,高层次的表达能够强化输入数据的区分能力方面,同时削弱不相关因素。比如,一副图像的原始格式是一个像素数组,那么在第一层上的学习特征表达通常指的是在图像的特定位置和方向上有没有边的存在。第二层通常会根据那些边的某些排放而来检测图案,这时候会忽略掉一些边上的一些小的干扰。第三层或许会把那些图案进行组合,从而使其对应于熟悉目标的某部分。随后的一些层会将这些部分再组合,从而构成待检测目标。深度学习的核心方面是,上述各层的特征都不是利用人工工程来设计的,而是使用一种通用的学习过程从数据中学到的。 深度学习正在取得重大进展,解决了人工智能界的尽最大努力很多年仍没有进展的问题。它已经被证明,它能够擅长发现高维数据中的复杂结构,因此它能够被应用于科学、商业和政府等领域。除了在图像识别、语音识别等领域打破了纪录,它还在另外的领域击败了其他机器学习技术,包括预测潜在的药物分子的活性、分析粒子加速器数据、重建大脑回路、

文本分析平台TextMiner_光环大数据培训

https://www.360docs.net/doc/d13063967.html, 文本分析平台TextMiner_光环大数据培训 互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本,如何较好的理解这些文本,服务于实际业务系统,如搜索引擎、在线广告、推荐系统、问答系统等,给我们提出了挑战。例如在效果广告系统中,需要将Query(User or Page) 和广告 Ad 投影到相同的特征语义空间做精准匹配,如果Query 是用户,需要基于用户历史数据离线做用户行为分析,如果 Query 是网页,则需要离线或实时做网页语义分析。 文本语义分析(又称文本理解、文本挖掘)技术研究基于词法、语法、语义等信息分析文本,挖掘有价值的信息,帮助人们更好的理解文本的意思,是典型的自然语言处理工作,关键子任务主要有分词、词性标注、命名实体识别、Collection 挖掘、Chunking、句法分析、语义角色标注、文本分类、文本聚类、自动文摘、情感分析、信息抽取等。 (摘自https://https://www.360docs.net/doc/d13063967.html,/nlp/,稍作修改) 在解决文本处理需求过程中,我们发现保证文本分析相关的概念、数据和代码的一致性,避免重复开发是非常关键的,所以设计并搭建一套灵活、可扩展、通用的文本分析底层处理平台,供上层应用模块使用,是非常必要的。 既然是文本分析,我们很自然的想到是否可以使用已有的自然语言处理开源代码呢?为此,我们不妨一起了解下常见的相关开源项目:

https://www.360docs.net/doc/d13063967.html, Natural Language Toolkit(NLTK),https://www.360docs.net/doc/d13063967.html,/,In Python,主要支持英文 Stanford CoreNLP,https://www.360docs.net/doc/d13063967.html,/software/index.shtml,In Java,主要支持英文,阿拉伯语,中文,法语,德语 哈工大-语言技术平台(Language Technolgy Platform,LTP),https://www.360docs.net/doc/d13063967.html,/,In C/C++,支持中文 ICTLAS 汉语分词系统,https://www.360docs.net/doc/d13063967.html,/,In C/C++,支持中文 遗憾的是,我们发现尽管这些项目都极具学习和参考价值,和学术界研究结合紧密,但并不容易直接用于实际系统。也许这正源于学术界和工业界面临的问题不同,定位不同。对比如下: 根据我们的实践经验,尝试给出一套文本分析平台设计框架 TextMiner,供大家参考、交流。 设计之初,我们想 TextMiner 应该支持以下主要功能点: 提供细粒度的中文分词、词性标注和命名实体识别; 抽取与文本内容语义相关的词或短语; 获取能够表达文本语义的主题语义; 获取能够表达文本语义的行业信息; 提供统一的数据资源管理功能,尤其,要支持同时加载多份不同版本的数据资源,便于进行更新及效果对比。 参考斯坦福大学自然语言处理组开源项目: Stanford CoreNLP 和哈尔滨工业大学社会计算与信息检索研究中心开源项目:语言技术平台 (Language

用社会化方法计算社会-学者网

同时,网络社会的虚拟性、用户匿名性、信息海量性、事件发展复杂性为虚拟数字社会的管理带来极大的挑战。特别是我国现处在经济转轨时期,各种事件频发,加强虚拟社会管理成为我国政府和社会管理的当务之急。 基于上述分析,社会计算出现的背景可以归纳为两方面,一是以用户为中心的Web2.0的思想得到广泛推广,逐渐产生了从个体行为到群体智能的社会化思维模式;二是许多虚拟社会网络的出现逐步形成了一种新型的数字化社会形态。 概念框架 社会计算作为一个新兴的跨学科研究领域,目前还没有一个公认的定义。但也许我们可以从社会计算出现的背景去剖析它的概念。基于这个认识,社会计算实际上可以简单地概括为“用社会化方法计算社会”,具体包含两层意思,即“为社会计算”和“用社会化方法计算”。如图2所示。 “为社会计算”反映了社会计算研究与服务的对象是社会,包括虚拟网络和现实社会,以及从中抽象出来的人工社会。从这个角度来说,通过信息技术方法对社会数字轨迹进行分析,了解社会已经发生、正在发生、将要发生的事情,准确地了解社会的动态特征和运行规律,预测政策实施的可行性,为虚拟网络社会的科学管理和政府决策提供参考。 “社会化方法”是一种以草根用户为中心、 引言 随着互联网的迅猛发展,特别是Web2.0理念的逐渐深入,越来越多的虚拟社会网络出现了,如微博(Twitter 、新浪微博)、社交网(Facebook 、人人网)、社会标注系统(Delicious 、Flickr )、论坛(BBS )、维基(Wiki )等,这些虚拟社会网络聚集了大量用户。据2010年2月资料显示,全球最大的社会网络Facebook 注册的用户已达4亿多,成为排在中国和印度之后的全球人口第三大社会[1],如图1所示。虚拟社会网络已经成为一种新形态的数字社会[2]。 虚拟社会网络不但聚集了大量的用户,而且用户参与网络活动的深度和广度都得到了空前的提高。网络用户不再仅是信息浏览和接受者,也是互联网信息资源的提供和传播者。虚拟网络已成为继报纸、广播、电视之后的“第四媒体”。这种由大众创造的社会媒体(social media )详细地记录了用户的思想和行为轨迹,这使得利用计算技术观察和研究社会成为可能。 用社会化方法计算社会 关键词:社会计算 Web2.0 社会网络 概念框架 孟小峰 余 力 中国人民大学 图1 Facebook 成为全球第三大社会

深度文本匹配综述_庞亮

网络出版时间:2016-09-20 21:04:43 网络出版地址:https://www.360docs.net/doc/d13063967.html,/kcms/detail/11.1826.TP.20160920.2104.006.html 第39卷计算机学报Vol. 39 深度文本匹配综述 庞亮1),2)3)兰艳艳1)2) 徐君1)2) 郭嘉丰1)2) 万圣贤1),2)3) 程学旗1)2) 1)(中国科学院网络数据科学与技术重点实验室北京 100190) 2)(中国科学院计算技术研究所,北京 100190) 3)(中国科学院大学,北京100190) 摘要自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题。过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计。最近深度学习自动从原始数据学习特征的思想也影响着文本匹配领域,大量基于深度学习的文本匹配方法被提出,我们称这类模型为深度文本匹配模型。相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题。根据特征提取的不同结构,深度文本匹配模型可以分为三类:基于单语义文档表达的深度学习模型、基于多语义文档表达的深度学习模型和直接建模匹配模式的深度学习模型。从文本交互的角度,这三类模型具有递进的关系,并且对于不同的应用,具有各自性能上的优缺点。本文在复述问题、自动问答和信息检索三个任务上的经典数据集上对深度文本匹配模型进行了实验,比较并详细分析了各类模型的优缺点。最后本文对深度文本模型未来发展的若干问题进行了讨论和分析。 关键词文本匹配;深度学习;自然语言处理;卷积神经网络;循环神经网络 中图法分类号TP18 论文引用格式: 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗,深度文本匹配综述,2016,V ol.39,在线出版号No. 128 Pang Liang,Lan Yanyan,Xu Jun,Guo Jiafeng,Wan Shengxian ,Cheng Xueqi,A Survey on Deep Text Matching,2016,V ol.39,Online Publishing No.128 A Survey on Deep Text Matching Pang Liang 1),2)3)Lan Yanyan 1)2) Xu Jun 1)2) Guo Jiafeng 1)2)Wan Shengxian 1),2)3) Cheng Xueqi 1)2) 1)(CAS Key Lab of Network Data Science and Technology, Beijing100190) 2)(Institute of Computing Technology, Chinese Academy of Sciences, Beijing100190) 3)(University of Chinese Academy of Sciences, Beijing 100190) Abstract Many problems in natural language processing, such as information retrieval, question answering, machine translation, dialog system, paraphrase identification and so on, can be treated as a problem of text ——————————————— 本课题得到国家重点基础研究发展计划(973)(No. 2014CB340401, 2013CB329606)、国家自然科学基金重点项目(No.61232010, 61472401, 61425016, 61203298)、中国科学院青年创新促进会(No. 20144310,2016102)资助.庞亮(通讯作者),男,1990年生,博士,学生,计算机学会(CCF)学生会员(59709G),主要研究领域为深度学习与文本挖掘.E-mail: pangliang@https://www.360docs.net/doc/d13063967.html,.兰艳艳,女,1982年生,博士,副研究员,计算机学会(CCF)会员(28478M),主要研究领域为统计机器学习、排序学习和信息检索.E-mail: lanyanyan@https://www.360docs.net/doc/d13063967.html,.徐君,男,1979年生,博士,研究员,计算机学会(CCF)会员, 主要研究领域为信息检索与数据挖掘.E-mail: junxu@https://www.360docs.net/doc/d13063967.html,.郭嘉丰,男,1980年生,博士,副研究员,计算机学会(CCF)会员, 主要研究领域为信息检索与数据挖掘.E-mail: guojiafeng@https://www.360docs.net/doc/d13063967.html,.万圣贤,男,1989年生,博士,学生,主要研究领域为深度学习与文本挖掘.E-mail: wanshengxian@https://www.360docs.net/doc/d13063967.html,.程学旗,男,1971年生,博士,研究员,计算机学会(CCF)会员, 主要研究领域为网络科学、互联网搜索与挖掘和信息安全等.E-mail: cxq@https://www.360docs.net/doc/d13063967.html,.

语义标记词

语义标记词 顺序关系 (Listing) firstly(first) / secondly(second) / thirdly(third) / in the first place / my next point is / to begin with / last but not least / finally / for one thing / previously/ subsequently / next / for a start / first of all 目的:有条理的陈述、列举一些事实或者观点 用法:理清思路,准确了解每一点讲述的内容和重点 因果关系 (Cause and effect) so / because / since / therefore / thus / for this reason / as a result / consequently / for / because of / due to / owing to / to result in / resulting from 目的:帮助迅速精确的定位信息点(很多题目问得是“为什么”) 用法:弄清哪些是原因,哪些是结果 例证关系 (Illustration) For instance / for example / suppose / let’s take … / an example of this is … / a case in point / (that) is … 目的:用具体事例来证明或者解释其观点 用法:当对于阐述内容不是十分理解的时候,可以利用例子帮助自己消化思考(如果已经理解,可以例子时间用来阅读后面题目) 转折关系 (changing the direction of thought) 17 But / and yet / nevertheless / on the other hand / although / though / however / on the contrary / in spite of / despite / while / whereas / othwise / instead / as a matter of fact / by contrast / contrarily 目的:提示听众说华人即将表达自己对某些事物的真正看法 用法:任何听力片断中都会出现,转折词之前的信息往往被设置成干扰项 归纳关系 (summary) To summarize / in other words / if I can just sum up / what I have been saying is / to sum up / to conclude / in short / in sum / in brief / in conclusion / thus / on the whole / it amounts to this / in a word 目的:说话人发言要点的概括 用法:听到归纳关系词标志着录音即将结束,或某一方面的阐述即将告一段落,

现代汉语语法分析报告地五种方法

北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里很重要的一个内容,老师上课也会讲到,我在这里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵: 一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。 (2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性: 1.在一个层面上分析句子,层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。

封建思想必须清除。≠思想清除。 3. 一些由于句子的层次关系不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。 基本精神: 1.承认句子或句法结构在构造上有层次性,并在句法分析上严格按照内部的构造层次 进行分析; 2.进行分析时,要明确说出每一个构造层面的直接组成成分; 3.分析时只管直接成分之间的语法结构关系,不管间接成分之间的语法结构关系或句 法结构中实词与实词之间的语义结构关系; 优越性: 1.注意到了句子构造的层次性; 如: 他刚来我们便宜他了 ││__│││___│ │___││_____│ 他刚来我们便宜他了 __ _______ ____ ___________ ___ ___ ____ _____

语义分析的一些方法

语义分析的一些方法 语义分析的一些方法(上篇) 5040 语义分析,本文指运用各种机器学习方法,挖掘与学习文本、图片等的深层次概念。wikipedia上的解释:In machine learning, semantic analysis of a corpus is the task of building structures that approximate concepts from a large set of documents(or images)。 工作这几年,陆陆续续实践过一些项目,有搜索广告,社交广告,微博广告,品牌广告,内容广告等。要使我们广告平台效益最大化,首先需要理解用户,Context(将展示广告的上下文)和广告,才能将最合适的广告展示给用户。而这其中,就离不开对用户,对上下文,对广告的语义分析,由此催生了一些子项目,例如文本语义分析,图片语义理解,语义索引,短串语义关联,用户广告语义匹配等。 接下来我将写一写我所认识的语义分析的一些方法,虽说我们在做的时候,效果导向居多,方法理论理解也许并不深入,不过权当个人知识点总结,有任何不当之处请指正,谢谢。 本文主要由以下四部分组成:文本基本处理,文本语义分析,图片语义分析,语义分析小结。先讲述文本处理的基本方法,这构成了语义分析的基础。接着分文本和图片两节讲述各自语义分析的一些方法,值得注意的是,虽说分为两节,但文本和图片在语义分析方法上有很多共通与关联。最后我们简单介绍下语义分析在广点通“用户广告匹配”上的应用,并展望一下未来的语义分析方法。

1 文本基本处理 在讲文本语义分析之前,我们先说下文本基本处理,因为它构成了语义分析的基础。而文本处理有很多方面,考虑到本文主题,这里只介绍中文分词以及Term Weighting。 1.1 中文分词 拿到一段文本后,通常情况下,首先要做分词。分词的方法一般有如下几种: ?基于字符串匹配的分词方法。此方法按照不同的扫描方式,逐个查找词库进行分词。根据扫描方式可细分为:正向最大匹配,反向最大匹配, 双向最大匹配,最小切分(即最短路径);总之就是各种不同的启发规则。 ?全切分方法。它首先切分出与词库匹配的所有可能的词,再运用统计语言模型决定最优的切分结果。它的优点在于可以解决分词中的歧义问 题。下图是一个示例,对于文本串“南京市长江大桥”,首先进行词条检索(一般用Trie存储),找到匹配的所有词条(南京,市,长江,大桥,南京市,长江大桥,市长,江大桥,江大,桥),以词网格(word lattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram)[18]找到最优路径,最后可能还需要命名实体识别。下图中“南京市长江大桥” 的语言模型得分,即P(南京市,长江,大桥)最高,则为最优切分。 图1. “南京市长江大桥”语言模型得分

搜索引擎技术与发展综述

工程技术 Computer CD Software and Applications 2012年第14期 — 24 — 搜索引擎技术与发展综述 孙宏,李戴维,董旭阳,季泽旭 (中国电子科技集团第十五研究所信息技术应用系统部,北京 100083) 摘 要:随着信息技术的飞速发展和互联网的广泛普及,信息检索技术越来越受到重视。阐述了搜索引擎的产生与发展,并对搜索引擎的核心技术、评价指标和工作原理进行了深入研究。介绍了一些著名的搜索引擎。在此基础上,对搜索引擎的发展方向进行了预测。 关键词:信息技术;信息检索;搜索引擎 中图分类号:TP311.52 文献标识码:A 文章编号:1007-9599 (2012) 14-0024-03 一、引言 信息技术如今迅速发展,Internet 也得到了广泛的普及,网络上的信息量正在以指数趋势上升。其信息来源分布广泛,种类繁多。如果不能对信息进行有序化管理,用户将很难从如此海量的信息中提取出他们需要的信息。目前,搜索引擎已经成为人们获取信息的主要手段之一。搜索引擎就是在繁琐复杂的互联网信息中通过特定的检索策略,对信息进行搜索与分类,通过分析用户提交的请求,按照用户的要求和习惯进行组织,从而达到用户快速检索特定信息的目的。目前搜索引擎提供的搜索方式主要有整句、主题词、自由词等等,用以适应不同用户的需求。 二、搜索引擎的产生与发展 蒙特利尔大学的Alan Emtage 实现了最初的搜索引擎,称为Archie 引擎,Archie 引擎可以在特定的网络中进行相关的信息检索。由于其工作原理与现代搜索引擎非常接近,我们通常认为他 开创了现代搜索引擎领域。搜索引擎的发展大致经历过了三代: (1)第一代搜索引擎是1994年Michael Mauldin 将John Leavitt 的“网络爬虫”程序接入到其索引程序中的Lycos 。由于 结构和技术相对不成熟,它的搜索速度比较慢,更新速度也不能满足用户的检索要求。 (2)美国斯坦福大学的David Filo 和美籍华人杨致远合作开发成功了第二代搜索引擎,它创立了一些用户关心的目录,用户可以通过目录进行检索。 (3)Google 的正式推出标志着第三代搜索引擎的诞生。其集成了搜索、分类、多语言支持等功能,同时提供了摘要、排序、快照等功能,另外与强大的硬件系统配合,大大改变了互联网用户检索网络信息的方式。第三代搜索引擎主要结构如图-1所示。 查询接口的作用是用户进行交互,即提取用户的输入,并将检索结果返回。 检索器依据用户的需求,可以方便地索引库中查找相应的文档,按照相关度规则进行重排后返回。 索引器负责对文档建立索引,使文档以便于检索的方式重新组织。 分析器负责对收集器收集的信息进行分析和整理。 信息收集器的主要任务是对互联网上的各种信息进行收集,同时记录信息URL 地址(网络 爬虫完成这项工作)。 图1 搜索引擎结构图 三、搜索引擎的工作原理 搜索引擎不是搜索互联网,它搜索的是预先整理好的索引数据库;同样,搜索引擎也不能理解网页上的内容,它只能匹配网页上的文字。搜索引擎的工作流 程如图-2所示。 图2 搜索引擎的工作流程 搜索引擎的工作流程可主要分为四个步骤:通过网络爬虫(Spider )从互联网上根据相关算法(深度优先、广度优先)抓取网页,抓取网页后对网页中的信息进行加工,加工后将处理后的信息保存到索引数据库中。当用户在索引数据库中搜索查询相 关的信息资源时,搜索结果通过搜索引擎的处理后,对返回结果进行排序,展现给用户。即: (1)利用网络爬虫从互联网上抓取网页:利网络爬虫,按照某种搜索策略,沿着URL 链接爬到其他网页,重复这些过程,并把所有爬过的网页抓取回来。 (2)建立索引数据库:对爬取到的网页进行分析,提取相关关键信息,得到每一个网页针对页面中文字及链接中每一个关键词的重要性,屏蔽掉不重要的词语后,用信息建立网页索引数据库。 (3)处理用户的查询请求:系统接收到用户要查询的关键字后,调用检索器进行搜索,并将返回的结果进行相关度排序,最后按照优先度降序的方式存储在返回结果集合中。 (4)将查询结果返回给用户:搜索结果以网页的形式将结果集中的返回给用户。方便用户查看。 按照上面的步骤就可以简单的架构一个搜索引擎系统供用户使用。目前有很多开源的搜索引擎产品已经完成了上述相关内容,使用者只需要进行相应的配置就可以使用,大大的简化了搜索引擎的开发。目前,比较流行的开源搜索引擎有Nutch 、Solr 等等。 四、搜索引擎的核心技术 搜索引擎的核心技术包括索引技术和检索技术。 (一)索引技术 顺序查找,即通过线性匹配文本进行查找是一种不使用索引进行检索的例子。它无需对文档中的信息进行预处理。这种检索方式在文本较大时检索速度会变得非常慢,通常情况下不使用这种检索方式。

中文语义依存分析评测大纲

中文语义依存分析评测大纲 一、评测对象 本次评测的对象是中文句子的词语之间的语义及句法依存关系分析技术。 二、评测内容 本次评测主要评测依存关系分析系统对中文句子进行依存分析的准确性。 三、评测方法 1.评测方式 本次评测为离线评测,参评单位自行处理数据,生成相应结果后提交。训练语料将提前1个月公布。 2.评测步骤 1)评测单位预先给出若干训练数据(已标注依存分析结果); 2)评测单位给出测试数据(未标注依存分析结果); 3)参评单位运行被测系统,得出测试结果; 4)参评单位提交测试结果; 5)评测单位标注答案,运行自动评测程序,统计评测结果。 3.评测标准 1)量化指标 本次评测采用三个指标对被测试系统进行评测,分别为: i.依存标注准确率(Labeled Attachment Score, LAS) ii.依存准确率(Unlabeled Attachment Score, UAS) iii.标注准确率(Labeled Accuracy, LA) 令整个测试预料包含的词数为N,任意词语的依存用三元组进行表示,其中word为词本身,word以关系relation依存于headword。在被测试系统的输出中,令所有headword正确的词语的数目为N a,所有relation正确的词语的数目为N l, 所有headword和relation都正确的词为N al,那么,测试指标的计算方法如下: LAS=N al N UAS=N a N LA=N l N 三个指标的优先级分别为LAS>UAS>LA。 4.数据格式 测试数据采用CONLL1格式,数据文件采用UTF-8编码。测试数据总共提供6列值,分别为:词语ID、词语、词性(粗粒度)、词性(细粒度)、被依存词ID和依存关系,即CONLL 格式中的第1、2、4、5、7和8列。其他列留空(用“_”填充)。列与列之间用“\t”分隔,行与行之间用“\n”分隔,句子与句子之间用空行分隔。被测试系统可以自行对其他列进行补充,但不允许修改分词结果(清华大学SDN语料的词性为自动标注结果,参评者可对词性进行重新标注)。 输出数据同样采用CONLL格式,其中第1、2列应当与测试数据严格一致,分析结果填充到第7,8列。其他列可留空(用“_”填充),也可以保留自行补充的数据。 1http://ilk.uvt.nl/conll/#dataformat

【原创】r语言twitter 文本挖掘 语义分析分析附代码数据

library(dplyr) library(purrr) library(twitteR) library(ggplot2) Read the Twitter data load("E:/service/2017/3 19 guoyufei17 smelllikeme@https://www.360docs.net/doc/d13063967.html,/trump_tweets_df.rda") Clean up the data library(tidyr) Find Twitter source is Apple's mobile phone or Android phone samples, clean u p other sources of samples tweets <-trump_tweets_df %>% select(id, statusSource, text, created) %>% extract(statusSource, "source", "Twitter for (.*?)<") %>% filter(source %in%c("iPhone", "Android")) Visualize the data at different times, corresponding to the Twitter ratio. And compare the difference between the number of tweets on Android phones and Apple phones library(lubridate) library(scales) tweets %>% count(source, hour =hour(with_tz(created, "EST"))) %>% mutate(percent =n /sum(n)) %>% ggplot(aes(hour, percent, color =source)) + geom_line() + scale_y_continuous(labels =percent_format()) + labs(x ="Hour of day (EST)", y ="% of tweets", color ="")

文本信息分析

文本信息分析 1.中文文本信息过滤技术研究 1.1文本过滤技术 文本信息过滤是指依据一定的标准和运用一定的工具从大量的文本数据流中选取用户需要的信息或剔除用户不需要的信息的方法[1]。文本过滤和文本检索及文本分类有很大的相似之处。 1.1.1文本信息过滤技术发展 1958年Luhn提出的“商业智能机器”是信息过滤的最早雏形。Luhn所提出的构想涉及了信息过滤系统的每一个方面,为后来的文本过滤做了很好的铺垫。1982年,Dernzing 首次提出了“信息过滤”的概念,在他描述的例子中,可以通过“内容过滤器”识别出紧急邮件和一般邮件,以此提示对信息内容进行有效控制。1987年,Malone等人提出了三种信息选择模式,即认知、经济、社会。认知模式相当于“基于内容的信息过滤”;经济模式来自于Denning的“阈值接受思想”;社会模式是他最重要的贡献,即“协同过滤”。1989年,美国消息理解大会(Message Understand Conference)成立,将自然语言处理技术引入到信息研究中来,极大地推动了信息过滤的发展。 20世纪90年代以来,著名的文本检索会议TREC(Text Retrieval Conference)每年都把文本过滤当作一个很重要的一个研究内容,这很大程度上促进了文本过滤技术的发展。从TREC-4开始,增加了文本过滤的项目;从1997年TREC-6开始,文本过滤主要任务确定下来;TREC-7又将信息分为自适应过滤、批过滤和分流过滤,使得对信息过滤的研究更加深入。 随着信息过滤需求的增长和研究的深入发展,其他领域的许多技术被应用到文本过滤中来,并取得了很好的效果。如信息检索中的相关反馈、伪相关反馈以及文本检索中的向量空间模型的相关技术,文本分类和聚类技术,机器学习以及语言底层的处理技术都被应用到信息过滤中来,极大地拓展了信息过滤的研究广度,推动着信息过滤理论研究与技术应用不断走向完善与成熟。 1.1.2中文本过滤技术 中文文本过滤技术在最近几年得到了业内人士的普遍关注。国内对于信息过滤研究起步较晚,但是目前发展也很快,尤其是随着信息安全、信息定制等应用在国内的兴起,对信息过滤技术的研究也得到人们普遍的重视。其中,中科院计算所、复旦大学都曾参加了TREC 评测中的信息过滤任务,取得了较好的成绩;哈工大、南开大学等重点科研单位也已经开始对信息过滤进行研究。 然而,基于目前提出的中文文本过滤模型开发出的试验系统在不同的领域达到的过滤精度也不相同。由于中英文语法差异较大,对于文本信息的预处理方法不同,因此面向英文的众多过滤算法是否适合中文文本过滤还有待检验[2]。 1.2中文文本过滤的关键技术 文本过滤工作基本上可以概括为两项:一是建立用户需求模型,表达用户对信息的具体需求;二是匹配技术,即用户模板与文本匹配技术。因此,文本过滤的主要流程首先是根据用户的信息需求,建立用户需求模型,然后在相应的文本流中搜索符合用户需求的文本,同时,利用反馈改进需求模型。文本过滤系统的一般模型如图1所示:

文本情感分析综述

随着企业信息化与互联网的发展,信息以爆炸性速度飞速增长,其中包括了大量的非结构化与半结构化数据。非结构化与半结构化数据,主要是文本型数据,阐述5w问题,即who,when,where,what,Why。如何充分利用非结构化数据与半结构化数据,分析其包含的潜在信息,拥有支持决策,成为了众多企业与研究者关注的重点。尤其,针对互联网(如博客和论坛)上大量的用户参与的、对于诸如人物、事件、产品等有价值的评论信息。这些评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。基于此,潜在的用户就可以通过浏览这些主观色彩的评论来了解大众舆论对于某一事件或产品的看法。由于越来越多的用户乐于在互联网上分享自己的观点或体验,这类评论信息迅速膨胀,仅靠人工的方法难以应对网上海量信息的收集和处理,因此迫切需要计算机帮助用户快速获取和整理这些相关评价信息。因此,如何从这些Web文本中进行情感挖掘,获取情感倾向已经成为当今商务智能领域关注的热点。情感分析(sentiment analysis)技术也就应运而生(本文中提及的情感分析,都是指文本情感分析)。 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有意传递的情感信息。因此,情感分析的一个主要任务就是情感倾向性的判断,Pang等人在文献1中将情感倾向分为正面、负面和中性,即褒义、贬义和客观评价。研究初期,大量研究者都致力于针对词语和句子的倾向性判断研究,但随着互联网上大量主观性文本的出现,研究者们逐渐从简单的情感词语的分析研究过渡到更为复杂的情感句研究以及情感篇章的研究。文本情感分析主要可以归纳为3项层层递进的研究任务,即情感信息的抽取、情感信息的分类以及情感信息的检索与归纳[2]。情感信息抽取就是将无结构的情感文本转化为计算机容易识别和处理的结构化文本。情感信息分类则是利用情感信息抽取的结果将情感文本单元分为若干类别,供用户查看,如分为褒、贬、客观或者其他更细致的情感类别。情感信息检索和归纳可以看作是与用户直接交互的接口,强调检索和归纳的两项应用。 情感分析是一个新兴的研究课题,具有很大的研究价值和应用价值,正受到国内外众多研究者的青睐。目前实现情感分析的技术主要包括基于机器学习法和基于语义方法两类。本文主要针对这两大方法的研究进展进行比较分析,接着介绍国内外现有的资源建设情况,最后介绍情感分析的几个重要应用和展望它的发展趋势。 1 基于统计机器学习法 随着大规模语料库的建设和各种语言知识库的出现,基于语料库的统计机器学习方法进入自然语言处理的视野。多种机器学习方法应用到自然语言处理中并取得了良好的效果,促进了自然语言处理技术的发展。机器学习的本质是基于数据的学习(Learning from Data)。利用机器学习算法对统计语言模型进行训练,最后用训练好的分类器对新文本情感进行识别。2002年,Pang 等人就在文献[1]中提出用机器学习的方法进行情感倾向的挖掘工作,他们以互联网上的电影评论文本作为语料,采用了不同的特征选择方法,应用朴素贝叶斯(Naive Bayes)、最大熵(Maximum Entropy)、向量机(SVM)对电影评论分别进行分类,实验表明SVM 的分类性能最好,准确率达到87.5%。该研究引起学术界的关注,之后用于倾向性判断的机器学习算法的改进被陆续提出,基本的算法有:支持向量机(SVM)、朴素贝叶斯(NB)、K-近邻(KNN)、简单线性分类器(SLC)和最大熵(ME)等。他们在另一项工作中,将文本极性分类问题转换成求取句子连接图的最小分割问题,实现了一个基于minimum-cut的分类器。[7]。Whitelaw等人[11]关注研究带形容词的词组及其修饰语(如“extremely boring”或“not really verygood”),他们提取带形容词的词组作为特征,基于这些特征,用向量空间模型表示文

相关文档
最新文档