基于隐马尔可夫模型的中文文本事件信息抽取 (1)

合集下载

隐马尔可夫模型(hmm)在中文分词中的处理流程

隐马尔可夫模型(hmm)在中文分词中的处理流程

隐马尔可夫模型(HMM)在中文分词中的处理流程1.引言中文分词是自然语言处理领域中一个重要的任务,其目的是将连续的中文文本切分成有意义的词语。

隐马尔可夫模型(H id de nM ar ko vM ode l,H MM)是一种常用的统计模型,已被广泛应用于中文分词任务中。

本文将介绍H MM在中文分词中的处理流程。

2. HM M基本原理H M M是一种基于统计的模型,用于建模具有隐含状态的序列数据。

在中文分词任务中,HM M将文本视为一个观测序列,其中每个观测代表一个字或一个词,而隐藏的状态则代表该字或词的标签,如“B”表示词的开始,“M”表示词的中间,“E”表示词的结尾,“S”表示单字成词。

H M M通过学习观测序列和隐藏状态之间的转移概率和发射概率,来实现对中文分词的自动标注和切分。

3. HM M中文分词流程3.1数据预处理在使用H MM进行中文分词之前,首先需要对文本数据进行预处理。

预处理步骤包括去除无关字符、去除停用词、繁简转换等。

这些步骤旨在减少干扰和噪音,提高分词的准确性。

3.2构建H M M模型构建HM M模型包括确定隐藏状态集合、观测集合以及初始化转移概率和发射概率。

在中文分词中,隐藏状态集合包括“B”、“M”、“E”和“S”,观测集合包括所有字或词。

转移概率和发射概率的初始化可以使用统计方法,如频次统计、平滑处理等。

3.3模型训练模型训练是指根据已标注的中文语料库,利用最大似然估计或其他方法,估计转移概率和发射概率的参数。

训练过程中可以使用一些优化算法,如维特比算法、B aum-We lc h算法等。

3.4分词标注在模型训练完成后,利用已学习到的参数和观测序列,可以通过维特比算法进行分词标注。

维特比算法是一种动态规划算法,可以求解出最可能的隐藏状态序列。

3.5分词切分根据分词标注结果,可以进行分词切分。

根据“B”、“M”、“E”和“S”标签,可以将连续的字或词切分出来,得到最终的分词结果。

基于主动学习隐马尔可夫模型的文本信息抽取

基于主动学习隐马尔可夫模型的文本信息抽取
( Colg fC mp tra dC mmu i t n, n n Unv,Ch n s a Hu a 4 0 8 Chn 1. l eo e o ue n o nc i Hu a i ao a gh , n n 1 0 2, ia;
2 C l g f l ti l n nomai n ie r g, u n Un , h n s a Hu a 4 0 8 , h ) . l eo e r a a d Ifr t n E gn ei H n i C a gh , n n o e E c c o n a v 102C i a n
Absr c :An a tv e r i g wa s d i e n o m a in xt a to o r i n e ,whih wa a ty l— ta t c ie la n n su e n t xti f r to e r c in f rtani g t xt c sp rl a b ld.A d a p o c ft x nf r to xta ton b s d o c ie h d e a k v mo e s p o o e ee n n a pr a h o e ti o ma in e r c i a e n a tv i d n M r o d lwa r p s d.I n
模 型信 任 值 的 最佳 门槛 值 , 该方 法在 保 证 文本信 息抽 取 性 能的前提 下 , 大减 少 了用 户标记 大
训 练 文本 的 工作量 .
关键词 : 主动 学 习 ; 隐马 尔可 夫模 型 ; 文本 信 息抽 取
中图 分类 号 : P 9 T 31 文 献标识 码 : A
J n.20 0 7 u
文 章 编 号 : 0 02 7 ( 0 7 0 — 0 4 0 1 0 —4 2 2 0 ) 60 7 —4

hmm分词算法

hmm分词算法

hmm分词算法
HMM分词算法是一种基于隐马尔可夫模型的中文分词方法,其基本思路是将待分词的文本看作一个观测序列,将中文词语看作是一个隐藏的状态序列,通过对观测序列进行统计学习,推断出最可能的状态序列(即词语序列),从而实现中文分词。

HMM分词算法的核心是对隐马尔可夫模型的学习和推断,其中学习过程主要是通过训练样本对模型参数进行估计,包括状态转移矩阵、发射概率矩阵和初始状态分布;推断过程则是通过给定观测序列,利用Viterbi算法求解最可能的状态序列,从而实现分词。

HMM分词算法在中文分词领域有着广泛的应用,其优点是可以自动识别未登录词和歧义词,并且具有一定的鲁棒性;缺点是需要大量的训练数据和计算资源,并且对于长词和新词的识别效果不尽如人意。

同时,随着深度学习技术的发展,基于神经网络的分词方法也逐渐得到了广泛应用。

- 1 -。

hmmlearnd分词使用 -回复

hmmlearnd分词使用 -回复

hmmlearnd分词使用-回复"如何使用hmmlearnd进行中文分词"引言:中文分词是自然语言处理中的一个重要任务,在文本处理、信息检索、机器翻译等领域都有广泛的应用。

本文将介绍一种常用的中文分词工具——hmmlearnd,并详细阐述如何使用该工具进行中文分词。

一、什么是hmmlearnd?hmmlearnd是基于隐马尔可夫模型的中文分词工具。

隐马尔可夫模型是一种统计学习模型,广泛应用于序列标注任务中。

hmmlearnd使用观测序列(输入文本)和隐藏状态(词语边界)之间的关联来进行中文分词。

二、安装与环境配置1. 安装Python:hmmlearnd是一个Python库,因此需要在本地环境中安装Python。

可以从Python官方网站下载最新的Python版本,并按照官方指南进行安装。

2. 下载hmmlearnd库:在命令行中执行以下命令,使用pip工具下载hmmlearnd库。

pip install hmmlearn3. 导入hmmlearnd库:在自己的Python脚本中导入hmmlearnd库,即可开始使用该库进行中文分词。

from hmmlearn import hmm三、数据准备与预处理1. 准备训练数据:收集足够量的已分词标注数据作为训练集。

分词标注数据应包含一句句中文文本和相应的词语边界标记。

2. 数据预处理:将训练数据进行预处理,将中文文本转换为数值向量,便于模型处理。

可以使用Python的字符串处理函数,如split()和join(),来处理文本数据。

四、构建隐马尔可夫模型1. 定义模型参数:根据实际需求,设置不同的模型参数。

如隐藏状态数目、观测状态数目、初始状态概率、状态转移概率、观测概率等。

2. 初始化模型:使用hmmlearnd库提供的初始化方法,创建一个隐马尔可夫模型对象。

model = hmm.MultinomialHMM(n_components=num_states)3. 训练模型:使用训练集数据,根据观测序列和隐藏状态序列,训练模型。

基于隐马尔可夫模型的中文文本事件信息抽取 (1)

基于隐马尔可夫模型的中文文本事件信息抽取 (1)
Abstr act: A method based on hidden Markov models ( HMMs) is proposed for extracting the event information from Chinese texts. Firstly, the method can find a candidate sentence, which contains a description for a kind of specific event via trigger detecting. Then the method constructs a separate HMM for a kind of event argument, and makes use of these HMMs to extract event arguments from these candidate sentences. The key of constructing model is learning HMM structure and parameter estimation. Experimental results show that the method has better performance than other ap- proaches for event extraction from Chinese texts. Key wor ds: hidden Markov model; event information extraction; trigger; event argument
1 引言 当今信息社会, 大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战, 迫切需要一些 自 动 化 的 工 具 帮 助 人 们 从 海 量 文 本 数 据 中 快 速 、准 确地找到真正需要的信息。信息抽取研究正是在这 种背景下产生的, 事件信息抽取( 简称事件抽取) 是 信息抽取研究中最具挑战性的任务之一, 旨在利用 计算机从文本中自动地抽取特定类型的事件及其 事件要素。例如, 从新闻报道中抽取职务变动事件 的详细信息: 人员、组织机构、职位、时间等。

基于最大熵的隐马尔可夫模型文本信息抽取

基于最大熵的隐马尔可夫模型文本信息抽取

2 引言
333 的 普 遍 应 用 导 致 网 上 的 文 本 数 量 成 指 数 级 增 长 ! 因此如何自动处理这些海量联机文本信息成为目前重要的研 自动文本信息抽取是文本信息处理的一个重要环 究 课 题* 文本 信 息 抽 取 " 是指从文本 节 * ( ! ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] W 中自 动 抽 取 相 关 的 或 特 定 类 型 的 信 息* 目前文本信息抽取模
利用 _** 进行文本信息抽取是一种基于统计机 器 学 习 的信息抽取方 法 * 不需大规模的词典集与规 _** 易 于 建 立 ! 则集 ! 适应性好 ! 抽取精度较高 ! 因而得到研究者的关注 * 文献 应用 _** 抽取计算机科学研究论文的标题 7 作者和摘要 4 # 5 等头部信息 + 文献 4 使用一种 收缩 的技术改进 3 5 8 " ( 9 & \ # V W T X ~ 文献4 使用随机优化技术 4 5 _** 信息抽取模型 概 率 的 估 计 + 动态选择最适合的 _** 模型结构进行信息抽取 + 文献4 将 1 5
" ! ! ! $ % % & ’ ! ( f g h h i j i g kf g l m n o i pq r sf g lln r t u q o t g r vn r q rwr t x i p y t o z f { q r j y { q vn r q r# f { t r q
* ) , | } 6 G ? > K G ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] WV &T WV $U ] # ! T W ! T U U # ] T % \! ]U # ] % ~ & & V W X’ T # X ~( Z T W ! V ! )] " ! ~ b ! *T b V $Z $ * ~ W ! # ] U )U # ] + V , ~ &TV W ,] " " # T $~ .] # -" ] #W T ! Z # T ’ ’ T W X Z T X ~U # ] % ~ & & V W X 0W ~ .T ’ X ] # V ! \ $Z & V W X\ V , , ~ W*T # ] +$] , ~ ’ * / T & ~ ,] W$T b V $T ’ ~ W ! # ] U )V &U # ] U ] & ~ ," ] #! ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] W , \ ~W ~ .T ’ X ] # V ! \ $% ] $/ V W ~ &! \ ~T , + T W ! T X ~] " ! ! $T b V $Z $~ W ! # ] U )$] , ~ ’ .\ V % \% T WV W ! ~ X # T ! ~T W ,U # ] % ~ & & # Z ’ ~ & T W ,W ] .’ ~ , X ~~ " " V % V ~ W ! ’ ) .V ! \! \ T ! ] " \ V , , ~ W*T # ] + ! $] T W , ~ ’ .\ V % \\ T & U ] .~ # " Z ’ ! ~ % \ W V ( Z ~ " ] Z W , T ! V ] W & ! ]& ] ’ + ~ & ~ ( Z ~ W % ~ # ~ U # ~ & ~ W ! T ! V ] WT W ,& ! T ! V & ! V % T ’ U # ] / ’ ~ $! ,Z & ~ & ! \ ~ & Z $] "T ’ ’ " ~ T ! Z # ~ &.V ! \ .~ V X \ ! &! ]T , e Z & !! \ ~! # T W & V ! V ] WU T # T $~ ! ~ # &V W\ V , , ~ W *T # ] +$] , ~ ’ " ] #! ~ b !V W " ] # $T ! V ] W * * ~ b ! # T % ! V ] W d b U ~ # V $~ W ! T ’ # ~ & Z ’ ! && \ ] .! \ T ! ! \ ~W ~ .T ’ X ] # V ! \ $V $U # ] + ~ &! \ ~U ~ # " ] # $T W % ~V WU # ~ % V & V ] WT W ,# ~ % T ’ ’ ) T + + + 0 < O1A ? ; 6 # ! V " V % V T ’ V W ! ~ ’ ’ V X ~ W % ~ ! ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] W \ V , , ~ W$T # ] +$] , ~ ’ $T b V $T ’ ~ W ! # ] U )

基于隐马尔可夫模型的自然语言处理技术研究

基于隐马尔可夫模型的自然语言处理技术研究

基于隐马尔可夫模型的自然语言处理技术研究一、引言自然语言处理(NLP)是计算机科学领域的一门研究,它涉及自然语言的处理、理解和生成。

在现代社会,NLP技术已经被广泛应用于各种语言处理任务中,如文本分类、机器翻译、信息检索等。

其中,基于隐马尔可夫模型(Hidden Markov Model,HMM)的NLP技术受到了广泛的关注。

本文主要介绍基于HMM模型的NLP技术,并对其应用进行详细的分析。

二、HMM模型HMM模型是一种基于概率的统计模型,它由隐藏的马尔可夫链和观测序列组成。

其中,隐藏的马尔可夫链描述了一个隐藏状态序列(或称作隐含状态序列),它的状态是不可见的;观测序列是由这个隐藏状态序列经过一定的观测概率转化而来的。

在HMM模型中,隐藏的马尔可夫链可以用一个随机过程来描述,它有一个有限集合S,它包含了所有可能的隐藏状态或隐含状态。

同时,这个过程还包含隐含状态S的一个状态转移矩阵A。

在观测序列O中,每一个符号都有一个观测状态集合V,它包含了所有可能的观测状态。

对于HMM模型,我们可以定义以下符号:- Q:所有可能的隐含状态的集合。

- V:所有可能的观测状态的集合。

- A:状态转移概率矩阵。

- B:观测概率矩阵。

- π:初始状态概率向量,也就是一个随机初始状态。

HMM模型有三个基本问题:- 问题1:给定模型λ=(A,B,π)和观测序列O = {o1,o2,...,oT},如何计算P(O|λ),即观测序列O出现的概率。

- 问题2:给定模型λ=(A,B,π)和观测序列O = {o1,o2,...,oT},如何找到对应的隐含状态序列。

- 问题3:给定观测序列O = {o1,o2,...,oT},如何调整模型λ=(A,B,π)的参数,以便最大化P(O|λ)。

三、应用场景1. 语音识别基于HMM模型的语音识别技术,将声学信号处理为特征向量序列,利用HMM模型进行信号的识别和分类。

2. 词性标注词性标注是指为一个句子中的每个词汇标注其词性,这个任务在计算机自动处理自然语言时非常重要。

基于隐马尔可夫模型的 Web信息抽取

基于隐马尔可夫模型的 Web信息抽取
基于归纳学习的信息抽取工具主要用于自动生成针对结 构相似的 Web 页面的包装器。RoadRunner[3]是针对 Web 页面 的结构进行归纳而形成抽取规则;STALKER[4]则是通过泛化 抽取对象的上下文信息(包括 HTML 语法标记、空格、标点 符号、单词)构建抽取规则。这类信息抽取方法没有考虑信息 项之间的次序关系和信息项在 Web 页面中的位置特征,信息 抽取模型的表达能力不足,从而影响了信息抽取的性能。
图 2 IBM 公司的 Web 文档
图 3 图 2 文档的 HTML 标记序列
定义 1 D 是一个二元组(ds, de),表示 HTML 标记语言中 具有开始标记和结束标记的标记类型,ds 表示开始标记,de 表示相应的结束标记。dom(D)表示所有属于 D 类型标记构成 的集合,例如(<B>, </B>)∈dom(D)。
—25—
图 1 信息抽取模型的构造过程
3.1 扩展 DOM 树的生成算法 图 2 所示的文档是一个公司的相关信息,包括公司名、
地址(包括街道、城市、州)、电话、传真和 E-mail。图 3 示出 了图 2 所示文档对应的 HTML 标记序列,标记序列中可能出 现的 term 分为 D, B, P 和 T 4 种类型。
题,即确定 HMM 模型的相关参数:对于已标记训练样本, 一般采用 ML(Maximum Likelihood)算法学习参数,对于未标 记训练样本,一般使用 Baum-Welch 算法学习参数。本文采 用 ML 算法学习模型相关参数。
状态集 S 的确定通过用户在扩展的 DOM 树中对待抽取 信息的标注确定状态集。例如对于图 2 所示的页面,待抽取 信息有:公司名字(Na),街道(Street),城市(C),州(State), 电话(T),传真(F)和 E-mail(E),则 S={Na, Street, C, State, T, F, E}。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

示) , 该结构含有最少的状态数。然后对现有模型施
以一系列操作, 这些操作包括: 增加一个前缀状态、
重复一个前缀状 态 、增 加 一 个 后 缀 状 态 、重 复 一 个
后 缀 状 态 、增 加 一 个 目 标 状 态 、重 复 一 个 目 标 状 态 、
增加一个背景状态等。经过这些操作后, 目前的模
在 实 验 数 据 集 上 进 行 “职 务 变 动 ”事 件 抽 取 实 验, 抽取结果如表 1 所示, 其中候选数据语句范围 采用触发词前后最近的两个句号之间的语句。将表 1 中的抽取结果和别的系统或方法进行比较, 发现 文中的方法的抽取性能要优于其他方法。
型结构会产生一些新的结构, 将这些新的结构作为
候选结构, 并在一个标注好的测试集上进行测试,
将得分最高的结构作为下一次循环的起始模型结
构, 直到最后找到一个最优的模型结构。
2.2.2 参数估计
对每类事件要素的 HMM 模型, 当模型结构确
定后, 就可以从标注好的训练语料中用最大似然估
计 学 习 模 型 的 参 数 。 计 算 模 型 的 初 始 状 态 概 率 、状
1 引言 当今信息社会, 大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战, 迫切需要一些 自 动 化 的 工 具 帮 助 人 们 从 海 量 文 本 数 据 中 快 速 、准 确地找到真正需要的信息。信息抽取研究正是在这 种背景下产生的, 事件信息抽取( 简称事件抽取) 是 信息抽取研究中最具挑战性的任务之一, 旨在利用 计算机从文本中自动地抽取特定类型的事件及其 事件要素。例如, 从新闻报道中抽取职务变动事件 的详细信息: 人员、组织机构、职位、时间等。
利用 HMMs 进行文本事件信息抽取时, 首先对 不同的抽取域应该建立相应的 HMM, 其中最重要 的两个问题[5]是模型结构学习和进行参数估计。 2.2.1 模型结构学习
要建立用于事件信息抽取的 HMM 模型, 需要
对每类事件要素从训练数据集学习得到一个优化
的模型结构。虽然每个模型包含四类状态, 并且这
Abstr act: A method based on hidden Markov models ( HMMs) is proposed for extracting the event information from Chinese texts. Firstly, the method can find a candidate sentence, which contains a description for a kind of specific event via trigger detecting. Then the method constructs a separate HMM for a kind of event argument, and makes use of these HMMs to extract event arguments from these candidate sentences. The key of constructing model is learning HMM structure and parameter estimation. Experimental results show that the method has better performance than other ap- proaches for event extraction from Chinese texts. Key wor ds: hidden Markov model; event information extraction; trigger; event argument
学院院长一职。 ”中 事 件 要 素 人 物 : 赵 启 正 前 面 的
“原 国 务 院 新 闻 办 公 室 主 任 ” 在 这 里 由 前 缀 状 态 输
出, 显然这不是一个前缀状态可以完成的。在文中
进 行 模 型 结 构 优 化 时 采 用 了 和 文 献 [5]类 似 的 方 法 。
首先从最简单的模型结构开始 ( 如图 1 中上图所
收稿日期: 2007- 06- 02 基金项目: 教育部博士点基金项目( 20050007023)
触发词是能够很好地表述出某类事件中心意义的 词。例如 , 职务变动事件中的 “任 命 ”、“辞 职 ”等 词 语。( 3) 基于概率统计模型的文本信息抽取。文献[4] 用 一 个 隐 马 尔 可 夫 模 型 ( Hidden Markov Model, HMM) 对计算机科研论文头部信息的所有域进行抽 取 ; 文 献[5]使 用 随 机 优 化 技 术 动 态 选 择 最 合 适 的 HMM 模型从研讨会公告中抽取相关信息。虽然将 统计模型用于本中信息抽取的研究很多, 但和文中 所述的文本事件信息抽取是有区别的。因为这些研 究中待抽取的数据域都可以看成一个非常紧凑的 序列, 而文本中事件的表述往往并不具备这种特 征, 需要抽取的数据域是分散的、稀疏的, 有的待抽 取域甚至距离事件表述中心( 可以看作是触发词所 在的位置) 有一定的距离。
中图分类号: TP391
文献标识码: A
文章编号: 1000- 7180( 2007) 10- 0092- 03
Event Infor mation Extr action fr om Chinese Text Based on Hidden Mar kov Models
YU Jiang-de1, 2, XIAO Xin-feng1, FAN Xiao-zhong2
( 1 School of Computer and Information Engineering, Anyang Normal University, Anyang 455000, China; 2 School of Computer Science and Technology, Beijing Institute of Technology, Beijing 100081, China)
第二阶段的机理可以描述为: 为每类待抽取的 事件要素构建一个 HMM 模型, 例如: 职务变动事件 抽取中, 对时间、人物、组 织 机 构 、职 位 分 别 构 建 四 个独立的 HMM 模型。候选事件语句中的词语作为 这些 HMM 模型中状态的输出符号, 如果模型给定, 那么事件抽取过程就是搜索最可能创建词语序列 的状态序列。用于事件抽取的 HMM 模型结构应该 能反映待抽取域的内容和它的上下文特征。为了实 现 正 确 的 事 件 抽 取 , 一 般 引 入 四 种 类 型 的 状 态[5]: ( 1) 目标状态: 可分为多个状态, 用于对目标短语进 行建模。( 2) 前缀状态: 前缀包含一个或多个状态, 这些状态被连接成字符串, 一个前缀状态仅仅转移 到位于该字符串中的下一个状态, 或者如果它是该 字符串的最后一个状态, 则它转移到目标状态。( 3) 后缀状态: 后缀状态在结构上类似于前缀。( 4) 背景 状态: 背景状态主要是对没有被其它类型状态建模 的任何文本建模。图 1 示意了用于事件抽取的两个 HMM 模型结构。 2.2 模型结构学习和参数估计
92
微电子学与计算机
2007 年第 24 卷第 10 期
基于隐马尔可夫模型的中文文本事件信息抽取
于江德 1, 2, 肖新峰 1, 樊孝忠 2
( 1 安阳师范学院 计算机与信息工程学院, 河南 安阳 455000; 2 北京理工大学 计算机科学技术学院, 北京 100081)
摘 要: 提出了一种基于隐马尔可夫模型的中文文本事件抽取方法, 该方法首先通过触发词探测从文本中发现
k=1
式中, Ci, j 是训练序列中, 从状态 si 转移到状态 sj 的 次数。
bik=
Ci, k


1≤i≤N, 1≤j≤M
( 3)
!Ci, j
k=1
式中, Ci, k 是训练集中, 从状态 si 输出词语 ok 的次
件语句范围的办法进行了比较。依次分别记为 D_Trigger 和 Full_Stop。两种办法在四类事件要素上 的抽取性能比较如图 2 所示。可以看出, 方法( 2) 确 定的语句范围下抽取性能要稍微好点。
态转移概率和输出概率如下:
πi =
C( X1 =sj )

, 1≤i≤N
( 1)
!C( X1 =si )
j=1
式中, C( X1=si) 是训练语料中, 以 si 为初子学与计算机
2007 年第 24 卷第 10 期
aij=
Ci, j

, 1≤i, j≤N
( 2)
!Ci, k
3 实验及结果分析 3.1 触发词词表构建
实 验 中 用 于 进 行 “职 务 变 动 ”类 事 件 抽 取 的 触 发词表采用手工的方式构建, 在构建过程中参照第 3.2 节所提及的真实语料, 并借助于 《现代汉语词 典》和《同义词词林》, 构建出的触发词表包含了 136 个职务变动类事件的触发词。 3.2 训练和测试数据集
文中提出的事件抽取方法分两个阶段: 第一个 阶段是通过触发词探测发现候选事件所在的语句。 第二阶段是利用 HMMs 从 候 选 事 件 语 句 中 抽 取 事 件要素。
在第一阶段, 依据触发词表当在文本中探测到 触发词时, 就认定该触发词所在的语句表述了一个 特定事件, 该语句就是一个候选事件语句。该语句 的上下文范围有两种确定办法: ( 1) 通常情况下, 上 下文的选取是基于核心词左右一定范围进行的, 文 献[6]对自然语言处 理 中 词 语 的 有 效 范 围 进 行 了 定 量研究, 认为汉语核心词最近距离[- 8, +9]位置之间 的上下文范围能包含 85%以上的信息量, 文中将触 发词作为核心词; ( 2) 触发词前后最近的两个句号 之间的语句。最后对候选事件语句进行预处理, 包 括分词、词性标注、过滤停用词等。
相关文档
最新文档