基于隐马尔可夫模型的中文文本事件信息抽取 (1)

合集下载

隐马尔可夫模型(hmm)在中文分词中的处理流程

隐马尔可夫模型(HMM)在中文分词中的处理流程1.引言中文分词是自然语言处理领域中一个重要的任务，其目的是将连续的中文文本切分成有意义的词语。

隐马尔可夫模型(H id de nM ar ko vM ode l,H MM)是一种常用的统计模型，已被广泛应用于中文分词任务中。

本文将介绍H MM在中文分词中的处理流程。

2. HM M基本原理H M M是一种基于统计的模型，用于建模具有隐含状态的序列数据。

在中文分词任务中，HM M将文本视为一个观测序列，其中每个观测代表一个字或一个词，而隐藏的状态则代表该字或词的标签，如“B”表示词的开始，“M”表示词的中间，“E”表示词的结尾，“S”表示单字成词。

H M M通过学习观测序列和隐藏状态之间的转移概率和发射概率，来实现对中文分词的自动标注和切分。

3. HM M中文分词流程3.1数据预处理在使用H MM进行中文分词之前，首先需要对文本数据进行预处理。

预处理步骤包括去除无关字符、去除停用词、繁简转换等。

这些步骤旨在减少干扰和噪音，提高分词的准确性。

3.2构建H M M模型构建HM M模型包括确定隐藏状态集合、观测集合以及初始化转移概率和发射概率。

在中文分词中，隐藏状态集合包括“B”、“M”、“E”和“S”，观测集合包括所有字或词。

转移概率和发射概率的初始化可以使用统计方法，如频次统计、平滑处理等。

3.3模型训练模型训练是指根据已标注的中文语料库，利用最大似然估计或其他方法，估计转移概率和发射概率的参数。

训练过程中可以使用一些优化算法，如维特比算法、B aum-We lc h算法等。

3.4分词标注在模型训练完成后，利用已学习到的参数和观测序列，可以通过维特比算法进行分词标注。

维特比算法是一种动态规划算法，可以求解出最可能的隐藏状态序列。

3.5分词切分根据分词标注结果，可以进行分词切分。

根据“B”、“M”、“E”和“S”标签，可以将连续的字或词切分出来，得到最终的分词结果。

基于主动学习隐马尔可夫模型的文本信息抽取

（ＣｏｌｇｆＣｍｐｔｒａｄＣｍｍｕｉｔｎ，ｎｎＵｎｖ，ＣｈｎｓａＨｕａ４０８Ｃｈｎ１．ｌｅｏｅｏｕｅｎｏｎｃｉＨｕａｉａｏａｇｈ，ｎｎ１０２，ｉａ；
２Ｃｌｇｆｌｔｉｌｎｎｏｍａｉｎｉｅｒｇ，ｕｎＵｎ，ｈｎｓａＨｕａ４０８，ｈ）．ｌｅｏｅｒａａｄＩｆｒｔｎＥｇｎｅｉＨｎｉＣａｇｈ，ｎｎｏｅＥｃｃｏｎａｖ１０２Ｃｉａｎ
Ａｂｓｒｃ：Ａｎａｔｖｅｒｉｇｗａｓｄｉｅｎｏｍａｉｎｘｔａｔｏｏｒｉｎｅ，ｗｈｉｈｗａａｔｙｌ— ｔａｔｃｉｅｌａｎｎｓｕｅｎｔｘｔｉｆｒｔｏｅｒｃｉｎｆｒｔａｎｉｇｔｘｔｃｓｐｒｌａｂｌｄ．ＡｄａｐｏｃｆｔｘｎｆｒｔｏｘｔａｔｏｎｂｓｄｏｃｉｅｈｄｅａｋｖｍｏｅｓｐｏｏｅｅｅｎｎａｐｒａｈｏｅｔｉｏｍａｉｎｅｒｃｉａｅｎａｔｖｉｄｎＭｒｏｄｌｗａｒｐｓｄ．Ｉｎ
模型信任值的最佳门槛值，该方法在保证文本信息抽取性能的前提下，大减少了用户标记大
训练文本的工作量．
关键词：主动学习；隐马尔可夫模型；文本信息抽取
中图分类号：Ｐ９Ｔ３１文献标识码：Ａ
Ｊｎ．２００７ｕ
文章编号：００２７（０７０ — ０４０１０ —４２２０）６０７ —４

hmm分词算法

hmm分词算法
HMM分词算法是一种基于隐马尔可夫模型的中文分词方法，其基本思路是将待分词的文本看作一个观测序列，将中文词语看作是一个隐藏的状态序列，通过对观测序列进行统计学习，推断出最可能的状态序列（即词语序列），从而实现中文分词。

HMM分词算法的核心是对隐马尔可夫模型的学习和推断，其中学习过程主要是通过训练样本对模型参数进行估计，包括状态转移矩阵、发射概率矩阵和初始状态分布；推断过程则是通过给定观测序列，利用Viterbi算法求解最可能的状态序列，从而实现分词。

HMM分词算法在中文分词领域有着广泛的应用，其优点是可以自动识别未登录词和歧义词，并且具有一定的鲁棒性；缺点是需要大量的训练数据和计算资源，并且对于长词和新词的识别效果不尽如人意。

同时，随着深度学习技术的发展，基于神经网络的分词方法也逐渐得到了广泛应用。

- 1 -。

hmmlearnd分词使用 -回复

hmmlearnd分词使用-回复"如何使用hmmlearnd进行中文分词"引言：中文分词是自然语言处理中的一个重要任务，在文本处理、信息检索、机器翻译等领域都有广泛的应用。

本文将介绍一种常用的中文分词工具——hmmlearnd，并详细阐述如何使用该工具进行中文分词。

一、什么是hmmlearnd?hmmlearnd是基于隐马尔可夫模型的中文分词工具。

隐马尔可夫模型是一种统计学习模型，广泛应用于序列标注任务中。

hmmlearnd使用观测序列（输入文本）和隐藏状态（词语边界）之间的关联来进行中文分词。

二、安装与环境配置1. 安装Python：hmmlearnd是一个Python库，因此需要在本地环境中安装Python。

可以从Python官方网站下载最新的Python版本，并按照官方指南进行安装。

2. 下载hmmlearnd库：在命令行中执行以下命令，使用pip工具下载hmmlearnd库。

pip install hmmlearn3. 导入hmmlearnd库：在自己的Python脚本中导入hmmlearnd库，即可开始使用该库进行中文分词。

from hmmlearn import hmm三、数据准备与预处理1. 准备训练数据：收集足够量的已分词标注数据作为训练集。

分词标注数据应包含一句句中文文本和相应的词语边界标记。

2. 数据预处理：将训练数据进行预处理，将中文文本转换为数值向量，便于模型处理。

可以使用Python的字符串处理函数，如split()和join()，来处理文本数据。

四、构建隐马尔可夫模型1. 定义模型参数：根据实际需求，设置不同的模型参数。

如隐藏状态数目、观测状态数目、初始状态概率、状态转移概率、观测概率等。

2. 初始化模型：使用hmmlearnd库提供的初始化方法，创建一个隐马尔可夫模型对象。

model = hmm.MultinomialHMM(n_components=num_states)3. 训练模型：使用训练集数据，根据观测序列和隐藏状态序列，训练模型。

基于隐马尔可夫模型的中文文本事件信息抽取 (1)

Ａｂｓｔｒａｃｔ：ＡｍｅｔｈｏｄｂａｓｅｄｏｎｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ（ＨＭＭｓ）ｉｓｐｒｏｐｏｓｅｄｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｅｖｅｎｔｉｎｆｏｒｍａｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｔｅｘｔｓ．Ｆｉｒｓｔｌｙ，ｔｈｅｍｅｔｈｏｄｃａｎｆｉｎｄａｃａｎｄｉｄａｔｅｓｅｎｔｅｎｃｅ，ｗｈｉｃｈｃｏｎｔａｉｎｓａｄｅｓｃｒｉｐｔｉｏｎｆｏｒａｋｉｎｄｏｆｓｐｅｃｉｆｉｃｅｖｅｎｔｖｉａｔｒｉｇｇｅｒｄｅｔｅｃｔｉｎｇ．ＴｈｅｎｔｈｅｍｅｔｈｏｄｃｏｎｓｔｒｕｃｔｓａｓｅｐａｒａｔｅＨＭＭｆｏｒａｋｉｎｄｏｆｅｖｅｎｔａｒｇｕｍｅｎｔ，ａｎｄｍａｋｅｓｕｓｅｏｆｔｈｅｓｅＨＭＭｓｔｏｅｘｔｒａｃｔｅｖｅｎｔａｒｇｕｍｅｎｔｓｆｒｏｍｔｈｅｓｅｃａｎｄｉｄａｔｅｓｅｎｔｅｎｃｅｓ．ＴｈｅｋｅｙｏｆｃｏｎｓｔｒｕｃｔｉｎｇｍｏｄｅｌｉｓｌｅａｒｎｉｎｇＨＭＭｓｔｒｕｃｔｕｒｅａｎｄｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｔｈａｎｏｔｈｅｒａｐ－ｐｒｏａｃｈｅｓｆｏｒｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｔｅｘｔｓ．Ｋｅｙｗｏｒｄｓ：ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ；ｅｖｅｎｔｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ；ｔｒｉｇｇｅｒ；ｅｖｅｎｔａｒｇｕｍｅｎｔ
１引言当今信息社会，大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们从海量文本数据中快速、准确地找到真正需要的信息。信息抽取研究正是在这种背景下产生的，事件信息抽取（简称事件抽取）是信息抽取研究中最具挑战性的任务之一，旨在利用计算机从文本中自动地抽取特定类型的事件及其事件要素。例如，从新闻报道中抽取职务变动事件的详细信息：人员、组织机构、职位、时间等。

基于最大熵的隐马尔可夫模型文本信息抽取

2 引言
333 的普遍应用导致网上的文本数量成指数级增长 ! 因此如何自动处理这些海量联机文本信息成为目前重要的研自动文本信息抽取是文本信息处理的一个重要环究课题* 文本信息抽取 " 是指从文本节 * ( ! ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] W 中自动抽取相关的或特定类型的信息* 目前文本信息抽取模
利用 _** 进行文本信息抽取是一种基于统计机器学习的信息抽取方法 * 不需大规模的词典集与规 _** 易于建立 ! 则集 ! 适应性好 ! 抽取精度较高 ! 因而得到研究者的关注 * 文献应用 _** 抽取计算机科学研究论文的标题 7 作者和摘要 4 # 5 等头部信息 + 文献 4 使用一种收缩的技术改进 3 5 8 " ( 9 & \ # V W T X ~ 文献4 使用随机优化技术 4 5 _** 信息抽取模型概率的估计 + 动态选择最适合的 _** 模型结构进行信息抽取 + 文献4 将 1 5
" ! ! ! $ % % & ’ ! ( f g h h i j i g kf g l m n o i pq r sf g lln r t u q o t g r vn r q rwr t x i p y t o z f { q r j y { q vn r q r# f { t r q
* ) , | } 6 G ? > K G ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] WV &T WV $U ] # ! T W ! T U U # ] T % \! ]U # ] % ~ & & V W X’ T # X ~( Z T W ! V ! )] " ! ~ b ! *T b V $Z $ * ~ W ! # ] U )U # ] + V , ~ &TV W ,] " " # T $~ .] # -" ] #W T ! Z # T ’ ’ T W X Z T X ~U # ] % ~ & & V W X 0W ~ .T ’ X ] # V ! \ $Z & V W X\ V , , ~ W*T # ] +$] , ~ ’ * / T & ~ ,] W$T b V $T ’ ~ W ! # ] U )V &U # ] U ] & ~ ," ] #! ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] W , \ ~W ~ .T ’ X ] # V ! \ $% ] $/ V W ~ &! \ ~T , + T W ! T X ~] " ! ! $T b V $Z $~ W ! # ] U )$] , ~ ’ .\ V % \% T WV W ! ~ X # T ! ~T W ,U # ] % ~ & & # Z ’ ~ & T W ,W ] .’ ~ , X ~~ " " V % V ~ W ! ’ ) .V ! \! \ T ! ] " \ V , , ~ W*T # ] + ! $] T W , ~ ’ .\ V % \\ T & U ] .~ # " Z ’ ! ~ % \ W V ( Z ~ " ] Z W , T ! V ] W & ! ]& ] ’ + ~ & ~ ( Z ~ W % ~ # ~ U # ~ & ~ W ! T ! V ] WT W ,& ! T ! V & ! V % T ’ U # ] / ’ ~ $! ,Z & ~ & ! \ ~ & Z $] "T ’ ’ " ~ T ! Z # ~ &.V ! \ .~ V X \ ! &! ]T , e Z & !! \ ~! # T W & V ! V ] WU T # T $~ ! ~ # &V W\ V , , ~ W *T # ] +$] , ~ ’ " ] #! ~ b !V W " ] # $T ! V ] W * * ~ b ! # T % ! V ] W d b U ~ # V $~ W ! T ’ # ~ & Z ’ ! && \ ] .! \ T ! ! \ ~W ~ .T ’ X ] # V ! \ $V $U # ] + ~ &! \ ~U ~ # " ] # $T W % ~V WU # ~ % V & V ] WT W ,# ~ % T ’ ’ ) T + + + 0 < O1A ? ; 6 # ! V " V % V T ’ V W ! ~ ’ ’ V X ~ W % ~ ! ~ b ! V W " ] # $T ! V ] W~ b ! # T % ! V ] W \ V , , ~ W$T # ] +$] , ~ ’ $T b V $T ’ ~ W ! # ] U )

基于隐马尔可夫模型的自然语言处理技术研究

基于隐马尔可夫模型的自然语言处理技术研究一、引言自然语言处理（NLP）是计算机科学领域的一门研究，它涉及自然语言的处理、理解和生成。

在现代社会，NLP技术已经被广泛应用于各种语言处理任务中，如文本分类、机器翻译、信息检索等。

其中，基于隐马尔可夫模型（Hidden Markov Model，HMM）的NLP技术受到了广泛的关注。

本文主要介绍基于HMM模型的NLP技术，并对其应用进行详细的分析。

二、HMM模型HMM模型是一种基于概率的统计模型，它由隐藏的马尔可夫链和观测序列组成。

其中，隐藏的马尔可夫链描述了一个隐藏状态序列（或称作隐含状态序列），它的状态是不可见的；观测序列是由这个隐藏状态序列经过一定的观测概率转化而来的。

在HMM模型中，隐藏的马尔可夫链可以用一个随机过程来描述，它有一个有限集合S，它包含了所有可能的隐藏状态或隐含状态。

同时，这个过程还包含隐含状态S的一个状态转移矩阵A。

在观测序列O中，每一个符号都有一个观测状态集合V，它包含了所有可能的观测状态。

对于HMM模型，我们可以定义以下符号：- Q：所有可能的隐含状态的集合。

- V：所有可能的观测状态的集合。

- A：状态转移概率矩阵。

- B：观测概率矩阵。

- π：初始状态概率向量，也就是一个随机初始状态。

HMM模型有三个基本问题：- 问题1：给定模型λ=(A,B,π)和观测序列O = {o1,o2,...,oT}，如何计算P(O|λ)，即观测序列O出现的概率。

- 问题2：给定模型λ=(A,B,π)和观测序列O = {o1,o2,...,oT}，如何找到对应的隐含状态序列。

- 问题3：给定观测序列O = {o1,o2,...,oT}，如何调整模型λ=(A,B,π)的参数，以便最大化P(O|λ)。

三、应用场景1. 语音识别基于HMM模型的语音识别技术，将声学信号处理为特征向量序列，利用HMM模型进行信号的识别和分类。

2. 词性标注词性标注是指为一个句子中的每个词汇标注其词性，这个任务在计算机自动处理自然语言时非常重要。

基于隐马尔可夫模型的 Web信息抽取

基于归纳学习的信息抽取工具主要用于自动生成针对结构相似的 Web 页面的包装器。RoadRunner[3]是针对 Web 页面的结构进行归纳而形成抽取规则；STALKER[4]则是通过泛化抽取对象的上下文信息(包括 HTML 语法标记、空格、标点符号、单词)构建抽取规则。这类信息抽取方法没有考虑信息项之间的次序关系和信息项在 Web 页面中的位置特征，信息抽取模型的表达能力不足，从而影响了信息抽取的性能。
图 2 IBM 公司的 Web 文档
图 3 图 2 文档的 HTML 标记序列
定义 1 D 是一个二元组(ds, de)，表示 HTML 标记语言中具有开始标记和结束标记的标记类型，ds 表示开始标记，de 表示相应的结束标记。dom(D)表示所有属于 D 类型标记构成的集合，例如(<B>, </B>)∈dom(D)。
—25—
图 1 信息抽取模型的构造过程
3.1 扩展 DOM 树的生成算法图 2 所示的文档是一个公司的相关信息，包括公司名、
地址(包括街道、城市、州)、电话、传真和 E-mail。图 3 示出了图 2 所示文档对应的 HTML 标记序列，标记序列中可能出现的 term 分为 D, B, P 和 T 4 种类型。
题，即确定 HMM 模型的相关参数：对于已标记训练样本，一般采用 ML(Maximum Likelihood)算法学习参数，对于未标记训练样本，一般使用 Baum-Welch 算法学习参数。本文采用 ML 算法学习模型相关参数。
状态集 S 的确定通过用户在扩展的 DOM 树中对待抽取信息的标注确定状态集。例如对于图 2 所示的页面，待抽取信息有：公司名字(Na)，街道(Street)，城市(C)，州(State)，电话(T)，传真(F)和 E-mail(E)，则 S={Na, Street, C, State, T, F, E}。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

示），该结构含有最少的状态数。然后对现有模型施
以一系列操作，这些操作包括：增加一个前缀状态、
重复一个前缀状态、增加一个后缀状态、重复一个
后缀状态、增加一个目标状态、重复一个目标状态、
增加一个背景状态等。经过这些操作后，目前的模
在实验数据集上进行 “职务变动 ”事件抽取实验，抽取结果如表１所示，其中候选数据语句范围采用触发词前后最近的两个句号之间的语句。将表１中的抽取结果和别的系统或方法进行比较，发现文中的方法的抽取性能要优于其他方法。
型结构会产生一些新的结构，将这些新的结构作为
候选结构，并在一个标注好的测试集上进行测试，
将得分最高的结构作为下一次循环的起始模型结
构，直到最后找到一个最优的模型结构。
２．２．２参数估计
对每类事件要素的ＨＭＭ模型，当模型结构确
定后，就可以从标注好的训练语料中用最大似然估
计学习模型的参数。计算模型的初始状态概率、状
１引言当今信息社会，大量有用信息存在于文本中。
为了应对信息爆炸带来的严重挑战，迫切需要一些自动化的工具帮助人们从海量文本数据中快速、准确地找到真正需要的信息。信息抽取研究正是在这种背景下产生的，事件信息抽取（简称事件抽取）是信息抽取研究中最具挑战性的任务之一，旨在利用计算机从文本中自动地抽取特定类型的事件及其事件要素。例如，从新闻报道中抽取职务变动事件的详细信息：人员、组织机构、职位、时间等。
利用ＨＭＭｓ进行文本事件信息抽取时，首先对不同的抽取域应该建立相应的ＨＭＭ，其中最重要的两个问题［５］是模型结构学习和进行参数估计。２．２．１模型结构学习
要建立用于事件信息抽取的ＨＭＭ模型，需要
对每类事件要素从训练数据集学习得到一个优化
的模型结构。虽然每个模型包含四类状态，并且这
Ａｂｓｔｒａｃｔ：ＡｍｅｔｈｏｄｂａｓｅｄｏｎｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌｓ（ＨＭＭｓ）ｉｓｐｒｏｐｏｓｅｄｆｏｒｅｘｔｒａｃｔｉｎｇｔｈｅｅｖｅｎｔｉｎｆｏｒｍａｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｔｅｘｔｓ．Ｆｉｒｓｔｌｙ，ｔｈｅｍｅｔｈｏｄｃａｎｆｉｎｄａｃａｎｄｉｄａｔｅｓｅｎｔｅｎｃｅ，ｗｈｉｃｈｃｏｎｔａｉｎｓａｄｅｓｃｒｉｐｔｉｏｎｆｏｒａｋｉｎｄｏｆｓｐｅｃｉｆｉｃｅｖｅｎｔｖｉａｔｒｉｇｇｅｒｄｅｔｅｃｔｉｎｇ．ＴｈｅｎｔｈｅｍｅｔｈｏｄｃｏｎｓｔｒｕｃｔｓａｓｅｐａｒａｔｅＨＭＭｆｏｒａｋｉｎｄｏｆｅｖｅｎｔａｒｇｕｍｅｎｔ，ａｎｄｍａｋｅｓｕｓｅｏｆｔｈｅｓｅＨＭＭｓｔｏｅｘｔｒａｃｔｅｖｅｎｔａｒｇｕｍｅｎｔｓｆｒｏｍｔｈｅｓｅｃａｎｄｉｄａｔｅｓｅｎｔｅｎｃｅｓ．ＴｈｅｋｅｙｏｆｃｏｎｓｔｒｕｃｔｉｎｇｍｏｄｅｌｉｓｌｅａｒｎｉｎｇＨＭＭｓｔｒｕｃｔｕｒｅａｎｄｐａｒａｍｅｔｅｒｅｓｔｉｍａｔｉｏｎ．Ｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｔｈａｎｏｔｈｅｒａｐ－ｐｒｏａｃｈｅｓｆｏｒｅｖｅｎｔｅｘｔｒａｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｔｅｘｔｓ．Ｋｅｙｗｏｒｄｓ：ｈｉｄｄｅｎＭａｒｋｏｖｍｏｄｅｌ；ｅｖｅｎｔｉｎｆｏｒｍａｔｉｏｎｅｘｔｒａｃｔｉｏｎ；ｔｒｉｇｇｅｒ；ｅｖｅｎｔａｒｇｕｍｅｎｔ
学院院长一职。 ”中事件要素人物：赵启正前面的
“原国务院新闻办公室主任 ” 在这里由前缀状态输
出，显然这不是一个前缀状态可以完成的。在文中
进行模型结构优化时采用了和文献［５］类似的方法。
首先从最简单的模型结构开始（如图１中上图所
收稿日期：２００７－０６－０２基金项目：教育部博士点基金项目（２００５０００７０２３）
触发词是能够很好地表述出某类事件中心意义的词。例如，职务变动事件中的 “任命 ”、“辞职 ”等词语。（３）基于概率统计模型的文本信息抽取。文献［４］用一个隐马尔可夫模型（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ，ＨＭＭ）对计算机科研论文头部信息的所有域进行抽取；文献［５］使用随机优化技术动态选择最合适的ＨＭＭ模型从研讨会公告中抽取相关信息。虽然将统计模型用于本中信息抽取的研究很多，但和文中所述的文本事件信息抽取是有区别的。因为这些研究中待抽取的数据域都可以看成一个非常紧凑的序列，而文本中事件的表述往往并不具备这种特征，需要抽取的数据域是分散的、稀疏的，有的待抽取域甚至距离事件表述中心（可以看作是触发词所在的位置）有一定的距离。
中图分类号：ＴＰ３９１
文献标识码：Ａ
文章编号：１０００－７１８０（２００７）１０－００９２－０３
ＥｖｅｎｔＩｎｆｏｒｍａｔｉｏｎＥｘｔｒａｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅＴｅｘｔＢａｓｅｄｏｎＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌｓ
ＹＵＪｉａｎｇ－ｄｅ１，２，ＸＩＡＯＸｉｎ－ｆｅｎｇ１，ＦＡＮＸｉａｏ－ｚｈｏｎｇ２
（１ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＡｎｙａｎｇＮｏｒｍａｌＵｎｉｖｅｒｓｉｔｙ，Ａｎｙａｎｇ４５５０００，Ｃｈｉｎａ；２ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１０００８１，Ｃｈｉｎａ）
第二阶段的机理可以描述为：为每类待抽取的事件要素构建一个ＨＭＭ模型，例如：职务变动事件抽取中，对时间、人物、组织机构、职位分别构建四个独立的ＨＭＭ模型。候选事件语句中的词语作为这些ＨＭＭ模型中状态的输出符号，如果模型给定，那么事件抽取过程就是搜索最可能创建词语序列的状态序列。用于事件抽取的ＨＭＭ模型结构应该能反映待抽取域的内容和它的上下文特征。为了实现正确的事件抽取，一般引入四种类型的状态［５］：（１）目标状态：可分为多个状态，用于对目标短语进行建模。（２）前缀状态：前缀包含一个或多个状态，这些状态被连接成字符串，一个前缀状态仅仅转移到位于该字符串中的下一个状态，或者如果它是该字符串的最后一个状态，则它转移到目标状态。（３）后缀状态：后缀状态在结构上类似于前缀。（４）背景状态：背景状态主要是对没有被其它类型状态建模的任何文本建模。图１示意了用于事件抽取的两个ＨＭＭ模型结构。２．２模型结构学习和参数估计
９２
微电子学与计算机
２００７年第２４卷第１０期
基于隐马尔可夫模型的中文文本事件信息抽取
于江德１，２，肖新峰１，樊孝忠２
（１安阳师范学院计算机与信息工程学院，河南安阳４５５０００；２北京理工大学计算机科学技术学院，北京１０００８１）
摘要：提出了一种基于隐马尔可夫模型的中文文本事件抽取方法，该方法首先通过触发词探测从文本中发现
ｋ＝１
式中，Ｃｉ，ｊ是训练序列中，从状态ｓｉ转移到状态ｓｊ的次数。
ｂｉｋ＝
Ｃｉ，ｋ
Ｎ
，
１≤ｉ≤Ｎ，１≤ｊ≤Ｍ
（３）
!Ｃｉ，ｊ
ｋ＝１
式中，Ｃｉ，ｋ是训练集中，从状态ｓｉ输出词语ｏｋ的次
件语句范围的办法进行了比较。依次分别记为Ｄ＿Ｔｒｉｇｇｅｒ和Ｆｕｌｌ＿Ｓｔｏｐ。两种办法在四类事件要素上的抽取性能比较如图２所示。可以看出，方法（２）确定的语句范围下抽取性能要稍微好点。
态转移概率和输出概率如下：
πｉ＝
Ｃ（Ｘ１＝ｓｊ）
Ｎ
，１≤ｉ≤Ｎ
（１）
!Ｃ（Ｘ１＝ｓｉ）
ｊ＝１
式中，Ｃ（Ｘ１＝ｓｉ）是训练语料中，以ｓｉ为初子学与计算机
２００７年第２４卷第１０期
ａｉｊ＝
Ｃｉ，ｊ
Ｎ
，１≤ｉ，ｊ≤Ｎ
（２）
!Ｃｉ，ｋ
３实验及结果分析３．１触发词词表构建
实验中用于进行 “职务变动 ”类事件抽取的触发词表采用手工的方式构建，在构建过程中参照第３．２节所提及的真实语料，并借助于《现代汉语词典》和《同义词词林》，构建出的触发词表包含了１３６个职务变动类事件的触发词。３．２训练和测试数据集
文中提出的事件抽取方法分两个阶段：第一个阶段是通过触发词探测发现候选事件所在的语句。第二阶段是利用ＨＭＭｓ从候选事件语句中抽取事件要素。
在第一阶段，依据触发词表当在文本中探测到触发词时，就认定该触发词所在的语句表述了一个特定事件，该语句就是一个候选事件语句。该语句的上下文范围有两种确定办法：（１）通常情况下，上下文的选取是基于核心词左右一定范围进行的，文献［６］对自然语言处理中词语的有效范围进行了定量研究，认为汉语核心词最近距离［－８，＋９］位置之间的上下文范围能包含８５％以上的信息量，文中将触发词作为核心词；（２）触发词前后最近的两个句号之间的语句。最后对候选事件语句进行预处理，包括分词、词性标注、过滤停用词等。