词性标注与隐马尔可夫模型(精)

合集下载

词性标注隐马尔可夫模型二阶隐马尔可夫模型Viterbi算法论文

词性标注隐马尔可夫模型二阶隐马尔可夫模型Viterbi算法论文

基于HMM的汉语词性标注及其改进【摘要】词性标注是自然语言处理中一个具有重要意义的研究方向,涉及的应用领域非常广泛,在信息处理范畴内起着重要的基础性作用,词性标注的效果直接影响着基于标注结果的各种信息处理的准确度,诸如语法分析、语音识别、文本分类、文本语音转换、信息检索、机器翻译等。

词性标注的实现过程中存在着一些难度,如兼类词歧义处理、未登录词处理,以及专有名词的处理等。

由于汉语本身的特点以及汉语言学研究现状的限制,汉语词性标注就更加困难和复杂。

词性标注的方法有很多,大体上可以归为两类,基于规则的方法和统计的方法,而基于隐马尔可夫模型(HMM)的词性标注正是统计方法的典型例子。

虽然HMM在词性标注中的应用已经非常成熟,但如何提高兼类词、未登录词的标注准确率依旧是基于HMM的词性标注研究的重点。

本文在标记好的汉语语料库《人民日报(1998年1月)》的基础上,建立二阶隐马尔可夫模型(HMM2),改进针对未登录词的标注,对模型进行训练、测试、评估,从而实现了汉语词性标注。

具体如下:(1)由于语料库的选取在词性标注效果中起着重要的影响作用,在测试前对语料库进行了预处理,去除了二级标注和专有名词标记符号(保留专有名词及其词性标注),来... 更多还原【Abstract】 Part-of-Speech (POS) tagging is one of theresearch points on Natural Language Processing which has important significance. It involves a wide range ofapplications, and it plays an important foundation role in the context of Information Processing. The quality of POS tagging has a direct impact on the accuracy of all Information Processing which based on the results of POS tagging, such as Syntax Analysis, Speech Recognition, Text Classification, Text to Speech, Information Retrieval, machine t... 更多还原【关键词】词性标注;隐马尔可夫模型;二阶隐马尔可夫模型;Viterbi算法;【Key words】speech tagging;hidden Markov model;second-order hidden Markov model;Viterbi algorithm;【索购论文全文】138113721 139938848 即付即发目录摘要3-5ABSTRACT 5-7第一章绪论11-171.1 引言11-121.2 课题研究背景和意义12-131.2.1 研究背景12-131.2.2 研究目的与意义131.3 词性标注的发展史13-141.4 本文的主要工作以及本文的结构安排14-161.5 本章小结16-17第二章隐马尔可夫模型及其相关算法17-272.1 隐马尔可夫模型17-212.1.1 隐马尔可夫模型的概念17-192.1.2 隐马尔可夫模型的应用19-212.2 Viterbi算法21-222.3 前向算法22-242.4 前向-后向算法24-252.5 本章小结25-27第三章词性标注及其相关研究27-433.1 词性标注27-293.1.1 词性标注的难题27-283.1.2 词性标注的方法28-293.2 N-gram模型29-343.2.1 N-gram模型的定义29-303.2.2 N-gram模型的训练与参数平滑30-343.3 词性标注应用分析34-393.3.1 噪声信道模型在词性标注中的应用34-353.3.2 转换学习方法在词性标注中的应用35-363.3.3 基于最大熵模型的词性标注应用36-373.3.4 基于条件随机场的词性标注应用37-393.4 HMM与词性标注39-403.4.1 HMM与词性标注的关系393.4.2 基于HMM的词性标注39-403.5 中、英文词性标注的异同40-413.6 本章小结41-43第四章模型及算法的改进43-494.1 二阶隐马尔可夫模型43-444.2 基于HMM2的模型改进44-464.2.1 状态转移概率的平滑处理44-454.2.2 观测概率的调整45-464.3 针对未登录词的标注46-474.3.1 方法改进46-474.3.2 具体实例分析474.4 改进的HMM2下的Viterbi算法47-484.5 本章小结48-49第五章基于HMM2的汉语词性标注的实现49-615.1 汉语语料库的选取49-515.1.1 实验语料库的预处理495.1.2 语料库的标注集49-505.1.3 训练文本与词性标注的关系50-515.2 隐马尔可夫模型的建立515.3 模型的训练与测试51-525.4 模型的评估52-535.5 实验结果与分析53-595.5.1 开放测试下实验结果分析53-565.5.2 封闭测试下实验结果分析56-585.5.3 影响标注效果的因素总结58-595.6 本章小结59-61第六章结论61-63参考文献。

基于隐马尔可夫模型_HMM_的词性标注的应用研究

基于隐马尔可夫模型_HMM_的词性标注的应用研究

二元
(’#$*
(&#%*
"#)*
三元
(%#+*
(!#,*
%#%*
可 以 看 出 ,在 现 有 的 语 料 数 量 基 础 上 ,二 元 文 法 模 型 词 性 标注的准确率要好于三元文法模型,并且随着语料数量的增 加 ,二 者 的 准 确 率 都 在 提 高 ,但 三 元 文 法 模 型 词 性 标 注 的 准 确 率的上升速度大于二元文法模型。
为 %B$CC4C),但是这样处理以后,在将若干个概率值 进 行 乘 法
运 算 时 ,可 能 导 致 乘 积 结 果 出 现 上 溢 出 ,直 接 后 果 是 计 算 机 运
算的结果可能非常大,且无法表示,只能用 " 表示,造成精度丢
失的情况。例如有一句话 D 6.,@ @1 =1 E18+。其中 D 的词性为
首先选取一定的语料分别采用二元文法模型和三元文法模型可以看出封闭式测试的准确率高于开放式测试的准确率计算机工程与应用测试集编号测试集单词个数单词词性标注错误个数准确率文法模型使用训练集标注准确率使用训练集标注准确率准确率之二元上述结论进行了封闭式测试和开放式测试
基于隐马尔可夫模型(!"")的词性 标注的应用研究
% 引言
语 言 中 某 些 词 在 词 典 中 兼 属 不 同 词 性 ,但 放 到 具 体 的 上 下 文 中 ,它 们 应 归 依 的 词 性 则 通 常 是 唯 一 确 定 的 ,由 机 器 对 文 本 中 的 这 些 词 赋 予 一 个 最 适 合 上 下 文 约 束 的 词 性 标 记 称 为 “词 性 标 注 ”。 词 性 标 注 技 术 在 自 然 语 言 处 理 、机 器 翻 译 、文 本 自 动 检 索 与 分 类 、文 字 识 别 、语 音 识 别 等 现 实 应 用 中 占 有 重 要 位 置 。

一文搞懂HMM(隐马尔可夫模型)

一文搞懂HMM(隐马尔可夫模型)

⼀⽂搞懂HMM(隐马尔可夫模型)什么是熵(Entropy)简单来说,熵是表⽰物质系统状态的⼀种度量,⽤它⽼表征系统的⽆序程度。

熵越⼤,系统越⽆序,意味着系统结构和运动的不确定和⽆规则;反之,,熵越⼩,系统越有序,意味着具有确定和有规则的运动状态。

熵的中⽂意思是热量被温度除的商。

负熵是物质系统有序化,组织化,复杂化状态的⼀种度量。

熵最早来原于物理学. 德国物理学家鲁道夫·克劳修斯⾸次提出熵的概念,⽤来表⽰任何⼀种能量在空间中分布的均匀程度,能量分布得越均匀,熵就越⼤。

1. ⼀滴墨⽔滴在清⽔中,部成了⼀杯淡蓝⾊溶液2. 热⽔晾在空⽓中,热量会传到空⽓中,最后使得温度⼀致更多的⼀些⽣活中的例⼦:1. 熵⼒的⼀个例⼦是⽿机线,我们将⽿机线整理好放进⼝袋,下次再拿出来已经乱了。

让⽿机线乱掉的看不见的“⼒”就是熵⼒,⽿机线喜欢变成更混乱。

2. 熵⼒另⼀个具体的例⼦是弹性⼒。

⼀根弹簧的⼒,就是熵⼒。

胡克定律其实也是⼀种熵⼒的表现。

3. 万有引⼒也是熵⼒的⼀种(热烈讨论的话题)。

4. 浑⽔澄清[1]于是从微观看,熵就表现了这个系统所处状态的不确定性程度。

⾹农,描述⼀个信息系统的时候就借⽤了熵的概念,这⾥熵表⽰的是这个信息系统的平均信息量(平均不确定程度)。

最⼤熵模型我们在投资时常常讲不要把所有的鸡蛋放在⼀个篮⼦⾥,这样可以降低风险。

在信息处理中,这个原理同样适⽤。

在数学上,这个原理称为最⼤熵原理(the maximum entropy principle)。

让我们看⼀个拼⾳转汉字的简单的例⼦。

假如输⼊的拼⾳是"wang-xiao-bo",利⽤语⾔模型,根据有限的上下⽂(⽐如前两个词),我们能给出两个最常见的名字“王⼩波”和“王晓波 ”。

⾄于要唯⼀确定是哪个名字就难了,即使利⽤较长的上下⽂也做不到。

当然,我们知道如果通篇⽂章是介绍⽂学的,作家王⼩波的可能性就较⼤;⽽在讨论两岸关系时,台湾学者王晓波的可能性会较⼤。

隐马尔可夫模型用于分类

隐马尔可夫模型用于分类

隐马尔可夫模型用于分类隐马尔可夫模型在分类问题中的应用隐马尔可夫模型(Hidden Markov Model,HMM)是一种统计模型,广泛应用于自然语言处理、语音识别、机器翻译等领域。

本文将重点探讨隐马尔可夫模型在分类问题中的应用。

一、隐马尔可夫模型简介隐马尔可夫模型是一种基于状态转移的模型,它假设系统的状态是不可见的,只能通过观察到的数据进行推测。

隐马尔可夫模型由状态集合、观测集合、初始概率矩阵、状态转移概率矩阵和观测概率矩阵构成。

在分类问题中,我们可以将待分类的数据看作是观测序列,而分类结果则是隐藏的状态序列。

通过训练隐马尔可夫模型,我们可以得到各个状态转移的概率和观测的概率,从而进行分类。

二、隐马尔可夫模型在文本分类中的应用文本分类是自然语言处理领域的一个重要问题,它可以帮助我们对大量的文本数据进行自动分类。

隐马尔可夫模型在文本分类中的应用主要有以下几个方面:1. 词性标注隐马尔可夫模型可以用于对文本进行词性标注。

词性标注是指给文本中的每个词汇赋予其词性,如名词、动词、形容词等。

通过训练隐马尔可夫模型,可以得到各个词性的转移概率和观测概率,从而对未标注的文本进行自动标注。

2. 情感分析情感分析是指对文本中的情感进行分类,如积极、消极、中性等。

通过训练隐马尔可夫模型,可以将情感词作为观测序列,将情感类别作为隐藏状态序列,从而对未标注的文本进行情感分析。

3. 文本主题分类文本主题分类是指将文本归类到不同的主题类别中,如新闻、体育、娱乐等。

通过训练隐马尔可夫模型,可以将主题词作为观测序列,将主题类别作为隐藏状态序列,从而对未标注的文本进行主题分类。

4. 命名实体识别命名实体识别是指识别文本中的特定实体,如人名、地名、组织名等。

通过训练隐马尔可夫模型,可以将实体词作为观测序列,将实体类别作为隐藏状态序列,从而对未标注的文本进行命名实体识别。

三、隐马尔可夫模型的优缺点隐马尔可夫模型在分类问题中有着一定的优势,但也存在一些缺点。

《隐马尔可夫模型》课件

《隐马尔可夫模型》课件
它是一种双重随机过程,包括一个状态转移的随 机过程和一个观测值生成的随机过程。
隐马尔可夫模型在许多领域都有应用,如语音识 别、自然语言处理、生物信息学和金融预测等。
隐马尔可夫模型的应用领域
01
语音识别
用于将语音转换为文本,或识别说 话人的意图。
生物信息学
用于分析基因序列、蛋白质序列和 代谢物序列等。
03 隐马尔可夫模型的建立
观察概率矩阵的确定
总结词
观察概率矩阵描述了在给定状态下,观察到不同状态的概率 分布。
详细描述
观察概率矩阵是隐马尔可夫模型中的重要组成部分,它表示 了在给定状态下,观察到不同状态的概率分布。例如,在语 音识别中,观察概率矩阵可以表示在特定语音状态下发出不 同音素的概率。
状态转移概率矩阵的确定
VS
原理
通过动态规划找到最大概率的路径,该路 径对应于最可能的隐藏状态序列。
05 隐马尔可夫模型的优化与 改进
特征选择与模型参数优化
要点一
特征选择
选择与目标状态和观测结果相关的特征,提高模型预测准 确率。
要点二
模型参数优化
通过调整模型参数,如状态转移概率和观测概率,以改进 模型性能。
高阶隐马尔可夫模型
初始状态概率分布表示了隐马尔可夫模型在初始时刻处于各个状态的概率。这个概率分布是隐马尔可 夫模型的重要参数之一,它决定了模型在初始时刻所处的状态。在某些应用中,初始状态概率分布可 以根据具体问题来确定,也可以通过实验数据来估计。
04 隐马尔可夫模型的训练与 预测
前向-后向算法
前向算法
用于计算给定观察序列和模型参 数下,从初始状态到某个终止状 态的所有可能路径的概率。
《隐马尔可夫模型》 ppt课件

基于改进的隐马尔科夫模型的词性标注方法

基于改进的隐马尔科夫模型的词性标注方法

基于改进的隐马尔科夫模型的词性标注方法袁里驰【摘要】针对隐马尔可夫(HMM)词性标注模型状态输出独立同分布等与语言实际特性不够协调的假设,对隐马尔可夫模型进行改进,引入马尔可夫族模型.该模型用条件独立性假设取代HMM模型的独立性假设.将马尔可夫族模型应用于词性标注,并结合句法分析进行词性标注.用改进的隐马尔可夫模型进行同性标注实验.实验结果表明:与条件独立性假设相比,独立性假设是过强假设,因而基于马尔可夫族模型的语言模型更符合语言等实际物理过程:在相同的测试条件下,马尔可大族模型明显好于隐马尔可夫模型,词性标注准确率从94.642%提高到97.126%.%In order to defy the unrealistic assumption of the part-of-speech tagging method based on hidden Markov models that successive observations are independent and identically distributed within a state, Markov family mode! (MFM) was introduced. Independence assumption in HMM was placed by conditional independence assumption in MFM. Markov Family model was applied to part-of-speech tagging, and syntactic parsing was combined with part-of-speech tagging. The part-of-speech tagging experiments show thaf Markov family models (MFMs) have higher performance than hidden. From the view of the statistics, the assumption of independence is stronger than the assumption of conditional independence, so language model based on MFM is more realistic than HMM language mode. Markov models (HMMs) under the same testing conditions, the precision is enhanced from 94.642% to 97.126%.【期刊名称】《中南大学学报(自然科学版)》【年(卷),期】2012(043)008【总页数】5页(P3053-3057)【关键词】隐马尔可夫模型;马尔可夫族模型;词性标注;Viterbi算法【作者】袁里驰【作者单位】江西财经大学信息学院数据与知识工程江西省重点实验室,江西南昌,330013【正文语种】中文【中图分类】TP391.1所谓词性标注[1],就是根据句子上下文中的信息给句中的每个词一个正确的词性标记。

基于完全二阶隐马尔可夫模型的汉语词性标注

基于完全二阶隐马尔可夫模型的汉语词性标注

∏ P(C | C C ...C
i 1 2 i =2
M
i −1
) P( Si | C1C 2...Ci, S 1S 2...Si − 1)
(3)
1 词性标注 n-元标准统计模型
为了减少参数空间的规模,提出两个假设: ( 1 )设 Si 的出现只与其自身的词性 Ci 相关, 而与前 i-1 个词无关; (2) 假设 Ci 的出现只与单词 Si 前面的 n-1 个词的词性相关。 这样的模型称为 n-元模型。如果 n 等于 2 的话,就是二 元语法模型。式(3)就简化为
(m)
即为所求,算法停止;否则,重复第(5)步到第(7)步。最
= λ ⋅ P (t | t , t ) + (1 − λ ) ⋅ P(t | t ) k j i k j
(5)
其中 λ 表示插值系数;Nj 表示训练语料库中出现词性标记 tj 的次数;Nij 表示训练语料库中词性序列 titj 同现的次数; Njk 表示训练语料库中词性序列 tjtk 同现的次数;Nijk 表示训 练语料库中词性序列 titjtk 同现的次数。 2.2.2 词汇概率的平滑 对于词汇概率 ˆ =bijk=P(Wm=wk| Cm =tj, Cm-1 =ti) p
= λ ⋅ P (w k | t j , t i ) + (1 − λ ) ⋅ P(w k | t j )
(6)
5 6
其中 Nj、Nij、λ 同上,且都不为零;NjWk 表示训练预料中当 前词词性为 tj,输出单词为 Wk 的次数;NijWk 表示训练预料 中当前词词性为 tj 并且当前词前一词的词性为 ti 的时候,输 出单词为 Wk 的次数。
词性标注是自然语言处理的难点之一,在许多应用领 域,如语音合成、语音识别、OCR、语料库加工、机器翻译、 信息检索等方面都要面临词性标注的问题。近年来,人们对 词性标注进行了大量的研究,并提出了很多有效的方法,如 针 对 未 知 词 的 改 进 [1] 、 线 性 分 离 网 络 (network of linear 非监督方法获取参数的 HMM(Hidden separators)标注模型[2]、 [3] Markov Model) 、HMM 和对数线性模型相结合[4]等。其中, 基于统计的汉语词性标注方法逐渐流行并得到应用,国内如 清华大学人工智能国家实验室、北京大学计算语言学研究所 对此都做了深入的研究[5,6]。 设 W 是词汇集,T 是词性标记集,给定的词串 S=S1S2…Si….Sm(Si ∈ W) , 找 到 一 个 最 合 适 的 标 记 序 列 Cs=C1C2…Ci…Cm(Ci∈T)。记 P(Cs|S)为在给定输入词串 S 的 条件下所产生的输出标记串 Cs 的后验概率。据贝叶斯公式

隐马尔可夫模型HiddenMarkovmodel

隐马尔可夫模型HiddenMarkovmodel
通俗的说,就是在已经知道过程“现在”的条 件下,其“将来”不依赖于“过去”。
2019/10/14
知识管理与数据分析实验室
7
马尔科夫链
• 时间和状态都离散的马尔科夫过程称为马尔科夫 链
• 记作{Xn = X(n), n = 0,1,2,…} – 在时间集T1 = {0,1,2,…}上对离散状态的过程相 继观察的结果
知识管理与数据分析实验室
17
向前算法及向后算法
向前算法及向后算法主要解决评估问题,即用来 计算给定一个观测值序列O以及一个模型λ时,由 模型λ产生出观测值序列O的概率 。
2019/10/14
知识管理与数据分析实验室
18
向前算法
向前变量
它的含义是,给定模型λ ,时刻t。处在状态i,并且部分
知识管理与数据分析实验室
3ቤተ መጻሕፍቲ ባይዱ
内容框架
1 隐马尔科夫模型的由来
2 隐马尔科夫模型的基本理论及实例 3 隐马尔科夫模型的三个基本算法 4 隐马尔科夫模型的应用
2019/10/14
知识管理与数据分析实验室
4
隐马尔可夫模型的基本理论
马尔可夫性
马尔可夫 过程
马尔可夫链
隐马尔可夫模型
2019/10/14
知识管理与数据分析实验室
根据以上结论可进行模型估算,反复迭代,直至参数收敛。
2019/10/14
知识管理与数据分析实验室
27
内容框架
1 隐马尔科夫模型的由来
2 隐马尔科夫模型的基本理论及实例 3 隐马尔科夫模型的三个基本算法 4 隐马尔科夫模型的应用
2019/10/14
知识管理与数据分析实验室
28
隐马尔科夫模型的应用
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
给每个词标上它最常见的词性 所有的未登录词标上名词词性
8
决定一个词词性的因素
从语言学角度:由词的用法以及在句中的语 法功能决定 统计学角度:
和上下文的词性(前后词的标注)相关 和上下文单词(前后词)相关
9
隐马尔可夫模型 - 概要
背景 马尔可夫模型 隐马尔可夫模型
13
马尔可夫模型示例 - 天气预报
通过有限状态自动机描述状态转移概率
14
预测 - 计算未来天气 (序列的概率)
晴-晴-雨-雨-晴-多云-晴,未来七天天气是这种情 况的概率
P (O | Model ) P ( S3 , S3 , S1 , S1 , S3 , S 2 , S3 | Model ) P( S3 | Begin) * P( S3 | S3 ) * P( S1 | S3 ) * *P( S1 | S1 ) * P( S3 | S1 ) * P( S 2 | S3 ) * P( S3 | S 2 ) 3 * a33 * a31 * a11 * a13 * a32 * a23 0.33*0.8*0.1*0.4*0.3*0.1*0.2 6.336*10 5
T
18
HMM的定义
定义:一个HMM模型 λ=(A,B,π)
S是状态集, S=(S1,S2,…SN) V是观察集, V=(V1,V2,…VM) 状态序列Q = q1q2…qT (隐藏) ,观察序列 O=o1o2…oT (可见) A是状态转移概率分布A=[aij], aij=P(qt=sj|qt-1=si) (满足假设1.) B是观察值生成概率分布B=[bj(vk)], bj(vk)=P(ot=vk|qt=si) (满足假设2、3) 初始观察值概率分布 Π= [πi], πi =P(q1=si)
对兼类词消歧- 词性标注的任务
5
词性标注的应用及重要性
机器翻译 Text – Speech 词法句法规则 - 词性组合 句法分析的预处理 统计自然语言处理的基础
6
词性标注常见方法
规则方法:
词典提供候选词性 人工整理标注规则
统计方法
寻找概率最大的标注序列 如何建立统计模型 P( tag, word ) HMM方法(Garside et al. 1987,Church 1988)
模型评估 解码 模型参数学习
10
背景
俄国统计学家Andrei Markov(1856-1922)提出 Studied temporal probability models Real-world Observed output (signals) Signal Models – stimulate the signals source and learn as much as possible through simulations
4
词性标注问题 - 词性标注歧义(兼类词)
一个词具有两个或者两个以上的词性 英文的Brown语料库中,10.4%的词是兼类词
The back door On my back Promise to back the bill
汉语兼类词
把门锁上, 买了一把锁 他研究与自然语言处理相关研究工作 汉语词类确定的特殊难点
词性标注与隐马尔可夫模型
戴新宇 2006-11-17
1
概要
词性标注 HMM模型 HMM模型用于词性标注 相关问题讨论
2
词性标注
定义及任务描述 词性标注的问题 - 标注歧义 (兼类词) 词性标注之重要性 词性标注方法
3
词性标注任务描述
什么叫词性?
词性又称词类,是指词的语法分类,或者说是按照其各自的语 法功能的不同而分出来的类别
介绍 定义 隐马模型应用于词性标注
17
HMM模型的简单介绍
“隐”在何处?
状态(序列)是不可见的(隐藏的)
HMM是一阶马尔可夫模型的扩展
观察值与状态之间存在概率关系 隐藏的状态序列满足一阶马尔可夫模型
相对于markov模型的又一假设:输出独立性
P(O1 ,...OT | S1 ,...ST ) P(Ot | St )
15
马尔可夫假设
假设1 有限视野
P(Ot+1=Sk|O1,…Ot) = P(Ot+1=Sk|Ot-(n-1),…Ot)
(n-1)th 阶马尔可夫链 假设2 时间独立性
→ n 元语言模型
P(Ot+1=Sk|Ot) = P(O2=Sk|O1)
16
隐马尔可夫模型 - Hidden Markov Model (HMM)
11
马尔可夫模型
举例说明马尔可夫模型 马尔可夫假设
12
马尔可夫模型示例 - 天气预报
状态:雨、多云、晴 给定不同天气之间的 转换概率,预测未来 数天的天气 通过如右图所示的矩 阵描述状态之间的转 移概率
0.4 0.3 0.3 A {aij } 0.2 0.6 0.2 0.1 0.1 0.8
19
词性标注的HMM模型定义
HMM:S V A B π S:预先定义的词性标注集 V:文本中的词汇 A:词性之间的转移概率 B:某个词性生成某个词的概率 例,P(我|“代词”) π :初始概率 基于构建的HMM,利用某些算法,寻找一个最合适的词性标注 序列,即为一个词串上的每个词标注上词性。
划分词类的依据
词的形态、词的语法意义、词的语法功能
汉语的词类划分 词性标注:给某种语言的词标注上其所属的词类
The lead paint is unsafe. The/Det lead/N paint/N is/V unsafe/Adj. 他有较强的领导才能。 他/代词 有/动词 较/副词 强/形容词 的/助词 领导/名词 才能 /名词。
决策树方法(Schmid 1994) 最大墒方法(Ratnaparkhi 1996)
基于错误驱动的方法
错误驱动学习规则 利用规则重新标注词性
7
词性标注的性能指标
性能指标:标注准确率 当前方法正确率可以达到97% 正确率基线(Baseline)可以达到90%
基线的做法:
相关文档
最新文档