词性标注说明_128601491
英语词性详细讲解ppt课件

用来修饰动词、形容词或其他 hard艰苦
副词,表示动作或形状的特性 here这里
数
词 Numeral (num.) 表示数量或顺序
one一 first第一
代
词 Pronoun (pron.) 用来代替名词、形容词或数词 He他
等
that那
冠
词
Article (art.)
用在名词前,帮助说明名词所 an,a,the
in class在 课堂上 in the class在班里
on earth 和 on the earth
in front of 和 in the front of 前面,指内部
22
零冠词的用法
1 专有名词前一般不加冠词:China, American, Grade Two, Bill Smith 2 一些抽象的不可数名词前不加冠词:
17
不定冠词(a/an)
• 1、a用于辅音发音开头的词前,而不是辅 音字母前面
• 如:a useful book;a university • 2.an用于元音发音开头的词前,而不是元音
字母前,如:an apple;an hour; • an honest man
18
三. 不定冠词的用法
(一)不定冠词的用法: 1. 在叙述时用于第一次提到某人或某物 This is a book 2. 表示泛指的某人、某物 An English-English dictionary is very necessary for me. 3. 表示类别 An elephant is bigger than a horse. 4. 表示数量中的“一 ”。但数的概念没有one 强烈 用在数词中,表示“一”。 A book;a man; a dog; an hour 5. 用于某些物质名词和抽象名词前,表示“一阵,一份,一类,一场” There will be a strong wind here 6. 用于某些固定词组中 have a cold; have a good time; have a look ; have a rest
词性标注的方法

规则集较大时,规则之间的冲突 是难免的。例如,“数词+量词” 和“副词+介词”都是合法的词 类序列,那么,文本中的“一把” 到底应标注为哪种词类序列呢? 此时,应该根据规则的正确率、 覆盖率等因素来确定规则使用的 先后顺序。
(二)基于规则的标注方法的优点
可以充分而有效率地利用各种上下文信息 。 所谓“充分”,是说无论相关词跟当前词相 隔多远都可以利用;所谓“有效率”,是说 可以只把跟当前词消歧有关的词写进规则的 条件部分。
张民(1998)则是先用统计方法后用规 则标注,其特点是用置信区间评价统计 结果,高于阈值者给出唯一候选,其余 部分则用基于规则的方法来标注。
两种基本方法相结合的关键问题是:如 何发挥两种方法的各自优势,避免各自 的缺点。统计要有一定的语言学知识作 为指导,不能盲目统计。例如,一般都 把前后各N个词作为观察窗口,就是一 种盲目统计。
步骤三:比较最后一个词(“好”)的每个 结点的最小累计费用,在这3个最小累计费用 中选择最小的一个,确定其所对应的结点为 最佳路径的尾结点,例如可能是“好(a)”。
步骤四:从尾结点出发向串首扫描,找出每 个结点的最佳前驱,即可得到最佳路径。例 如,“好(a)”的最佳前驱可能是“锁 (v)”,“锁(v)”的最佳前驱可能是 “门(n)”,“门(n)”的最佳前驱可能 是“把(p)”,于是得到最佳路径“把/p门 /n锁/v好/a”。
例如,“把门锁好”有48条路径,每条路径 都是由四条边组成,每计算一条路径的费用 需要做3次乘法、3次加法和3次对数运算,最 后还要做47次比较运算,算法的效率太低。 这个问题可用多阶段决策过程的动态规划方
法来解决。最佳路径有一个重要特征:如果 从起点A经过P,H到达终点G是一条最佳路 径,那么,由P出发经过H到达终点G所走的 这条子路径,对于从P出发到终点G的所有可 能的不同路径来说,必定也是最佳路径。
3-词性标注

• 上海_NR 浦东_NR 开发_NN 与_CC 法 制_NN 建设_NN 同步_VV
中科院计算所分词系统
• 字标注的分词本质是一个词性标注问题。
上/B 海/E 计/B 划/E 到/S 本/S 世/B 纪/E 末/S 实/B 现/E 人/B 均/E 国/B 内/E 生/B 产/E 总/B 值/E 五/B 千/M 美/M 元/E。/ S
把 这 篇 报道 编辑 一 下 把/q-p-v-n 这/r 篇/q 报道/v-n 编辑/v-n 一 /m-c 下/f-q-v
英语词的兼类现象
• 对Brown语料库进行统计, DeRose(1988) 给出了如
下表:
无歧义(Unambiguous)只有1个标记: 35,340 歧义(Ambiguous) 有2-7个标记: 4,100 2个标记:3,764 3个标记:264 4个标记:61 5个标记:12 6个标记:2 7个标记:1
• 不是俄罗斯数学家Markov提出。但HMM与
Markov链有关。 • 美国数学家鲍姆(Leonard E. Baum)六、 七十年代提出。 • 这个模型的训练方法由他的名字命名。 • NLP中,HMM最早应用在语音识别中,后 来成功地应用到了机器翻译、拼写纠错、图 像处理、基因序列分析等很多IT领域。
Markov模型
• 现实中经常会出现:一个由并不互相独立的
随机变量组成的序列,序列中每个变量的值 依赖于它前面的元素。 • 如:词串,每天的气温。 • 但是实际情况为:预测的将来的随机变量的 依据就是现在的随机变量的值,也就是,我 们并不需要了解序列中所有过去的随机变量 值。即,序列中未来的元素在给定的当前元 素下与过去的元素是条件独立的。—— Markov假设。
• 名实体识别也可看做是标注问题。
自然语言理解-词性标注

Markov模型中的概率
• 随机转移矩阵 A aij=P(Xt+1=sj|Xt=si)
i, j, aij 0 • 初始状态的概率
i P( X1 si )
and
N
i, aij 1
j 1
N
i 1
i
1
Markov模型和n元文法
• N元文法模型是 Markov 模型 2元词模型就是Markov模型:当前的词 仅依赖于前一个词,而且这个依赖型 不随着词序列而变化。
i
下一状态名
Viterbi Algorithm
x1 xt-1 xt xt+1 xT
o1
ot-1
ot
ot+1
oT
ˆ T arg max (T ) X i
i
自后向前“读出” 最可能的状态序列
ˆ ^ (t 1) X t
X t 1
ˆ ) arg max (T ) P( X i
i
Viterbi algorithm(a Trellis algorithm)
S0: 他/r 做/v 了/u 一/m 个/q 报告/v 运用T1 S1: 他/r 做/v 了/u 一/m 个/q 报告/n
转换规则的模板(template)
• 改写规则:将词性标记x改写为y • 激活环境:
(1)当前词的前(后)面一个词的词性标记是z; (2)当前词的前(后)面第二个词的词性标记 是z; (3)当前词的前(后)面两个词中有一个词的 词性标记是z;……其中x,y,z是任意的词性 标记代码。
C(?) 是出现次数
平滑
• 为什么需要平滑呢? 数据稀疏!
1. 收集更多的数据 从实用角度这并不是一个通用的解决方法, 在训练文本中总会遗漏一些情况。 2. 平滑 估计在训练文本中没有出现情况的出现概 率。降低已出现情况的概率,这样留下一 些概率“分给”没有出现的情况。
汉语词性自动标注-鲁东大学外国语学院教学中心

•
(5)扩充的复杂标记
• 副形词 ad 直接作状语的形容词。形容 词代码a和副词代码d并在一起。 • 名形词 an 具有名词功能的形容词。形 容词代码a和名词代码n并在一起。 • 副动词 vd 直接作状语的动词。动词 和副词的代码并在一起。 • 名动词 vn 指具有名词功能的动词。 动词和名词的代码并在一起。
这里“花”有四个词例。可以有以下几种处理:第 一,概括为一个词型“花”。第二,将前一个 “花”作为词型“花1”(动词)的词例,后三个 算是词型“花2”(名词)的词例。第三,“花1” 属动词“花1”,“花2”和“花3”属名词“花2” (植物), “花4”属名词“花3”(花朵)。第四, 有四个词型 “花”,各管一个词例,认为“花2” 和“花3”也有不同(一个是作宾语,另一个是作 主语)。
拟声词 o 取英语拟声词onomatopoeia的第 1个字母。 介词 p 取英语介词prepositional的第1个 字母。 连词 c 取英语连词conjunction的第1个 字母。 助词 u 取英语助词auxiliary 的第2个字母 语气词 y 取汉字“语”的声母。
(2)非词的语言单位标记
语素 g 绝大多数语素都能作为合成词 的“词根”,取汉字“根”的声母。 前接成分 h 取英语head的第1个字母。 后接成分 k 成语 I 取英语成语idiom的第1个字母。
• 简称略语 j 取汉字“简”的声母。 • 习用语 l 习用语尚未成为成语,有点 “临时性”,取“临”的声母。 • 标点符号 w • 非语素字 x 非语素字只是一个符号, 字母x通常用于代表未知数、符号。
第一种处理其实是按词形来概括,虽不合理,
但在计算机上经常这样便于处理。第四种 处理基本上没有概括,词的同一性应该只 是从词汇意义上来考察,不应从语法意义 上来考察,所以不可取。第三种处理在考 察词的同一性时使用了较为严格的词义标 准,但语言信息的加工流程一般是词性标 注先于词义标注,实践中不便采用。第二 种处理既区分了同形词,又使词性标注跟 词义标注有所区别,所以可能是最适当的。
英语词性的分类及用法讲解

形容词: 1.放在be,seem,sound,feel,taste,smell等词
之后; 2.放在名词之前做定语.
1.Your kind donation is greatly appreciated.
2.Good hamburgers smell good.
3.Disabled people need kind help.
• 行为动词的分类
及物动词与不及物动词 根据后面是否带宾语,行为动词又可分为及物动词和不及物动词,
及物动词(vt. ) 后面要跟宾语,不及物动词(vi. ) 不跟宾语。如: They study hard. (study后没有宾语,是不及物动词)
I know them well. (know后有宾语them,是及物动词) 注:有的动词既可作及物动词,也可用作不及物动词. 如:She sings very well. (sing是不及物动词)
数词
(表示数目多少或顺序多少的词叫数词,数词分为基数词和序数词。表示 数目多少的数词叫基数词;表示顺序的数词叫序数词。)
• 一、基数词
•
基数词写法和读法
• 二、序数词
•
序数词的缩写形式:
• first—1st second—2nd thirty-first—31st
• 三、数词的用法
•
1)倍数表示法
• 1.并列连词用来连接平行的词、词组和分句。如:and, but, or, nor, so, as well as, both…and, not only…but also, either…or, neither…nor, (and) then等。
• 2. 从属连词经常引导一个从句,如:when, where, because, if, as等。
词性标注方法

Viterbi(s, t)
' = viterbi[ s , t 1] a s ' , s bs (ot )
= Viterbi[e, 喝]* p(Ng|e)*p(水|Ng)
③ Viterbi(s’, t-1) = Viterbi[v, 喝]; Viterbi(s, t)
' = viterbi[ s , t 1] a s ' , s bs (ot )
= Viterbi[v, 喝]* p(Ng|v)*p(水|Ng) 假设以上三条路径中路径①的 Viterbi 结果最大,则计算结果为:
(3) 计算 T3 — 水
喝 Vg p(t|<s>)p(晚上|t) 晚上 t S 喝 e
① ② ③
水 Ng 水 j
E
喝 v
水 n
求 如图所示的绿色椭圆方块部分的 Viterbi 值 ① Viterbi(s’, t-1) = Viterbi[Vg, 喝]; Viterbi(s, t)
' = viterbi[ s , t 1] a s ' , s bs (ot )
= Viterbi[<s>, S] * p(t|<s>)*p(晚上|t) 记录 backpointer 值:这儿即为 <s>
(2) 计算 T2 — 喝 喝 Vg p(t|<s>)p(晚上|t) 晚上 t S 喝 e 水 Ng 水 j
E
喝 v
水 n
Viterbi(s’, t-1) = Viterbi[t, 晚上]; Viterbi(s, t) =
英语词性的分类和用法详细讲解

maths,politics,physics等学科名词,为不可数名 词,是单数.news 是不可数名词.
找规律
要点考点聚焦
NOUN.
flower
flowers
watches
factory-factories
boxes
leaf -- leaves
找规律
NOUN. 要点考点聚焦
通常,形容词性物主代词相当形容词的用法,应该位 于名词的前面;名词性物主代词相当于形容词性 物主代词+名词,之后不接名词.
Eg. I like his car.
Our school is here and theirs is there.
This is your picture. And that is mine.
2单复同形如: deer,sheep,fish,Chinese,Japanese 3集体名词,以单数形式出现,但实为复数.
名词复数的不规则变化
如: people police cattle 等本身就是复数,不能 说 a people,a police,a cattle,但可以说a person,a policeman,a head of cattle, the English,the British,the French,the Chinese,the Japanese,the Swiss 等名词,表示 国民总称时,作复数用.
其它名词复数的规则变化
1> 以y结尾的专有名词,或元音字母+y 结尾的名词变复数时,直 接 加s变复数: 如:two Marys the Henrys monkey---monkeys holiday---
holidays 2> 以o 结尾的名词,变复数时: a. 加s,如: photo---photos piano---pianos radio---radios zoo--zoos; b. 加es,如:potato—potatoes tomato—tomatoes 3> 以f或fe 结尾的名词变复数时: a. 加s,如: belief---beliefs roof---roofs safe---safes gulf---gulfs; b. 去f, fe 加-ves,如:half---halves
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
人民日报标注语料库(PFR)使用说明书
本文是PFR标注语料库的使用说明书,帮助用户了解它,更好地使用它。
PFR语料库是对人民日报1998年上半年的纯文本语料进行了词语切分和词性标注制作而成的,严格按照人民日报的日期、版序、文章顺序编排的。
文章中的每个词语都带有词性标记。
目前的标记集里有26个基本词类标记(名词n、时间词t、处所词s、方位词f、数词m、量词q、区别词b、代词r、动词v、形容词a、状态词z、副词d、介词p、连词c、助词u、语气词y、叹词e、拟声词o、成语i、习惯用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,从语料库应用的角度,增加了专有名词(人名nr、地名ns、机构名称nt、其他专有名词nz);从语言学角度也增加了一些标记,总共使用了40多个个标记。
二.格式说明
1.语料是纯文本文件,文件中每一行代表一自然段或者一个标题,一篇文章有若干个自然段,因此在语料中一篇文章是由多行组成的。
2.文件名格式为“月-日-版号-篇章号”。
3.一篇文章里面的段落之间是不空行的,在两篇文章之间,会有一个空行,表示文章的分界线,同时,下一篇文章的“篇章号-段号”都会有所改变。
4.标号之后,是2个单字节空格,然后开始正文。
5.正文部分按照规范已经切分成词,并且加上标注,标注的格式为“词语/词性”,即词语后面加单斜线,再紧跟词性标记。
词与词之间用2个单字节空格隔开。
每段最
后的词,在标记之后也有2个单字节空格,保持格式一致。
6.语料中除了词性标记以外,还有“短语标记”,这种情况一般出现在机构团体名称、成语等情况中。
如“通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w”中,用
“[ ]”合起来的部分是一个完整的机构团体名称,方括号后面紧跟标注nt,nt之后
空两个单字节空格,保持了格式的一致。
三.例子
迈向/v 充满/v 希望/n 的/u 新/a 世纪/n ——/w 一九九八年/t 新年/t 讲话/n (/w 附/v 图片/n 1/m 张/q )/w
……
在/p 1998年/t 来临/v 之际/f ,/w 我/r 十分/m 高兴/a 地/u 通过/p [中央/n 人民/n 广播/vn 电台/n]nt 、/w [中国/ns 国际/n 广播/vn 电台/n]nt 和/c [中央/n
电视台/n]nt ,/w 向/p 全国/n 各族/r 人民/n ,/w 向/p [香港/ns 特别/a 行政区/n]ns 同胞/n 、/w 澳门/ns 和/c 台湾/ns 同胞/n 、/w 海外/s 侨胞/n ,/w 向/p 世界/n 各国/r 的/u 朋友/n 们/k ,/w 致以/v 诚挚/a 的/u 问候/vn 和/c 良好/a 的/u 祝愿/vn !/w。