汉语组块计算的若干研究

合集下载

语块研究简述

语块研究简述

ta e g sbett gnrt n o nl i b h a gae hn bi ujc o e e i raa s y te l u g n ao ys n
ga r mm a ・ r
te te a d h hr n 则不 能变 为 o nte a d或者 o ieet o h nao r n h h nadf rn f
二语 学习者所使用的语块之所 以有别 于本族语者 , 根本
原因在于 : 首先 , 学习者 还没有 注意 和重视 从地 道 的 目的语
伙伴 ( ) 词 一经 出现 , 另一 个伙 伴 ( 现 的词 ) 共 极有 可能 也在
文本 的某个 地方 出现 。另一方面 , 它可 以区分 固定搭 配与 习
同样 , 这个多词单位 是否 以任何方 式发生 变化 , 是否 可能 因 它的组成 单词 变化 或者 词序变 化而发 生变化 。 比如 ao e nt r h
kteo s e l f h和 ad f etkteo fh是 可 替 换 形 式 , o t f i ie n e l fi fr t s 而 n

义 的、 不可分割的整体 。语 块是 词义 ( 和语 义) 石化和词汇形
成过程 的结果 , 而不是语法规则 实现的结果 。他 总结 出语块 三个重要特征 。( ) 俗化 (ntui ai t n 。习俗化 是 1习 i itn z i ) st ol a o 指一个 多词单位在 语言 中约定 俗成 的程度 : 它会 不会 复现 ,
( ) 二 语块 界定 标准 Mon 19 ) 为 , 块 是一个 由一 到 两个 或更 多词 构 o (9 2 认 语 成 的词汇单位 。这一 列词在 语义 上或句 法上构 成一 个有意

对外汉语口语语块研究述评

对外汉语口语语块研究述评

对外汉语口语语块研究述评随着中国的国际地位的提升,对外汉语教育也越来越受到关注。

对外汉语口语教学作为对外汉语教学的重要组成部分,逐渐成为研究的热点之一。

对外汉语口语语块的研究备受关注。

语块作为语言学习中的基本单位,对于提高学习者的口语表达能力具有重要意义。

本文将对对外汉语口语语块研究进行述评,并分析其在对外汉语口语教学中的应用和意义。

1.研究内容对外汉语口语语块的研究内容主要包括语块的定义、分类、认知加工过程、习得路径等方面。

在语块的定义上,学者们给出了不同的解释,有的认为语块是一种语言单位,有的则将其看作是一个语言习得的组织单位。

在语块的分类上,一般可以分为固定语块和自由语块两种,或者按照语义功能进行分类。

而在认知加工过程和习得路径研究中,主要围绕语块的获取、存储和使用等方面展开。

2.研究方法对外汉语口语语块的研究方法主要包括实验研究、调查研究和比较研究。

实验研究主要是通过实验手段来解释和验证语块的认知加工机制和习得路径。

调查研究则是通过问卷调查和访谈等方式来探究语块在学习者口语交际中的应用情况和问题。

比较研究则是将对外汉语口语语块与其他语言的语块进行比较,以找出其在语用和语法上的异同点。

3.研究成果在对外汉语口语语块研究方面,学者们提出了许多重要成果。

针对语块的习得路径,有学者提出了一些有效的教学策略和方法,能够更好地帮助学习者习得语块。

对一些固定语块如情感词语块的研究也取得了一些重要发现,能够为口语教学提供更加有针对性的教学内容和方法。

二、对外汉语口语语块在口语教学中的应用1.语块的教学对外汉语口语语块在口语教学中扮演着重要的角色。

通过教授语块可以帮助学习者更快地积累语言素材,提高口语表达的流利度和地道性。

语块教学主要包括语块的介绍、讲解、练习和应用等环节。

在介绍和讲解环节,教师可以通过举例、对比等方式向学生解释和展示语块的用法和语境。

在练习和应用环节,学生可以通过角色扮演、小组讨论等形式来运用所学语块进行口语表达。

汉语组块分析研究综述

汉语组块分析研究综述

际会议 C o NL L 一 2 0Байду номын сангаас0 0把 组块 分析作 为共 享任 务l 2 ] 提
1 引 言
句 法 分 析是 自然 语 言 处理 中的 重 点 和难 点 , 虽
出, 组 块分 析逐 步 受 到 重视 。人 们对 于基 本 名 词短 语、 介 词短 语 , 继 而 扩大 到所有 类型 短语 的识别 等 问 题 做 了大量 的研 究 。 目前 的组 块分 析技术 由于受 到 相关语 言 处理研 究及 信 息处理 技术 应用 两个方 面 的
汉 语 组 块 分 析 研 究 综 述
李 业 刚 。 , 黄 河 燕
( 1 .北 京 理 工 大 学 计 算 机 学 院 , 北京 1 0 0 0 8 1 ; 2 .山 东 理 工 大 学 计 算 机 科 学 与 技 术 学 院 , 山东 淄博 2 5 5 0 4 9 ) 摘 要: 组 块 分析 作 为 浅 层 句 法 分 析 的 代 表 , 既 可 以 满 足 很 多语 言 信 息 处 理 系统 对 于 句 法功 能的 需求 , 又可以作为
2 .De p a r t me n t o f Co mp u t e r S c i e n c e a n d Te c h n o l o g y,S h a n d o n g Un i v e r s i t y o f Te c h n o l o g y ,Z i b o ,S h a n d o n g 2 5 5 0 4 9, Ch i n a )
子任务 , 在 词 法 分 析 和 完全 句 法分 析 以及 语 义 分析 中间 架起 一 座 桥 梁 , 为 句 子 进 行 进 一 步 深 入 分 析 提 供 有 力 的 支

对外汉语口语语块研究述评

对外汉语口语语块研究述评

对外汉语口语语块研究述评引言语块是语言中的重要组成部分,它是一种固定的、连贯的语言单元,具有特定的语法和语义功能。

对外汉语口语语块研究作为中国对外汉语教学的一个重要领域,受到了广泛的关注和研究。

本文将对外汉语口语语块的研究进行述评并提出一些见解。

一、对外汉语口语语块的定义语块是指在交际中经常使用的具有语法功能和语义功能的固定的词语组合。

它是语言的基本组成部分,具有一定的稳定性和连贯性。

对外汉语口语语块是指在对外汉语交际中经常使用的固定词语组合,包括常用的问候语、感谢语、道歉语、表扬语、建议语等。

对外汉语口语语块的研究,旨在帮助学习者更好地理解和运用这些固定的词语组合,提高他们的口语表达能力和交际能力。

对外汉语口语语块可以根据其语法功能和语义功能进行分类。

按照语法功能的分类,可以分为主谓语块、宾补语块、时间状语块、地点状语块、方式状语块等。

按照语义功能的分类,可以分为问候语块、感谢语块、道歉语块、表扬语块、建议语块等。

这些分类有助于学习者更好地理解和掌握口语语块,并将其运用到实际的交际中去。

对外汉语口语语块的研究方法主要包括语料库研究、实验研究和调查研究。

语料库研究是通过收集大量口语语料,分析其中的语块使用情况,总结出常用的口语语块。

实验研究是通过设计实验,测试学习者对口语语块的掌握和运用情况。

调查研究是通过问卷调查和访谈调查,了解学习者对口语语块的认识和需求。

这些研究方法相互结合,可以全面地了解口语语块的使用情况和学习者的需求,为口语教学提供科学依据。

对外汉语口语语块的教学策略应该注重实践性和交际性。

教师应该引导学习者通过大量的口语交际实践,积累和掌握口语语块。

教师可以设计各种口语交际活动,让学习者在实际的交际中运用口语语块,提高他们的口语表达能力和交际能力。

教师还可以结合学习者的实际需求,设计个性化的口语语块教学方案,提高口语语块的学习效果和实际运用能力。

组块化的名词解释

组块化的名词解释

组块化的名词解释在语言学和认知科学中,组块化是指将连续的语言单元组合成更大的单元,以便于理解和表达信息。

这种方式在日常交流中非常常见,它不仅用于语言的理解和表达,还存在于其他领域,如思维、记忆和学习等。

本文将详细解释组块化的概念、作用以及相关的研究和应用。

一、组块化的概念组块化是一种认知过程,通过将相关的信息组合在一起形成更大的单元,以便于理解和处理。

在语言学中,这些组合可以是词语、短语或句子等。

通过将相关的语言单元组块在一起,我们可以更有效地解读和表达复杂的概念和信息。

组块化的过程发生在大脑中,涉及到对语言和语义的认知加工。

二、组块化的作用1. 理解和记忆:组块化有助于我们理解和记忆大量的信息。

通过将相关的语言单元组合在一起,我们可以更容易地理解语言的含义,并将其存储在记忆中。

例如,当我们听到“红色的苹果”这个短语时,我们可以将“红色的”和“苹果”两个词语组合起来,形成一个更大的单元,并且更容易记忆。

2. 语言表达:组块化也对语言的表达起到重要的作用。

通过组块化,我们可以更自然地表达复杂的概念和意思。

例如,当我们要表达“自然环境遭受到破坏”的意思时,我们可以组合词语“自然环境”和“破坏”来表达这个含义。

这种表达方式更符合语言的习惯和规则,使得信息的传递更加准确和流畅。

三、组块化的研究和应用1. 语言学研究:在语言学领域,组块化被广泛研究。

一些语言学家认为,组块化是语言的基本特征之一,它在语言的产生和理解过程中起到了重要的作用。

通过研究组块化现象,我们可以进一步了解语言的结构和运作机制。

2. 认知科学研究:在认知科学领域,组块化也是一个重要的研究课题。

通过研究人类大脑在组块化过程中的活动,我们可以更深入地理解人类的认知机制和信息加工过程。

这对于认知科学的发展和应用具有重要意义。

3. 教育和学习应用:组块化的概念在教育和学习中也得到了广泛应用。

在语言教学中,教师可以通过组块化的方式帮助学生理解和记忆词汇和句子。

关于汉语组块(CHUNK)研究的几点观察和思考

关于汉语组块(CHUNK)研究的几点观察和思考

关于汉语组块(CHUNK)研究的几点观察和思考颜伟北京语言大学语言信息处理研究所北京 100083E-mail: yanwei@一、汉语组块研究的进展国内现在进行汉语组块研究的团队主要有:微软亚洲研究院、清华大学、东北大学三家。

他们有自己的技术优势和各自有不同的应用目标,微软主要的应用目标是进行浅层句法分析(shallow parsing),但从两年来的工作看来,微软的这项工作并没有取得预期的成果,微软组块研究主要由黄昌宁教授主持;清华大学应该是国内最早进行组块研究的科研机构,周强博士从博士期间就把很多注意力集中在汉语组块的相关研究上,现阶段他们正考虑在组块提取中加入语义关系来提高提取的准确性;东北大学在英汉机器翻译中考虑到翻译颗粒度的要求,并开始组块研究,取得了比较好的成果。

我们主要就微软亚洲研究院的相关研究工作进行整理分析,并提出自己的一些看法和观点。

(一) 工作进展微软的汉语组块研究初步想实现100万词的手工语料标注,但因为规范的统一性,这项工作最终只从四个人半年标注的100万词的语料中选取了50万词形成最终的chunk语料库。

微软基于chunk的工作基本上是以这50万词的语料为基础的。

(二) 相关技术标注单位:微软以自然句(即以句号、问号、叹号分开的句子)作为基本的标注单位Chunk的定义:他们区分了chunk和短语并在实际工作中提出了一些修正方法例如:•Phrases (recursive)[NP [NP [NP青年] [NP志愿者] ] [NP [NP 科技] [NP 服务队]]]•Chunks (non-recursive, linear)–[NP 青年/n] [NP 志愿者/n] [NP 科技/n] [NP 服务队/n] -–[NP 青年/n 志愿者/n] [NP 科技/n] [NP 服务队/n] -–[NP 青年/n] [NP 志愿者/n] [NP 科技/n 服务队/n] -–[NP 青年/n 志愿者/n] [NP 科技/n 服务队/n] √ Ideal–[NP 青年/n 志愿者/n 科技/n 服务队/n] √–[NP 青年/n] [NP 志愿者/n 科技/n] [NP 服务队/n] X修正方法:•solution in chunk definition–[NP 青年志愿者科技服务队] [NP世界经济论坛年会]–[NP 现代企业制度] (Extending)–[ADJP 最低][NP 工资]和[NP 生活费] (Shortening)操作规范:区分inside和outside–verb-object, subject-verb are excluded of chunks–11 chunk types and its definition•NP, VP, ADJP, ADVP, PP, SP, MP, TP , CONJP, INDP, INTJP–Special annotation cases– Outside tokens: 的,得,和,与,punctuations[SP 市内/s] [NP 各/r 大/a 商场/n] 的/u [NP 冷食/n 柜台/n] [NP 生意/n][ADJP 都/d 红火/a] 得/u [ADVP 很/d] 。

对外汉语教学语块研究述评

对外汉语教学语块研究述评

2018年第1期No.12018华文教学与研究TCSOL Studies总第69期Sum No.69[收稿日期]2017-09-21[作者简介]孔令跃(1974-),男,河南南阳人,北京大学对外汉语教育学院副教授,博士,主要从事汉语词汇认知和汉语作为二语的教学研究。

电子邮箱:lingyue@ 。

①感谢匿名审稿专家和《华文教学与研究》编辑部提出的宝贵修改意见。

②在国外研究文献中有50多种名称来指代语言中的语块现象(如multiword chunks ,formulaic language 等等),目前formulaic languages 作为一个通称(cover term )被广为接受(Conklin &Schmitt 2012)。

在国内的众多研究文献中,语块现象也有多种名称,使用最广的是“语块”或“词块”。

后者容易使人把语块现象限定于连续的词汇组合这一范畴内,但研究者认为语块包括连续和非连续词语组合(Wray,2002),而且也有研究者认为语篇层次也有语块(钱旭菁,2008)。

此外,有些情况下用词块似乎也不符合汉语语感。

从词语的涵盖范围和使用接受度上考虑,我们认为“语块”一词更合适。

本文使用语块一词来对应指代formulaic language 一词。

对外汉语教学语块研究述评①孔令跃(北京大学对外汉语教育学院,北京100871)[关键词]汉语语块;理论研究;实证研究[摘要]近些年,语块已成为一个跨学科多领域的前沿研究热点。

本文从理论和实证两方面回顾梳理最近十五年的对外汉语教学语块研究。

分析发现汉语语块分类的理论探讨较多,但分类视角窄且分类标准存在较多问题。

实证研究数量增加较快,方法也更多样化。

其中,语块的心理语言学研究进展明显,但不同类型语块及其习得机制的教学与习得研究成果有限。

结合国内外语块研究发展趋势,本文分析目前相关研究所存在的问题和不足,探讨后续汉语语块教学研究可拓展的空间。

[中图分类号]H195.3[文献标识码]A[文章编号]1674-8174(2018)01-0049-091.引言语块②是在自然话语中普遍存在的一种形式固定的多词汇单元。

统计和规则相结合的汉语组块分析

统计和规则相结合的汉语组块分析
t n N ue0 o p t g"eh oo ' ( n s a e O t c c s B i n n n o I s t t {C m u i i c n l ̄ .  ̄zeeAc d  ̄ ,1 on e , ej g 1 o s n ' r {S i
Absr c To a q ie c un r ta t c u r h ks fom un n e t sus f lf r ma pp ia i s,s c s m a h ne r ni g t x s i e u o ny a lc ton u h a c i t a s a i n, i o ma i r t iv ng, ec . De c i d n t i p p r a e t c m e f r e b s d r n l to nf r ton e re i t. s rbe i h s a e r he s he s o ul a e
短 语 边 界 识 别 化 为 在 词 类 标 记 对 问插 入 左 右 边 界 的 问题 ;
组块 分析 (h n as g , 和完 全 句法 分析 相对 cu kpri ) 是 n
TP1 8
中 图 法分 类 号
CH I ES CH UNKI N E NG PARS NG I US NG I RULE~ BAS ED AND S TATI TI S CS— BAS ED ETH 0DS M
LIS in,LI Qu u Ja U n,a d BAIS u n ho
维普资讯
第3卷 第‘ 9 期
20 0 2年 月
计 算 机 研 究 与 发 展
J OURNA I OF COM P TER RES U EARCH AND DEVE M ENT 1OP
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语组块计算的若干研究
李素建 北京大学计算语言学研究所
2003. 3. 11
企业资料
1
提纲
• 课题的提出、意义和现状 • 本文主要工作 • 总结
企业资料
2
课题的提出、意义和现状
• 提出:认知理论、AI(Soar)
• 内容:组块分析+组块相似度计算
• 意义
– 简化句子结构
– 信息检索
– 信息抽取
– 文本聚类/分类
企业资料
6
语言学中的研究方法
• 理性主义研究方法 – 基于规则的方法
• 经验主义研究方法 – 基于统计和实例的方法,语言建模
• 两种方式相结合
企业资料
7
两种方法的比较
研究 内容 理论 基础 处理 方法
规则方法
语言能力
统计方法
语言数据
基于乔姆斯基的
一般是基于
语言原则
shannon 的信息论
一些特殊的语句 实际使用的普通语
组块规则实例
• NC: NR • NC: JJ, NN • VCC: AD, VV • VCC: VV,AS • PC: P NN • QC: CD, M
1857 1339 1247 378 401 1708
(“中国”) ( “新 格局”) (“明显 增强”) (”确保 了") (“据 介绍”) (“数百 家”)
• 不重叠
• 覆盖
企业资料
18
NOC (而/CC) (是/VC) (借鉴/VV) (发达/JJ 国家/NN 的/DEG) (经验/NN 教训/NN)
VCC
VCC
DNC
NC
组块标注集合
• NC • VCC • PC • QC • LCC
• DVC • DNC • ADJC • ADVC • LST
• 有限状态机的成功应用
– 音律变换模型证明是有限状态模型
– 词内部语法是有限状态
• “组块分析”促进了有限状态机的应用
– 语言整体不是一个有限状态的语言,但是分
解后的一些子集,用有限状态描述不仅充分
而且比PSG容易构造
企业资料
37
有限状态机(2)
• 概率观点的兴起
– 很多概率方法可以用加权有限状态机描述。 这样的描述简洁、易理解、操作/优化/结合都 很有效。
• CurPOSTag_NT,POSTag-1_VC=NC
• CurPOSTag_P,POSTag+1_PN=PC
• ChunkTag-1_NC,CurPOSTag_VV=VCC
• ChunkTag-1_NC,CurPOSTag_NN=NC
• CurRhythm_2,CurPOSTag_NN,Rhythm-1_1=NC
~
H (y | x) p(x) p(y | x) log p(y | x)
x, y
满足了以下三个条件:
(1) p(y|x) 0 for all x, y
(2) y p(y|x) 1 for all x
~
~
(3) x,y p(x)p(y|x)f(x,y) x,y p(x,y)f(x,y) for i {1,2,...,n}
– 机器翻译
企业资料
3
语言学的研究内容
• 词法分析:
• 句法分析:一个语句的可能句法结构
• 语义分析:将语句的意义形式化表达出来
• 语用分析:上下文对语句理解的作用
企业资料
4
中文处理
生语料
分词
语法标注
语用,语义分析
句法分析
企业资料
5
组块分析--浅层分析,部分分析
• 不要求得到完整的句法树 • 标示出基本的组块 • 可以利用完全分析的各项技术
企业资料
24
引入拉格朗日函数:
~
( p, , ) p(x) p( y | x) log p( y | x)
x,y
~
~
i ( p(x, y) fi (x, y) p(x) p( y | x) fi (x, y))
i
x,y
( p( y | x) 1)
x
p*( y | x) Z (x) exp( i fi (x, y))
M个
1 1 3 NC
NN 边境
1 1 4 NC
NN 开放
1 1 5 NC
NN 城市
1 1 6 NC$
NN 经济
1 1 7 NC
NN 建设
1 1 8 NC
NN 成就
1 1 9 VCC 企业资V料V 显著
35
最大熵模型优点
• 特征选取灵活:使用最大熵可以准确为 变量间的细微依赖关系建模,这种关系 用传统的预测模型技术是不可能的。
c
ci {0,1,2,3,4}
0([)、1(])、2(][)、3(I)、4(O)
企业资料
11
组块分析--统计方法
[句法/n 分析/n ][ 是/v ][ 自然/n 语言/n 处理/v ] 中/f 的/u [重点/n] ./w
<Φ ,n> <n,n> <n,v> <v,n> <n,n> <n,v> <v,f> <f,u> <u,n> <n,w>
最大熵模型相关算法
• 参数估计算法: – G.I.S(Generalized iterative scaling) • 迭代时间O(NPA) N:训练集大小; P: 预 测数目;A:每个事件的平均特征数目
• 特征的选择:Field Induction Algorithm – 选择对模型具有最大增益值的特征(KL)
企业资料
41
有限自动机优点
• 描述简洁、易于构造
• 确定性强、速度快
• 操作方便
• 优化了空间
企业资料
42
错误驱动的基于转换的机器学习
未标注文本
初始状态 标注器
已标注文本
直接修正结果正确标注文本03223
3
140
1
企业资料
12
组块分析-- conll2000评测标准
Recall Number of correct proposed chunks Number of correct chunks
Precision Number of correct proposed chunks Number of proposed chunks
F

( 2 1) * Recall * Precision 2Recall Precision
F 1
2 * Recall * Precision Recall Precision
企业资料
13
组块分析--conll2000会议结果
[KM00] [Hal00] [TKS00] [ZST00] [Dej00] [Koe00] [Osb00] [PMP00] [Joh00] [VD00] Baseline(E)
• 概率分布:p(y|x) ?
• 引入特征: fi∈{0,1}
~
p( fi ) p( fi ) i {1,2,, n}
~
p( f ) p(x) p( y | x) f (x, y)
x,y
~
~
p( f ) p(x, y) f (x, y)
x, y
企业资料
23
特征限制条件下的模型分布
Fβ 1 93.48 93.32 92.50 92.12 92.09 91.97 91.94 90.14 87.23 85.76 77.07%
中文处理的组块分析研究
• baseNP的识别 • 汉语短语边界的界定 • 命名实体的识别
企业资料
15
提纲
• 课题的提出、现状和意义 • 本文主要工作 • 总结
Precision 93.45% 93.13% 94.04% 91.99% 91.87% 92.08% 91.65% 90.63% 86.24% 88.82% 72.58%
Recall 93.51% 93.51% 91.00% 92.25% 91.31% 91.86% 92.23% 89.65% 88.25% 82.91% 82.14%
或语言现象
句的统计表述
企业资料
8
组块分析--规则方法
• Finite State Cascade:有限状态叠
NP (D) A * N

T1 : VP Vtns
|
Aux Ving
NP Pron

T2 : PP P NP
T3 : S PP * NP PP * VP PP *
企业资料
16
本文主要工作
• 组块 • 组块分析技术 • 组块相似度的计算
最大熵模型 有限自动机技术 混合模型
企业资料
17
组块定义
• 组块:(汉语)
– 符合一定句法功能的非递归短语。每个组块都 有一个核心词,组块围绕核心词展开,以核心 词作为组块的开始或结束。
• 严格按照语法规则
• 所有组块是平等的,非递归
• PrevWord_被,CurPOSTag_VV=VCC
企业资料
28
ME模型的特征选取
• 粗选 – 出现频数
• 细选 – Kullback-Leibler(KL)距离
• 手工加入
企业资料
29
选用4个特征模板作 自动特征选取实验:
(1) CurPOSTag; (2) CurPOSTag,POSTag+1; (3) POSTag-1, CurPosTag; (4) POSTag-1,CurPOSTag, POSTag+1
相关文档
最新文档