024015汉语语言资源建设的理论基础与发展规划
学校语言文字培养规划

学校语言文字培养规划概述本文档旨在制定学校的语言文字培养规划,以促进学生的语言文字综合能力的提升和发展。
语言文字是人类交流和沟通的重要工具,对于学生的研究和未来的发展具有重要意义。
目标1. 提高学生的听、说、读、写能力,培养他们熟练运用语言文字进行有效沟通的能力。
2. 培养学生的阅读理解和写作表达能力,使其能够理解和分析各类文本,并能准确、清晰地表达自己的思想和观点。
3. 培养学生的批判思维和创造力,通过语言文字的运用,培养学生的创新能力和解决问题的能力。
教学策略1. 多元化的语言教材和资源:丰富多样的教材和资源,包括书籍、文章、音频、视频等,以满足学生不同层次和需求的研究。
2. 实践性教学:通过实际场景和情境,让学生体验和应用所学语言文字知识,提高研究的实践性和真实性。
3. 合作研究:鼓励学生进行小组合作研究,通过互动和合作,提高学生的语言交流能力和研究效果。
4. 多样化的评估方式:采用多种形式的评估方式,包括口头表达、书面作业、项目演示等,全面评估学生的语言文字能力。
培养活动1. 举办语言文字比赛:定期举办听说读写等各类语言文字比赛,激发学生研究语言文字的兴趣和动力。
2. 组织语言文字活动:组织朗诵、演讲、辩论等各类语言文字活动,提供学生展示和提升语言文字能力的机会。
3. 阅读推广活动:组织课外阅读、读书分享会等活动,培养学生的阅读兴趣和阅读惯,提高阅读理解能力。
4. 写作比赛和创作展示:举办写作比赛和创作展示活动,鼓励学生进行写作实践,提升写作表达能力和创造力。
资源支持1. 建立语言研究中心:提供学生自主研究和辅导的场所,提供各类语言研究资源和支持服务。
2. 丰富图书馆资源:增加语言文字相关的书籍、期刊等资源,为学生提供研究和研究的资料支持。
3. 引进优质教材和软件:引进优质的语言文字教材和教学软件,提升教学质量和研究效果。
评估和反馈机制1. 学生研究档案:建立学生的语言文字研究档案,记录学生的研究情况和进展,为评估和反馈提供依据。
2023年汉语言文字工作计划

2023年汉语言文字工作计划一、背景分析2023年是中国改革开放和现代化建设进程中的重要一年。
汉语作为中国的国家语言和文化传承的核心,发挥着重要的作用。
在全球化的浪潮下,汉语的教学和推广工作更加需要深化和创新。
因此,制定一份全面的2023年汉语言文字工作计划,对于促进汉语的传播和汉字的规范化具有重要意义。
二、工作目标1. 提高汉语教学质量和水平,培养更多的优秀汉语教师。
2. 推广汉语教材和教学方法,提高汉语教学效果。
3. 加强汉字规范化管理,提高汉字应用水平。
4. 提升汉字文化的国际影响力,增进中外文化交流。
三、工作计划1. 加强汉语教师培训(1)组织开展全国范围内的教师培训班,提升教师们的教学能力和教育理念。
(2)加强国内外教师交流,促进教学经验和教材的共享。
2. 更新和推广汉语教材(1)对现有汉语教材进行评估和更新,结合新的教学理念和需求,推出适应不同学习层次和目标的教材。
(2)研发创新的教学方法和辅助教材,提高汉语教学效果。
3. 加大对汉字规范化的推进力度(1)加强对汉字的研究和整理工作,编纂汉字规范化手册,推动汉字的规范和标准化。
(2)加强对汉字应用的管理,提高对汉字使用的规范性和统一性。
4. 加强中外文化交流(1)组织国际学术研讨会、论坛等活动,邀请国内外专家学者研讨汉字与文化的相关问题。
(2)开展中国汉字文化展览和交流活动,在全球范围内推广汉字文化。
四、工作措施1. 加强组织领导,建立协调机制。
2. 加大财力投入,提供充足的经费支持。
3. 加强宣传力度,提高汉语教学和汉字规范化的社会认可度。
4. 利用现代科技手段,开发汉语教学和汉字规范化的相关软件和应用。
五、工作预期通过2023年的汉语言文字工作计划,预期能够有效提高汉语教学质量,加强汉字的规范化管理,提升汉字文化的国际影响力。
同时,也能够促进中外文化之间的交流与合作,推动汉语的传播和发展。
六、总结通过制定和实施2023年的汉语言文字工作计划,可以为汉语教学和汉字规范化提供系统的指导和有力的支持。
语言文字发展方案

语言文字发展方案背景随着社会的发展和进步,语言文字的发展也成为重要的议题。
语言文字是人类交流和沟通的重要工具,其发展与社会文化的发展密切相关。
为了促进语言文字的发展、推动文化传承和民族复兴,我们制定了以下的语言文字发展方案。
目标本发展方案的目标如下:1. 促进语言文字的多样性和繁荣发展;2. 加强语言文字使用和传承意识;3. 提高公众对语言文字的重视和认识;4. 推动语言文字的科学研究和创新;5. 促进语言文字在教育和文化领域的应用。
重点措施为了实现上述目标,我们将采取以下重点措施:1. 语言文字研究和教育- 加强语言文字研究的普及,提高公众的语言文字素养;- 推进语言文字教育改革,注重培养学生的语言表达能力和批判思维能力;- 加强语言文字教师队伍建设,提高教师的专业水平和教学能力。
2. 语言文字研究和创新- 支持语言文字相关科研项目,鼓励学者开展语言文字的探索和研究;- 鼓励创新科技的应用,提升语言文字处理和分析的能力;- 推动语言文字标准化工作,提高语言文字的规范性和规范化水平。
3. 语言文字传承和保护- 加强语言文字的传承和保护工作,保护濒危语言文字的文化遗产;- 鼓励社区和学校组织语言文字的传统节庆活动,提升语言文字的认同感和自豪感;- 引导媒体和互联网平台关注语言文字传承和推广,促进语言文字的传播和交流。
4. 宣传和推广- 开展语言文字文化宣传活动,提高公众对语言文字的认知和重视;- 制作宣传素材和手册,普及语言文字的基本知识和应用;- 建设语言文字的在线平台和资源库,方便公众研究和使用语言文字。
实施计划我们将根据以上措施制定详细的实施计划,并落实责任人和时间节点,确保语言文字发展方案的顺利推进。
结束语通过本发展方案的实施,我们相信能够促进语言文字的进步和发展,为社会文化建设和民族复兴做出贡献。
让我们共同努力,共同创造一个语言文字繁荣的美好未来!。
语言文字规范发展规划

语言文字规范发展规划介绍本文档旨在制定语言文字规范的发展规划,确保语言文字的正确和规范使用,促进沟通效果和信息传递的准确性。
本规划涵盖以下几个关键方面:规范制定、培训与教育、审查与修订、宣传推广以及评估与监督。
规范制定为了保证语言文字的准确性和规范性,需要制定一套明确的规范和标准。
这些规范应包括语法、拼写、标点符号、词汇使用等方面的规定。
规范制定的过程应该透明、参与广泛,同时要借鉴国内外的最佳实践和经验。
培训与教育为了提高人们对语言文字规范的认知和理解,需要进行相关的培训与教育活动。
可以组织语言文字规范培训班、举办讲座、制作宣传资料等,向广大民众普及正确使用语言文字的知识和技巧。
同时,也要加强对教师和媒体从业人员的培训,提高他们对语言文字规范的重视和遵守程度。
审查与修订语言文字规范是一个动态的、不断发展的过程。
为了适应社会不断变化的需求,需要定期对现有的规范进行审查与修订。
审查与修订的过程应该透明、专业,并充分考虑各方的意见和建议。
修订后的规范应及时发布,并向相关机构和组织进行宣传和培训。
宣传推广宣传推广是确保语言文字规范发展成功的重要环节。
可以通过各种渠道,如媒体报道、互联网宣传、社区活动等,向公众传达正确使用语言文字的重要性,提高他们的规范意识。
同时,还可以与学校、企事业单位等合作,开展相关宣传活动,提高语言文字规范的普及率和遵守程度。
评估与监督为了保证语言文字规范发展规划的有效实施,需要建立评估与监督机制。
可以设立专门的机构或委员会负责对规范实施情况进行评估和监督。
评估结果应及时公布,并采取相应的改进措施。
同时,也要鼓励社会各界对违反规范的行为进行监督和举报,加强规范的执行力度。
结论通过制定和实施上述语言文字规范发展规划,我们将能够提高语言文字的准确性和规范性,促进有效的沟通和信息传递。
这将对于社会的发展和进步起到积极的推动作用。
希望各相关机构和组织能够积极参与和支持这一发展规划,共同努力推动语言文字规范的提高和发展。
语言文字工作中长期发展规划书

语言文字工作中长期发展规划书一、背景和目标作为一个国家和民族的核心文化因素,语言文字的工作对于文化传承、国家形象和社会发展有着重要的影响。
为了更好地推动语言文字工作的发展,制定长期发展规划显得尤为重要。
本规划旨在确定语言文字工作的发展方向,提出相关政策和措施,以实现以下目标:1.提高国民语言文字素养水平,推动语言文字能力的全面提升。
2.促进语言文字的规范化和标准化,保护和传承优秀的语言文字文化。
3.构建创新型的语言文字工作体系,推动语言文字工作与科技、文化等领域的融合发展。
4.加强国际交流合作,增强国际影响力,提升国际语言文字竞争力。
二、发展策略和措施1.提高语言文字素养水平开展全民语言文字教育活动,推动语言文字教育的普及化和提质化。
加强语言文字教师培训,提高他们的教学水平和专业素养。
建设多样化的学习资源,包括在线学习平台、移动应用等,提供便捷的学习途径。
2.推进语言文字的规范化和标准化加强对语言文字规范的研究和制定,推动语言文字规范体系的完善。
建立语言文字评估体系,制定语言文字能力等级划分标准。
加强对语言文字文化传统的保护和传承,培养和挖掘优秀的语言文字人才。
3.构建创新型的语言文字工作体系积极运用大数据、人工智能等技术手段,开展语言文字相关研究和应用。
支持语言文字产业的发展,推动语言文字工作与科技、文化等领域的深度融合。
建立跨部门、跨领域的合作机制,促进语言文字工作的协同发展。
4.加强国际交流合作扩大对外语言文字教育的力度,提高外语水平,增强对外交流的能力。
加强与国际组织和其他国家的合作,共同推动语言文字的保护和发展。
建立国际语言文字交流平台,展示我国语言文字的独特魅力和文化内涵。
三、实施和评估为了确保规划的有效实施和长期发展的持续推进,我们将采取以下措施:1.设立专门机构或委员会,负责规划的实施和统筹协调。
2.制定详细的实施计划和时间表,确保各项任务按时完成。
3.建立和完善相关的监测和评估机制,定期对发展进展进行评估。
2023年学校国语学习计划

2023年学校国语学习计划一、引言国语作为我国的官方语言,对于每一个中国学生来说都是必不可少的学习内容。
掌握好国语不仅可以提高沟通能力,还可以拓宽视野,增强国家认同感。
因此,在2023年的学校国语学习计划中,我们将以培养学生的国语综合应用能力为目标,努力提高学生对国语的学习兴趣和自信心。
二、学习目标1.提高听力和口语表达能力。
2.培养阅读和写作能力。
3.加深对中国文化的认识和理解。
三、教学内容与方法1.听力与口语(1)每周安排国语听力训练,包括听力材料、听写练习等。
(2)激发学生参与课堂讨论和演讲的热情,主动使用国语进行日常交流。
(3)组织模拟对话和角色扮演活动,提高学生的口语表达能力。
2.阅读与写作(1)选择适合学生年龄阶段的优秀中文读物,推荐并鼓励学生自主阅读。
(2)定期组织阅读分享和写作比赛,激发学生的写作创造力和表达能力。
(3)引导学生学习写作技巧,如写作结构、行文规范等,培养他们的写作能力。
3.中国文化(1)通过国语课程,向学生介绍中国传统文化和现代文化的基本知识。
(2)组织文化活动,如中国传统节日庆祝活动、中国文化展览等,增进学生对中国文化的认识与理解。
四、教学资源与环境1.教材选择经典、合适的国语教材,包括课本、阅读材料和练习册等。
2.多媒体技术利用多媒体技术,搭建国语学习的互动平台,提供多样化的学习资源,如录音、视频等。
3.图书馆与阅览室建设图书馆和阅览室,为学生提供丰富的中文读物,方便学生自主阅读与学习。
4.文化活动组织各种形式的文化活动,如中国传统节日庆祝活动、演讲比赛等,为学生提供了解和体验中国文化的机会。
五、教学评价与奖励机制1.评价方式通过考试、口语训练、阅读和写作等多方面的评估手段,全面了解学生的国语学习情况。
2.奖励机制建立奖励机制,对在国语学习中表现优秀的学生进行表彰和奖励,激发学生学习的积极性。
六、教师培训与支持为了提高教师的国语教学水平,将安排专门的培训课程,包括教学方法、教材选取和教学资源的利用等方面的培训内容。
语言文字技术发展规划

语言文字技术发展规划1. 引言本文档旨在制定语言文字技术的发展规划,以推动该领域的进步与创新。
通过制定明确的目标和策略,我们将努力提高各种语言文字技术的效率和质量,满足用户的需求,促进社会进步。
2. 目标与策略2.1 提高机器翻译的质量和准确性- 进一步开展机器研究和人工智能研究,提高机器翻译算法的效果。
- 建立翻译记忆库,积累大量翻译资源,提供更准确和流畅的翻译结果。
- 加强与领域专家的合作,提升特定领域的翻译质量。
2.2 发展语音识别和语音合成技术- 利用深度研究和神经网络等技术,提高语音识别的准确度和鲁棒性。
- 提升语音合成技术,使合成的语音更加自然、流畅。
- 加强语音识别和语音合成在智能语音助手和智能设备中的应用。
2.3 推动自然语言处理技术的创新- 进一步研究和发展自然语言处理算法,提高文本分析和语义理解的能力。
- 加强中文自然语言处理的研究和应用,支持中文信息处理的多样化需求。
- 推进自然语言处理技术在搜索引擎、信息检索和知识图谱等领域的应用。
2.4 提升信息安全与隐私保护能力- 努力研究和应用文本信息加密、隐私保护和溯源技术,确保用户信息的安全性。
- 推动国内外合作,加强对网络谣言和虚假信息的检测和过滤能力。
- 完善相关法律法规,保障用户的信息安全与隐私权。
2.5 支持多语种技术发展- 强化对少数民族语言和地方方言的语言文字技术支持,提升其在现代化信息社会中的发展水平。
- 加强多语种语言资源的收集和整理工作,提供全面和准确的多语种信息服务。
- 鼓励多语种技术的国际交流与合作,促进各国之间的语言文字交流和理解。
3. 资源投入与组织管理3.1 资源投入- 加大对语言文字技术研发和应用的资金投入,鼓励企业和研究机构参与。
- 支持和引导高校和科研院所开展相关科研项目,提升技术创新能力。
3.2 组织管理- 成立专业的语言文字技术发展团队,负责制定和实施相关政策和规划。
- 建立联合研究机构和实验室,推动学术界和产业界的合作与交流。
2023年汉语言工作方案

2023年汉语言工作方案一、背景分析汉语言是中华民族的共同语言,是国家的官方语言,也是国际交往中重要的沟通工具。
随着中国的国际地位不断提升,汉语言的影响力也在不断扩大。
因此,2023年的汉语言工作需要进一步提升汉语的教学质量、加强汉语在国际交流中的地位,推动汉语言文化的传承与创新。
二、目标确定1. 提高汉语教学质量。
通过加强教师培训、制定科学教学规范、创新教学方法等手段,提高汉语教学质量,使学习者能够更加准确、流利地使用汉语进行交流。
2. 推广汉语言文化。
通过组织丰富多彩的文化交流活动、开展汉语言文化推广项目等方式,宣传中国文化的丰富多样性,增进国际社会对中国的了解和认同。
3. 加强国际汉语教学标准化建设。
通过制定国际汉语教学标准,加强国际汉语教学的规范化、标准化,提高汉语教学的可持续发展能力。
三、重点任务1. 加强师资队伍建设。
加大对汉语教师培训的投入,提高教师的教学能力和教育水平。
建立健全评估机制,对教师进行定期评估和培训,激励优秀教师的成长和发展。
2. 制定汉语教学规范。
根据教学实践和学习者需求,制定科学、系统的汉语教学规范,明确教学目标、教学内容和教学方法,提高教学的有效性和效率。
3. 推动汉语考试制度改革。
根据不同学习层次和目标,优化汉语考试制度,提供更多的考试选择,提高考试的公正性和准确性。
同时,加强对考试结果的评估和利用,为学习者提供个性化的学习方案。
4. 开展国际汉语教学研究。
加强对国际汉语教学的研究,推动教学理论的创新和教学方法的改进。
建立国际汉语教育研究中心,组织国内外教育专家、学者开展教学研究和交流。
5. 提升国际汉语教学的软硬件设施。
建设现代化的教室设施和多媒体教学平台,提供全方位、立体化的教学环境和教学资源。
同时,加强对国际学生的生活、学习支持,提高他们的学习满意度和适应能力。
6. 加强国际交流与合作。
积极与其他国家和地区开展汉语言教学的交流与合作,促进互相借鉴、共同发展。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
汉语语言资源建设的理论基础与发展规划*俞士汶 朱学锋北京大学关键词:自然语言处理 资源自然语言处理与语言知识库自然语言处理的目标与基础以计算机为工具,实现自然语言的分析、变换和生成,构造实用的系统,比如机器翻译、信息检索与信息提取以及人工系统的自然语言界面等等,早已不算奇思妙想。
大约60年前,当冯·诺依曼(Von Neumann)型计算机问世不久,就有人提出了机器翻译的构想,并进行了执著的实践。
这是数字式计算机在非数值领域的最早应用。
尽管自然语言处理技术的历史很悠久,道路却不平坦。
无论同计算机技术本身相比,还是同计算机在各个领域的应用相比,自然语言处理及其基础理论计算语言学的发展都是极其缓慢的。
如果把研究目标定位于自然语言理解,可以说至今尚未取得突破性进展。
究其原因,可以归结为以下几点:(1)人类对自己的语言机制尚不甚了解;(2)语言既是研究对象,又是思考工具,复杂度极大;(3)当代计算机系统知识匮乏的状况依然未得到根本改善。
在技术发展的大背景下(目前可用的计算机通常还是冯·诺依曼的体系),将自然语言处理研究的主攻目标定位在实用的层次上是比较现实的。
区别于通用的计算机系统,自然语言处理系统除了包含硬件以及具有分析和生成能力的语言处理软件外,语言知识库也是其中必不可少的组成部分。
在很大程度上,语言知识库的规模和质量决定了自然语言处理系统的成败。
因此,建设富含词汇、句法和语义知识的语言知识库是应当先行的基础研究。
汉语信息处理与语言知识库建设当把对自然语言理解作为研究目标时,研究各种语言的共性是其主要的内容。
当把研究目标定位在实用的自然语言处理层次上时,具体语种的特点对技术的影响就有必要加以认真考虑。
吕叔湘先生指出:“有了形态变化,语法分析就比较容易进行。
没有严格的形态变化,在语法分析上就比较容易引起问题。
”[1]吕先生的话虽然是针对汉语本体研究说的,但对语言信息处理同样具有启示作用。
若仅从文本自动处理的角度观察,虽然可以列举出汉语的种种特点,但是汉语的词缺乏形态变化和不同语言单位(语素、词、短语、句子乃至篇章)之* 本文相关研究得到中国国家973课题(2004CB318102)和国家自然科学基金项目(60503071)的支持间的界限不清仍是对文本自动处理影响最大的部分。
汉语自动分析即使不比其他语言更难,至少也不会更容易。
汉语信息处理尤其需要建设好语言知识库这样的基础设施。
汉语语言资源建设之理论基础基于复杂特征集与合一算法的计算语言学理论自20世纪80年代以来,像词汇功能语法(Lexical Functional Grammar,LFG)这类的计算语言学理论曾极大地推动了自然语言处理技术的发展。
这类语法的特点是:以复杂特征集表示知识,以合一运算利用知识。
复杂特征集的一般形式如下:[f i :v i ],其中f i是特征,v i是特征值特征是词的词法、句法或语义属性。
复杂特征集的特点是其特征值可以作为另一个复杂特征集,形成嵌套结构。
合一运算可以简单地理解为满足约束条件的复杂特征集的求并。
以“分类+特征描述”的方式详细描述词语的知识是这类语法理论的基础。
在这类语法理论的启示下,像机器翻译这一类自然语言处理系统有了重要的发展,系统中的语言规则逐渐趋于简化,而词汇知识却越来越精细[2]。
基于短语和小句的汉语语言学知识描述体系在对国际上计算语言学和自然语言处理技术的发展脉络和趋势有所了解之后,北京大学计算语言学研究所(以下简称北大计算语言所)发挥后发优势,建立了可以实现知识共享的富含词汇、句法和语义知识的电子词典,并在实践的基础上逐步形成综合型语言知识库,以及开展有利于汉语信息处理研究全局发展的基础性工作。
从1986年起,笔者和北大计算语言所中志同道合的师生们开始了建设语言知识库的长途跋涉。
幸运的是,在20世纪80年代,汉语的词组本位语法体系走向成熟,《语法讲义》和《语法答问》相继问世[3,4]。
词组本位语法体系将短语作为研究汉语语法研究的重心,这与最便于在自然语言处理系统中应用的上下文无关语法不谋而合。
词组本位语法体系全面描述了汉语句法结构的类型、构成及其约束条件,这与词汇功能语法等新型的计算语言学理论中,以“分类+特征描述”的方式描述词语知识的架构殊途同归。
笔者有幸一开始便与朱德熙、陆俭明等语言学大家一起工作。
为便于语言学家充分发挥作用,笔者采用了人机两便的语言知识表达形式:关系数据库的二维表。
关于汉语词语分类的研究与争论已经持续了100多年。
笔者认为词组本位语法体系中基于语法功能分布(特别是优势分布)进行词类划分的理论以及据此建立的词类体系,基本适合汉语自动分析的需要,因此继承了汉语本体研究的成果,把工作重心放在以下两方面:(1)完成数以万计的词语的归类;(2)分类描述每一个词语的详尽的语法属性,即每个词语在句法结构中承担句法成分的能力以及与其图1 《现代汉语语法信息词典》(第2版)他词类或具体词语组合的能力。
这两件事都是语言学家着力论述但限于条件不可能对大规模词语加以实施的。
积20余年之努力,北大计算语言所研制的第一个语言知识库—《现代汉语语法信息词典》(简记为GKB)[5]做了以上两方面工作。
《现代汉语语法信息词典》的每个数据库都以“词语”+“词类”+“同形”(用以区分属于同一类的汉字相同但读音不同或词义不同的词)作为主关键词。
《现代汉语语法信息词典》按总库、各类词库、动词和代词下属的分库把描述词语属性的34个数据库文件分成3个层次,各个库可以通过主关键词链接。
这样的数据结构不仅便于语言学家工作,也容易转换为复杂特征集的形式,而且可以减少系统的冗余量。
实践证明,词组本位语法体系有效地指导了《现代汉语语法信息词典》及相关语言工程的实践。
不过,与其它理论一样,并不能期望词组本位语法体系可以解决汉语自动分析的所有问题。
笔者在编制“汉语短语结构规则库”(简记为PSB)[6]时,尽管同样遵循词组本位语法体系,却遭遇了如何表述独词句的困惑。
在“汉语短语结构规则库”中,有如下的规则:<ccaap>∷=a /*例:年轻*/,<ccaap>∷= a+<ccaap> /*例:年轻漂亮;年轻漂亮聪明*/,第一行是简单规则,表示由一个终极符(形容词)构成的非终极符;第二行是递归表达的规则,表示由同类终极符串构成的非终极符。
这里对“短语”有个突破:即一个词构成的短语,虽然这不符合短语(词组)的定义。
独词句已经是一个可以普遍接受的概念。
“汉语短语结构规则库”所反映的词组本位语法体系,实际上已经向后来邢福义先生所提出的“小句中枢说”[7]靠近,化解了逻辑上的一个矛盾。
可以认为“汉语短语结构规则库”就是汉语语法结构规则库。
在语言工程的实践中,笔者比较深切地领会了汉语本体研究的真谛,也学会了如何灵活运用。
统计方法对语言学知识的需求自1990年以来,基于统计的自然语言处理技术逐步形成主流。
统计方法离不开语言知识的指导与支撑,因此对于统计信息要有合理的语言学解释。
例如,互信息反映字与字组成词、词与词组成短语的可能性,n元语法反映若干词组成语句的可能性,隐马尔科夫模型反映一种语言序列映射到另一种语言序列的可能性(如词的序列到词性的序列,汉语词的序列到英语词的序列)。
统计方法的物质基础是语料库。
像n元语法一类的统计模型遭遇的瓶颈就是数据稀疏问题。
为了克服数据稀疏的影响,采取的技术措施之一就是将具体的词语加以归类,将基于具体词的n元语法抽象为基于类的n元语法。
在处理诸如词如何归类等问题时,存在不同的处理角度和准则,可以直接利用语言本体研究所取得的相对成熟的成果,比如基于语法功能分布建立的词类体系。
随着互联网(Internet)的迅速扩张,获取大规模的原始语料库不再是困难的任务,数据稀疏现象或许会有所缓解。
不过,基于原始语料的统计方法(或者说无指导的机器学习)能够利用的是文本表层的显性的信息,本质上只是字符串的信息。
语料库所包含的大量有关词语、词性、句法结构和语义的深层知识是隐性表示的。
只有通过逐步加工,将隐性的知识显性化,比如将按句连串的汉语文本切分为按词连串的形式,词汇的信息就显性地表示出来了。
在词上标注词性,词性就显性地表示出来了。
在词上标注义项,词汇语义信息也显性地表示出来了,在语料库上还可以进一步标注句法树结构乃至句法语义关系。
因此,开发大规模的多级加工的语料库是统计自然语言处理技术的物质基础。
而开发这样的语料库同样需要语言知识和统计机器学习方法的协同努力。
现在,规则方法和统计方法的结合已经比较深入了,比如出现了基于句法的统计机器翻译等方法。
语言知识如何同统计方法相结合仍然是需要探索的课题。
哈尔滨工业大学肖镜辉的博士论文《非时齐语言建模技术研究及实践》提供了一个实例。
该文观察到语言元素在文本中出现的位置和范围具有明显的倾向性,对语言元素在文本中的位置信息进行了量化表示(映射到[0,1]上的若干等价区间),并把它有机地融合到n元语法模型(语句中第n个词出现的条件概率不仅依赖于前n-1个词的出现,而且依赖于其自身的位置信息)中[8]。
北大计算语言所的语言资源概况在上述理论认识的指导下,又得到应用系统开发实践的启示,北大计算语言所从20世纪80年代中期起便致力于面向信息处理的语言资源建设。
积20余年之努力,现在已经有了如下一批现代汉语语言知识资源:(1)现代汉语语法信息词典(8万多词语),简称GKB1;(2)现代汉语语义词典(6万词语),简称CSD2;(3)汉语句法结构规则库(600多条规则),简称PSB3;(4)现代汉语大规模基本标注语料库(约6000万汉字),简称STC4;(5)中英文概念词典(10万概念),简称CCD5;(6)双语平行语料库(句子对齐的汉英语料80万句对,汉日2.5万句对),简称BAC6;(7)多个专业领域的术语库(I T7、体育、商务、旅游和餐饮共35万条英汉对照术语),简称MTB。
这些语言资源已得到广泛的应用。
若不考虑成千上万的免费用户,仅计算协议用户就近170家。
这些语言知识资源具有系列性,它们之间有内在的联系和协调的分工,共同组成综合型语言知识库[9]。
GKB是最早开发的,是综合型语言知识库的第一块基石。
它按照语法功能和意义相结合的准则收录了8万余词语。
依照语法功能分布的原则建立了词类体系,完成了这8万词语的归类。
在此基础上,分类描述每个词语的各种语法属性(句法为主,也有词法和语义)。
重点考察每个词语组成更大结构(如短语)的能力及其在句法结构中承担句法成分的功能。
数据库文件中的字段名和值是“特征:值”的转换形式,分级组织的数据库文件可以方便地变换为复杂特征集的形式,以此尽可能地减少词典的冗余。
20世纪80年代中期,从IT角度看,数据库技术是成熟技术,便于应用;从语言学和词典编纂角度看,它是新技术,其二维表格式简单明了,便于语言学家参加工作。