中文信息处理概述.ppt

合集下载

文字信息处理

• B：对象操作功能：版面上操作的对象可分为文字、图形和图像三种，两种软件都提供了丰富的对象操作功能。 • C：彩色版面设计功能：飞腾不仅可以对任何文字和图形指定颜色，还可指定立体字的阴影颜色渐变，指定线的颜色渐变等。 • D：输出及输出设备：PAGEMAKER的输出更开放只要有设备的Windows驱动软件，就可输出，而飞腾则一定要用方正RIP才可输出，电子文件只能使用PS2格式。
三、照像排版
照像排版：运用照像原理，按预定要求，把需要排版的文字通过光学系统准确拍摄到感光材料上，得到文字的底片或照片。亦称“冷排”。 • 优点：无需庞大的字库及拣字装版空间，占地少，劳动强度小，效率高；无铅尘污染；字型变化多。 • 照像排字机（照排机）：由光源、文字盘、照像系统组成。即字库，相当于字模或照像时的原稿 • 照排技术的发展： 19世纪90年代开始使用手动选字自动选字光学式光机结合阴极射线管激光成像
–排版：PageMaker、 InDesign、QuarkXpress、 –图形：FreeHand、CorelDarw
1、计算机排版的发展
• （1）国外：1976年，蒙纳公司推出第一台激光照排机；1986年开始出现桌面出版系统(Aldus公司的Pagemaker1.0、苹果计算机和激光打印机、 Adobe公司的PostScript语言组成)，在86-90期间主要软件和产品有QuarkXpress2.0x、 Pagemaker3.0和ColorStudio. • 此后桌面出版系统和电子分色技术互相渗透,共同发展.彩色桌面系统现在已发展成为包含有图形图案设计、色彩管理、图文混排及特技处理、图像创意等在内的计算机出版系统。 • 计算机排版的发展经历了从模拟到数字，从输入、输出一体式到输入、输出分离式，从封闭系统到开放系统。

《中文信息处理技术》教学大纲

《中文信息处理技术》教学大纲《中文信息处理技术》教学大纲一、课程概述《中文信息处理技术》是一门专门研究中文信息处理的理论、方法与实践的课程。

本课程旨在帮助学生掌握中文信息处理的基本概念和方法，掌握使用中文进行信息处理的核心技术，并能够设计和实现简单的中文信息处理系统。

二、课程目标1、理解中文信息处理的基本概念和方法，包括中文分词、词性标注、命名实体识别、文本分类、信息检索和机器翻译等。

2、熟悉中文信息处理的核心技术，包括自然语言处理、语音识别、机器学习和深度学习等。

3、能够设计和实现简单的中文信息处理系统，包括文本分类、信息检索和机器翻译等系统。

4、培养学生的实践能力和创新精神，鼓励学生积极参与中文信息处理领域的科研和实践活动。

三、课程内容1、中文信息处理的基本概念和方法，包括中文分词、词性标注、命名实体识别、文本分类、信息检索和机器翻译等。

2、自然语言处理技术，包括语音识别、自然语言理解和机器翻译等。

3、机器学习算法，包括决策树、支持向量机、朴素贝叶斯和隐马尔可夫模型等。

4、深度学习技术，包括神经网络、卷积神经网络和循环神经网络等。

5、中文信息处理系统的设计和实现，包括文本分类、信息检索和机器翻译等系统。

四、教学方法1、理论教学：通过课堂讲解和演示，帮助学生掌握中文信息处理的基本概念和方法，熟悉核心技术和算法。

2、实验教学：通过实验和项目实践，帮助学生掌握中文信息处理系统的设计和实现，培养学生的实践能力和创新精神。

3、课外阅读：推荐相关论文和书籍，鼓励学生进行自主学习和研究。

4、小组讨论：组织小组讨论，鼓励学生交流和分享学习心得和研究成果。

五、课程评估1、平时作业：布置平时作业，包括选择题、简答题和编程题等，考察学生的理论和实践能力。

2、期末考试：进行期末考试，包括选择题、简答题、编程题和综合题等，全面考察学生的理论和实践能力。

3、项目实践：要求学生设计和实现一个中文信息处理系统，包括文本分类、信息检索或机器翻译等，评估学生的实践能力和创新精神。

第五章中文信息处理ppt课件

• 《计算语言学》,刘颖,清华大学,20##版
• 中国语言文字网/
中文信息处理
• 中文信息处理分为汉字信息处理与汉语信息处理两部分
• 信息的两个层次：符号层 —— 中文 / 汉语 / 汉字内容层 —— 符号所承载的意义
• 中文信息处理的两个层次：字符处理〔输入、存储、输出等〕内容处理〔词语切分,词性标注,结构分析,意义理解,推理, 翻译……等等〕
• 为了能使汉字能够在计算机中通行,国际标准组织〔ISO〕、国际电子电气工程师协会〔IEEE〕以及各个使用汉字的国家和地区,在计算机技术发展中,都制定了各种各样的汉字编码字符集.
• ISO/IEC 2022定义了七位代码和八位代码的空间及其代码空间扩充的技术.
• 绝大多数计算机系统所采用的字符集,都是以ISO/IEC 2022为基础的. • 一般汉字在计算机内部的表示都是通过扩充编码长度实现的.
词形变化句子生成译词选择
机器翻译全过程
中文信息处理的现状和发展趋势
• 现状符号层的处理成果已经得到广泛应用；中文输入/字库/字处理软件/排版/……
内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索
二、文字信息处理的基本问题
• 文字信息的计算机处理过程 • 要用计算机来处理文字,必须解决如何把文字输入计算机
• 为便于查找,一级汉字按汉语拼音顺序排列；二级汉字一般不易熟记它们的发音,故按部首和笔画排列.另外还包括常用符号、序号、GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等.
汉字编码标准
• 累计使用频度不足0.001%的汉字数量接近1万个.为了满足计算机实际应用的需要,我国在GB 2312-80的基础上扩大收字的范围,制定了"汉字内码规范"GBK,包含了20 902个汉字,又称为扩展的国标码.在 Windows 95/98和其后的Windows 2000中,装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法.

《大学信息技术(第三版)》文字信息处理

4．1．4 练习与实践
❖ 简答题 ❖ （1）同样作为使用最广泛的文字处理软件，
LaTex和Word相比，分别适合哪些领域，各有哪些长处？ ❖ （2）除了利用Word自带的翻译功能外，你还知道哪些为文档添加翻译的方法？ ❖ （3）文档内容发生变化导致目录内容发生变化时，如何更新目录？ ❖ （4）脚注与尾注有和区别？如果撰写论文时添加了新的参考文献，尾注内容如何更新？建立目录如果不利用样式能成功么？
❖11. 艺术字和首字下沉
❖12. 日期和时间
▪ 如果插入日期和时间时选择了“自动更新”选项，日期和时间将以域的形式插入，将插入点移至域所在位置时将显示默认域底纹，此时按键盘的<F9>键可刷新为当前日期和时间。
▪ 通过按快捷键<Alt>+<Shift>+<D>可以快速插入系统当前日期，通过按快捷键 <Alt>+<Shift>+<T>可以快速插入当前系统时间
4．1．2 排版设计技术
❖1．格式刷、样式和模板
▪ （1）格式刷 ▪ （2）样式 ▪ （3）模板
❖2．字符格式
▪ （1）字符格式设置 ▪ （2）特殊字符格式
❖3．段落格式
▪ （1）制表位 ▪ （2）对齐方式 ▪ （3）项目符号和编号 ▪ （4）段落底纹和边框
❖4．页面布局
▪ （1）主题 ▪ （2）页面设置 ▪ （3）节和分栏 ▪ （4）页面背景 ▪ （5）稿纸设置 ▪ （6）英文断字
❖5． Adobe Acrobat Pro
▪ （1）PDF阅读器 ▪ （2）PDF编辑器 ▪ （3）PDF和Word格式的互相转化
❖6． iWork Pages ❖7． Microsoft Office Word

概述语言信息处理自然语言理解PPT43页

用口语语音输入，使计算机“听懂”语音信号，用文字或语音合成输出应答。
用口语对计算机讲话计算机识别语音输入，把语音流变换为文字流然后按书面语理解最后利用语音合成将回答转换成声音输出
对外经贸大学中文学院.对外汉语
语言信息处理的学科定位
交叉学科：语言学、计算机科学、认知科学、
数学、哲学和逻辑学
因此，语言信息处理处于文科、理科和工科的交叉点上，是建立在语言学、数学和计算机科学这三门学科基础上的边缘性学科。
对外经贸大学中文学院.对外汉语
语言信息处理的目标----理解的定义
最终目标：让电脑像人一样理解语言 “目前学界对于‘理解’的理解、有关‘概念’的概念、赋
予‘语义’的语义、界定‘知识’的知识都可能是各不相同甚或互不搭界的。” （张普）
计算机对自然语言的处理一般应经过三个方面：形式化编写算法程序实现
对外经贸大学中文学院.对外汉语
人工智能的分支 AI, Artificial Intelligence
NLU是人工智能的重要内容。自然语言的信息处理是跟计算机的诞生几乎同时开始的一个多学科交叉研究领域。来自计算机科学、语言学、数学等不同学科的研究人员构成了目前这一领域的主要研究力量。随着计算机应用的日益普及，其功能也从主要是数值计算发展到以非数值信息处理为主。
对外经贸大学中文学院.对外汉语
对外经贸大学中文学院.对外汉语
本章内容
语言信息处理的方向语言信息处理的对象语言信息处理的学科定位语言信息处理的目标语言信息的理解处理所需的知识自然语言处理的根本问题语言理解处理系统的评价自然语言处理的研究方法自然语言处理的发展历史自然语言处理系统的总体构成
2009-2010学年 For 对外汉语方向本科生

一、概述 - 中国科学院

中文信息基础资源库平台-- 中文语言资源联盟谢萦中国科学院计算技术研究所（100190）陶建华中国科学院自动化研究所（100190）一、概述中文信息处理是自然语言信息处理的一个重要分支，它集成了计算机科学、语言学、信息学等众多领域，分为汉字信息处理与汉语信息处理两部分。

其研究领域包括：分词、句法分析、语义分析、信息检索、文本校对、机器翻译、语音识别与合成、对话系统等。

在中文信息处理上，从小规模受限语言处理走向大规模真实文本处理，是一个意义深远的里程碑式的转折，语料库方法和统计语言模型已经是当前中文信息处理的主流技术。

基础资源库被认为是目前开展以中文为核心的多语言信息处理技术研究与产品开发的最为重要的基础。

中文信息资源库是以中文信息处理为基础的学科中非常重要的支撑平台，目前资源库得建设受到国内外学术机构的普遍重视。

为推动中文信息处理技术的发展，加快基础资源库的建设和共享工作，中科院计算所和中科院自动化所在863重点项目和973项目支持下，共同发起成立了学术性、公益性、非盈利性的资源共享平台--中文语言资源联盟（ChineseLDC，简称CLDC）。

该平台涵盖中文信息处理多个层面上所需要的语言语音资源，包括词典、各种语音语言语料库、工具等。

在建立和收集语言资源的基础上，形成系列化的标准和规范，推荐给用户。

在建立和收集资源的同时，分发资源，服务于教育、科研、政府研究部门和工业技术开发，为汉语语言信息处理的基础研究和应用开发提供支持。

二、中文信息资源库的特点中文信息资源库是由多个中文语料库组成的，每个中文语料库都保持传统意义上的数据库的功能，但是每一个中文语料库又根据其研究领域的不同、计算方法的不同有着自己特定的数据结构。

这些语料库是面向中文信息处理技术研究和开发的专业语料库，语料库的设计与开发注重专业人士的需求，标准化和个性化的共存，在科学研究中一些语料库渐渐的演变成为标准的数据格式。

在中文语言资源联盟中，所有的语料库都是动态的，其动态性表现在以下几个方面：库容量随着时间的变化不断扩大；每个时间段选取的语料数量也是变化的；语料的抽取是分领域的，通用领域和各专业领域的语料是共存的；语料是根据媒体的流通情况抽取的。

中文信息处理课件

THANK YOU
汇报人：
基于知识图谱的方法：通过构建知识图谱，分析文本中的实体和关系，进行情感分类
中文情感分析技术应用场景
电商评论情感分析：帮助商家了解消费者对产品的评价和满意度
社交媒体情感分析：帮助企业了解消费者对品牌的态度和口碑
客户服务情感分析：帮助企业了解客户对服务的满意度和需求情感机器人：通过情感分析技术，让机器人更好地理解和回应人类的情感需求
义的词组
常见的中文分词方法有基于词典的分词、基于统计的分词和基于深度
学习的分词
中文分词技术在搜索引擎、机器翻译、情感分析等领域有着广泛的应
用
中文分词算法分类
基于词典的分词算法
基于统计的分词算法
基于规则的分词算法
基于深度学习的分词算法
中文分词技术应用场景
搜索引擎：提高搜索结果的准确性和效率自然语言处理：用于文本分析、情感分析、机器翻译等社交媒体：用于文本分析、情感分析、用户画像等电子商务：用于商品推荐、用户行为分析等
05
中文句法分析技术
中文句法分析技术简介
什么是中文句法分析：对中文句子进行结构分析，提取句子中的语法成分和结构关系
句法分析的方法：基于规则的句法分析、基于统计的句法分析、基于深度学习的句法分析
添加标题
添加标题
添加标题
添加标题
句法分析的作用：帮助理解句子的含义，提高自然语言处理系统的性能
句法分析的应用：机器翻译、信息检索、问答系统、情感分析等
中文句法分析算法分类
基于规则的句法分析算法：通过定义规则来识别句子结构基于统计的句法分析算法：通过统计方法学习句子结构基于深度学习的句法分析算法：使用深度学习技术识别句子结构基于语法树的句法分析算法：通过构建语法树来识别句子结构

中文信息处理技术

中文信息处理技术中文信息处理技术是指对中文语言进行处理和分析的技术。

随着互联网的发展，中文信息处理技术越来越受到重视。

在这个数字化的时代，中文信息处理技术已经成为了一个重要的领域。

中文信息处理技术包括自然语言处理、机器翻译、信息检索、语音识别等多个方面。

其中，自然语言处理是最为重要的一个方面，它可以帮助计算机理解人类语言，并进行相应的反应。

自然语言处理主要包括以下几个方面：1. 分词：将一句话或一段文字分成若干个单独的词语，是自然语言处理中最基本的任务之一。

2. 词性标注：对每个分好的词汇进行标注，以便计算机更好地理解这些词汇在句子中所扮演的角色。

3. 句法分析：对句子进行分析和结构化，以便计算机更好地理解句子的意思。

4. 语义分析：对句子进行深入分析，并从中提取出隐含在其中的意义和信息。

5. 文本分类：将大量文本按照其内容分类，并对每类文本进行相应的归纳和总结。

在以上的任务中，机器翻译是自然语言处理中最为复杂的一个任务。

机器翻译需要计算机能够理解源语言和目标语言之间的语义差异，并进行相应的转换。

虽然机器翻译技术已经取得了很大的进展，但是仍然存在很多难题需要解决。

除了自然语言处理外，中文信息处理技术还包括信息检索、文本挖掘、语音识别等多个方面。

信息检索主要是指通过搜索引擎等方式来寻找相关信息；文本挖掘则是指对大量文本进行分析和挖掘，从中提取出有用的信息；而语音识别则是指将人类语音转换成计算机可读的形式。

总之，中文信息处理技术在现代社会中发挥着越来越重要的作用。

它不仅可以帮助人们更好地理解和使用中文，也可以为企业、政府等提供更加高效和便捷的服务。

未来，在人工智能技术不断发展壮大的背景下，中文信息处理技术将会得到更加广泛和深入的应用。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

• 由于汉字的字符多，一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的ASCII 码混淆，在微型机汉字系统中，国标码的每个符号都用两个字节（十六位）代码来表示，并作为转换为机内码或其他汉字处理代码的依据。
2019-8-26
谢谢观赏
16
国标码
• 汉字国标码就是GB 2312-80为汉字规定的代码，也称为交换码。
• 信息处理：中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等
• 中文化：软件的国际化（internationalization）和本土化（localization）。
• 中文编程：目前有两种发展，一种是英文coding直接翻译，以降低开发人员的语言学习成本；一种是根据中文特点，发展出融合中国人思维模式的新的计算机语言。
2019-8-26
谢谢观赏
19
机内码
• 汉字机内码是在计算机内部实际用来表示汉字的代码。不同的计算机系统使用的机内码是不同的。在微型机中，多采用两字节代码作为机内码。在大、中型机中，多采用三字节或四字节代码作机内码。
• 制订机内码必须考虑下列因素：汉字与西文易于区别；中、西文兼容；码长短，每个汉字所占字节数少；与国标码有较简单的对应关系，便于信息转换。
• 区位码与国标码之间有一定的对应关系： • 将区位码的区号和位号分别由十进制转换成对应的十六进
制数，然后加上十六进制数2020H（H表示2020为十六进制数码），就得到对应的国标码。例如，“啊”字的区位码是1601，分别将区号和位号转换成对应的十六进制数得 1001H，再加上2020H就得到“啊”字的国标码为3021H。
2019-8-26
谢谢观赏
11
汉字信息处理的基本问题
• 计算机的键盘原本就是为英文输入设计的，只要按照字母击键，就可以输入英文。键盘的译码电路按照所击的键产生英文字符的ASCII码，输入到计算机的内存中。
• 经过编辑的文本仍然以ASCII码表示。输出时，这些代码必须转换成字符字形的点阵，以便显示或打印。因此，计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。
2019-8-26
谢谢观赏
8
二、文字信息处理的基本问题
• 文字信息的计算机处理过程
– 要用计算机来处理文字，必须解决如何把文字输入计算机并在计算机中存储起来，进行适当处理之后再输出文字等问题。
文字信息的输入文字信息的处理文字信息的输出
2019-8-26
谢谢观赏
9
二、文字信息处理的基本问题
• 文字信息处理的实质，是先把文字信息数字化，即用一个固定的数码代表一个字母或文字。
• 收进该标准的字符共有7 445个。其中一级汉字3 755个，二级汉字3 008个，共计6 763个。一、二级汉字约占近代文献汉字累计使用频度的99.99%。
• 为便于查找，一级汉字按汉语拼音顺序排列；二级汉字一般不易熟记它们的发音，故按部首和笔画排列。另外还包括常用符号、序号、 GB 1988图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。
• 国标码是汉字编码的国家标准。在GB 2312-80代码表中，纵向分为 0~93，共94行；横向也是0~93，共94列。行与列分别用七位二进制码
表示，第一字节表示行，第二字节表示列。其值都从0100001到 1111110。这正是ASCII 码的可打印字符的编码。其范围为十六进制的21~7E。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长，通常用十六进制表示。
• 《中文信息处理技术教程》，朱巧明，清华大学出版社， 2005年版
• 《计算语言学概论》，俞士汶主编，商务印书馆，2003年 9月第1版
• 《计算语言学》，刘颖，清华大学出版社，2002年版
• 中国语言文字网
2019-8-26
谢谢观赏
3
中文信息处理
• 中文信息处理分为汉字信息处理与汉语信息处理两部分
2019-8-26
谢谢观赏
15
汉字编码标准
• 累计使用频度不足0.001%的汉字数量接近1万个。为了满足计算机实际应用的需要，我国在GB 2312-80的基础上扩大收字的范围，制定了 “汉字内码规范”GBK，包含了20 902个汉字，又称为扩展的国标码。在Windows 95/98和其后的Windows 2000中，装入了GBK的全部汉字和符合GBK和GB 2312-80的输入法。
2019-8-26
谢谢观赏
20
机内码
• 目前，多数微机汉字系统的机内码是以国标GB 2312-80 规定的双七位代码为依据，经一定转换后用两个字节表示一个汉字。每个字节的最高位均为１，以此作为汉字的标记，以便于与ASCII码编码的符号相区别。
• 由国标码转换为机内码的规则是：将十六进制的国标码加上8080H，就得到对应的机内码。
2019-8-26
谢谢观赏
21
五、汉字编码字符集
• 按照一组无歧义的规则而定义的汉字字汇的有序集合。其中每一个汉字与它的代码表示之间具有一一对应关系。
• 在信息处理技术中汉字编码字符集用于汉字信息的表示、交换、传输、处理、存储、输入及显示。
• 在国际标准化组织ISO的定义中，“无歧义的规则” 很重要，制定这些规则的目的是为了确保编码的唯一性，避免重码。
2019-8-26
谢谢观赏
22
汉字编码的关系 00 00 GB2312－80
2个扩充的汉字字符集
GB2312
GB12345－90
FF
00
00
GBK－95
GBK-95
2019-8-26
GB18030-2000
• 汉字信息的计算机处理过程与英文信息处理过程是类似的。不过，由于汉字信息的特点，以及要考虑与英文信息处理系统兼容等问题，处理的难度更大。我国经过多年的研究，汉字处理的基本问题已经解决。
2019-8-26
谢谢观赏
12
三、中文信息处理主要研究对象
• 基础研究：汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等
2019-8-26
谢谢赏
14
四、汉字编码标准
• 为了用0、1代码串表示汉字，在汉字系统或通信系统之间交换信息，必须给每个汉字规定一个统一的代码。这就是汉字的交换码。
• 1981年5月，我国国家标准总局颁布《信息交换用汉字编码字符集》 (GB 2312-80)，作为汉字交换码编码的国家标准，简称国家标准汉字编码，或国标码。
• 如“大”字的区位码为2083，国标码为3473H，机内码为 3473H+8080H=B4F3H。将B4F3H 化为二进制数得： 1011010011110011，这就是在计算机中实际使用的机内码的二进制形式。
• 8080H等于二进制的1000000010000000，国标码加上
8080H，可以保证机内码每个字节首位均为１。
• 例如：
• 汉字
第一字节
第二字节十六进制
区位码
•
啊
0110000
0100001
3021
1601
•
保
0110001
0100011
3123
1703
•
播
0110010
0100101
3225
1805
2019-8-26
谢谢观赏
17
区位码
• 国标码还可以表示成区位码的形式。在GB2312-80代码表中，将行号称为区号，列号称为位号，分别有94个区和 94个位。将汉字置于其中，由区号与位号标识出汉字在代码表中的位置。
2019-8-26
需要语言知识！！！
12 译文输出 11 译后编辑
7
内部表示转换
谢谢观赏
10 词形变化 9 句子生成 8 译词选择
机器翻译全过程7
中文信息处理的现状和发展趋势
• 现状符号层的处理成果已经得到广泛应用；中文输入/字库/字处理软件/排版/……
内容层的处理目前在词语识别和词性标注方面已经取得重要进展，句子结构分析和语义分析方面仍有待探索
• 区号与位号都用两位十进制数表示，不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。
• 这样，每个汉字或其他符号都可以用４位十进制数表示。因此，区位码可以用来作为汉字输入的编码。
2019-8-26
谢谢观赏
18
区位码
• 在区位码表中，1~9区为字母、数字、特殊图形符号等； 10~15区是未定义的空区；16~55区为一级汉字区；56~87 区为二级汉字区。例如，“啊”字的区位码是1601，“保” 字的区位码是1703，“播”字的区位码是1805，等等。
谢谢观赏
5
符号层的信息处理
汉字输入
自动输入
键盘输入
字形识别
声音识别
4
手写体识别
5
在线手写
整字键盘
6
脱机手写
7 印刷体识别
2019-8-26
谢谢观赏
主辅式感应式
通用键盘
8
形码 1
音码 2 9
形音结合码
3
6
内容层的信息处理
原文
译文
原文输入 1 译前编辑 2
词法分析 3 句法分析 4 语义分析 5 语境分析 6
第六章中文信息处理
概述
2019-8-26
谢谢观赏
1
一、中文信息处理
• 《计算机科学技术百科全书》(清华大学出版社，1998)