Computational_Linguistics_01计算语言学概论

合集下载

计算语言学

计算语言学
第五代计算机要求人们赋予它听觉(识别口语)和更强的视觉(自动识别文字),赋予它说话能力(合成言 语)和听写能力(语音打字),同时还要求人们赋予它理解自然语言并把某种(或多种)自然语言翻译成另一种 (或多种)自然语言的能力。这样,计算语言学工作者又需要提供各种物理参数、语言概率性等方面的数据和各 种应用软件,以便同有关的专家、工程师一道共同解决为计算机增添“翅膀”这个重大课题,使之真正成为“万 能的智能机器” 。
计算机语言都可以用来控制计算机来解决一些实际问题。这些问题可以是数值计算问题,其操作对象就是一 些由符号构成的符号串;也可以是非数值计算问题如声音、图像处理问题,其操作对象就是声音和图像等。我们 应知道各种计算机语言都不是万能的,每种计算机语言都有自己的特点、优势及运行环境,有自己的应用和操作 对象 。
计算语言学之所以有这样长足的发展,是由于社会的需要。当今世界处于新技术革命时代,一个以电子计算 机为基本工具的现代化语言文字信息处理系统正在世界范围内形成,这标志着高度发展的信息化社会的到来。计 算语言学正是为担当这一历史使命而诞生和发展的 。
基本内容
计算语言学发展到今天,按其工作性质和复杂程度,可以归结为以下3个方面:
成果
计算语言学可以说是计算机和语言学相结合的产物。这种结合已经得到丰硕的成果,除了上面说到的那些应 用课题以外,还表现在对语言学理论和方法的影响上。语言的定义扩展了:语言已不仅是人类重要的交际工具, 而且也是人机之间的交际工具。为了满足计算机加工的要求,计算语言学最大的特点就是要求语言的形式化,因 为只有形式化,才能算法化、自动化。根据这项要求,制定出一系列面向语言信息处理的自动分析方法,其中包 括预示分析法、从属分析法、中介成分体系、优选语义学、扩充转移络、概念从属论等等。这些自动分析方法, 已在机器翻译和自然语言理解的系统中得到应用,并证明有效。语言的形式化是分层进行的。语法的形式化相对 来说比较简单,人们已做了不少工作;语义的形式化则是一个复杂的问题,人们进行的工作还不多。而语义形式 化问题解决得好坏,将大大影响语言自动加工的成效。因此,继续发掘行之有效的形式结构分析方法和语义分析 方法,研究它们之间的关系,以及探讨它们在不同系统中各自使用的限度,这是计算语言学中的重点研究课题 。

计算语言学1part1

计算语言学1part1

1.2. Applications of CL
information retrieval, extraction, filtering, classification and summarization, Search engine, digital library, ecommerce etc. query: keywords * English: bank * Chinese word segmentation: 和服 | 务 | 于三日后裁制完毕。 (kimono must) 这个酒店的设施 | 和 | 服务 | 是一流的。 (and service) * unknown word processing: 高海燕 (storm petrel)
第一章 引言 (Part 1)
1.1. What is Computational Linguistics
Object: natural language 6000种(3000-10000种不等) The role of language: * the most natural means of communication between humans
top ten candidates: similarity measures given by OCR: 我 钱 线 载 哦 栽 哉 裁 劣 绥 397 682 700 722 774 781 787 815 838 851 优 仍 们 仿 伦 奶 砧 犯 扔 妨 868 878 929 947 953 964 979 984 1009 1010 要 耍 密 穷 安 壁 驻 努 窑 垂 627 650 730 747 749 802 808 818 836 838 扳 报 叔 嵌 奴 振 技 寂 叙 蔽 663 709 743 746 755 772 799 815 822 824 奋 夯 杏 蚕 香 脊 秀 吞 吝 番 192 381 393 436 438 471 507 534 543 544 精 猜 指 洁 括 治 捐 活 冶 桔 756 787 791 799 824 826 836 875 885 886 种 神 衬 祥 科 钟 拌 样 拎 补 463 548 555 575 636 663 671 681 689 694

《计算语言学概论》PPT课件

《计算语言学概论》PPT课件
15
4.2 詞ê判別-11
其它ê問題(辭典無收ê詞)
定量詞 eg 三張紙、二十五個人、…
定量詞若無處理,會影響台語變調結果
複合詞問題 eg 國中小、上下班、… Prefix/Suffix eg 正確性、相關性、… 重thah詞 eg 歡歡喜喜、輕輕鬆鬆、… 人名、地名 eg 陳水扁、舞鶴、… 組織名、商品名 eg 台大資訊系、可口可樂、… 新名詞、簡省詞 eg E世代、A菜、資工、… 術語(Term)
(語詞)
3. A=[aij]nn , aij = P(qt+1=j | qt=i), 1≦ i ,j ≦N (目前詞
類是i ê情形下,下一個詞類是 j ê機率)
4. B={ bj(k) }, bj(k) = P(vk|j), 1 ≦k ≦M, 1 ≦j ≦N
5. π是開始狀態ê機率分佈
23
4.3 詞性標注-8
實作上
Beh按怎真緊ka詞chhe出來? 斷詞beh按怎做disambiguity? 詞類beh按怎做disambiguity?
5
4.2 詞ê判別
英文ê詞 (Tokenization)
White Space / 標點 隔開 有ê詞用標點隔開 eg “I’ll” “can’t” 有ê縮寫詞有句點 eg “U.S” 有ê詞有非字母 eg “AT&T” “Micro$oft” 數字 eg “123,456.789” “23.5%” “2005/12/21”
n個詞類,O(nm)
28
4.3 詞性標注-13
Viterbi : 利用動態規劃 ê觀念
假設每一個詞lóng有n個詞類標記,wm kàu wm+1 êj-th標記,有n個可能ê路徑,假設機 率siong kôan ê是 ti tj這個路徑

语言学 Chapter 10 Computational Linguistics

语言学 Chapter 10 Computational Linguistics

The planning of a corpus
Before the texts to be included in a corpus are collected, annotated, and analyzed, it is important to plan the construction of the corpus carefully: what size it will be, what types of texts will be included in it, and what population will be sampled to supply the texts that will comprise the corpus. Ultimately, decisions concerning the composition of a corpus will be determined by the planned uses of the corpus.
/
BNC
In planning the collection of texts for the BNC, a number of decisions were made beforehand:
1. Even though the corpus would contain both speech and writing, more writing would be collected than speech.
Corpus Linguistics
Corpus linguistics is an approach to investigating language structure and use through the analysis of large databases of real language examples stored on computer. In linguistics, a text corpus is a large and structured set of texts usually electronically stored and processed.

12 第十二讲 计算语言学

12 第十二讲  计算语言学

• 它是用计算机来研究和处理自然语言 的一门新兴边缘学科,涉及语言学、 计算机科学、数学、心理学等多个领 域。
• 通过建立形式化的数学模型,来分析、 处理自然语言,并在计算机上用程序 来实现分析和处理的过程,从而实现 以机器来模拟人的部分乃至全部语言 能力。 • 以“自然语言”为主的计算语言学可 以看作是“人工智能”的一个分支。
• 首先,计算语言学不是研究“计算机 语言”的学问,而是面向计算机的自 然语言处理,所以研究的是自然语言。 • 语言 :人工语言、自然语言
• “计算机语言”是一种人工语言,也 是一种机器语言,用于人和机器交换 信息。比如Basic语言、C语言等等,都 是人们专门设计出来用于计算机进行 信息处理的机器语言。
2015-05-25
一、什么是计算语言学 二、计算语言学的发展历史 三、我国计算语言学发展历程 四、计算语言学的研究特点
一、什么是计算语言学
• 计算语言学(Computational Linguistics),也 称自然语言处理(Natural Language Processing by Computer,NLP)或自然语言理解(Natural Language Understanding by Computer,NLU), 有时也叫计量语言学(Quantitative Linguistics)、数理语言学(Mathematical Linguistics)、人类语言技术(Human Language Technology,HLT)等。
• 一个好的机器翻译系统应该把原语的语义 准确无误地在译语中表现出来。这样,语 义分析在机器翻译中越来越受到重视。 • 随着计算语言学研究水平的提高,机器翻 译的研究走向了实用化,出现了一大批实 用化的机器翻译系统。

计算语言学概论

计算语言学概论

詞義的排歧

詞法分析研究的意義與目的

機器翻譯︰簡繁轉換

后面 後面 , 皇后 皇後 松绑 鬆綁 , 松树 鬆樹 開發 土地開發 (開發票) 便衣 便衣警察 (簡便衣物)

訊息檢索︰搜尋引擎


文本處理︰拼寫校對


繁體子 繁體字 于涉 干涉 倒垃圾跌倒

兼類現象

Time flies like an arrow.
n-v v-n q p-v det n

這 篇 報導 編輯 一
v-n v-n

q-p-v-n r
m-c f-q-v
詞性的標注 – 兼類現象
兼類數量 5 4 3 3 20 126 詞數 百分比 0.01% 0.04% 0.23% 例子 和 c-n-p-q-v 光 a-d-n-v 畫 n-q-v

語音處理︰電腦發音、重音復原

詞法分析研究的意義與目的

詞法分析的過程
1.分詞 : 將句子中的單詞切割出來 2.詞性標注 : 決定每個詞的詞性 3.詞義排岐 : 決定每個詞的意義
文章
句子
分詞
詞串
詞性標注
詞串
詞義排歧
資料庫
漢語的分詞方式

從句子轉換到詞串,會因為切割方式的不同,而有不同的意義

學生會長是誰

學生會 / 長 / 是 / 誰 學生 / 會長 / 是 / 誰 學生 / 會 / 長 / 是 / 誰分詞的基本方法

最大匹配法(Maximum Match based approach) 機率分詞法(Probability approach to Word Segmentation)

计算语言学概论——应用语言学系列教材

计算语言学概论——应用语言学系列教材

本书简介 本教材从“基础”“算法”和“应用”三个方面,较为系统地介绍计算语言学的基础理论、相关的自然语言处理技术和应用。

基础部分(包括一、二、三章)主要讲述计算语言学的数学和语言学基本概念,计算语言学和自然语言处理技术的关系,自然语言处理的基本流程等内容。

此外,作为计算语言学的重要分支之一,语料库语言学得到了较大发展,有关语料库语言学的基础概念、基本理论、近年来的一些发展概况在第三章中加以介绍。

介绍这部分内容的目的,是让读者在不涉及技术细节的情况下,对计算语言学有一个初步的,同时也是较为全面的理解和掌握。

算法部分(包括第四、五章)主要介绍计算语言学的常用技术和算法。

从处理对象来讲,主要包括词法层面的分析技术、句法层面的分析技术和语义层面的处理技术;从处理方法来讲,既有传统的规则方法,也有基于语料库的统计方法的介绍。

这部分内容的主旨是希望通过本章学习后,使学生能对计算语言学的领域中的一些主流技术(比如隐马尔可夫模型在词性标注中的应用,GLR算法,部分分析技术等)有一个概要的认识,并能运用这些技术进行计算语言学相关的工作实践。

应用部分(包括第六、七章)主要讲授自然语言处理应用系统。

需要说明的是,基于语言信息处理技术的应用系统很多,本教材只是重点介绍一些常见的系统,介绍这些系统的工作机理、发展、取得的成绩,也客观介绍这些系统存在的问题和困难。

主要包括机器翻译系统,信息检索系统、信息提取系统,文本分类系统等。

目录第一章 绪论:什么是计算语言学 第一节 计算语言学的研究对象 第二节 计算语言学的研究方法 第三节 计算语言学的实际应用 第四节 小结第二章 语言知识的形式化表达 第一节 语言与语言知识 第二节 形式化表达手段 第三节 语法知识的形式化表述理论体系 第四节 语义知识的形式化表述理论体系 第五节 语篇知识的形式化表述理论体系 第六节 小结第三章 语料库:语言知识的另一种表示形式 第一节 语料库研究概况 第二节 语料的收集与加工 第三节 语料库的应用 第四节 小结第四章 词法分析 第一节 概述 第二节 “词”的识别 第三节 词性标注 第四节 词义标注 第五节 小结第五章 句法分析 第一节 句法分析导引 第二节 广义LR分析算法 第三节 基于线图的分析技术 第四节 其他句法分析技术 第五节 小结第六章 机器翻译 第一节 机器翻译概述 第二节 基于规则的机器翻译 第三节 基于语料库的机器翻译以及混合式机器翻译 第四节 机器翻译的困难、对策和评价 第五节 小结第七章 面向文本的智能信息处理 第一节 信息检索 第二节 信息提取 第三节 文本自动分类 第四节 小结术语表后记下载后 点击此处查看更多内容。

2024版计算语言学

2024版计算语言学
基于神经网络的翻译
通过深度学习技术,构建大规模的神经网络模型进行翻译。这种方法 可以自动学习语言的复杂特征,并实现更加准确的翻译。
机器翻译的方法
基于短语的翻译
将源语言句子划分为短语,并分别对每个短语进行翻译,最后将这些短语的翻译结果组合起 来得到目标语言句子。
基于句子的翻译
将源语言句子整体作为一个单位进行翻译,这种方法需要考虑句子的语法和语义结构,因此 难度较大。
自适应技术 针对不同说话人、不同环境和不同设备进行自适应,以提 高识别性能。
端到端技术 将语音识别视为一个序列到序列的问题,通过端到端模型 (如Transformer、LSTM等)直接对语音信号进行建模, 简化识别流程。
语音合成的原理与技术
语音合成原理
波形拼接合成
参数合成
端到端合成
基于语音产生的机理,通过对 语音信号进行分析和建模,生 成可懂的、自然的语音。
多模态语言处理的深度融合 未来计算语言学将更加注重多模态语言处理的深 度融合,实现文本、语音、图像等多种信息的联 合处理和应用。
语言智能的进一步提升 随着计算语言学技术的不断发展,语言智能将得 以进一步提升,实现更加自然、高效的人机交互 和智能应用。
THANKS
感谢观看
信息抽取与问答系统
研究如何从大量文本中抽取出有 用的信息,并构建能够回答用户
问题的智能系统。
02
CATALOGUE
基础知识
语言学基础知识
词汇学
研究词汇的起源、 发展、变化和结构 的学科。
语义学
研究语言符研究语音、音位、 音变等语言现象的 学科。
句法学
研究句子中词语的 排列和组合规律的 学科。
06
CATALOGUE
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

名称
授课时间授课地点助教
平时成绩期末笔试
计算语言学是一门交叉学科。

计算语言
语言障碍
终极目标当前目标
建立形式化的适于计算机处理的语言模研制分析、生成以及处理语言的各种算
规则方法举例
计算语言学的研究方法
用上述规则分析句子“the boy saw the girl with a telescope”
All grammar leak (Sapir 1921)
一般而言,很多基于规则的系统不能满
融合规则驱动和数据驱动的方法
著名的例子
联机机器翻译网站
联机
信息检索系统Google
文本数据结构化
文本分类(自动判别文本的类别)音字转换(汉字整句输入法)
拼写检查和自动勘校系统。

相关文档
最新文档