《计算语言学》简评

合集下载

计算语言学

计算语言学
第五代计算机要求人们赋予它听觉(识别口语)和更强的视觉(自动识别文字),赋予它说话能力(合成言 语)和听写能力(语音打字),同时还要求人们赋予它理解自然语言并把某种(或多种)自然语言翻译成另一种 (或多种)自然语言的能力。这样,计算语言学工作者又需要提供各种物理参数、语言概率性等方面的数据和各 种应用软件,以便同有关的专家、工程师一道共同解决为计算机增添“翅膀”这个重大课题,使之真正成为“万 能的智能机器” 。
计算机语言都可以用来控制计算机来解决一些实际问题。这些问题可以是数值计算问题,其操作对象就是一 些由符号构成的符号串;也可以是非数值计算问题如声音、图像处理问题,其操作对象就是声音和图像等。我们 应知道各种计算机语言都不是万能的,每种计算机语言都有自己的特点、优势及运行环境,有自己的应用和操作 对象 。
计算语言学之所以有这样长足的发展,是由于社会的需要。当今世界处于新技术革命时代,一个以电子计算 机为基本工具的现代化语言文字信息处理系统正在世界范围内形成,这标志着高度发展的信息化社会的到来。计 算语言学正是为担当这一历史使命而诞生和发展的 。
基本内容
计算语言学发展到今天,按其工作性质和复杂程度,可以归结为以下3个方面:
成果
计算语言学可以说是计算机和语言学相结合的产物。这种结合已经得到丰硕的成果,除了上面说到的那些应 用课题以外,还表现在对语言学理论和方法的影响上。语言的定义扩展了:语言已不仅是人类重要的交际工具, 而且也是人机之间的交际工具。为了满足计算机加工的要求,计算语言学最大的特点就是要求语言的形式化,因 为只有形式化,才能算法化、自动化。根据这项要求,制定出一系列面向语言信息处理的自动分析方法,其中包 括预示分析法、从属分析法、中介成分体系、优选语义学、扩充转移络、概念从属论等等。这些自动分析方法, 已在机器翻译和自然语言理解的系统中得到应用,并证明有效。语言的形式化是分层进行的。语法的形式化相对 来说比较简单,人们已做了不少工作;语义的形式化则是一个复杂的问题,人们进行的工作还不多。而语义形式 化问题解决得好坏,将大大影响语言自动加工的成效。因此,继续发掘行之有效的形式结构分析方法和语义分析 方法,研究它们之间的关系,以及探讨它们在不同系统中各自使用的限度,这是计算语言学中的重点研究课题 。

计算语言学,隐藏在北语的一座金矿

计算语言学,隐藏在北语的一座金矿

计算语言学,隐藏在北语的一座金矿地处“宇宙中心”北京五道口,与清华相邻不远,人称“小联合国”的北京语言大学有两个王牌专业。

一个是名满天下的汉语国际教育(俗称对外汉语教学),还有一个专业知道的人不多,因为它是北语这所文科为主的学校里唯一一个理工专业,该专业学术大拿云集,某些研究领域甚至位列世界前列,它就是隐藏在北语的一座金矿——语言智能与技术(俗称计算语言学)。

计算语言学到底研究啥北语的计算语言学开设于全校唯一理工科学院信息科学学院(简称信科)。

北语信科的历史有三十二年了,前身是计算机科学与技术系,成立于2000年,再之前,是1987年成立的中国第一个以汉语信息处理为主要研究方向的“语言信息处理研究所”。

2014年,北语进行了大部制改革,信科在原有的语言信息处理研究所基础上,成立了另外三个研究所,分别是:大数据与语言教学研究所、语言监测与社会计算研究所(国家语言监测与研究平面媒体中心)和管理科学与工程研究所。

几个研究所基本上都与计算语言学学科直接相关,分别对语言的教学、研究和应用开展深入的研究。

信科的主要任务是培养外语水平出色,具有信息处理基本素养的通用人才,在信息領域开展一些前沿性的研究。

计算语言学就是利用计算机对语言进行计算处理,比如要提出某个语言现象,若没有语言数据的支持,就不能成为一个语言规律。

而发现规律一般有两种方法:一种基于规则,如语法专家经过研究,发现语言规律;另一种基于统计,根据大规模数据提炼规则。

后一种就是计算语言学主要做的事。

在这门融合了计算机科学、语言学和数学的计算语言学中,计算机科学是研究工具,语言学是处理对象,数学是建模工具,此外还会用到物理学等知识。

计算语言学,是从字、词、句、篇章、语音等各个维度去研究语言,比如让计算机自动评判一个留学生写汉字写得对不对、好不好,这项技术的核心是数学曲线在二维平面的变换;再比如研究日本人说汉语,计算机可以判断他们说得对不对、准不准,这项技术就利用了物理学中的声学理论,通过发音的波形进行判断。

Chapter_01_pdf_format

Chapter_01_pdf_format

第一章绪论:什么是计算语言学詹卫东/doubtfire/提纲引子计算语言学的研究内容 计算语言学的研究方式 计算语言学的应用领域 计算语言学的发展简史0 引子我们可以期待,总有一天机器会同人在所有的智能领域里竞争起来。

但是,如何开始呢?这是一个很难决定的问题。

许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,还有一种办法也应加以考虑,就是为机器配备具有智能的、可用钱买到的意识器官,然后,教这种机器理解并且说英语。

这个过程可以仿效通常小孩子学话的方式进行。

我不能确定到底哪个出发点更好,但应该都值得一试。

——A. M. Turing, Computing Machinery and Intelligence,Mind Vol.59, 1950.阿兰. 图灵(英国数学家)《计算装置与智能》交谈甲:听说吴妈打赢了阿Q。

乙:不错,阿Q确实被吴妈打败了。

甲:这个结果有些出人意料。

乙:阿Q是大意失荆州,怪不得别人。

图灵测试(Turing Test)一个封闭的小屋里面有两间房A B,其中一间房中是人,一间是机器屋外有一个人HH向A,B房内的实体提出各种问题H根据来自A,B的回答判断A,B中谁是计算机,谁是人如果H无法判断,则证明计算机具有人的智能Eliza问答系统(by Joseph Weizenbaum, MIT, early 1960s)Young woman: Men are all alike.Eliza: In what way?Young woman: They're always bugging us about something specific or other. Eliza: Can you think of a specific example?Young woman: Well, my boyfriend made me come here.Eliza: Your boyfriend made you come here?Young woman: He says I'm depressed much of the time.Eliza: I am sorry to hear you are depressed.Young woman: It's true. I'm unhappy.Eliza: Do you think coming here will help you not to be unhappy?Young woman: I need some help, that much seems certain.Eliza: What would it mean to you if you got some help?Young woman: Perhaps I could learn to get along with my mother.Eliza:Tell me more about your family.Young woman:My mother takes care of me.Eliza:Who else in your family takes care of you?Young woman:My father.Eliza:Your father.Young woman:You are like my father in some ways.Eliza:What resemblance do you see?关于语言,可以问些什么?(1)人用来交际的“语言”具有什么样的性质?这些性质又是如何影响交际过程的?(2)人用来交际的“语言”跟机器可以“理解”的语言有什么样的关系?(3)人是如何运用“语言”进行交际的?(4)人运用语言进行交际的过程是否可以描述为一个机械的过程?(5)什么叫做“理解”一种语言?……定义计算语言学(Computational Linguistics)指的是这样一门学科,它通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的部分乃至全部语言能力的目的。

12 第十二讲 计算语言学

12 第十二讲  计算语言学

• 它是用计算机来研究和处理自然语言 的一门新兴边缘学科,涉及语言学、 计算机科学、数学、心理学等多个领 域。
• 通过建立形式化的数学模型,来分析、 处理自然语言,并在计算机上用程序 来实现分析和处理的过程,从而实现 以机器来模拟人的部分乃至全部语言 能力。 • 以“自然语言”为主的计算语言学可 以看作是“人工智能”的一个分支。
• 首先,计算语言学不是研究“计算机 语言”的学问,而是面向计算机的自 然语言处理,所以研究的是自然语言。 • 语言 :人工语言、自然语言
• “计算机语言”是一种人工语言,也 是一种机器语言,用于人和机器交换 信息。比如Basic语言、C语言等等,都 是人们专门设计出来用于计算机进行 信息处理的机器语言。
2015-05-25
一、什么是计算语言学 二、计算语言学的发展历史 三、我国计算语言学发展历程 四、计算语言学的研究特点
一、什么是计算语言学
• 计算语言学(Computational Linguistics),也 称自然语言处理(Natural Language Processing by Computer,NLP)或自然语言理解(Natural Language Understanding by Computer,NLU), 有时也叫计量语言学(Quantitative Linguistics)、数理语言学(Mathematical Linguistics)、人类语言技术(Human Language Technology,HLT)等。
• 一个好的机器翻译系统应该把原语的语义 准确无误地在译语中表现出来。这样,语 义分析在机器翻译中越来越受到重视。 • 随着计算语言学研究水平的提高,机器翻 译的研究走向了实用化,出现了一大批实 用化的机器翻译系统。

2024版计算语言学

2024版计算语言学
基于神经网络的翻译
通过深度学习技术,构建大规模的神经网络模型进行翻译。这种方法 可以自动学习语言的复杂特征,并实现更加准确的翻译。
机器翻译的方法
基于短语的翻译
将源语言句子划分为短语,并分别对每个短语进行翻译,最后将这些短语的翻译结果组合起 来得到目标语言句子。
基于句子的翻译
将源语言句子整体作为一个单位进行翻译,这种方法需要考虑句子的语法和语义结构,因此 难度较大。
自适应技术 针对不同说话人、不同环境和不同设备进行自适应,以提 高识别性能。
端到端技术 将语音识别视为一个序列到序列的问题,通过端到端模型 (如Transformer、LSTM等)直接对语音信号进行建模, 简化识别流程。
语音合成的原理与技术
语音合成原理
波形拼接合成
参数合成
端到端合成
基于语音产生的机理,通过对 语音信号进行分析和建模,生 成可懂的、自然的语音。
多模态语言处理的深度融合 未来计算语言学将更加注重多模态语言处理的深 度融合,实现文本、语音、图像等多种信息的联 合处理和应用。
语言智能的进一步提升 随着计算语言学技术的不断发展,语言智能将得 以进一步提升,实现更加自然、高效的人机交互 和智能应用。
THANKS
感谢观看
信息抽取与问答系统
研究如何从大量文本中抽取出有 用的信息,并构建能够回答用户
问题的智能系统。
02
CATALOGUE
基础知识
语言学基础知识
词汇学
研究词汇的起源、 发展、变化和结构 的学科。
语义学
研究语言符研究语音、音位、 音变等语言现象的 学科。
句法学
研究句子中词语的 排列和组合规律的 学科。
06
CATALOGUE

牛津计算语言学手册1导读

牛津计算语言学手册1导读

《牛津计算语言学手册》1导读冯志伟一、 计算语言学的发展历史与现状计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科,在这门学科的发展过程中,曾经在计算机科学、电子工程、语言学、心理学、认知科学等不同的领域分别进行过研究。

之所以出现这种情况,是由于计算语言学包括了一系列性质不同而又彼此交叉的学科。

这里,我们简要介绍计算语言学的萌芽期、发展期、繁荣期,并分析计算语言学当前的一些特点。

计算语言学的萌芽期从20世纪40年代到50年代末这个时期是计算语言学的萌芽期。

在“计算语言学’这个术语出现之前,关于语言与计算的研究早就开始了。

有四项基础性的研究特别值得注意:-- 一项是关于马尔可夫模型的研究,-- 一项是关于可计算性理论和图灵机模型的研究,-- 一项是关于概率和信息论模型的研究,-- 一项是关于形式语言理论的研究。

早在1913年,俄罗斯著名数学家A. Markov(马尔可夫)就注意到俄罗斯诗人普希金的叙事长诗《欧根·奥涅金》(Ougene Onegin)中语言符号出现概率之间的相互影响,他试图以语言符号的出现概率为实例,来研究随机过程的数学理论,提出了马尔可夫链(Markov Chain)的思想,他的这个开创性的成果用法文发表在俄罗斯皇家科学院的通报上2。

后来A. Markov的这一思想发展成为在计算语言学中广为使用的马尔可夫模型(Markov model),是当代计算语言学最重要的理论支柱之一。

在计算机出现以前,英国数学家A. M. Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。

1936年,Turing向伦敦权威的数学杂志投了一篇论文,题为《论可计算数及其在判定问题中的应用》。

在这篇开创性的论文中,Turing给“可计算性”下了一个严格的数学定义,并提出著名的“图灵机”(Turing Machine)的数学模型。

“图灵机”不是一种具体的机器,而是一种抽象的数学模型,使用这样的数学模型可以制造一种十分简单但运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。

计算语言学及其近义术语详解

计算语言学及其近义术语详解

一、计算语言学的起源及其发展从世界上第一台电子计算机诞生至今,计算机的功能已经远远超出了最初的数值计算范围,进入到了更广泛的非数值领域,例如语言处理领域。

而在计算机出现之前,对语言的研究大都是由语言学家来完成的。

利用计算机这一现代计算工具来研究语言,仿佛给计算机赋予了更多的智能化色彩,而“计算语言学”(Computational Linguis-tics,CL)这一语言学和计算机科学的交叉学科此时则应运而生。

当然,在计算语言学的研究过程中,还涉及到数学、认知科学、逻辑学、心理学等许多其他学科。

实际上,“计算语言学”这一术语是伴随着“机器翻译”这一应用而出现的。

传说中,上帝为阻止人类建造通天塔的壮举,故意让不同种族的人讲不同的语言,使人类不能自由交流,无法齐心协力。

为了跨越语言的障碍,远在古希腊时代,就有人提出要用机器来代替人进行不同语言之间的翻译。

1933年,前苏联发明家特罗扬斯基设计了一种用于翻译的机器,但是并没有成功。

事实上,真正的机器翻译研究是在计算机发明之后开始的,1954年,美国Georgetown大学与IBM公司合作开发了世界上第一个机器翻译的原型系统,当时的目的主要是将其用于美俄之间军事情报的翻译工作,该系统首次通过机器将俄语翻译为英文并取得了初步的成功。

这项工作使学者们备受鼓舞,也吸引了政府大量资金的注入,计算语言学的研究也开始了其萌芽时期。

初期的机器翻译系统大都是以词典驱动,直接采用词对词的模式匹配的翻译方式,由于不同的语言之间词法、句法都存在很大差异,显然,这样的翻译结果不会令人满意。

1966年,ALPAC报告中指出,机器翻译的研究在当时的条件下并不具备很好的前景,不宜给予大力支持。

另外,后来有学者认为,虽然“计算语言学”一词之前早已出现,但作为术语第一次正式提出“计算语言学”及其近义术语详解*◇邵艳秋(北京大学)摘要:本文介绍了计算语言学的起源及其发展历史,对该领域的一些相近术语概念及其各概念之间的关系进行了详细的解释,包括计算语言学、自然语言处理、自然语言理解、人类语言技术、语言信息处理、中文信息处理等等。

[转]国外重要语言学类期刊目录

[转]国外重要语言学类期刊目录

[转]国外重要语⾔学类期刊⽬录1、ACTA LINGUISTICA HUNGARICA 《匈⽛利科学院语⾔学学报》匈⽛利QuarterlyISSN: 1216-8076AKADEMIAI KIADO, PRIELLE K U 19, BUDAPEST, HUNGARY, H-11172、AMERICAN JOURNAL OF SPEECH-LANGUAGE PATHOLOGY 《美国⾔语病理学杂志》美国QuarterlyISSN: 1058-0360AMER SPEECH-LANGUAGE-HEARING ASSOC, 10801 ROCKVILLE PIKE, ROCKVILLE, USA, MD, 20852-32793、AMERICAN SPEECH 《美国语⾔》美国QuarterlyISSN: 0003-1283DUKE UNIV PRESS, 905 W MAIN ST, STE 18-B, DURHAM, USA, NC, 277014、APPLIED LINGUISTICS 《应⽤语⾔学》英国QuarterlyISSN: 0142-6001OXFORD UNIV PRESS, GREAT CLARENDON ST, OXFORD, ENGLAND, OX2 6DP5、APPLIED PSYCHOLINGUISTICS 《实⽤⼼理语⾔学》美国QuarterlyISSN: 0142-7164CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-24736、BILINGUALISM-LANGUAGE AND COGNITION 《双语:语⾔与认知》美国Tri-annualISSN: 1366-7289CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-24737、BRAIN AND LANGUAGE 《⼤脑与语⾔》美国MonthlyISSN: 0093-934XACADEMIC PRESS INC ELSEVIER SCIENCE, 525 B ST, STE 1900, SAN DIEGO, USA, CA, 92101-44958、CANADIAN MODERN LANGUAGE REVIEW-REVUE CANADIENNE DES LANGUES VIVANTES 《加拿⼤现代语⾔评论》加拿⼤QuarterlyISSN: 0008-4506CANADIAN MODERN LANGUAGE REV, UNIV TORONTO PRESS, JOURNALS DIVISION, 5201 DUFFERIN ST,, N YORK, CANADA, ONTARIO, M3H 5T9、CLINICAL LINGUISTICS & PHONETICS 《临床语⾔学与语⾳学》英国BimonthlyISSN: 0269-9206TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXON, OX14 4RN10、COGNITIVE LINGUISTICS 《认知语⾔学》德国QuarterlyISSN: 0936-5907MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078511、COMPUTATIONAL LINGUISTICS 《计算语⾔学》美国QuarterlyISSN: 0891-2017M I T PRESS, 238 MAIN STREET, STE 500, CAMBRIDGE, USA, MA, 02142-104612、ENGLISH FOR SPECIFIC PURPOSES 《专业英语》英国PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB13、OREIGN LANGUAGE ANNALS 《外国语⾔纪事》美国QuarterlyISSN: 0015-718XAMER COUNCIL TEACHING FOREIGN LANGUAGES, 700 SOUTH WASHINGTON STREET, STE 210, ALEXANDRIA, USA, VA, 2231414、UNCTIONS OF LANGUAGE 《语⾔的功能》荷兰SemiannualISSN: 0929-998XJOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME15、HISPANIA-A JOURNAL DEVOTED TO THE TEACHING OF SPANISH AND PORTUGUESE 《西班⽛》美国QuarterlyISSN: 0018-213316、INTERACTION STUDIES《交互作⽤研究》荷兰Tri-annualISSN: 1572-0373JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME17、INTERNATIONAL JOURNAL OF BILINGUALISM 《国际双语杂志》英国QuarterlyISSN: 1367-0069KINGSTON PRESS SERVICES LTD, 43, DERWENT RD, WHITTON TWICKENHAM, MIDDLESEX, ENGLAND, TW2 7HQ 18、INTERNATIONAL JOURNAL OF LANGUAGE & COMMUNICATION DISORDERS 《国际语⾔及交流障碍杂志》英国QuarterlyISSN: 1368-2822TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXON, OX14 4RN19、INTERNATIONAL JOURNAL OF LEXICOGRAPHY 《国际词汇学杂志》英国QuarterlyISSN: 0950-3846OXFORD UNIV PRESS, GREAT CLARENDON ST, OXFORD, ENGLAND, OX2 6DP20、INTERNATIONAL JOURNAL OF SPEECH LANGUAGE AND THE LAW 《国际⾔语、语⾔和法律杂志》英国SemiannualISSN: 1748-8885EQUINOX PUBL LTD, UNIT SIX, THE VILLAGE, 101 AMIES ST, LONDON, ENGLAND, SW11 2JW21、JOURNAL OF AFRICAN LANGUAGES AND LINGUISTICS《⾮洲语⾔和语⾔学杂志》德国SemiannualISSN: 0167-6164MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078522、JOURNAL OF CHILD LANGUAGE 《⼉童语⾔杂志》美国Tri-annualISSN: 0305-0009CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247323、JOURNAL OF CHINESE LINGUISTICS 《中国语⾔学杂志》⾹港SemiannualISSN: 0091-3723JOURNAL CHINESE LINGUISTICS, CHINESE UNIV HONG KONG, CENTRE EAST ASIAN STUDIES, SHATIN, NEW TERRITORIES, PEOPLES R CHINA, HONG KONG, 0000024、JOURNAL OF COMMUNICATION DISORDERS 《语⾔交流障碍杂志》美国ELSEVIER SCIENCE INC, 360 PARK AVE SOUTH, NEW YORK, USA, NY, 10010-171025、JOURNAL OF EAST ASIAN LINGUISTICS 《东亚语⾔学杂志》荷兰QuarterlyISSN: 0925-8558SPRINGER, VAN GODEWIJCKSTRAAT 30, DORDRECHT, NETHERLANDS, 3311 GZ26、JOURNAL OF FLUENCY DISORDERS 《⼝吃病杂志》美国QuarterlyISSN: 0094-730XELSEVIER SCIENCE INC, 360 PARK AVE SOUTH, NEW YORK, USA, NY, 10010-171027、JOURNAL OF HISTORICAL PRAGMATICS 《历史语⽤论杂志》荷兰SemiannualISSN: 1566-5852JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME28、JOURNAL OF LANGUAGE AND SOCIAL PSYCHOLOGY 《语⾔与社会⼼理学杂志》美国QuarterlyISSN: 0261-927XSAGE PUBLICATIONS INC, 2455 TELLER RD, THOUSAND OAKS, USA, CA, 9132029、JOURNAL OF LINGUISTICS 《语⾔学杂志》美国Tri-annualISSN: 0022-2267CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247330、JOURNAL OF MEMORY AND LANGUAGE《记忆与语⾔杂志》美国BimonthlyISSN: 0749-596XACADEMIC PRESS INC ELSEVIER SCIENCE, 525 B ST, STE 1900, SAN DIEGO, USA, CA, 92101-449531、JOURNAL OF NEUROLINGUISTICS 《神经语⾔学杂志》英国BimonthlyISSN: 0911-6044PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB32、JOURNAL OF PHONETICS 《语⾳学杂志》英国QuarterlyISSN: 0095-4470ACADEMIC PRESS LTD ELSEVIER SCIENCE LTD, 24-28 OVAL RD, LONDON, ENGLAND, NW1 7DX33、JOURNAL OF PRAGMATICS 《语⾔实⽤学杂志》荷兰MonthlyISSN: 0378-2166ELSEVIER SCIENCE BV, PO BOX 211, AMSTERDAM, NETHERLANDS, 1000 AE34、JOURNAL OF PSYCHOLINGUISTIC RESEARCH 《⼼理语⾔学研究杂志》美国BimonthlyISSN: 0090-6905SPRINGER/PLENUM PUBLISHERS, 233 SPRING ST, NEW YORK, USA, NY, 1001335、JOURNAL OF QUANTITATIVE LINGUISTICS 《定量语⾔学杂志》英国QuarterlyISSN: 0929-6174ROUTLEDGE JOURNALS, TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXFORDSHIRE, OX14 4RN36、JOURNAL OF SECOND LANGUAGE WRITING 《第⼆语⾔写作杂志》英国PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB37、JOURNAL OF SOCIOLINGUISTICS 《社会语⾔学杂志》英国QuarterlyISSN: 1360-6441BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ38、JOURNAL OF SPEECH LANGUAGE AND HEARING RESEARCH 《⾔语、语⾔与听觉研究杂志》美国BimonthlyISSN: 1092-4388AMER SPEECH-LANGUAGE-HEARING ASSOC, 10801 ROCKVILLE PIKE, ROCKVILLE, USA, MD, 20852-327939、LANGUAGE 《语⾔》美国QuarterlyISSN: 0097-8507LINGUISTIC SOC AMER, 1325 18TH ST NW, SUITE 211, WASHINGTON, USA, DC, 20036-650140、LANGUAGE & COMMUNICATION 《语⾔与交流》英国QuarterlyISSN: 0271-5309PERGAMON-ELSEVIER SCIENCE LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OX5 1GB41、LANGUAGE AND COGNITIVE PROCESSES 《语⾔与认知过程》英国BimonthlyISSN: 0169-0965PSYCHOLOGY PRESS, 27 CHURCH RD, HOVE, ENGLAND, EAST SUSSEX, BN3 2FA42、LANGUAGE AND LINGUISTICS 《语⾔与语⾔学研究》英国QuarterlyISSN: 1606-822XINST LINGUISTICS ACAD SINICA, NO 130, SEC 2, ACADEMIA RD, NANKANG, TAIPEI, TAIWAN, 1152943、LANGUAGE AND SPEECH 《语⾔与⼝语》英国QuarterlyISSN: 0023-8309KINGSTON PRESS SERVICES LTD, 43, DERWENT RD, WHITTON TWICKENHAM, MIDDLESEX, ENGLAND, TW2 7HQ 44、LANGUAGE IN SOCIETY 《社会语⾔》美国BimonthlyISSN: 0047-4045CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247345、LANGUAGE LEARNING 《语⾔学习》英国QuarterlyISSN: 0023-8333BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ46、LANGUAGE LEARNING & TECHNOLOGY 《语⾔学习与技术》美国Tri-annualISSN: 1094-3501UNIV HAWAII, NATL FOREIGN LANGUAGE RESOURCE CENTER, 1859 EAST WEST RD, 106, HONOLULU, USA, HI, 9682247、LANGUAGE SCIENCES 《语⾔科学》英国BimonthlyISSN: 0388-0001ELSEVIER SCI LTD, THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD, ENGLAND, OXON, OX5 1GBAMER SPEECH-LANGUAGE-HEARING ASSOC, 10801 ROCKVILLE PIKE, ROCKVILLE, USA, MD, 20852-327949、LANGUAGE TEACHING RESEARCH 《语⾔教学研究》英国QuarterlyISSN: 1362-1688SAGE PUBLICATIONS LTD, 1 OLIVERS YARD, 55 CITY ROAD, LONDON, ENGLAND, EC1Y 1SP50、LINGUA 《语⾔学》荷兰MonthlyISSN: 0024-3841ELSEVIER SCIENCE BV, PO BOX 211, AMSTERDAM, NETHERLANDS, 1000 AE51、LINGUISTIC INQUIRY 《语⾔学研究》美国QuarterlyISSN: 0024-3892M I T PRESS, 238 MAIN STREET, STE 500, CAMBRIDGE, USA, MA, 02142-104652、LINGUISTICS 《语⾔学》德国BimonthlyISSN: 0024-3949MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078553、METAPHOR AND SYMBOL 《隐喻与象征》美国QuarterlyISSN: 1092-6488LAWRENCE ERLBAUM ASSOC INC-TAYLOR & FRANCIS, 325 CHESTNUT STREET, STE 800, PHILADELPHIA, USA, PA, 1910654、MIND & LANGUAGE 《思维与语⾔》英国QuarterlyISSN: 0268-1064BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ55、MODERN LANGUAGE JOURNAL 《现代语⾔杂志》英国QuarterlyISSN: 0026-7902BLACKWELL PUBLISHING, 9600 GARSINGTON RD, OXFORD, ENGLAND, OXON, OX4 2DQ56、NARRATIVE INQUIRY 《记叙⽂探究》荷兰SemiannualISSN: 1387-6740JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME57、NATURAL LANGUAGE & LINGUISTIC THEORY 《⾃然语⾔与语⾔理论》荷兰QuarterlyISSN: 0167-806XSPRINGER, VAN GODEWIJCKSTRAAT 30, DORDRECHT, NETHERLANDS, 3311 GZ58、PHONETICA 《语⾳学》瑞⼠QuarterlyISSN: 0031-8388KARGER, ALLSCHWILERSTRASSE 10, BASEL, SWITZERLAND, CH-400959、RESEARCH ON LANGUAGE AND SOCIAL INTERACTION 《语⾔与社会应对研究》英国QuarterlyISSN: 0835-1813ROUTLEDGE JOURNALS, TAYLOR & FRANCIS LTD, 4 PARK SQUARE, MILTON PARK, ABINGDON, ENGLAND, OXFORDSHIRE, OX14 4RNEDICIONES UNIV VALPARAISO, CASILLA 1415, VALPARAISO, CHILE, 0000061、SECOND LANGUAGE RESEARCH 《第⼆语⾔研究》英国QuarterlyISSN: 0267-6583SAGE PUBLICATIONS LTD, 1 OLIVERS YARD, 55 CITY ROAD, LONDON, ENGLAND, EC1Y 1SP62、SOUTHERN AFRICAN LINGUISTICS AND APPLIED LANGUAGE STUDIES 《南⾮语⾔学与应⽤语⾔研究》南⾮QuarterlyISSN: 1607-3614NISC PTY LTD, 19 WORCESTER ST, P O BOX 377, GRAHAMSTOWN, SOUTH AFRICA, 614063、STUDIES IN SECOND LANGUAGE ACQUISITION 《习得第⼆语⾔研究》美国QuarterlyISSN: 0272-2631CAMBRIDGE UNIV PRESS, 32 AVENUE OF THE AMERICAS, NEW YORK, USA, NY, 10013-247364、SYNTAX AND SEMANTICS 《句法与语义学》美国AnnualISSN: 0092-4563ELSEVIER ACADEMIC PRESS INC, 525 B STREET, SUITE 1900, SAN DIEGO, USA, CA, 92101-449565、TERMINOLOGY 《术语学》荷兰SemiannualISSN: 0929-9971JOHN BENJAMINS B V PUBL, PO BOX 36224 , AMSTERDAM, NETHERLANDS, 1020 ME66、TESOL QUARTERLY 《TESOL季刊》美国QuarterlyISSN: 0039-8322TESOL, 700 SOUTH WASHINGTON ST, STE 200, ALEXANDRIA, USA, VA, 2231467、TEXT & TALK《⽂字和语⾔》德国BimonthlyISSN: 1860-7330MOUTON DE GRUYTER, GENTHINER STRASSE 13, BERLIN, GERMANY, 1078568、TRANSLATOR 《翻译者》英国SemiannualISSN: 1355-6509ST JEROME PUBLISHING, 2 MAPLE ROAD, WEST, BROOKLANDS, MANCHESTER, ENGLAND, M23 9HH69、WORD-JOURNAL OF THE INTERNATIONAL LINGUISTIC ASSOCIATION 《词》美国Tri-annualISSN: 0043-7956INT LINGUISTIC ASSOC, PO BOX 402, WEST HEMPSTEAD, USA, NY, 1155270、ZEITSCHRIFT FUR DIALEKTOLOGIE UND LINGUISTIK 《⽅⾔学与语⾔学杂志》德国Tri-annualISSN: 0044-1449FRANZ STEINER VERLAG GMBH, BIRKENWALDSTRABE 44, STUTTGART, GERMANY, D-70191。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

《计算语言学》简评作者:刘金路来源:《湖北函授大学学报》2015年第13期[摘要]计算语言学是一门横跨语言学、数学和计算机科学的边缘性交叉学科。

《计算语言学》是清华大学中国语言文学系刘颖教授的新作,该书系统介绍了计算语言学的相关理论及计算方法。

从方法论视角看,该书对推动语言学或计算语言学学科建设及发展具有重要意义。

[关键词]计算语言学;计算机科学;交叉学科[中图分类号]G642[文献标识码]A[文章编号]1671-5918(2015)13-0122-03计算语言学(Computational Linguistics)是当代语言学中的一个新兴学科。

《计算语言学》是清华大学中国语言文学系刘颖教授的一部新作,由清华大学出版社于2014年9月出版。

刘颖教授研究计算语言学、自然语言处理和机器翻译多年,已出版著作四部,发表相关专业论文近六十篇。

本书是2002年10月出版的《计算语言学》的修订版本,全书系统介绍了计算语言学的相关理论与计算方法,以及统计语言学与机器翻译的相关理论。

近十几年来,国内对于计算语言学的相关著作尤其是系统性介绍的书籍还是为数不多的,许多对计算语言学感兴趣的研究者们迫切需要这样的一本较为全面性的书籍问世。

相信本书应该会受到计算语言学界学者及研究者的极大关注。

本文首先探讨计算语言学的背景,之后简要介绍该书各章节的主要内容,最后在此基础之上对该书作出简要评价。

一、背景介绍二十世纪四十年代到五十年代末这段时期可谓是计算语言学的萌芽期。

虽然“计算语言学”这个术语概念还未被提出,但是有很多具备先见之明的研究者及学者们就开始从计算的角度来探讨语言现象,揭示语言所具有的数学性。

二十世纪六十年代的中期到八十年代末可以算作是计算语言学的主要发展期。

在此期间,许多的相关学科在相互借鉴,互为补充的基础上取得了不少鼓舞人心的成果。

在二十世纪九十年代的最后五年,计算语言学的研究变化显著,出现了空前繁荣的局面。

这主要表现在以下三个方面:首先,概率与数据驱动方法成了计算语言学的标准方法。

其次,由于计算机速度与其存储量的增加,使得在计算语言学的某些领域,特别是语音合成、语音识别、文字识别、拼写检查、语法检查这些应用领域,有可能进行商品化的开发。

第三,随着网络技术的发展,互联网逐渐变成一个多语言的网络世界,互联网上的机器翻译、信息检索和信息抽取的需要变得更加紧迫。

正是在这样的背景下,国内计算语言学研究也展现出了新的生机活力,刘颖教授的这本《计算语言学》便是很好的说明。

二、内容概述全书共分为十章,第一章为“计算语言学简介”。

本章主要介绍了计算语言学的概念及其与计算机科学、语言学、数理语言学及自然语言的关系。

此外,对计算语言学的主要研究内容作了详细的阐述,并说明了计算语言学理论的主要用途,包括机器翻译、语音自动识别和自动生成、自然语言理解及信息自动检索等。

本章的第四部分介绍了计算语言学研究的基本方法,涉及理性主义与经验主义。

最后,详细的梳理了计算语言学的发展历程,全面阐述了计算语言学以及在应用领域中已经取得的研究成果。

第二章“机器词典”部分主要介绍自然语言处理领域中常用的机器词典,包括《现代汉语语法信息词典》、《同义词词林》、Wordnet、Framenet及《知网》。

其中,详细介绍了每部词典中所包含的内容、词与词形成的关系、词典之间的相互联系与区别以及各种词典的独特应用。

由此,通过不同词典的相互对照,也可以清晰分辨出不同内容的词典及其在自然语言中的不同应用。

第三章“词法分析”对以汉语为代表的分析型语言,以英语为代表的曲折型语言以及以日语为代表的粘着型语言进行了词汇层面处理的相关介绍。

其中,在汉语自动分词部分,本章对汉语中词与自动分词、自动分词的重要性、自动分词方法、汉语切分歧义及其处理等内容作了详细介绍。

英语词法分析部分对词法分析方法、词法分析算法、为何要进行词法分析以及词法分析的程度问题作了具体说明。

最后,对日语词语特征、日语分词的常用方法及切词与词性标注等进行了总结。

尤其是在日语切词与词性标注中,运用了邻接表分析法与配价分析法对日语词法进行了详细对比,总结分析。

第四章为“词性标注”。

本部分首先对词性标注的定义与研究进展进行了概述,并举例说明。

之后,对词性标注集从规范、确定原则、适用范围及词类划分与标记代码四个角度作了系统阐述。

重点介绍了词性标注的三种方法:规则方法,统计方法及基于转换的错误驱动学习方法。

其中,对统计方法作了重点表述,其是基于HMM的词性标注、基于条件随机场的词性标注与基于最大熵模型的词性标注。

第五章为“形式语言理论与自动机”。

主要介绍了形势语言理论,涉及形式语法及其组成、形式语法的定义及特点以及进行形式语法研究的必要性。

在自动机理论部分,分析了进行抽象分析处理的四种演算及机器:图灵机(turning machine)、下推自动机(pushdown automaton)、线性有界自动机与有限自动机(finite automaton)。

最后,分析了乔姆斯基层级和自然语言的有关内容。

第六章“现代句法理论”主要介绍了二十世纪五十年代以后发展起来的计算语言学语法理论,包括乔姆斯基的转换生成语法、广义的短语结构语法、树粘接语法、中心词驱动的短语结构语法、词汇功能文法、范畴语法、依存语法以及链语法。

在转换生成语法部分,论述了经典理论所包含的短语结构、转换结构及形态音位。

之后,也对标准理论及扩充标准理论进行了举例详述。

依存语法部分指出,依存语法又称从属关系语法,其便于计算机对自然语言的有效处理,在信息处理时代特别受到欢迎。

同时,也指出了依存语法的缺点、从属树与短语结构树之间的差异及配价语法在中国汉语语言学中发展的四个方面。

第七章“句法分析”主要介绍了自然语言的句法分析算法,包括厄尔利分析算法、富田胜分析算法、线图分析算法以及CYK算法。

通过对比分析指出,厄尔利分析算法与CYK算法是一种并行的方法,但是前者要比后者更难以理解。

线图分析算法可以利用线图保留所有的分析结果,但是效率没有富田胜分析算法高,相比较而言,富田胜分析算法试着四种算法中最为快捷的算法。

另外,该书也指出CYK算法由于较易实现,易于被人们所理解,因此被广泛应用在基于短语的机器翻译和基于句法的统计器翻译中。

所有的算法本书都给出了详细的举例说明,并列出了计算机处理自然语言的详细过程。

第八章为“语义理论与语义分析”。

该章节主要阐述了有关格语法、语义网络文法、义素分析、优选语义学及蒙塔格语法五个部分。

其中,每个部分都给出了其定义及产生的简要说明,同时列举了具体实例进行了分析。

尤其是在蒙塔格语法部分,对句法、翻译及语义三个部分进行了系统全面的介绍,内容涉及到了树立逻辑,因此部分内容稍显抽象,较难理解。

最后的讨论部分作者也指出,五个理论独立存在,且这种独立也是合理可行的,但是就具体自然语言处理的工程而言,只要有利于计算分析可以解决实际问题的理论都可以拿来使用,而且一定要尽量吸收各种理论的合理成分,进行有机结合。

第九章“统计语言学”主要介绍了统计语言学所需要的基本统计知识和语料库。

指出,大规模的单语或多语语料库是统计的基础,没有它就无法对语言进行处理。

同时,该部分也介绍了n元模型、HMM模型以及HMM模型在语音识别和组块识别中的应用,介绍了随机上下文无关语法及其应用,用于句法和语义消岐的句法评分和语义评分,双语语料库的句子对齐技术,重点介绍了基于长度的句子对齐和基于词汇的句子对齐原理。

另外,也介绍了支持向量机SVM的原理、实现过程以及如何利用SVM进行人声识别,最大熵模型的原理、最大熵模型参数的训练算法及其应用。

最后,针对统计中出现的数据稀疏问题,介绍了常见的数据稀疏处理方法。

第十章“机器翻译”主要介绍了机器翻译的概念,并指出了五种主要的方法:直接翻译法、基于转换的方法、基于统计的方法、基于中间语言的方法以及基于实例的方法,指出了机器翻译的难点及应对策略。

详尽地介绍了统计方法的各种模型,包括基于词的统计翻译、基于短语的统计翻译和基于句法的统计翻译。

最后,该书介绍了有关机器翻译的难点、应用及其评价方法。

三、简要评价本书是一本全面系统介绍计算语言学的著作,既有语言理论的全面梳理也有语言计算实践的深入探讨,尤其是对于计算语言学涉及的算法均给出了举例并进行了详细说明,也给出了语言处理的详细过程。

本书的主要特点在于:首先,正如前文所提到的,这本书为国内致力于计算语言学研究的学者及研究者们提供了很好的参考,拓展了思路,开阔了视野。

其次,本书章节的编排条理清晰,颇具匠心。

本书没有流于对计算语言学的一般性介绍,而是把计算语言学相关理论与真实的语言实例相结合,逐层逐类,按照从小到大,由简到繁的顺序展开,比如,书中按照词法到句法再到语义的逻辑排列,使读者可以循序渐进系统掌握核心内容及其内在关系。

第三,本书中所用实例涉及汉语、英语及日语三种语言,语言范围更加广泛,具备更强的说服力与信服力。

第四,这是一本不仅仅侧重介绍而且详尽阐述计算方法及运算过程的著作,大多数章节的内容与语言均较为浅显易懂,语言理论与计算相关的实践紧密结合。

使用了较多的语言实例及相关数据,使学习者在阅读学习过程中可以置身于计算语言学的真实语境中,从而可以更快,更有效的吸收本书的精华。

尽管如此,本书也有些许不足之处。

首先,书中的许多语言实例多针对英语语料,稍显单一,语言具有差异性,具体理论应用时也会存在较大差异,如果能有更多的汉语实例佐证或许会有更好的效果。

其次,由于本书是一本有关计算的语言学书籍,特别像第九章的统计语言学部分,涉及到的统计概率等数学知识较多,较为抽象,让缺乏数学及计算机系统知识的读者读起来稍显棘手,因此本书在这样的环节设计上可以再进一步斟酌完善。

第三,个别地方有很小的排版问题,如95页图5-4句子“old man and woman”的分析树形图中的and写为了“And”。

(责任编辑:桂杉杉)。

相关文档
最新文档