8件：基于trigger对的长距离蒙古语语言模型0625

基于trigger对的长距离蒙古语语言模型*

刘志文1, 侯宏旭1, 李沙茹拉2，柳林1

(1.内蒙古大学计算机学院，内蒙古呼和浩特010021；

2.内蒙古大学电子信息工程学院，内蒙古呼和浩特010021)

摘要:为了克服在蒙古语语言模型建模过程中n-gram缺乏长距离信息的弱点,本文在统计语言

模型的基础上,提出了一种基于trigger对的长距离蒙古语语言模型，该模型采用统计方法进行自

然语言建模。本文简要介绍了基于trigger对的长距离蒙古语语言模型，并给出了句长补偿、参

数估计和数据平滑方法，并在汉语-蒙古语机器翻译系统实现了该方法，实验结果表明该技术克

服了n元文法语言模型描述距离小于n的缺点，并提高了翻译效果，该模型也为自然语言建模

提供了一定的参考。

关键词: trigger对；蒙古语；语言模型；平滑

中图分类号：TP391文献标识码：A

Long-Distance Mongolia Language Model Based on

Trigger Pair

Liu Zhiwen1, Hou Hongxu1, Li Saragul2, Liu Lin1

(1. College of Computer Science, Inner Mongolia University, Hohhot 010021,China;

2. College of Electronic Information Engineering, Inner Mongolia University, Hohhot

010021,China;)

Abstract: To overcome the n-gram’s lack of long-distance information in Mongolian language

modeling process, this paper puts forward to long-distance Mongolia language model based on trigger

pair to natural language modeling process. Long-distance Mongolia language model adopts the

statistical method to setting up the natural language models. This paper introduces the long-distance

Mongolia language model, gives methods of sentence compensation, parameters estimate and data

smoothing. The experimental results show that this model can overcome the shortcoming of n-gram

model that it only can describe the word pairs being less then n words apart, improves the translation

results, and also provide some reference for setting up the natural language models.

Key words: Trigger pair; Mongolian; Language model; Smoothing

1引言

统计语言模型[1]在机器翻译、文字处理、文字检索等领域有着广阔的应用。作为机器翻译的一项基础性工作，蒙古语语言模型的建立不能照搬汉语、英语等语言中使用的语言模型方法[2]。本文作者针对蒙古语语言的特点提出了一种新的蒙古文统计语言模型，即基于trigger

*基金项目：内蒙古自然基金项目“蒙古语文本语言模型的构建研究”(200607010805)资助

作者简介：刘志文(1982～)，男，硕士研究生，主要研究方向：信息处理。

通讯作者：侯宏旭（1972～），男，副教授，主要研究方向：中文信息处理。

对的长距离蒙古语语言模型，并应用于汉-蒙机器翻译系统[3]。

蒙古语属于黏着型语言。蒙古语的构词，构形都是通过在词干后缀接不同的词尾而实现的，并且它们还可以层层缀接，这使得蒙古语词法形态变化丰富且复杂[4]。

蒙古语的构形附加成分负载着非常丰富的语法信息，所以如果只对整词（即词干+构形附加成分）或者词干进行统计，就会丢失大量语法信息，而这些信息对蒙古语语言模型的构建有着举足轻重的意义。所以有必要对蒙古语词干、词缀进行统计来得到语言模型信息。但是，在对蒙古语词干、词缀切分后进行统计，又会带来新的问题。以下面这句“工厂里工人们在工作”为例：

名词“工人们”可以切分为一个词干和两个词缀，这会带来问题：如果用常用的n-gram 来分析，分析的结果常常会是某个字内部的词干词缀的关系，而没有反应出两个或更多文字之间的联系。以常用的3-gram为例[5]，语言模型信息可以反映出3个字之间的关系，而蒙古语在进行了词干、词缀切分后，如果依然使用3-gram，那么反映出的可能是2个字甚至1个字的关系，而连3-gram可以反应3个字的长度都不足了。为了能够反映出更长距离的相关信息，作者使用了trigger对来描述更长距离上的关联信息[6]。

如果词A的出现使得后文中词B出现，则称（A→B）为一个trigger对[7]。其中A称作触发者（trigger），B称作被触发者（trigger word）。在自然语言中，这种情况是非常普遍的，也就是通常所说的词的习惯搭配现象。例如：如果词“奥运会”在文中出现，那么在后文中“2008”、“北京”等词出现的可能性将大大增加，因此可以分别称（奥运会→2008）、（奥运会→北京）为trigger对。

2基于trigger对的长距离蒙古语语言模型

从trigger对的定义及选取标准可以看到，trigger对能够表达长距离的词之间的相关程度，而这种对距离限制很少的词之间的搭配是非常符合人们的语言习惯的，这恰好弥补了传统N元文法语言模型描述距离小于N的缺点。因此如能恰当地将基于trigger的语言模型与N元文法语言模型结合起来必将有助于更好地描述语言的统计特性，进而提高机器翻译系统的性能。但这并非是一件易事，trigger对是一种比较灵活的表达方式，如何利用trigger对提供的信息实现基于trigger对的模型还是一项新的研究工作。

构建基于trigger对的语言模型都需要选择一个合适的度量标准并据此保留所需数目的trigger对。

一个最简单的控制trigger对数目的方法就是给历史加窗，即限制trigger对的最长约束距离。一般说来，这个参数并无精确要求，可以根据经验在合适范围内选取。大量文献认为：在历史中最近的六个词已包含了绝大部分信息。文中在选择trigger对的实验中，由于一个蒙古语文字可能切分为多部分，故窗长限制取为9，即只考虑当前词的前9个词作为历史。

trigger对选取的距离由于trigram的存在，最短距离从4开始，最长距离用9。

基于trigger对的长距离蒙古语语言模型认为第i个符号的出现是由于第i个符号做为被触发者所构成的trigger对来决定的，而一个句子第i个符号做为被触发者可能会与前面多个符号构成trigger对，这时则认为强度由其中最强的来决定。

基于trigger对的长距离蒙古语语言模型的得分标准采用如下方法：

∑=

+ +

n trigger

MAX

2 1

)]

(

),...,

(

[

log

)

...

( log

其中

表示的是句子的trigger 对得分；表示i

w 出现条件下3+i w 出现的条件概率；L 表示trigger 对窗口的最大距离，本文中即为9。

3基于trigger 对的长距离蒙古语语言模型的句长补偿

如果源蒙古语句子A 可以通过我们的汉-蒙机器翻译系统得到不同的翻译结果：A 1、A 2、…A n ，我们希望通过语言模型来找到最好的翻译结果。

通过上步的处理后我们可以发现由于trigger 对得分要远远小于1，从翻译结果中看，得分高的句子明显倾向于短的句子。简单来说小于1的小数相乘，乘的越多值当然越小。在这种情况下，我们必须做出句长补偿。

基于trigger 对的长距离蒙古语语言模型的得分经补偿后，如下：

SLC 即句长补偿值(Sentence Length Compensation)，具体值为：

其中C 为补偿通用基数，SL 为句长。

4 基于trigger 对的长距离蒙古语语言模型的改进Katz 平滑技术

在实际应用中，笔者发现了新的问题：trigger 对稀疏问题严重。笔者分别在翻译节点为300和1000上进行了实验，对不可查找到的trigger 对数目与可查找到的trigger 对数目进行了统计，结果如下：

最多节点数。由上表可知，在不作平滑的情况下，不可查找到的trigger 对数目与可查找到的trigger 对数目比例几乎为4:6，可以说如此高的“不可查找比例”将直接导致语言模型效果很差，或者说几乎不能使用。所以必须进行平滑来保证语言模型的性能。

基于trigger 对的改进Katz 平滑仍然是对Good-Turing 的改进[8]，其基本思想是，对出现次数介于0和k 之间的trigger 对，将其按折扣率d r ,扣除一些频度，分配给次数为0的trigger 对。折扣率基干Good-Turing 估计中的r*/r 确定，折扣出的数值，根据低阶的(n-1)阶trigger 对模型分配[9][10]。

对于trigger 对（A →B ）,基于trigger 对的改进Katz 平滑的具体公式如下:

)(?)(?B A P B A P ML z triggerKaz →=→ if r>k )(?)(?B A P d B A P ML r z triggerKaz →=→ if 0

z triggerKaz α=→ if r=0 其中：

C SLC =)...(log 21n trigger w w w P )|(3i i w w P +SLC

w w P w w P MAX w w w P n

i i L i i i n trigger log )]|(),...,|([log )...(log 1

321+=∑=++

()()(?→→=→A c B A c B A P ML )(B A c →表示trigger 对（A →B ）的出现次数，*)(→A c 表示以A 为触发者的所有trigger 对的出现次数，)(?B A P ML

→表示trigger 对（A →B ）的最大似然概率。

*1)1(11

)1(n n k n n k r r d k k r ++-

++-=

)(?1)

(?1)(0

)(:0)(:B A P

B A P A ML

B A c B z triggerKat B A c B →∑-→∑-=>→>→α 折扣系数d r 按着下面的方法计算:出现次数大于5(k 取5)的trigger 对次数保持不变,对于d r >k 的trigger 对，d r =1;对于r<=k ，d r 产生的折扣数量与Good-Turing 估计预测的折扣数量成正比，并且所有的trigger 对折扣出来的数量总和等于根据Good-Turing 估计赋予零概率的数量总和。

5 基于trigger 对的长距离蒙古语语言模型特点

基于trigger 对的长距离蒙古语语言模型是因为蒙古语具有词干、词缀的特点，所以有必要对蒙古语语料进行词干、词缀切分后再进行语言模型建模。但这会使传统使用的n-gram 建模方法缺乏长距离信息的缺点凸显。而基于trigger 对的长距离蒙古语语言模型很好的利用了词干、词缀的特点，也解决了缺乏长距离信息的缺点，从而使得机器翻译准确性得到很好的提高。

w 1表示词1，w 11、w 12表示由w 1按词干词缀分解出的第1、2部分。

图 1传统trigram 模型

图 2切分词干词缀的蒙古语trigram 模型

图 3基于trigger 对的长距离蒙古语语言模型

6 实验

6.1 平台简介

我们在一个汉-蒙机器翻译系统[11]上实验了基于trigger 对的长距离蒙古语语言模型技术。

这个汉蒙机器翻译系统是一个基于实例的汉蒙机器翻译系统[12][13]。在这个系统中，语言模型用于评价候选翻译的好坏。下面是两个候选翻译的例子。

S ：要/v 提防/v 小偷/n

(-90.41) T 1：HVLAGAYICI –ECE HICIYE +HU HEREGTEI HEREGTEI (-85.758) T 2：HVLAGAYICI –ECE HICIYE +HU HEREGTEI S 是待翻译的句子，T1是机器翻译引擎生成的两个候选翻译结果。我们采用的评价方法就是分别计算这两个句子的困惑度。括号中的数字就是T1和T2的困惑度。困惑度是小于等于0的值，越大说明困惑度越小，即越可能是合法的句子。在给出的例子中，由实例生成翻译结果时第二个“HEREGTEI”是片段组合时生成的冗余词。我们可以看到T2的结果要更好一些。

由于汉蒙机器翻译的测试平台相对缺乏，没有汉英机器翻译的国际评测的便利，我们自己设计了一个汉蒙机器翻译的测试平台。在这里，我们给出了一个具有100个日常对话句子的测试集，并由以蒙古语为母语的人翻译成蒙古语。每个句子有4个蒙古语参考答案。下面是两个测试语句的例子。

S ：我想参加一个旅游团。

T 1：BI NIGE JIGVLCILAL-VN BOLHOM-DU 0R0LCAY_A GEJU B0D0JV BAYIN_A. T 2：BI NIGE JVGACIL-VN BOLHOM-DU 0R0LCAHV SANAG_A-TAI.

T 3：BI NIGE JIGVLCILAL-VN BOLHOM-DU 0R0LCAY_A GEJU SANAJV BAYIN_A. T 4：BI NIGEN JVGACIL-VN BOLHOM-DU 0R0LCAY_A GEJU BAYIN_A. S ：有这个吗？ T 1：ENE BAYIN_A VV?

T 2：ENE YAGVM_A-TAI VV?

T 3：ENE YAGVM_A BAYIHV VV? T 4：ENE YAGVM_A BAYIN_A VV?

实验时将汉-蒙翻译系统中的原语言模型[14]得分：

改为：

关键是权值的分配，实验中采用最小错误训练来得到。 6.2 提取语料库中的trigger 对、平滑参数获取

本次提取语料库中的trigger 对实验是在Visual C++6.0的基础上实现提取蒙古语文本中的trigger 对系统。实验所用的文本数据是1.3M 蒙古语文本文件。

)

...(log *)...(log *)...(log 212213121n trigger n gram n w w w P w w w P w w w P λλ+=)

...(log )...(log 21321n gram n w w w P w w w P =

在实验中，不只提取文本中的trigger 对的数值)(B A c →，还需要统计出计数值：

*)(→A c ，)(?B A P ML →，r d ，)(?B A P z triggerKaz →

这些数值的计算量是非常大的，对于二元模型来说，一个长度为n 的句子，其计算量为O(n)，而对于trigger 对来说，复杂度为O(nk)，其中k 是trigger 对的距离。由前文可知，我们在实验中k 的范围是4-9。下表是使用trigger 对时所用的信息。

表 2 trigger 对模型的计数文件

下表是使用trigger 对时所用的d r 信息。

6.3 基于trigger 对的长距离蒙古语语言模型测试比较实验

本文作者将针对基于trigger 对的长距离蒙古语语言模型进行相关的实验，以测试其性能。

在翻译节点为300上，bleu 和nist [15]得分结果如下：

图 4 模型权值与bleu. nist 得分变化情况

上图表明了基于trigger对的长距离蒙古语语言模型权值λ2与该权值下所获得的最大blue与nist得分的变化情况。

图5补偿基数与bleu、nist得分变化情况

上图表明了补偿基数C与该补偿基数权值下所获得的最大blue与nist得分的变化情况。

在翻译节点为300情况下，对基于trigger对的长距离蒙古语语言模型进行了实验，bleu 和nist得分结果如下：

表4

翻译节点为300情况下bleu与nist得分情况

翻译节点为1000情况下bleu与nist得分情况

表5

7 结论

本文主要致力于构造基于trigger对的长距离蒙古语语言模型，并重点研究了基于trigger 对的长距离蒙古语语言模型的katz平滑技术对汉-蒙机器翻译系统识别率的影响，工作和结论总结如下：

1）在词干词缀的基础上加入trigger对长距离信息建立蒙古语语言模型是可行的，trigger 对可以很好地用来反映蒙古语长距离语言信息，从而解决N-gram在长距离上的信息缺乏问题。2）将基于trigger对的长距离蒙古语语言模型与传统的3-gram语言模型结合，非常有效的提高了机器翻译的准确性。3）基于trigger对的katz平滑技术可以有效的改善基于trigger对的长距离蒙古语语言模型的性能。

参考文献

[1] 王小捷，常宝宝，自然语言处理技术基础[M]，北京:北京邮电大学出版社，2002.

[2] 那顺乌日图.关于在蒙古语文研究中运用统计学方法的问题[J]，民族语文，1993，5.

[3] 那顺乌日图.关于“汉蒙机器翻系统”[C]，ALTAI HAKPO(Journal of the Altai society of Korea)，2001.

[4] 伊·达瓦; 张玉洁; 上园一知等，蒙古语语言-文字的自动化处理，中文信息学报，2006，20（4）：68-74.

[5] 梁奇; 郑方; 徐明星等，基于trigram语体特征分类的语言模型自适应方法，中文信息学报，2006，20

（4）：68-74.

[6] 侯宏旭，刘群，刘志文. Skip-N蒙古文统计语言模型[J]. 内蒙古大学学报（自然科学版），2008，39 (2):

220-224.

[7] 苏韬，孙甲松，王作英，基于Trigger的长距离语言模型[J]，计算机工程与应用，2002，(18)：59～61

[8] 徐志明，王晓龙，关毅，等.N-gram语言模型的数据平滑技术.计算机应用研究.1999,7:37～39

[9] Stanley F. Chen and Joshua Goodman著An Empirical Study of Smoothing Techniques for Language

Modeling.TR-10-98.Harvard Univ.1998-08.

[10] Katz S M. Estimation of probabilities from sparse data for the language model component of a speech

recognizer. IEEE Transactions on ASSP, 1987,35(3):400～401.

[11] 侯宏旭，刘群，那顺乌日图，等，基于实例的汉蒙机器翻译，中文信息学报，2007, 21(4):65-72

[12] Andreas Stolcke. SRILM –an extensible language modeling toolkit[C]. In Proceedings of International

Conference on Spoken Language Processing, 2002，2：901～904.

[13] Hongxu Hou，Dan Deng，Gang Zou，et al. An EBMT System Based on Word Alignment[C], Proceeding of

International Workshop of Spoken Language Translation, 2004：47～49.

[14] 刘群，詹卫东，常宝宝，等.一个汉英机器翻译系统的计算模型与语言模型[C]，第三届全国智能接口

与智能应用学术会议,1997:253～258.

[15] 侯宏旭，刘群，张玉洁，等.2005年度863机器翻译评测方法研究与实施[J]，中文信息学报，2006，

20,(z1):7～18.

怎么用经纬度计算两地之间的距离

怎么用经纬度计算两地之间的距离？ 1、地球赤道上环绕地球一周走一圈共40075.04公里,而@一圈分成360°,而每1°(度)有60,每一度一秒在赤道上的长度计算如下： 40075.04km/360°=111.31955km 111.31955km/60=1.8553258km=1855.3m 而每一分又有60秒,每一秒就代表1855.3m/60=30.92m 任意两点距离计算公式为 d＝111.12cos{1/[sinΦAsinΦB十cosΦAcosΦBcos(λB—λA)]} 其中A点经度，纬度分别为λA和ΦA，B点的经度、纬度分别为λB和ΦB，d为距离。 2、分为3步计算：第1步分别将两点经纬度转换为三维直角坐标：假设地球球心为三维直角坐标系的原点，球心与赤道上0经度点的连线为X轴，球心与赤道上东经90度点的连线为Y轴，球心与北极点的连线为Z轴，则地面上点的直角坐标与其经纬度的关系为： x=R×cosα×cosβ y=R×cosα×sinβ z=R×sinα R为地球半径，约等于6400km； α为纬度，北纬取+，南纬取-； β为经度，东经取+，西经取-。第2步根据直角坐标求两点间的直线距离（即弦长）：

如果两点的直角坐标分别为(x1,y1,z1)和(x2,y2,z2)，则它们之间的直线距离为：L=[(x1-x2)^2+(y1-y2)^2+(z1-z2)^2]^0.5 上式为三维勾股定理，L为直线距离。第3步根据弦长求两点间的距离（即弧长）：由平面几何知识可知弧长与弦长的关系为： S=R×π×2[arc sin(0.5L/R)]/180 上式中角的单位为度，1度＝π/180弧度，S为弧长。 3、1度的实际长度是111公里。但纬线的距离会越考两端越小，他的距离就会变成111乘COS纬度数，经度不变。 4、南北方向算出两点纬度差,一度等于60海里,1分等于1海里,海里与公里换算关系1海里等于1.852公里。东西方向量出距离到两点间纬度附近量出纬度差，得出海里数，再乘以1.852换算成公里。可按直角三角形原理求出两点间距离。 5、度的实际长度是111公里。但纬线的距离会越考两端越小，他的距离就会变成111乘COS纬度数，经度不变(如果在同一经度)

自然语言理解

自然语言理解自然语言也就是我们是日常使用的语言，像各国语言汉语，英语等只要能完成人们之间相互交流的语言就成为自然语言，自然语言是人类学习环境和互相通讯的工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的80%以上。就计算机的应用而言，据统计用于数学计算的仅占10%，用于过程控制的不到5%，其余85%左右都是用于语言文字的信息处理。所谓语言信息处理，是指用计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作和加工。根据可计算性理论，任一计算机的运算都是按一定程序，分步骤相继作用在离散对象之上所完成的，而这些对象又都以线性序列相邻接地排列组合所构成。而自然语言具有的离散性、序列性和邻接性三个特征其具备了“可计算性”，为自然语言处理奠定了物质基础。语法是语言的组织规律。语法规则制约着如何把词素构成词，把词构成词组和句子。语言正是在这种严格的制约关系中构成的。用词素构成词的规则称为构词规则，如“学”＋“生”构成“学生”。一个词又有不同的词形、单数、复数、阴性、阳性等等。这种构造词形的规则称为构形法，如“学生”＋“们”构成“学生们”。这里，只是在原来的词的后面加上了一个具有复数意义的词素，所构成的并不是一个新词，而是同一个词的复数形式。构形法和构词法称为词法。语法中的另一部分是句法。句法可分为词组构造法和造句法两部分。词组构造法是把词搭配成词组的规则，例如，把“新”＋“朋友”构成“新朋友”。这里，“新”是一个修饰“朋友”的形容词，它们的组合构成了一个新的名词。造句法则是用词和词组构造句子的规则，如“我们是计算机系的学生”就是按照汉语造句法构造的句子。对于自然语言德理解，能够更好的处理计算机语言与人类语言的交互。他也就是利用计算机技术研究和处理语言的一门学科，即把计算机作为语言研究的强大工具，在计算机的支持下对语言信息进行定量化的研究，并提供可供人与计算机之间能共同使用的语言描写。自然语言理解通常又叫自然语言处理，因为处理自然语言的关键是要让计算机“理解”自然语言。但什么是“理解”呢?对于这个术语也存在着各式各样的认识。如心理学家认为，理解是“紧张的思维活动的结果”，哲学家认为，理解是“认识或揭露事物中本质的东西”，而逻辑学家则认为理解是“把新的知识、经验

浅谈自然语言处理

浅谈自然语言处理摘要主要阐述了自然语言处理的定义，发展历史，并对其研究内容，以及目前相关领域的应用加以讨论。最后对自然语言处理的未来发展趋势做简单的介绍。关键词自然语言处理 Abstract The definition and the development history of Natural Language Processing(NLP) are explained,the research content and the applications in interrelated areas of NLP are discussed.And the develop direction of NLP in the future are simply introduced. Key Words: Natural Language Processing(NLP)

0.引言早在计算机还未出现之前，英国数学家A.M.Turing便已经预见到未来计算机将会对自然语言处理研究提出新的问题。他指出，在未来我们可以“教机器英语并且说英语。”同时他觉得“这个过程可以仿效教小孩子说话的那种办法进行”。这便是最早关于自然语言处理概念的设想。人类的逻辑思维以语言为形式，人类的多种智能都与语言有着密切的联系。所以用自然语言与计算机进行通信是计算机出现以来人们一直所追求的目标。 1.什么是然语言处理美国计算机科学家Bill Manaris(马纳瑞斯)在1999年出版的《计算机进展》（Advances Computers）第47卷的《从人—机交互的角度看自然语言处理》一文中，曾经给自然与然处理提出了如下定义：“自然语言处理可以定义为研究在人与人交际中的语言问题的一门学科。自然语言处理要研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。”这个定义被广泛的接受，它比较全面的地表达了计算机对自然语言的研究和处理。简单来说，自然语言处理就是一门研究能实现人鱼计算机之间用自然语言处理进行有效的通信与方法的一门学科，它是计算机科学领域与人工智能领域中的一个重要方向。普遍认为它主要是应用计算机技术，通过可计算的方法对自然语言处理的各级语言单位（字，词，语句，篇章等）进行转换，传输，存储，分析等加工处理的学科，是一门融合了语言学，计算机学，数学等学科于一体的交叉性学科。互联网技术的发展，极大地推动了信息处理技术的发展，也为信息处理技术不断提出新的需求，语言作为信息的载体，语言处理技术已经日益成为全球信息化和我国社会及经济发展的重要支撑技术。

自然语言处理_NLP Dataset for Training and Testing Models(NLP训练和测试模型数据集)

NLP Dataset for Training and Testing Models(NLP训练和测试模型数据集) 数据摘要： Three data sets from the PASCAL Recognising Textual Entailment Challenge. they are Development Set,Test Set,Annotated Test Set. 中文关键词：训练,测试模型,开发集,测试集,带注释的测试集, 英文关键词： Training,Testing Models,Development Set,Test Set,Annotated Test Set, 数据格式： TEXT 数据用途： Information Processing 数据详细介绍：

NLP Dataset for Training and Testing Models Three data sets from the PASCAL Recognising Textual Entailment Challenge. For more information about the contest (now ended) and instructions for the data sets, please visit the official site. Development Set (58k zipped) Test Set (74k zipped) Annotated Test Set (67k zipped) 数据预览：

点此下载完整数据集

经纬度计算距离

根据两点经纬度计算距离这些经纬线是怎样定出来的呢？地球是在不停地绕地轴旋转（地轴是一根通过地球南北两极和地球中心的假想线），在地球中腰画一个与地轴垂直的大圆圈，使圈上的每一点都和南北两极的距离相等，这个圆圈就叫作“赤道”。在赤道的南北两边，画出许多和赤道平行的圆圈，就是“纬圈”；构成这些圆圈的线段，叫做纬线。我们把赤道定为纬度零度，向南向北各为90度，在赤道以南的叫南纬，在赤道以北的叫北纬。北极就是北纬90度，南极就是南纬90度。纬度的高低也标志着气候的冷热，如赤道和低纬度地地区无冬，两极和高纬度地区无夏，中纬度地区四季分明。其次，从北极点到南极点，可以画出许多南北方向的与地球赤道垂直的大圆圈，这叫作“经圈”；构成这些圆圈的线段，就叫经线。公元1884平面坐标图年，国际上规定以通过英国伦敦近郊的格林尼治天文台的经线作为计算经度的起点，即经度零度零分零秒，也称“本初子午线”。在它东面的为东经，共180度；在它西面的为西经，共180度。因为地球是圆的，所以东经180度和西经180度的经线是同一条经线。各国公定180度经线为“国际日期变更线”。为了避免同一地区使用两个不同的日期，国际日期变线在遇陆地时略有偏离。每一经度和纬度还可以再细分为60分，每一分再分为60秒以及秒的小数。利用经纬线，我们就可以确定地球上每一个地方的具体位置，并且把它在地图或地球仪上表示出来。例如问北京的经纬度是多少？我们很容易从地图上查出来是东经116度24分，北纬39度54分。在大海中航行的船只，只要把所在地的经度测出来，就可以确定船在海洋中的位置和前进方向。纬度共有90度。赤道为0度，向两极排列，圈子越小，度数越大。横线是纬度，竖线是经度。当然可以计算，四元二次方程。经度和纬度都是一种角度。经度是个两面角，是两个经线平面的夹角。因所有经线都是一样长，为了度量经度选取一个起点面，经1884年国际会议协商，决定以通过英国伦敦近郊、泰晤士河南岸的格林尼治皇家天文台（旧址）的一台主要子午仪十字丝的那条经线为起始经线，称为本初子午线。本初子午线平面是起点面，终点面是本地经线平面。某一点的经度，就是该点所在的经线平面与本初子午线平面间的夹角。在赤道上度量，自本初子午线平面作为起点面，分别往东往西度量，往东量值称为东经度，往西量值称为西

概率论在自然语言处理中的应用

概率论在自然语言处理中的应用 twd2 2017年5月4日当下，人工智能是热议话题。人工智能中，有一个方向叫做自然语言处理。而在自然语言处理方面，有两个经典的问题：光学字符识别（奏奃奒）和拼音输入法。它们都可以用概率的方法解决，本文就尝试讨论这个话题。光学字符识别问题所谓光学字符识别（奏奃奒），就是给定一幅图片，让计算机程序识别出来图片中的文字。这涉及到图像匹配、模式识别等算法，但本文不关注于此，本文关注的是后处理的过程。首先，对于一个字符的识别，识别结果就可能有多种，每一个结果都有一个置信度。所谓后处理过程，就是对于已经识别出来的字串（字串每个字都有多种可能选项），选择“最佳”的组合。这和下文讨论的拼音输入法十分类似，所以本文的重点放在对于拼音输入法的讨论。拼音输入法问题拼音输入法，指的是一个程序，它接受用户输入的拼音串（比如“奱奩奮奧奨奵奡奤奡奸奵奥奪奩女奵奡奮奪奩奫奥奸奵奥她奵奪奩女奨奵奸奩”），根据内部数据，将这个拼音串转换为文字串输出（对于上面的例子就是“清华大学计算机科学与技术系”）。对于输入拼音串的每一个拼音（上面例子中的“奱奩奮奧”、“奨奵奡”、“奤奡”、“奸奵奥”等），可以简单直接地查询字典来获得该拼音对应的所有可能的字，然后选择“最佳”的组合，认为是该拼音串对应的句子：请清氢··· 画话华··· 大打答··· 学雪血··· ··· “最佳”的不同的定义方法，对应着寻找最佳组合的不同算法。这里，我讨论一个简单的二元字模型或字的二元模型。我理解中，字的二元模型就是将句子失

中相邻的两个字作为一组，后一个字出现的概率只和前面一个字出现的情况有关。这能够极大地简化相关算法设计、提高算法速度，但是准确度也会因此受到不良影响。对于任意一个句子S ，如果记其长度n |S |，并且记S 夽w 1w 2···w n ，w i ∈W 夨i 夽失,夲,...,n 天为字符集W 中的一个字符，那么，其出现的概率P 夨S 天可以表示成： P 夨S 天夽 P 夨w 1天·P 夨w 2|w 1天·····P 夨w n |w 1w 2···w n ?1天夽n i =1 P 夨w i |w 1w 2···w i ?1天其中，P 夨w i 天夨i 夽失,夲,...,n 天为w i 出现的概率。在字的二元模型下，这个表达式可以进一步简化成： P 夨S 天≈ n i =1P 夨w i |w i ?1天再由条件概率的定义及大数定律， P 夨w i |w i ?1天夽P 夨w i ?1w i 天P 夨w i ?1天夽P 夨w i ?1w i 天count 夨?天P 夨w i ?1天count 夨?天≈count 夨w i ?1w i 天count 夨w i ?1天其中，count 夨w 天夽w 出现的次数，并且count 夨?天 w ∈W count 夨w 天，表示字和字的二元组出现次数总和。它们都可以由语料统计得到。于是， P 夨S 天≈ n i =1count 夨w i ?1w i 天count 夨w i ?1天这就是一个句子出现概率的算法。记W 夨y 天夽{拼音y 对应的所有字}?W ，不妨认为其中的元素按照某种顺序排好序。这样，给定一个包含m 个拼音的拼音串y 1y 2···y m ，如“奱奩奮奧奨奵奡奤奡奸奵奥”，可以枚举每一个可能的句子S ∈ m i =1W 夨y i 天夽{请,清,氢,...}×{画,话,华,...}×{大,打,答,...}×{学,雪,血,...}，计算P 夨S 天，然后认为P 夨S 天最大的S 就是这个拼音串对应的句子，即对y 1y 2···y m 求出奡奲奧奭奡奸S ∈ m i =1W (y i ) {P 夨S 天}实现上有几个问题：精度问题、平滑问题以及速度问题。夲

自然辨证法论文-浅析人工智能

浅析人工智能 21007002 关键词：人工智能、计算机、系统、哲学摘要：人工智能是一门通过运用人类智能的机理来使机器模拟人的智能的学科。它是计算机学科的一个分支，也是计算机科学、语言学、心理学、哲学、数学、控制论、信息论、决定论、神经生理学等多种学科相互渗透而发展起来的综合性学科。本文了分三部分对人工作智能进行了简要的介绍与分析，第一部分给出了人工智能的科学定义及哲学定义，第二部分阐述了人工智能的发展现状及发展趋势，最后一部分分析了人工智能给人类带来的利与弊。人工智能（Artificial Intelligence，简称AI）是计算机学科的一个分支，二十世纪七十年代以来被称为世界三大尖端技术（空间技术、能源技术、人工智能）之一，也被认为是二十一世纪三大尖端技术（基因工程、纳米科学、人工智能）之一。这是因为近三十年来它获得了迅速的发展，在很多学科领域都获得了广泛应用，并取得了丰硕的成果。它一方面成为人类智能的延长，另一方面又为探讨人类智能机理提供了新的理论和研究方法。一、人工智能的定义 1、人工智能的科学定义人工智能在科学层面上定义为一门通过运用人类智能的机理来使机器模拟人的智能的学科。具体来说就是通过研究人类智能活动的规律，构造具有一定智能的人工系统，让它去完成以往需要人的智力才能胜任的工作的基本理论、方法和技术。它是计算机科学的一个分支，也是计算机科学、语言学、心理学、哲学、数学、控制论、信息论、决定论、神经生理学等多种学科相互渗透而发展起来的综合性学科。人工智能有三种,第一种是通常所认为的那样, 试图让机器做你所做的事，如在工厂里干活,把人们从繁重的体力和脑力劳动中解放出来；第二种是通过接受大量不同的科学训练及日常生活的训练，使机器具有可以理解不同种类的事情、语言、制造计划、测试计划、解决问题、监视我们行动的能力等等；第三种是包括具有动机、情感、情绪等能力的机器,例如感到孤独,窘迫、自豪、厌恶、兴奋等。 2、人工智能的哲学定义在哲学意义上，人工智能被看作是一般性的智能科学，或更确切地说，被

浅谈人工智能

中国西部科技
２００９年１０月（下旬）第０８卷第３０期总第１９１期
浅谈人工智能
李轶博
（吉林石化信息网络公司软信公司，吉林１３２０２１）摘要：人工智能作为计算机学科的一个分支，有其自身的特点，现已在社会生活各个领域都有应用，并将有更为广阔的发展前景。关键词：人工智能；ＡＩ；模拟
关于人工智能的定义众说不一，美国斯坦福大学人工智能研究中心尼尔逊教授下过这样的一个定义：“人工智能是关于知识的学科——怎样表示知识以及怎么样获得知识并使用知识的科学。”而麻省理工学院的温斯顿教授认为：人工智能就是如何使用计算机去做过去只有人才能做的工作。”人们普遍认为人工智能，它是研究、开发用于模拟、延伸和扩展人的智能的理念、方法技术以及应用系统的一门新的技术科学。它是从计算机应用系统的角度出发，研究如何制造出人造的智能机器或智能系统，来模拟人类智能活动能力，以延伸人们智能的科学。人工智能就其本质而言，是对人的思维的信息过程的模拟，人工智能不是人的智能，更不会超过人的智能，对于人的思维模拟可是结构模拟，仿照人脑的结构机制，暂时撇开人脑的内部结构，而从其功能过程进行模拟。人工智能可以分为强人工智能和弱人工智能。强人工智能观点认为有可能制造出真正能推理和解决问题的智能机器，并且，这样的奇迹将被认为是有知觉的，有自我意识的。弱人工智能观点认为不可能制造出能真正的地推理和解决问题的智能机器，这些机器只不过看起来像是智能的，但并不真正拥有智能，也不会有自主意识。１人工智能研究的历史与现状人工智能的研究经历了以下几个阶段：第一阶段：２０世纪５０年代人工智能的兴起和冷落。人工
此计划最终失败，但它的开展形成了一股研究人工智能的热潮。第四阶段：２０世纪８０年代末，精神网络飞速发展。１９８７年，美国召开第一次精神网络国际会议，宣告了这一新学科的诞生。此后，各国在精神网络方面的投资逐渐增大，精神网络迅速发展起来。第五阶段：２０世纪９０年代，人工智能出现新的研究高潮。由于网络技术特别是国际互联网的技术发展，人工智能开始由单个智能主体研究转向基于网络环境下的分布式人工智能研究。不仅研究基于同一目标的分布式问题求解，而且研究多个智能主体的多目标问题求解，将人工智能面向实用。人工智能研究范畴有自然语言处理、知识表现、智能搜索、推理、知识获得、组合调度问题，感知问题，模式识别，逻辑程序设计，软计算，不精确和不确定的管理，人工生命，精神网络，复杂系统等。２人工智能是与具体领域相结合目前，人工智能是与具体领域相结合进行研究的，有如下领域：①专家系统。依靠人类已有的知识建立起来的知识系统，目前专家系统是人工智能研究中开展最早、最活跃、成就最多的领域。②机器学习。主要在三个方面进行：首先是研究人类学习的机理、人脑思维的过程。其次是机器学习的方法。最后是建立针对具体任务的学习系统。③模式识别。研究如何使机器具有感知能力，主要研究听觉模式和视觉模式的识别。④理解自然语言，计算机如能“听懂”人的语言，便可以直接用口语操作计算机，这将给人们带来极大的便利。⑤机器人学。机器人是一种模拟人的行为的机械，对它的研究历经三代发展过程：第一代机器人只能按程序完成工作。第二代机器人配备了像样的感觉传感器，能取得作业环境、操作对象等简单的信息，并由机器人体内的计算机进行分析处理，控制机器人的动作。第三代机器人具有类似人的智能，它装备了高灵敏度传感器，因而具有超过人的视觉、听觉、嗅觉、触觉的能力，能对感知的信息进行分析，控制自己的行为，处理环境发生的变化，完成各种复杂的任务。而且有自我学习、归纳、总结、提高已掌握知识的能力。⑥智能决策支（下转第４１页）
智能概念首次提出后，出现了一批显著的成果，如机器定理证明、跳棋程序、ＬＩＳＰ表处理语言等。但由于揭发推理能力有限，以及其翻译失败等，使人工智能走入低谷。这一阶段的特点是：重视问题求解的方法，忽视知识重要性。第二阶段：２０世纪６０年代末到７０年代，专家系统出现使人工智能研究出现新高潮，ＤＥＮＤＡＬ化学质谱分析系统、ＭＴＣＩＮ疾病诊断和治疗系统、ＰＲＯＳＰＥＣＴＩＯＲ探矿系统，Ｈｅａｒｓａｙ－ＩＩ语言理解系统等专家系统的研究和开发，将人工智能引向了实用化。１９６９年成立了国际人工智能联合会。第三阶段：２０世纪８０年代，随着第五代计算机的研制，人工智能得到了很大发展。日本１９８２年开始了“第五代计算机研制计划”，即“知识信息处理计算机系统ＬＩＰＳ”，其目的是使逻辑推理达到数值运算那么快。虽然
收稿日期：２００９－０９－０６修回日期：２００９－１０－１６
作者简介：李轶博（１９８２－），男，吉林籍，本科，助理工程师，主要研究方向为信息技术应用和管理。
58

浅谈人工智能与计算机

浅谈人工智能与计算机王晨浩计算机1506班201526810617 摘要人工智能一直处于计算机技术的前沿，人工智能研究的理论和发现在很大程度上将决定计算机技术的发展方向.人工智能作为计算机学科的一个分支,有其自身的特点,现已在社会生活各个领域都有应用,并将有更为广阔的发展前景。关键词人工智能 / 发展 / 应用 / 机器人 / 智能研究 / 计算机学科 1．引言在进入了二十一世纪之后，信息科学技术的发展越来越受到人们的重视，重视程度也超越了以往的任何时候。正是因为这样，人工智能技术的发展在进入新的世纪之后也有了非常快速的进步，那么，这项技术作为一种比较高端的信息科学技术，它主要是通过借助计算机的各种功能来非常形象的模拟我们人类的思维方式和思维结果，从而使人类的各种思维活动可以在计算机的程序当中得以实现[1]。2．人工智能的发展概述人工智能的研究经历了以下几个阶段：第一阶段：20世纪50年代人T智能的兴起和冷落。人工智能概念首次提出后，出现了一批显著的成果，如机器定理证明、跳棋程序、LISP表处理语言等。但由于揭发推理能力有限，以及其翻泽失败等，使人工智能走入低谷。这一阶段的特点是：重视问题求解的方法，忽视知识重要性。第二阶段：20世纪60年代末到70年代，专家系统出现使人工智能研究出现新高潮，DENDAI。化学质谱分析系统、MTCIN疾病诊断和治疗系统、PROSPECTIOR 探矿系统，Hearsay-II语言理解系统等专家系统的研究和开发，将人工智能引向了实用化。1969年成立了国际人工智能联合会。第三阶段：20世纪80年代，随着第五代计算机的研制，人工智能得到了很大发展。日本1982年开始了“第五代计算机研制计划”，即“知识信息处理计算机系统LIPS”，其目的是使逻辑推理达到数值运算那么快。虽然此计划最终失败，但它的开展形成了一股研究人工智能的热潮一第四阶段：20世纪80年代末，精神网络飞速发展。1987年，美国召开第一次精神网络国际会议，宣告了这一新学科的诞生。此后，各国在精神网络方面的投资逐渐增大，精神网络迅速发展起来。第五阶段：20世纪90年代，人工智能出现新的研究高潮。由于网络技术特别是嗣际互联网的技术发展，人工智能开始由单个智能主体研究转向基于网络环境下的分布式人工智能研

浅谈人工智能的现状与未来

浅谈人工智能的现状与未来摘要：作为二十世纪七十年代以来被称为世界三大尖端技术之一（空间技术、能源技术、人工智能），同时也被认为是二十一世纪三大尖端技术之一（基因工程、纳米科学、人工智能）。人工智能在很多科学领域都获得了广泛应用，并取得了丰硕的成果，本文将对人工智能的发展历程，现状以及发展趋势作一个初步的解读，人工智能应用于工程是是目前工程技术研究的热点之一，本文也将就人工智能中的专家系统、模拟逻辑、神经网络控制在机电一体化中的应用进行了探讨。关键词：人工智能；机电一体化；专家系统；模糊控制；神经网络控制；AI发展前景；什么是人工智能人工智能(Artificial Intelligence) ，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能与机电一体化系统的统一近几十年来，人工智能得到了长足的发展，譬如，IBM 公司制造的深蓝计算机运用人工智能于1997年5月，战胜了国际象棋冠军卡斯帕洛夫。人工智能用于机电一体化是机电一体化发展的方向之一。这种智能主要通过控制技术加以设计和实现，即由机电一体化系统中的控制系统来具体实现。专家系统、模糊逻辑、神经网络控制、学习控制和分层递阶是目前人工智能研究主要的几个领域，它们各自发展，又相互渗透，走向结合。其中，前三个领域是目前机电一体系统实现智能化的较成熟的领域。一，自从第一个专家系统于1968年问世以来，经过30多年的发展，专家系统已经成为人工智能应用最活跃的领域。已经从最初的应用于医疗、科技等领域，向财政、金融、保险、商业和法律方向扩展，下面就与机电一体化有关的应用予以探讨。（1）在装配制造业的应用：产品的生产，总是用零件来构造的，将不同的零件一起装配成一种新产品，叫做配里任务。专家系统应用于装配制造方面可以取得可观的经济效益。比如， DEC公司的专家系统XCON，是应用于计算机配置的第一个专家系统，现在每年为DEC公司盈利1。5亿美元（2）在设备故障诊断中的应用：专家系统用于设备故障诊断，特别是针对大型的结构、复杂的故障诊断，可以尽快找到故障，大大缩短检修时间，有很多成功的例子，比如美国西屋电气公司研制的GEN一AID专家系统，已经成功地应用于诊断汽轮发动机的故障。IBM公司也曾经为其IBMATPC机配备了一个专家系统，用来精确定位系统故障。（3）在控制方面的应用：专家系统可以在机电一体化设备控制方面发挥作用，在伺服控制、数控机床、加工中心以及其它控制领域，已取得了进展。在这方面成功的例子如AT&T公司为控制机械手，研制出在单个芯片上实现的专家系统。最早的芯片包括16条规则的ROM，控制器以及处理数据与规则的推理机。采用2。5um线宽的CMOS工作，最初只使用了芯片面积的四分之一，改用1。 5um线宽后可容纳256条规则，建立规则时采用模糊逻辑，执行速度可达到 80000LISP，比常规专家系统快1000倍。尽管大型专家系统的造价是很昂贵的，

自然语言理解技术

自然语言理解技术，未来人工智能的核动力摘要：自然语言理解是人工智能研究重要的领域之一，同时也是目前前沿的难题之一。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，是未来人工智能的核动力。因此理解自然语言理解以及自然语言理解技术的含义，阐述自然语言理解的研究及其相关应用，综述自然语言理解技术研究方向变化并对自然语言理解的发展前景进行分析和展望，是十分有意义的。关键词：自然语言理解技术；智能信息服务； 1.引言：随着计算机科学的不断发展和成熟，计算机应用开始迈人知识处理、语言理解阶段，人们对计算机的智能提出了新的要求随着社会的日益信息化，人们越来越强烈地希望能更好地同计算机交流。自然语言就是这样一个媒介。 2. 1自然语言理解的含义：广义的“语言”是任何一种有结构的符号系统。其中, 最重要的两类语言,自然语言和形式语言。而狭义的“语言”是人类在社会牛活中发展出来的用来互相交际的声音符号系统，是“自然语言”。 “自然语言理解”即Natural Language Understanding 俗称人机对话，指的就是使计算机来按照这种语言所表达的意义做出相应反应的机制。它主要研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动，包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。这在当前新技术革命的浪潮中占有十分重要的地位。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学特别是从人工智能的观点看，自然语言理解的任务是建立一种计算机模型，这种计算机模型能够给出象人那样理解、分析并回答自然语言（即人们日常使用的各种通俗语言）的结果。2. 1自然语言理解技术的含义：首先, 自然语言是极其复杂的符号系统。一个人尽管可以对自己的母语运用自如, 但却无法把自己母语的构成规律、意义的表达规律和语言使用的规律用计算机可以接受的方式彻底说清楚。传统的语言学是在没有计算机参照的条件下发展起来的, 虽然为自然语言理解积累了宝贵的财富, 但那是讲给人的, 真正要让语言学知识变成计算机上可操作的, 绝不是那么简单, 也不能那么模糊。这个目标的实现,需要大量又懂语言学又懂计算机的人在正确的技术路线的指导下一起做非常大规模的基本建设, 绝不是一拍脑袋想出个“绝招”就能解决的。其次, 自然语言的各个层次上都含有巨大的不确定性。在语音和文字层次上,有一字多

第5章：自然语言语言模型

No.95, Zhongguancun Beijing 100080, China

NLPR 5.1 基本概念 NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义

NLPR 5.1 基本概念大规模语料库的出现为自然语言统计处理方法的实现提供了可能，统计方法的成功使用推动了语料库语言学的发展。基于大规模语料库和统计方法，我们可以－发现语言使用的普遍规律－进行机器学习、自动获取语言知识－对未知语言现象进行推测 NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义

NLPR 5.1 基本概念如何计算一段文字(句子)的概率？阳春三月春意盎然，少先队员脸上荡漾着喜悦的笑容，鲜艳的红领巾在他们的胸前迎风飘扬。以一段文字(句子)为单位统计相对频率？根据句子构成单位的概率计算联合概率? p(w1)×p(w2)×…×p(w n) NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义

NLPR 5.1 基本概念说明： (1) w i可以是字、词、短语或词类等等，称为统计基元。通常以“词”代之。 (2) w i的概率由w1, …, w i-1决定，由特定的一组 w1, …, w i-1 构成的一个序列，称为w i的历史（history）。 NLPR, CAS-IA 2007-4-3宗成庆：《自然语言理解》讲义

浅谈人工智能技术及其应用发展

2019.01科技论坛浅谈人工智能技术及其应用发展李思睿 (绵阳南山中学，四川绵阳，6n o o o) 摘要：本文就人工智能的定义以及其主要的相关技术题型进行阐述，并且探讨了人工智能技术所应用的一些热门领域。人工智能技术目前作为一门交叉性的学科，未来其发展趋势会在很大程度上影响和改变我们的生活。关键词：物联网；计算机技术；人工智能 Talking about Artificial Intelligence Technology and Its Application Development Li Sirui (Mianyang Nanshan Middle School,Mianyang Sichuan,621000) Abstract:In this paper,the definition of artificial intelligence and its main related technical topics are described,and some hot areas of application of artificial intelligence technology are discussed.Artificial intelligence technology is currently an interdisciplinary subject,and its future development trend will affect and change our lives to a large extent. K e y w o r d s:Internet of Things;Computer Technology;Artificial Intelligence 〇引言 AI(人工智能技术)其本质是模拟人类意识和思维信息的过程，通过机器实现,模拟人类感知、识别、和决策功能的技术。在大数据挖掘,云计算以及深度学习等理论支持下，人工智能呈现出跨界融合、人机协同、自主操纵等特征。目前，人工智能技术广泛地应用于自动驾驶、智能家居、智慧医疗、图像识别、语音助手等领域。 1人工智能的相关技术人工智能的应用领域包括问题求解、自然语言处理、人工智能方法和程序语言等等，这些应用领域已经适用到了很多行业，进而推动了社会科学的总体发展。对于人工智能技术的实现技术体系而言，主要涉及以下四个方面：机器学习、自然语言处理技术、图像处理技术、人机交互技术。在机器学习上，机器学习的能力是人工智能技术最为凸显的一种表现手段，与此同时人工智能也在此技术上有了很多改变。自然语言处理是融合了计算机科学、语言学和人工智能于一体的交叉研宄方向，它的目的是“让计算机理解自然语言”,更高效的完成工作任务。图像处理技术是将图像处理技术与人工智能相结合的方法，在原有自动识别的基础上，我们提出一种基于专家系统的知识识别方法。人机交互技术使用户与计算机系统通过可以通过人机交互界面进行交流。机器显示大量提示与请求，用户通过输入设备给计算机提供有关信息，从而达成人机互动。其知识结构体系如表1所示。表1人工智能主要技术体系技术体系技术方法机器学习监督学习（监督分类学习，回归飞行系），无监督学习，强化学习图像处理技术遗传算法，图像降维，图像识别，图像分割，特征提取人机交互技术UI 设计、可视化技术、GIS跟踪技术、动作识人机界面技术，语音识别技术自然语言处理语音识别，语句分析，文本转化 1.1机器学习机器学习指的是计算机通过分析、学习、归纳大量数据, 达到拥有能够自主做出最佳判断与决策的能力，简单的说, 机器学习是一种A I技术在不同应用场景下时‘命令行”语句或者方法。机器学习主要内容包涵有深度学习、深度人工神经网络、决策树、增强算法等。机器学习对于人工智能技术十分重要，而算法的发展也对人工智能技术的发展起到了作用。 1.2自然语言舰自然语言处理技术包含两个方面，一是将人类语言转化为计算机可以处理的形式，二是将计算机数据转为人类语言的自然形式，以此达到计算机能够理解人类语言的目的。目前，市面上已有应用该技术的产品，例如Apple的siri、微软的C o r t m a,这些产品能够协助人们完成许多任务，其核心技术不仅包括自然语言技术，也包含了深度学习。自然语言处理综合了语言学、计算机科学、数学等学科，该技术内又包含了信息检索、信息抽取、词性标注、语法分析、语音识别、语法解析、语种互译等技术。 1.3图像顺支术图像是人类获取信息的主要途径，人工智能技术要实现模拟人类分析问题、解决问题的功能,图像处理技术不可缺少。图像处理技术使计算机拥有视觉，可以处理、分析图片或多维的数据。在大数据时代，如何对海量图像数据进行信息 iliiia m

统计自然语言处理--分类与聚类

聚类与分类
IRLAB

聚类

大纲
? 聚类分析简介 ? 层次聚类 – 单连接和全连接聚类 – 组平均聚类 – 应用：改进语言模型 – 自顶向下聚类 ? 非层次聚类 – K-均值 – EM算法

什么是聚类分析?
? 聚类: 数据对象的集合 – 在同一个类中，数据对象是相似的 – 不同类之间的对象是不相似的 ? 聚类分析 – 一个数据集合分组成几个聚类 ? 聚类是一种无监督分类:没有预定义的类 ? 典型应用 – 作为一个独立的工具透视数据分布 – 可以作为其他算法的预处理步骤

聚类在自然语言中的应用
? 探测数据分析（exploratory data analysis）
– 例如词性标注，将相似的词作为同一种词性，对前置词比较有效 – 对this和the 这种语法语义特征不一致的词，不总分在一组的词不适合
? 概化（generalization）
– 等价类，可以使用相同的上下文环境，解决数据稀疏问题 – 同时聚类是学习的一种方法（推理 Friday 的前置词）

聚类算法类型
? 层次聚类与非层次聚类 – 层次聚类的每一个节点是其父节点的一个子类，叶节点对应的是类别中每一个单独的对象，常用算法自底向上与自上向下（凝聚与分裂） – 非层次聚类只是简单的包括了每类的数量，体现不了他们之间的层次关系，常用算法K-均值 ? 软聚类与硬聚类 – 硬聚类将每一个对象分到一个且只能是一个的类别中，例如K-均值 – 软聚类刻画的是将对象归属不同类的程度，模糊聚类（EM算法）

地球上两点的经纬度计算他们距离的公式

假设地球是一个标准球体，半径为R,并且假设东经为正，西经为负，北纬为正，南纬为负，则A(x,y)的坐标可表示为（R*cosy*cosx, R*cosy*sinx,R*siny） B(a,b)可表示为(R*cosb*cosa ,R*cosb*sina,R*sinb) 于是，AB对于球心所张的角的余弦大小为 cosb*cosy*(cosa*cosx+sina*sinx)+sinb*siny=cosb*cosy*cos(a-x)+s inb*siny 因此AB两点的球面距离为 R*{arccos[cosb*cosy*cos(a-x)+sinb*siny]} 注：1.x,y,a,b都是角度，最后结果中给出的arccos因为弧度形式。 2.所谓的“东经为正，西经为负，北纬为正，南纬为负”是为了计算的方便。比如某点为西京145°，南纬36°，那么计算时可用(-145°,-36°) 3.AB对球心所张角的球法实际上是求和两向量的夹角K。用公式*=|OA|*|OB|*cosK 可以得到其中地球平均半径为6371.004 km

假设地球是个标准的球体：半径可以查出来，假设是R: 如图：要算出A到B的球面距离，先要求出A跟B的夹角，即角AOB，求角AOB可以先求AOB的最大边AB的长度。在根据余弦定律可以求夹角。 AB在三角形AQB中，AQ的长度可以根据AB的纬度之差计算。 BQ在三角形BPQ中，BP和PQ可求，角BPQ可以根据两者的经度求出，这样BQ的长度也可以求出来，所以AB的长度是可以求出来的。因为三角形ABQ是直角三角形，已经得到两个边知道了角AOB后，AB的弧长是可以求的。这样推出其公式就不难了关于用经纬度计算距离：地球赤道上环绕地球一周走一圈共40075.04公里,而@一圈分成360°,而每1°(度)有60,每一度一秒在赤道上的长度计算如下： 40075.04km/360°=111.31955km 111.31955km/60=1.8553258km=1855.3m 而每一分又有60秒,每一秒就代表1855.3m/60=30.92m 任意两点距离计算公式为 d＝111.12cos{1/[sinΦAsinΦB十cosΦAcosΦBcos(λB—λA)]} 其中A点经度，纬度分别为λA和ΦA，B点的经度、纬度分别为λB和ΦB，d为距离。至于比例尺计算就不废话了

浅谈人工智能原理及应用

模式识别与智能系统摘要：人工智能(Artifical Intelligence)是关于知识的学科――怎样表示知识以及怎样获得知识并使用知识的科学。”而另一个美国麻省理工学院的温斯顿教授认为：“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”这些说法反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。人工智能是当前科学技术发展中的一门前沿学科，是在计算机科学、控制论、信息论、神经心理学、哲学、语言学等多种学科研究的基础上发展起来的，以模拟人类智能、智能行为及其规律为研究内容的一门综合性边缘学科。由于人工智能自出现以来取得的巨大成就及其潜在的广阔应用前景，它又同空间技术、原子能技术并称为20世纪的三大科学技术成就。关键词：人工智能；计算机科学；发展方向 ①、人工智能的定义人工智能(Artificial Intelligence，AI)，是一门综合了计算机科学、生理学、哲学的交叉学科。“人工智能”一词最初是在1956年美国计算机协会组织的达特莫斯(Dartmouth)学会上提出的。自那以后，研究者们发展了众多理论和原理，人工智能的概念也随之扩展。由于智能概念的不确定，人工智能的概念一直没有一个统一的标准。著名的美国斯坦福大学人工智能研究中心尼尔逊教授对人工智能下了这样一个定义“人工智能是关于知识的学科——怎样表示知识以及怎样获得知识并使用知识的科学。”而美国麻省理工学院的温斯顿教授认为“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”童天湘在《从“人机大战”到人机共生》中这样定义人工智能：“虽然现在的机器不能思维也没有“直觉的方程式”，但可以把人处理问题的方式编入智能程序，是不能思维的机器也有智能，使机器能做那些需要人的智能才能做的事，也就是人工智能。”诸如此类的定义基本都反映了人工智能学科的基本思想和基本内容。即人工智能是研究人类智能活动的规律，构造具有一定智能的人工系统，研究如何让计算机去完成以往需要人的智力才能胜任的工作，也就是研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。