自然语言理解1
自然语言理解的概念

自然语言理解的概念嘿,朋友!您知道什么是自然语言理解吗?这可是个相当有趣又神奇的领域!您想想,咱们每天说的话、写的字,那都是自然语言。
就像咱们跟朋友聊天,随口说的那些话,比如“今天天气真好,出去逛逛呗”,这就是再自然不过的语言表达啦。
那自然语言理解呢,简单来说,就是让计算机能像咱们人类一样去理解这些自然的话语。
这可不容易,就好比让一只小猫去理解人类的复杂情感和思维。
比如说,您跟计算机说“给我推荐一部好看的喜剧电影”,自然语言理解要做的就是搞清楚您的意图,明白您是想要喜剧电影的推荐。
这可不是简单的事儿,计算机得从您这句话里分析出关键词,理解您的需求,还得知道啥叫“好看”,啥是“喜剧电影”。
这就好像解一个超级复杂的谜题。
计算机得学会分辨咱们语言中的各种模糊和多义。
比如说“我有点冷”,这“有点冷”到底是多冷?是需要加件衣服,还是开个暖气?计算机得琢磨清楚这里面的意思。
还有啊,咱们说话有时候可没那么规整。
一会儿说这个,一会儿扯那个,语序也不一定完全符合语法。
但咱们自己能明白意思,计算机就得有本事从这看似混乱的表述中理出头绪。
自然语言理解还得能应对各种语境。
就像同样一句话“这个苹果真甜”,在水果店里说和在餐桌上说,意思可能就不太一样。
在水果店里可能是在评价苹果的品质,在餐桌上可能是在表达对这顿饭里苹果这道菜的喜爱。
它还得能理解咱们的幽默、讽刺、委婉这些复杂的情感表达。
您说“你可真行啊!” 这到底是真心夸赞还是反讽,计算机得能分辨得出来。
您再想想,要是计算机真能把自然语言理解得透透的,那得多厉害!咱们跟它交流就跟跟朋友聊天一样顺畅,它能帮咱们解决各种问题,提供各种有用的信息。
那生活得多方便,多有趣呀!所以说,自然语言理解虽然困难重重,但一旦实现了,那就是给咱们的生活打开了一扇神奇的大门。
咱们可以更轻松地与计算机交流,让它们更好地为咱们服务。
这难道不值得期待吗?总之,自然语言理解是让计算机走进咱们人类语言世界的关键钥匙,它能让科技与咱们的生活更加紧密地融合,为咱们带来更多的便利和惊喜!。
自然语言理解-句法分析算法(1)

status m
q
n
$
NP
MP
0
s1
s7
4
3
1
s2
2
r4
r4
r4
r4
(1) NP NP NP (2) NP MP NP (3) NP n
3
s1
s7
5
3
(4) MP m q
4
s1
s7
acc
6
3
5
s1 r2
r2
s7 r2 r2
6
3
6
s1 r1
r1
s7 r1 r1
6
3
7
r3
r3
r3
r3
Stack $ 0 mMNacPPc143qNnNn2PP7765 nNP7 6
是待分析的)
3. 整数i : 状态起点(已分析子串的起点) 4. 整数j : 状态终点(已分析子串的终点) i
≤j
比如: <S NP ·VP 0, 4>
基本操作
预测(Predicator):如果圆点右方是一个非终结符, 那么以该非终结符为左部的规则都有匹配的希望,也 就是说分析器可以预测这些规则都可以建立相应的项 目。
$
$ 0 MP 3 NP 5 NP 6
$
$ 0 MP 3 NP 5
$
$ 0 NP 4
$
$ 0 acc
$
$ 0 NP 4
n$
$ 0 NP 4 n 7
$
$ 0 NP 4 NP 6
$
$ 0 NP 4
$
$ 0 acc
$
算法分析
类似深度优先搜索
如果改变备份栈顺序,可以实现其它搜索策 略。(agenda)
自然语言1

1.句意补充:强特征词做为缺省词房子的面积大“房子大”输出输入箱子的体积大箱子大大脑联想例子:猫好瘦猫的体型好瘦裤子瘦裤子尺寸瘦成果:语义理解模型解决:通过上述的语义网络、缺省推理来解决复杂的语言现象2.论元(PS.名词短语)结构(动词、形容词、部分名词)根据计算机处理汉语的实际需要,详细地研究了汉语动词论元结构的论元属性、论旨属性、语法特征、语义特征、配位方式,把汉语动词的论元分为施事、感事、致事、主事、受事、与事、结果、对象、系事、工具、材料、方式、场所、源点、终点、范围、经事、原因、目的、时间、路径、话题、说明等论元,删除了原来的命题论元,共23个,形成了“论旨角色标记集”۰施事(A):行为的发出者郭德纲吃了一个驴肉火烧۰感事(Se):支配感动事的动词一定是感觉(心理动词)陈老师太累了۰致事(Cau):使动性郭德纲的段子让大家狂笑不止۰主事(Th):发生改变的主体乐乐掉沟坑里了۰受事(P):郭德纲吃了一个驴肉火烧۰与事(D):非主动参与着我问了老师一个问题۰结果(R):宾语是结果我喝了一口水۰对象(Ta):宾语时对象妹妹喜欢漫画۰系事(Re):跟主事相对的事物老郭是非著名相声演员۰工具(I):我用水果刀切菜۰材料(Ma):爸爸用淘米水洗菜۰方式(M):动作采取的方式、方法他用低音唱了一首《船夫曲》۰场所(L):我在郦城吃饭۰源点(So):动作开始的事件或地点离开北京去上海۰终点(Go):离开北京去上海范围(Ra):动作涉及数量、频率、幅度、时间一个小时跑二十公里总结:施事可以单独出现……P152论元角色的句法配置,就等于建立了一种标注了语义关系的句法格式语法指标:1.施事(1)基础句主语:弟弟哭了(2)“把”字句:我把汤弄洒了(3)“被”“由”介词:这个交给瑶姐负责(4)做重叠形式的主语:你试一试;妈妈笑了笑(5)做否定形式的主语:小坤坤不去;小坤坤没有去(6)处所成分:家里来客人了…p159论元结构的描述框架语义标注:每个动词句法配置格式。
一种基于自然语言理解的文本中事件的抽取方法[发明专利]
![一种基于自然语言理解的文本中事件的抽取方法[发明专利]](https://img.taocdn.com/s3/m/60fd7ce53086bceb19e8b8f67c1cfad6195fe93d.png)
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201811084235.8(22)申请日 2018.09.18(71)申请人 中国电子科技集团公司第二十八研究所地址 210007 江苏省南京市苜蓿园东街1号(72)发明人 姜晓夏 吴振锋 葛唯益 杨岩 王羽 王振宇 丁蔚然 罗子娟 (74)专利代理机构 江苏圣典律师事务所 32237代理人 黄振华(51)Int.Cl.G06F 17/27(2006.01)G06F 16/25(2019.01)(54)发明名称一种基于自然语言理解的文本中事件的抽取方法(57)摘要本发明公开了一种基于自然语言理解的文本中事件的抽取方法,用于解决在计算社会科学领域,政治事件自动理解和自动量化的难题。
本发明可以从海量的非结构化文本中,自动提取出结构化的政治事件,并对事件的发起者、承受者、事件类型、时间、地点等要素进行规范化编码。
现有政治事件提取系统如Petrarch、BBN Serif均针对英文进行处理,本发明可弥补中文政治事件自动提取的空白。
提取出的事件数据可用于开展安全形势、国家关系等分析和预测应用。
权利要求书2页 说明书12页 附图1页CN 109446513 A 2019.03.08C N 109446513A1.一种基于自然语言理解的文本中事件的抽取方法,其特征在于,包括如下步骤:步骤1,用户给定一篇中文文本作为输入,文本中的字段包含标题、正文、发布时间,其中标题和正文用于进行事件抽取,发布时间用于全文的时间映射;步骤2,对文本进行分句,并对每一句话进行分词、词性标注和实体识别;其中,分词和词性标注作为实体识别中特征提取的基础,而事件的发起者、承受者、地点三类要素将从实体识别的结果中产生;步骤3,对文本全文出现的时间进行抽取,并以步骤1中发布时间作为基准,将不同表达方式的时间映射到同一时间轴,作为候选的事件发生时间;步骤4,对文本进行过滤,过滤标准包括:时间超出范围、不包含实体、匹配停止模式,保留下来的句子被称为事件句;步骤5,对事件句进行句法解析,并基于生成的句法树,通过广度优先遍历获取句子中的动词,将动词按照从根到叶子节点的顺序组织,称为关键动词列表;步骤6,对事件句进行自动语义角色标注,并基于标注的结果,获取每个关键动词所对应的地点LOC和时间TMP角色;步骤7,对关键动词列表中的每个元素,以其作为核心动词,从事件模板库中获取到对应的事件模板列表,按照预定的优先级进行模板匹配和事件要素抽取;步骤8,结合匹配的模板,判断句子是否属于特殊句式,并对结果进行相应的转换;步骤9,对抽取的结果进行拆解和变换,形成一到多个事件,使发起者、承受者、事件发生地形成一一对应的关系;步骤10,参考CAMEO编码规范,利用参与者编码表对发起者和承受者的国家、角色、宗教、职位属性进行编码;步骤11,利用地理信息库对事件发生地的国家、所属行政区、经纬度属性进行编码;步骤12,利用事件评分表对描述事件和平和冲突程度的分值、事件对双边关系的影响分值进行赋值,并将事件划分到具体的类别。
自然语言理解课程实验报告

实验一、中文分词一、实验内容用正向最大匹配法对文档进行中文分词,其中:(1)wordlist.txt 词表文件(2)pku_test.txt 未经过分词的文档文件(3)pku_test_gold.txt 经过分词的文档文件二、实验所采用的开发平台及语言工具Visual C++ 6.0三、实验的核心思想和算法描述本实验的核心思想为正向最大匹配法,其算法描述如下假设句子: , 某一词 ,m 为词典中最长词的字数。
(1) 令 i=0,当前指针 pi 指向输入字串的初始位置,执行下面的操作:(2) 计算当前指针 pi 到字串末端的字数(即未被切分字串的长度)n ,如果n=1,转(4),结束算法。
否则,令 m=词典中最长单词的字数,如果n<m, 令 m=n ;(3) 从当前 pi 起取m 个汉字作为词 wi ,判断:(a) 如果 wi 确实是词典中的词,则在wi 后添加一个切分标志,转(c);(b) 如果 wi 不是词典中的词且 wi 的长度大于1,将wi 从右端去掉一个字,转(a)步;否则(wi 的长度等于1),则在wi 后添加一个切分标志,将wi 作为单字词添加到词典中,执行 (c)步;(c) 根据 wi 的长度修改指针 pi 的位置,如果 pi 指向字串末端,转(4),否则, i=i+1,返回 (2);(4) 输出切分结果,结束分词程序。
四、系统主要模块流程、源代码(1) 正向最大匹配算法12n S c c c = 12i m w c c c =(2)原代码如下// Dictionary.h#include <iostream>#include <string>#include <fstream>using namespace std;class CDictionary{public:CDictionary(); //将词典文件读入并构造为一个哈希词典 ~CDictionary();int FindWord(string w); //在哈希词典中查找词private:string strtmp; //读取词典的每一行string word; //保存每个词string strword[55400];};//将词典文件读入并CDictionary::CDictionary(){ifstream infile("wordlist.txt"); // 打开词典if (!infile.is_open()) // 打开词典失败则退出程序{cerr << "Unable to open input file: " << "wordlist.txt"<< " -- bailing out!" << endl;exit(-1);}int i=0;while (getline(infile, strtmp)) // 读入词典的每一行并将其添加入哈希中{strword[i++]=strtmp;}infile.close();}CDictionary::~CDictionary(){}//在哈希词典中查找词,若找到,则返回,否则返回int CDictionary::FindWord(string w){int i=0;while ((strword[i]!=w) && (i<55400))i++;if(i<55400)return 1;elsereturn 0;}// 主程序main.cpp#include "Dictionary.h"#define MaxWordLength 14 // 最大词长为个字节(即个汉字)# define Separator " " // 词界标记CDictionary WordDic; //初始化一个词典//对字符串用最大匹配法(正向)处理string SegmentSentence(string s1){string s2 = ""; //用s2存放分词结果string s3 = s1;int l = (int) s1.length(); // 取输入串长度int m=0;while(!s3.empty()){int len =(int) s3.length(); // 取输入串长度if (len > MaxWordLength) // 如果输入串长度大于最大词长 {len = MaxWordLength; // 只在最大词长范围内进行处理 }string w = s3.substr(0, len); //(正向用)将输入串左边等于最大词长长度串取出作为候选词int n = WordDic.FindWord(w); // 在词典中查找相应的词while(len > 1 && n == 0) // 如果不是词{int j=len-1;while(j>=0 && (unsigned char)w[j]<128){j--;}if(j<1){break;}len -= 1; // 从候选词右边减掉一个英文字符,将剩下的部分作为候选词 w = w.substr(0, len); //正向用n = WordDic.FindWord(w);}s2 += w + Separator; // (正向用)将匹配得到的词连同词界标记加到输出串末尾s3 = s1.substr(m=m+w.length(), s1.length()); //(正向用)从s1-w处开始}return s2;}int main(int argc, char *argv[]){string strtmp; //用于保存从语料库中读入的每一行string line; //用于输出每一行的结果ifstream infile("pku_test.txt"); // 打开输入文件if (!infile.is_open()) // 打开输入文件失败则退出程序{cerr << "Unable to open input file: " << "pku_test.txt"<< " -- bailing out!" << endl;exit(-1);}ofstream outfile1("SegmentResult.txt"); //确定输出文件if (!outfile1.is_open()){cerr << "Unable to open file:SegmentResult.txt"<< "--bailing out!" << endl;exit(-1);}while (getline(infile, strtmp)) //读入语料库中的每一行并用最大匹配法处理{line = strtmp;line = SegmentSentence(line); // 调用分词函数进行分词处理outfile1 << line << endl; // 将分词结果写入目标文件cout<<line<<endl;}infile.close();outfile1.close();return 0;}五、实验结果及分析(1)、实验运行结果(2)实验结果分析在基于字符串匹配的分词算法中,词典的设计往往对分词算法的效率有很大的影响。
第5课 《大自然的语言》(解析版)-“举一反三”拓展延伸阅读(部编版)

第5课《大自然的语言》一、阅读下面的文章,完成后面的题目。
唐宋大诗人诗中的物候竺可桢①我国古代相传有两句诗说道:“花如解语应多事,石不能言最可人。
”但现在看来,石头和花卉虽没有声音和语言,却有它们自己的一套结构组织来表达它们的本质。
自然科学家的任务就在于了解这种本质,使石头和花卉能说出宇宙的秘密。
正如贾思勰在《齐民要术》里所指出的那样,杏花开了,好像它传语农民赶快耕土;桃花开了,好像它暗示农民赶快种谷子。
春末夏初布谷鸟来了,农民知道它讲的是什么话:“阿公阿婆,割麦插禾。
”从这一角度看来,花香鸟语都是大自然的语言,重要的是我们要能体会这种暗示,明白这种传语,从而理解大自然,改造大自然。
②明末的学者黄宗羲说:“诗人萃天地之清气,以月、露、风、云、花、鸟为其性情,其景与意不可分也。
月、露、风、云、花、鸟之在天地间,俄顷灭没,而诗人能结之不散。
常人未尝不有月、露、风、云、花、鸟之咏,非其性情,极雕绘而不能亲也。
”换言之,月、露、风、云、花、鸟乃是大自然的一种语言,从这种语言可以了解到大自然的本质,即自然规律。
而大诗人能掌握这类语言的含意,所以能编为诗歌而传之后世。
③唐白居易十五岁时,曾经写过一首咏芳草的诗:“离离原上草,一岁一枯荣。
野火烧不尽,春风吹又生……”诗人顾况看到这首诗,大为赏识。
一经顾况的吹嘘,这首诗便被传诵开来。
这四句古诗指出了物候学上两个重要规律:第一是芳草的荣枯,有一年一度的循环;第二是这循环是随气候转移的,春风一到,芳草就苏醒了。
④在温带的人们,经过一个寒冬以后,就希望春天的到来。
但是,春天来临的指标是什么呢?这从许多唐、宋人的诗中我们可以找到答案。
李白诗:“东风已绿瀛州草,紫殿红楼觉春好。
”王安石晚年住在江宁,有句云:“春风又绿江南岸,明月何时照我还?”据宋洪迈《荣斋续笔》中指出:王荆公写这首诗时,原作“春风又到江南岸”,经推敲后,认为“到”字不合意,改了几次才下了“绿”字。
李白、王安石他们在诗中统用“绿”字来象征春天的到来,到如今,在物候学上,花木抽青也还是春天重要指标之一。
自然语言理解和自然语言处理
自然语言理解和自然语言处理
自然语言理解和自然语言处理是人工智能领域的两个重要分支。
自然语言理解指的是对自然语言文本进行分析和理解的过程,目的是将文本转化为计算机可处理的形式。
自然语言处理则是利用计算机技术对自然语言文本进行处理和生成的过程,包括文本分类、信息抽取、机器翻译等。
自然语言理解和自然语言处理在许多领域都有广泛的应用,如智能客服、搜索引擎、社交媒体分析等。
它们能够帮助人们更高效、更准确地获取和处理信息,提高信息处理的效率和精度。
随着人工智能技术的不断发展,自然语言理解和自然语言处理也在不断演进。
目前,自然语言处理技术已经相对成熟,但自然语言理解技术仍有很大的提升空间。
未来,随着技术的不断进步和应用场景的不断扩展,自然语言理解和自然语言处理将会发挥更加重要的作用,为人们提供更加优质的服务。
- 1 -。
自然语言处理导论1-数学基础
例:假如一个字符发射器,随机发出0和1两种字符, 真实发出概率分布为A,但实际不知道A的具体分布。 现在通过观察,得到概率分布B与C。各个分布的具 体情况如下:
贝叶!斯"#在$拼%写&'纠(正)*的+一,个-.例/子
问题:计算机看到用户输入了一个不在字典中的单词thew, 计算机需要去猜测:“这个家伙到底真正想输入的单词是什 么呢?”
用刚才我们形式化的语言来叙述就是,我们需要求概率: P(我们猜测他想输入的单词 | 他实际输入的单词) 并找出那个使得这个概率最大的猜测单词。
!"
#$%&'()*
+,%-(./()0'*
!"#$
12!"
3!"45
贝叶6斯7方8+法9的:由;来<
“所谓的贝叶斯方法源于他生前为解决一个“逆概”问题 写的一篇文章,而这篇文章是在他死后才由他的一位朋友发 表出来的。在贝叶斯写这篇文章之前,人们已经能够计算 “正向概率”,如“假设袋子里面有N个白球,M个黑球, 你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然 而然的问题是反过来:“如果我们事先并不知道袋子里面黑 白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察 这些取出来的球的颜色之后,那么我们可以就此对袋子里面 的黑白球的比例作出什么样的推测”。这个问题,就是所谓 的逆概问题。”
P(Girl|Pants) =
P(Girl) * P(Pants|Girl) / [P(Boy) * P(Pants|Boy) + P(Girl) * P(Pants|Girl)]
自然语言处理教学课件1
分布式词向量的出现,深度学习开始在自然语言处 理中大范围应用
ELMo、GPT、BERT为代表的上下文相关词向量的 出现缓解了传统上下文无关词向量中静态向量的问 题,得到进一步发展
20
第1章 绪论
1.1 自然语言处理的定义 1.2 自然语言处理的研究内容 1.3 自然语言处理的流派
词法分析 句法分析 语义分析
目标是获得不同语言单位的语义信息 包括:
词义消歧(Word sense disambiguation) 语义角色标注(Semantic role labeling) 语义依存分析(Semantic dependency parsing)
语义角色标注
语义依存分析 13
自然语言处理
第 1 章 绪论
教材:
刘挺等《自然语言处理》 高等教育出版社,2021
1
绪论
自然语言
通常指人类的语言 人类思维和逻辑的载体
对自然语言的研究是人工智能的重要研究内容
2
绪论
自然语言
通常指人类的语言 人类思维和逻辑的载体
对自然语言的研究是人工智能的重要研究内容
被测试者:一个人和一台机器
11
自然语言处理的研究内容
基础研究
词法分析 句法分析
目标是确定句中词的语法功能或词之间的关系 包括:
短语结构分析(Phrase structure parsing):短语结构树 依存关系分析(Dependency parsing):依存树
短语结构树
依存树
12
自然语言处理的研究内容
基础研究
✓ 1.4 自然语言处理的挑战
大自然的语言,下定义的句子
大自然的语言,下定义的句子一、表达“大自然语言”的句子有哪些?1、白云,这是大自然的语言,白云飘得高高,明天是个晴天。
2、地上的蚂蚁,这是大自然的语言,蚂蚁忙着搬家,出门要带雨伞。
3、蝌蚪在水中游泳,这是大自然的语言,看到蝌蚪在水中游,春天来到人间。
4、天上的大雁,是大自然的语言,大雁在编队南飞,秋天就在眼前。
5、大树,如果被砍倒,可以发现大树的年轮一年只长一圈,有多少个圈就代表着大树多少岁。
6、大鱼,这是大自然的语言,鱼鳞上有圈圈,一圈就是一岁。
7、“三叶虫”化石,这是大自然的语言,“三叶虫”化石被嵌在喜马拉雅山巅,这是在告诉人们那儿曾是汪洋一片。
8、大自然把一块“漂砾”,、撒在江南的庐山,、那又在提醒大家,、这儿有过寒冷的冰川。
9、麻雀,这是大自然的语言,看到麻雀囤食,预示要落雪。
10、燕子,这是大自然的语言,看到燕子低飞,这是预示着将要下雨。
二、搜集大自然的语言摘抄?①立春天气晴,百事好收成。
乌云接日头,半夜雨不愁。
雷声绕圈转,有雨不久远。
清明热得早,早稻一定好。
枣花多主旱,梨花多主涝。
雷公先唱歌,有雨也不多。
蚯蚓封洞,有大雨。
草灰结成饼,天有风雨临。
大水无雷,浸崩屋。
②六月六秋,早收晚丢。
日出红云升,劝君莫远行;日落红云升,来日是晴天。
喜鹊枝头叫,出门晴天报。
日晕三更雨,月晕午时风。
燕子低飞蛇过道,蚂蚁搬家山戴帽。
一场春雨一场暖。
朝霞不出门,晚霞行千里。
不怕初一阴,就怕初二下。
久晴大雾必阴,久雨大雾必晴。
十雾九晴。
日出红云升,劝君莫远行;日落红云升,则日是晴天。
东风湿,西风干,北风寒,南风暖。
乌云拦东,不下雨也有风。
乱云天顶绞,风雨来不小。
三、大自然的语言有哪些怎么写?白云,这是大自然的语言,白云飘的高高,明天是个晴天。
地上的蚂蚁,这是大自然的语言,蚂蚁忙着搬家,出门要带雨伞。
蝌蚪在水中游泳,这是大自然的语言,看到蝌蚪在水中游,春天来到人间。
天上的大雁,是大自然的语言,大雁在排队南飞,秋天就在跟前。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
自然语言处理
自然语言处理(Natural Language Processing)俗称人机对话,是研究如何利用计算机来理解和处理自然语言的,即把计算机作为语言研究的工具,在计算机技术的支持下对语言信息进行定量化的研究,通常又被称为自然语言理解或计算语言学。
1.自然语言处理研究的意义
它是计算机科学领域与人工智能领域中的一个重要分支学科,其研究是用电子计算机模拟人的语言交际过程,使计算机能理解和运用人类社会的自然语言如汉语、英语等,实现人机之间的自然语言通信,以代替人的部分脑力劳动,包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理。
这在当前新技术革命的浪潮中占有十分重要的地位。
研制第5代计算机的主要目标之一,就是要使计算机具有理解和运用自然语言的功能。
自然语言理解是一门新兴的边缘学科,内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学,而以语言学为基础。
自然语言处理的目的是实现计算机对语言信息的自动分析和理解,它立足于实验、理论和计算三大支柱,通过以对人脑及语言认知的实现途径进行模拟研究,建立起多层次网络处理模型来阐明人脑语言信息处理系统,以期取得突破性的进展。
自然语言理解的研究,具有很强的生命力,是当代科学新的生长点。
其综合应用了现代语音学、音系学语法学、语义学、语用学的知识,同时也向现代语言学提出了一系列的问题和要求。
另外它的研究不可能一步就达到对大规模真是文本的完善处理,必须逐层逐步地加以分析和解决,各层次的研究既相互独立,又有着十分密切的联系,对每一层次的研究,都应考虑更高层次的研究需要。
由于自然语言处理的对象是人类自然形成的极其复杂的语言现象,所以这门学科极具艰巨性。
事实上,这门学科自20世纪40年代产生以来,经历了十分曲折的发展历程;然而随着信息社会的到来,自然语言处理,在机器翻译、信息检索、人机交互等信息处理领域有着广泛的应用前景,这是这门学科的实用价值。
2.自然语言处理的发展历程及现状
2.1国外研究现状
自然语言处理是运用计算机对自然语言进行分析和理解,从而使计算机在某种程度上具有像人的语言处理能力。
国外关于自然语言处理方面的研究起步较早,一些卓有成就的语言学家、逻辑学家和心理学家都在自然语言处理中的语法、句法及语义分析方面提出了一系列较为系统的理论方法。
可以认为,自然语言处理的研究始于机器翻译。
1954年初,美国乔治敦大学在国际商用机器公司(IBM)的帮助下,在 IBM—701上进行了第一次机器翻译实验。
此后,机器翻译成了自然语言处理的重要研究课题。
到了20世纪60年代,随着一些新的人工智能方法的提出和Chomsky
等人在语言理论上的突破,人工智能学者开发了一批新的语言处理系统。
这些早期的自然处理没有成熟的语言句法分析,采用的主要技术是模式识别中的句法匹配,而且智能达到英语的受限领域的有限目标。
在20世纪70年代,出现了一些有名的自然语言处理系统。
如 W.Woo ds在1972年设计了自然语言信息检索系统LUNAR,并在此系统中提出了著名的扩充转移网络(augmented transition network,英文缩写为ATN)。
S HRDLU是T.Winogard于1972年在美国麻省理工学院的人工智能实验室开发出来的一个自然语言理解系统,该系统包括一个句法分析程序(具有一部基于M.Halliday系统语法的大型英语语法)、一个语义分析程序(含有为解释词和结构所需的知识)、一个问题求解器(可以为执行命令和寻找问题答案作出安排),是一个句法、语义和推理的组合系统。
MARGL是由R.S chank于1975年在斯坦福大学人工智能实验室建立起来的一个系统,其目的是提供一个自然语言理解的模型,该系统是根据Schank早年提出的概念从属理论建立的,系统由概念分析器、推理机和篇章生成3个模块组成。
20世纪80年代,各种新的语法体系应运而生。
如Gazder 的广义短语结构语法(generalied phrase structure grammer)、Bresnan与Kapl an 的词汇功能语法(lexical functional grammer)、M.Kay的功能合一语法(functional unification grammer)等。
由于新的语法体系运用了复杂特征集雨功能合一技术,使得自然语言处理能力较以前采用单一标记的处理大大增强。
20世纪90年代,在国际上掀起了语料库语言学(corpus linguisti cs)的研究热潮。
语料库语言学研究机读(自然语言)文本的采集、存储、检索、统计、语法标注、句法和语义分析,以及具有上述功能的语料库在语言定量分析、词典编撰、作品风格分析和机器翻译等领域的应用,为自然语言处理的研究提供了新思路。
2.2国内研究现状
与国外的研究相比,我国自然语言处理研究所面临的一个重要难题就是如何结合汉语自身的特点选取有效的形式理论和研究方法对汉语进行分析处理。
汉语的种种特点使我们的自然语言理解无法直接套用西方现有的语
法和语义结构体系,这使得汉语自然自然语言理解工作困难重重。
令人欣慰的是近几年国内自然语言处理的研究取得了很大的成绩,无论是汉语书面语的自动分词、汉语电子词典、汉语机读语料库、机器翻译、汉语人机交互、汉语文献检索等应用研究,还是结合汉语、汉字特点探索自然语言处理基础理论的研究,都取得了可喜的成果。
对自然语言处理的理论研究时从以词形分析为主的早期阶段以及注
重语义分析的中期阶段发展到了基于语料库统计方法的近期阶段。
国内众多学者都为此作出了孜孜不倦的探索和努力。
就理论发展来说,国内自然语言处理的研究借鉴了国外的各种理论,提出了一系列符合汉语特点的语言分析方法和语言表示理论。
早期的系统大都是基于转换生成语法和扩充转移网络,在语义分析方面大多是采用汉语格语法理论,并专门研究了汉语的各种信息在语义网络中的表示方法。
近年来中国科学院声学研究所黄增阳先生提出了概念层次网络理论,它是面向自然语言理解的理论框架,以语义表达为基础,并以一种概念化、层次化和网络化的形式来实现对知识的表达。
随着计算语言学研究的深入和汉语自然语言信息处理应用系统的开发,学术界开始感觉到建设语言知识基础工程的迫切性。
从20世纪80年代中后期以来,学术界投入了许多力量来进行这方面的建设工作。
如《现代汉语语法信息词典》、《信息吃力用汉语语义词典》、《现代汉语述语动词
机器词典》等词典出现,为汉语自然语言应用系统知识库的开发提供了一个基础,它们在目前的一些应用系统中发挥着实际的效用。
3.我国自然语言处理的研究领域
概括说来,目前国内自然语言处理的研究课题主要有:自然语言的句法和语义分析、语料库建设和语料加工技术、基于语料库的语言分析方法、机器翻译系统及其评测方法、文本分析与生成、机用词典、自动文摘、文本校对、文字识别、智能型汉字输入方法和人机交互接口等。
我国的自然语言处理工作者们吸取借鉴国外同行的理论方法和最新研究成果,并结合汉语的特点开展和加强基础理论的研究,从信息处理的角度进行汉语的研究,向自然语言处理的本土化发展。
自然语言处理研究将向语法、语义、语用和语境各方面的综合研究方向迈进。
但是,目前还存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明确规律可循,需要加强语用学的研究才能逐步解决。
另一方面,人理解一个句子不是单凭语法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机里。
因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮存量和运转速度大大提高之后,才有可能适当扩大范围.。