基于Web的双语平行句对自动获 - ICT NLP GROUP

合集下载

基于Web的双语平行句对自动获取

基于Web的双语平行句对自动获取

基于Web的双语平行句对自动获取
叶莎妮;吕雅娟;黄赟;刘群
【期刊名称】《中文信息学报》
【年(卷),期】2008(22)5
【摘要】双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求.该文介绍了一个基于Web的双语平行句对自动获取系统.该系统融合了现有系统的优点,对其中的关键技术进行了改进.文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术.实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了该文方法的有效性.此外,该文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果.
【总页数】7页(P67-73)
【作者】叶莎妮;吕雅娟;黄赟;刘群
【作者单位】中国科学院,计算技术研究所智能信息处理重点实验室,北京,100190;中国科学院,计算技术研究所智能信息处理重点实验室,北京,100190;中国科学院,计算技术研究所智能信息处理重点实验室,北京,100190;中国科学院,计算技术研究所智能信息处理重点实验室,北京,100190
【正文语种】中文
【中图分类】TP391
【相关文献】
1.上海外语教育出版社英汉双语平行句对语料库的构建 [J], 贺敏;张春明
2.基于句对比较的自动获取翻译模板方法改进 [J], 方淼;关小薇;高庆狮
3.基于Web的汉日双语平行语料库系统的构建 [J], 和凤珍;石宜金
4.基于web的日英词典自动获取技术的研究 [J], 项田帅;尹宝生;季铎;蔡东风
5.平行句和非平行句 [J], 李裕德
因版权原因,仅展示原文概要,查看原文内容请购买。

基于双语混和网页的平行语料挖掘

基于双语混和网页的平行语料挖掘

基于双语混和网页的平行语料挖掘*林政,吕雅娟,刘群,马希荣中国科学院计算技术研究所北京 100080E-mail: {linzheng,lvyajuan,liuqun}@, maxirong@摘要:双语平行语料是统计机器翻译模型训练必不可少的基础资源,但是大规模双语平行语料库的自动获取并不容易。

本文提出了一种从双语混合网页上自动挖掘大规模双语平行语料库的解决方案,研究了候选双语混合网页的获取,网页噪声过滤,双语网页确认以及平行句对抽取等关键技术,最后实现了一个基于双语混合网页的平行句对自动挖掘系统。

利用该系统获取了105万双语平行句对,平均正确率为93%,其中前20万获取的双语句对的正确率达到99%。

关键词:Web挖掘;双语混合网页;双语平行网页;平行语料库Mining Parallel Corpora from Mixed-Language Web PagesLin Zheng, Lv Yajuan, Liu Qun, Ma XirongInstitute of Computing Technology, Chinese Academy of Sciences, Beijing 100080E-mail: {linzheng,lvyajuan,liuqun}@, maxirong@Abstract:Bilingual parallel corpora is the indispensable resource of model training in SMT , but it’s not easy to acquire large-scale corpora automatically. This paper proposes a solution to mine large-scale bilingual parallel corpora from mix-languages web pages and analyses the problems of obtaining candidate mix-language web pages, filtering web noises, validating bilingual web pages and extracting parallel sentences. We implement an automatic mining system of parallel corpora from mix-language web pages and have extracted 1.05 million parallel sentences which average accuracy is 93% , and the accuracy of the first 200 thousand sentences is close to 99%.Keywords:Web Mining ; Mix-Language Web Page; Bilingual Parallel Web Page; Parallel Corpora1 引言双语平行语料库在自然语言处理领域有很多重要应用,它为统计机器翻译模型提供不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等应用的重要基础资源。

一种有效的基于Web的双语翻译对获取方法

一种有效的基于Web的双语翻译对获取方法

一种有效的基于Web的双语翻译对获取方法
郭稷;吕雅娟;刘群
【期刊名称】《中文信息学报》
【年(卷),期】2008(022)006
【摘要】命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得.该文提出了一种从中文网页中自动获取高质量双语翻译对的方法.该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对.实验结果表明,采用该模型构建的双语翻译词表,TOPl的正确率达到82.1%,TOP3的正确率达到94.5%.文中还提出了一种利用搜索引肇验证候选翻译的方法,经过验证,TOPl的正确率可以提高到84.3%.
【总页数】7页(P103-109)
【作者】郭稷;吕雅娟;刘群
【作者单位】北京大学,软件与微电子学院,北京,102600;中国科学院,计算技术研究所,智能信息处理重点实验室,北京,100190;中国科学院,计算技术研究所,智能信息处理重点实验室,北京,100190
【正文语种】中文
【中图分类】TP391
【相关文献】
1.转"喻"为"义":一种行之有效的政治隐喻的翻译方法——以《政府工作报告》中政治隐喻的翻译为例 [J], 梁永刚
2.基于Web的中英术语翻译获取方法研究 [J], 董燕举;白宇;蔡东风
3.还原翻译练习:一种行之有效的翻译教学方法 [J], 张春柏
4.一种基于Web的术语翻译获取及验证方法 [J], 张晶;曹存根;王石
5.基于同族专利获取双语语料的方法研究——以获取汉英双语语料为例 [J], 霍翠婷;吴琳
因版权原因,仅展示原文概要,查看原文内容请购买。

面向单一双语网页的双语资源挖掘方法

面向单一双语网页的双语资源挖掘方法

面向单一双语网页的双语资源挖掘方法罗阳;季铎;张桂平;王莹莹【期刊名称】《中文信息学报》【年(卷),期】2011(025)001【摘要】Bilingual resources are the important resources in the areas of machine translation and cross language information retrieval. But concerning the corpus issues such as theauthenticity of language in use, the updatedness of langauge and the language flexibility, the existing bilingual resources are far from meeting the demand of the practical applications. This paper proposes a web based bilingual- resources mining method based on frequent sequence pattern. This algorithm adopts the SVM classification method with frequent sequence patterns as features, realizing the selection and identification of a single web page with bilingual resources. The experimental results indicate that this method can effectively improve the quality of the bilingual resources mining.%双语资源是机器翻译和跨语言信息检索等领域的重要资源,但是由于语料库真实性、时效性和语种灵活性等问题,使得现有的双语资源的规模很难满足实际应用的需要.该文提出一种面向单一双语网页的双语资源挖掘方法,该方法重点采用了以频繁序列模式为特征的SVM分类方法,实现了包舍双语资源的单一双语网页的筛选与识别,并以此为基础挖掘具有对译的双语资源.实验结果表明,该方法能够有效改进双语资源挖掘的质量.【总页数】6页(P110-115)【作者】罗阳;季铎;张桂平;王莹莹【作者单位】沈阳航空航天大学知识工程中心,辽宁,沈阳,110136;沈阳航空航天大学知识工程中心,辽宁,沈阳,110136;沈阳航空航天大学知识工程中心,辽宁,沈阳,110136;沈阳航空航天大学知识工程中心,辽宁,沈阳,110136【正文语种】中文【中图分类】TP391【相关文献】1.双语教育课程设计及课程资源r——基于广东省深圳市宝安区凤凰学校双语教育课程建设的实践 [J], 廖柏灵2.面向多领域资源的汉英双语语料库构建的研究 [J], 李晓光;王鹏;张威;王大玲3.面向听众,高起点打造品牌栏目——从《双语会客厅》看内地双语广播节目前景[J], 刘恒怡;王惊4.中外合作办学模式下双语课程混合式教学实践探索——以"人力资源管理"中德双语课程为例 [J], 饶前程;张亮5.面向农牧区培养双语师资——康定民族师范学校双语教学调查 [J], 李能武;唐明钊因版权原因,仅展示原文概要,查看原文内容请购买。

Web环境下自动获取汉、维语料库

Web环境下自动获取汉、维语料库
T e e t c e i o y i h n s g n e n o s n e c s i r e o c e t e tn e lv l C i e e a d Uih r c r u i r r o s r e f r h xr td ma n b d s t e e me t d i t e tn e n o d rt r a e s ne c e e h n s n g u o p s l a t e v o a b y f t r r a in o e tn e l v lC i e e Uih rb l g a o p s l r r . u u e ce t fs n e c e e h n s . g u i n l c r u i a y o iu b Ke wo d y rs Bi n u lp r l lc r u i r r B l g a a alls n e c ar T x xr ci n l g a aa e o s l a i l p b y i n u l rle e t n e p i e t t t i p e a o
并根据正文 内容信 息相似 性提 取 网页正文。对提取 出的正文进行句子切分 , 分别 创建句子 级的汉 、 维语料库 , 以后创建 句子级 的 为
汉维双语平行语 料库服务。
关键 词
中图分类号
双语 平行 语料库 双语平行句对 正文提取
T3 1 P 9 文献标识 码 A
A OMAT C AC I I CHI S D U GHUR C P SL B AR UT I QU R NG NE E AN I OR U I R Y
I W EB ENVI N RONM E NT
J n in T ru ba i S y a b l t Ta h nw i i gZj ugnIrhm ai nA u mi i S e g e a i d i n

一种基于关键词的中英双语平行语料库构建方法[发明专利]

一种基于关键词的中英双语平行语料库构建方法[发明专利]

专利名称:一种基于关键词的中英双语平行语料库构建方法专利类型:发明专利
发明人:程维
申请号:CN201410618941.1
申请日:20141107
公开号:CN104408078A
公开日:
20150311
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于关键词的中英双语平行语料库构建方法,该方法包括如下步骤:1)建设双语平行语料库;2)自动对齐;3)抽取关键词;4)建成基于关键词的双语平行语料库。

本发明从网络上获取传统的平行语料库,然后采用自动对齐的方法从传统平行语料库中自动的获取对齐的词组对,同时采用各种相似度的计算方法,把提取出来的关键词对进行过滤,最终得到质量较好的基于关键词的平行语料库。

实验证明,基于关键词的平行语料库要比传统的平行语料库能提高机器翻译的质量,从实验的BLEU值来看,在英到中的翻译中,能提高大约6.2%,而在中英翻译中能提高
2.52%。

申请人:北京第二外国语学院
地址:100020 北京市朝阳区定福庄南路1号
国籍:CN
代理机构:北京知本村知识产权代理事务所
代理人:周自清
更多信息请下载全文后查看。

基于中英平行专利语料的短语复述自动抽取研究

基于中英平行专利语料的短语复述自动抽取研究

基 于 中英 平 行 专利 语 料 的短 语 复述 自动抽 取 研 究
李 莉, 刘知远 , 孙 茂 松
( 清华大学 计算机系 , 智 能 技 术 与 系 统 国家 重 点 实 验 室 ; 清华信息科学与技术国家实验室( 筹) , 北京 1 0 0 0 8 4 )
摘 要 :短 语 复 述 自动 抽 取 是 自然语 言 处 理 领 域 的 重 要 研 究 课 题 之 一 , 已 广 泛 应 用 于信 息 检 索 、 问答 系统 、 文 档 分 类 等 任 务 中 。 而 专利 语 料 作 为人 类 知 识 和 技 术 的栽 体 , 内容 丰 富 , 实现 基 于 中 英 平 行 专 利 语 料 的 短 语 复 述 自动 抽
取 对 于技 术 主 题 相 关 的 自然语 言 处 理 任 务 的 效 果 提 升 具 有 积 极 意 义 。该 文 利 用基 于统 计 机 器 翻 译 的 短 语 复 述 抽
取 技 术 从 中英 平行 专 利 语料 中抽 取 短 语 复 述 , 并 利 用 基 于 组 块 分 析 的技 术 过 滤 短 语 复 述 抽 取 结 果 。 而 且 , 为 了 处 理 对 齐错 误 和 翻 译 歧 义 引起 的 短 语 复 述 抽 取 错 误 , 我 们 利 用 分 布 相 似 度 对 短 语 复 述 抽 取 结 果 进 行 重 排 序 。 实验 表 明, 基 于 统 计 机 器 翻 译 的短 语 复 述 抽 取 在 中 英 文 上 准 确 率 分 别 为 4 3 . 2 O 和 4 3 . 6 O , 而 经 过 基 于组 块 分 析 的 过 滤 技 术 后 准 确 率 分 别提 升 至 7 5 . 5 O 和 5 2 . 4 O 。同时, 利 用 分 布相 似度 的 重排 序 算 法 也 能 够 有 效 改进 抽 取 效 果 。

Web环境下自动获取汉、维语料库

Web环境下自动获取汉、维语料库

Web环境下自动获取汉、维语料库姜子进;吐尔根·依布拉音;赛依旦·阿不力米提;田生伟【期刊名称】《计算机应用与软件》【年(卷),期】2011(028)012【摘要】句子级的语料库是机器翻译的重要资源,但由于获取途径的限制,句子级的语料库不仅数量有限而且经常集中在特定领域,很难适应真实应用的需求.根据锚文本信息通过搜索引擎在网络上找到汉维双语平行网站,并下载网站中所有的双语平行网页.提取出有正文的网页,根据html特征,建立html树,提出一种将html树结构作为识别网页正文内容重要特征的网页分析方法,并根据正文内容信息相似性提取网页正文.对提取出的正文进行句子切分,分别创建句子级的汉、维语料库,为以后创建句子级的汉维双语平行语料库服务.%Sentence level corpus library is an important resource for machine translation. However, since there are limited ways to acquire it, there is not enough sentence level corpus library. Moreover it is often focused to a few specific fields so that it is hard to meet real application demands. In the thesis, according to anchor text information, the network is searched with search engines to find Chinese-Uighur bilingual parallel websites, then to download all bilingual parallel webpages from them. After extracting pages that contain main body, according to HTML features, an HTML tree is built. A webpage analysis method is proposed that regards HTML tree structure as an important feature to identify webpage main body contents. In addition, on the basis of main body content information similarity, webpage main body isextracted. The extracted main body is then segmented into sentences in order to create sentence level Chinese and Uighur corpus library to serve for future creation of sentence level Chinese-Uighur bilingual corpus library.【总页数】4页(P19-21,70)【作者】姜子进;吐尔根·依布拉音;赛依旦·阿不力米提;田生伟【作者单位】新疆大学信息科学与工程学院新疆乌鲁木齐830046;新疆大学信息科学与工程学院新疆乌鲁木齐830046;新疆大学信息科学与工程学院新疆乌鲁木齐830046;新疆大学信息科学与工程学院新疆乌鲁木齐830046【正文语种】中文【中图分类】TP391【相关文献】1.基于语料库的汉日通用词汇自动获取方法研究 [J], 施建军;谯燕2.汉维哈柯双语平行语料库加工处理系统的设计与实现 [J], 吴小川;吐尔根·依布拉音;艾山·吾买尔;谭勋3.汉维主题网页自动获取技术的研究 [J], 梁建飞;吐尔根·依布拉音;田生伟;赛依旦·阿不力米提4.汉维双语平行词汇语料库构建技术研究 [J], 祖力克尔江;艾孜海尔江;艾孜尔古丽5.平行语料库在汉维翻译教学中的应用 [J], 胡传成因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于Web的双语平行句对自动获取*叶莎妮,吕雅娟,黄赟,刘群(中国科学院计算技术研究所,北京100080)摘要:双语平行句对是机器翻译的重要资源,但是由于获取途径的限制,句子级平行语料库不仅数量有限并且经常集中在特定领域,很难适应真实应用的需求。

本文介绍了一个基于Web的双语平行句对自动获取系统。

该系统融合了现有系统的优点,对其中的关键技术进行了改进。

文中提出了一种自动发现双语网站中URL命名规律的方法,改进了双语平行句对抽取技术。

实验结果表明文中所提出的方法大大提高了候选双语网站发现的召回率,所获取双语平行句对的召回率为93%,准确率为96%,证明了本文方法的有效性。

此外,本文还对存在于双语对照网页内部的双语平行句对的抽取方法进行了研究,取得了初步成果。

关键词:双语句对;平行网页;网页挖掘中图分类号:TP391 文献标识码:AAutomatic Parallel Sentences Extracting From WebShani Ye, Yajuan Lv, Yun Huang, Qun Liu(Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100080, China) Abstract:Parallel sentences are valuable resources for machine translation but not readily available in the necessary quantities and always domain specific. This paper constructs a system to automatically obtain parallel sentences of high quality. This system takes advantages of previous systems and puts forward a method to find the similarity of URLs in bilingual websites, and also improves parallel sentence extraction technology. Experimental results show that this system gains a recall rate of 93% and a precision rate of 96% when collecting parallel sentences from test set. In addition, this paper makes preliminary research in collecting parallel sentences from bilingual contrast web pages.Key words: Bilingual Sentences; Parallel Corpora; Web Mining1 引言近年来,语料库资源对于自然语言处理研究的巨大价值已经得到越来越多的认可。

特别是双语语料库(Bilingual Corpus),已经成为机器翻译、机器辅助翻译以及翻译知识获取研究不可或缺的重要资源。

一方面,双语语料库的出现直接推动了机器翻译新技术的发展,基于统计(Statistic-Based)和基于实例(Example-Based)等基于语料库的翻译方法为机器翻译研究提供了新的思路,有效改善了翻译质量,在机器翻译研究领域掀起了新的高潮。

另一方面,双语语料库又是获取翻译知识的重要来源,从中可以挖掘学习各种细粒度的翻译知识,如翻译词典和翻译模板,从而改进传统的机器翻译技术。

此外,双语语料库也是跨语言信息检索,翻译词典编撰、双语术语自动提取以及多语言对比研究等的重要基础资源。

然而,大规模双语语料库建设与获取存在着很大的困难。

虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但是现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。

互联网的普及和迅猛发展提供了大量而丰富的电子信息。

随着国际化的需要,越来越多的网站成为双语网站,越来越多的网上信息以多语言的方式发布,这就为双语和多语语料库提供了很好的来源。

互联网是一个取之不尽、日益增长的信息源,因此是一个潜在的巨大的多语种语料库信息源。

这为双语平行语料库的获取提供了潜在的解决途径。

研究如何从互联*收稿日期:定稿日期:基金项目:国家自然科学基金(60603095),国家自然科学基金(60573188)作者简介:叶莎妮(1983—),女,硕士研究生,主要研究方向为自然语言处理技术;吕雅娟(1972—),女,博士,副研究员,主要研究方向为自然语言处理技术;黄赟(1983—),男,硕士研究生,主要研究方向为自然语言处理技术;刘群(1966—),男,博士,研究员,主要研究方向为自然语言处理技术网上自动挖掘这些海量的、真实的双语句对,对于解决双语语料库获取难题,推动相关技术发展和实用化具有重要的意义。

本文的目标就是建设一个高效的、自动化的双语句对获取系统,主要集中在获取中英平行语料。

但是除了一些与具体语言相关的配置文件以外,本文采用的方法不依赖具体语言,可以很轻松的移植到其他的语言对上。

2 相关工作现有系统在基于Web获取双语语料库资源时主要分为四个步骤:双语候选网站的获取及过滤,双语候选网页的获取,双语候选网页的过滤,双语平行句对的抽取。

著名的系统有PT Miner[1],PTI[2],BITS[3],STRAND[6],WPDE [8] 等。

双语候选网站的获取及过滤候选网站为可能含有双语平行网页的网站,如果一个中文网页中含有以"English"、"English Version"等为锚文本或图片ALT信息的链接,或者一个英文网页中含有相应的以"中文"、"中文版"等为锚文本或图片ATL信息的链接,则可以认为含有该网页的网站是一个中英候选网站。

微软的WPDE系统首次提出除了锚文本之外,还可以利用图片的ALT信息来搜索双语网站。

双语候选网页的获取从一个双语网站中获取双语候选网页,可以利用结构与内容两个方面的特征来实现。

结构上一般可以利用网页作者在双语网页URL命名时的特点。

如下例所示的两个中英平行网页的URL中只有语言相关的字符串"zh"与"en"以及"c"与"e"不同。

/newsroom/zh/field/2005/index_c.html| | | | | | |/newsroom/en/field/2005/index_e.html<----------pathname--------------><--basename->例1 一对具有命名相似性的中英网页的URL而内容上的特点是显而易见的,如果内容上存在互为翻译关系,那么就很可能是一对平行网页。

PT Miner 、STRAND 、 WPDE等系统都利用了前者,其中WPDE系统发现URL的pathname 与basename存在不同的命名相似性,需要分别进行处理。

BITS 系统只利用后者。

而PTI 则同时利用了这两部分信息,先用一个基URL名相似性的抽取器找出一部分双语候选网页,再用基于内容的抽取器对剩下的双语网页进行处理。

双语候选网页的过滤在取得双语候选网页之后,采用分类器过滤掉伪平行的双语网页,就得到了真正平行的双语网页。

STRAND系统在这个环节采用的一些基于结构和内容的特征,基本上都被其他系统所采用。

之后出现的系统不断采用更加合适的基于网页内容的特征与分类器,都取得了很好的效果,达到了预期的目的。

双语平行句对的抽取最后需要从双语平行网页中抽取出双语平行句对,得到句子级双语语料库,才能满足真实应用的需求。

STRAND中采用双语平行网页之间html结构的相似性,对两个网页的html标记序列进行对齐[6],夹在两对对齐的html标记之间的句子就够成一个双语平行句对。

类似的方法如用Dom Tree[7]来描述网页,然后对两棵Dom Tree 进行对齐从而得到相应的平行句对。

尽管现有系统在基于Web获取双语语料时都取得了不错的效果,但仍存有以下不足。

首先,所有系统在利用 URL命名相似性得到双语候选网页都需要依赖预定义的字符串集合。

其次,由于网页资源的噪声很大,仅仅依赖双语平行网页html结构相似性来获取双语平行句对并不能取得一个理想的效果。

最后,双语文本资源来源主要集中于中英平行网页对,但是有相当一部分高质量的中英平行文本存在于双语对照的一个网页中。

本文集中解决上述的三个问题,而本文实现的系统中双语候选网站获取与双语候选页过滤部分都类似WPDE中的方法,同时融合了已有系统的优点,在此就不再赘述。

3 双语网页URL命名模板的自动发现现有系统中预定义的字符串集合大部分是与特定语种相关,并且在大量双语网站的URL 中出现。

中文的有"cn,chinese"等,而英文相应的有"en,english"等。

但是,同时存在着大量的双语网站,其 URL命名虽然具有语言相似性,但不是通过预先定义可以发现这种规律,例如某网站中英平行网页URL的对应关系为 →,再比如某网站中存在的URL对应关系则为.sg→.sg 。

此外,也存在一些网站的在命名时,中文一侧的 URL用的是完整的单词,而英文一侧对应的网页URL用的则是该单词的简写。

例如某中英平行网页的basename之间的对应关系为cartoon_list.html与cart_list.html。

可见,只要URL命名的相似性没有涵盖在预定义的集合中,那么已有的系统就无法处理。

本文提出以下这种方法,能够自动发现当前网站在双语网页命名时具有的特点,再进行候选双语平行网页对的获取,完全不需要预定义与语言相关的字符串集合。

3.1 自动发现双语网页URL命名模板从例1可以看出pathname与basename中语言相关的不同字符串出现位置有一定的相似性,我们将pathname与basename统称为name域。

name域都由语言无关的相同部分S与语言相关的不同部分Lang组成。

例1中,中英URL的pathname对应的S有"/newsroom/"与"/field/2005/"。

相关文档
最新文档