命名实体翻译分析与研究
古代中国医学文献的命名实体识别研究——以Flat-lattice增强的SikuBERT预训练模型为例

*本文系国家社会科学基金项目“古代中国医学文献的知识标注与知识挖掘研究”(项目编号:17BTQ060)研究成果和国家社会科学基金重大项目“中国古代典籍跨语言知识库构建及应用研究”(项目编号:21&ZD331)研究成果。
古代中国医学文献的命名实体识别研究——以Flat-lattice 增强的SikuBERT 预训练模型为例*谢靖,刘江峰,王东波摘要标注古代中医文献的命名实体能挖掘其蕴藏的中医学知识,推进中医现代化发展。
文章基于BERT-base 、RoBERTa 、SikuBERT 、SikuRoBERTa 预训练模型,以《黄帝内经·素问》为研究对象、Flat-lattice Transformer (FLAT )结构为微调模型,构建中医文献中病证、病理、经络、穴位、五行等命名实体识别任务。
实验结果表明:直接使用古文繁体BERT 模型对古代中医文献进行领域命名实体识别,基于繁体《四库全书》的SikuBERT 、SikuRoBERTa 预训练模型效果优于BERT-base 、RoBERTa 模型;引入FLAT 结构作为微调模型后,SikuBERT 在有标点情况下表现最优,识别效果可提升4%左右,SikuRoBERTa 在无标点情况下表现最优,识别效果可提高2%~3%。
实验验证了FLAT 作为微调模型对BERT 模型在中医专业领域中古文献命名实体识别工作上的有效性。
该微调模型可以有效避免分词错误引起的实体识别传播错误,提高中医命名实体的识别效率。
关键词命名实体识别中医典籍素问SikuBERT FLAT引用本文格式谢靖,刘江峰,王东波.古代中国医学文献的命名实体识别研究——以Flat-lattice 增强的SikuBERT 预训练模型为例[J].图书馆论坛,2022,42(10):51-60.Study on Named Entity Recognition of Traditional Chinese Medicine Classics :Taking SikuBERT Pre-training Model Enhanced by the Flat-lattice Transformer for ExampleXIE Jing ,LIU Jiangfeng &WANG DongboAbstractNamed Entity Recognition (NER )can help to further excavate the knowledge of Traditional ChineseMedicine (TCM ),and promote the modernization of TCM as well.With the traditional Chinese Siku Quanshu version of Huangdi Neijin ·Suwen as the corpus ,this paper tries to testify the performance of BERT-base ,RoBERTa ,SikuBERT ,SikuRoBERTa pre-training models in NER of TCM classics ,especially in the recognition of named entities related to disease syndrome ,pathology ,meridian ,acupoint ,etc.The result shows that :When directly used to perform NER of TCM classics ,the pre-training models of SikuBERT and SikuRoBERTa are better than those of BERT-base and RoBERTa.When enhanced and modified by the Flat-lattice Transformer (FLAT ),SikuBERT Pre-training Model performs best under the premise of punctuation ,and its recognition efficiency can be improved by about 4%;while SikuRoBERTa Pre-training Model performs best under the premise of no punctuation ,and its recognition efficiency can be improved by 2%~3%.In short ,FLAT performs well in the enhancement and modification of BERT pre-training models in NER of TCM classics ,and it should be further used to improve the recognition efficiency of TCM classics.Keywords named entity recognition ;traditional Chinese medicine classics ;Suwen ;SikuBERT ;FLAT0引言古代中国医学文献所记录的中医知识是中华传统科学文化的重要分支,对中医文献进行深度加工和知识标注,有助于挖掘蕴含在其中的古代医学知识及中医哲学思想。
基于深度学习的命名实体识别研究综述

现代电子技术Modern Electronics TechniqueMar. 2024Vol. 47 No. 62024年3月15日第47卷第6期DOI :10.16652/j.issn.1004‐373x.2024.06.006引用格式:张继元,钱育蓉,冷洪勇,等.基于深度学习的命名实体识别研究综述[J].现代电子技术,2024,47(6):32‐42.基于深度学习的命名实体识别研究综述张继元1,2,3, 钱育蓉1,2,3, 冷洪勇2,3,5, 侯树祥2,3,4, 陈嘉颖1,2,3(1.新疆大学 软件学院, 新疆 乌鲁木齐 830000;2.新疆大学 新疆维吾尔自治区信号检测与处理重点实验室, 新疆 乌鲁木齐 830046;3.新疆大学 软件工程重点实验室, 新疆 乌鲁木齐 830000;4.新疆大学 信息科学与工程学院, 新疆 乌鲁木齐 830000;5.北京理工大学 计算机学院, 北京 100081)摘 要: 命名实体识别是自然语言处理领域的一项关键任务,其目的在于从自然语言文本中识别出具有特定含义的实体,如人名、地名、机构名和专有名词等。
在命名实体识别任务中,研究人员提出过多种方法,包括基于知识和有监督的机器学习方法。
近年来,随着互联网文本数据规模的快速扩大和深度学习技术的快速发展,深度学习模型已成为命名实体识别的研究热点,并在该领域取得显著进展。
文中全面回顾现有的命名实体识别深度学习技术,主要分为四类:基于卷积神经网络模型、基于循环神经网络模型、基于Transformer 模型和基于图神经网络模型的命名实体识别。
此外,对深度学习的命名实体识别架构进行了介绍。
最后,探讨命名实体识别所面临的挑战以及未来可能的研究方向,以期推动命名实体识别领域的进一步发展。
关键词: 命名实体识别; 深度学习; 自然语言处理; 卷积神经网络; 循环神经网络; Transformer ; 图神经网络中图分类号: TN919‐34 文献标识码: A 文章编号: 1004‐373X (2024)06‐0032‐11Survey of named entity recognition research based on deep learningZHANG Jiyuan 1, 2, 3, QIAN Yurong 1, 2, 3, LENG Hongyong 2, 3, 5, HOU Shuxiang 2, 3, 4, CHEN Jiaying 1, 2, 3(1. School of Software, Xinjiang University, Urumqi 830000, China;2. Key Laboratory of Signal Detection and Processing in Xinjiang Uygur Autonomous Region, Urumqi 830046, China;3. Key Laboratory of Software Engineering, Xinjiang University, Urumqi 830000, China;4. School of Information science and Engineering, Xinjiang University, Urumqi 830000, China;5. School of computer science, Beijing Institute of Technology, Beijing 100081, China)Abstract : Named entity recognition is a crucial task in the field of Natural Language Processing, which aims to identify entities with specific meanings from natural language texts, such as person names, place names, institution names, and proper nouns. In the task of named entity recognition, researchers have proposed various methods, including those based on domain knowledge and supervised machine learning approaches. In recent years, with the rapid expansion ofinternet text data and the rapid development of deep learning techniques, deep learning models have become aresearch hotspot in named entity recognition and have made significant progress in this field. A comprehensive review of existing deep learning techniques for named entityrecognition is provided, categorizing them into four main categories: models based on convolutional neural networks (CNN), recurrent neural networks (RNN), Transformer models, and graph neural networks (GNN) for NER. An overview of deep learning architectures for named entity recognition is presented. The challenges faced by named entity recognition and potential research directions in the future are explored to promote further development in the field of named entity recognition.Keywords : named entity recognition; deep learning; natural language processing; convolutional neural networks; recurrentneural network; Transformer; graph neural network收稿日期:2023‐08‐31 修回日期:2023‐10‐08基金项目:国家自然科学基金项目(62266043);国家自然科学基金项目(61966035);新疆维吾尔自治区自然科学基金项目(2021D01C083);新疆维吾尔自治区自然科学基金项目(2022D01C692);新疆维吾尔自治区高校基本科研业务经费科研项目(XJEDU2023P012);杰出青年科学基金(2023D01E01);天山创新团队(2023D14012);新疆高校基本科研业务费项目(XJEDU2023Z001)32第6期0 引 言自然语言处理(Natural Language Processing, NLP )是计算机科学和人工智能领域的重要研究方向,主要研究人与计算机之间用自然语言进行有效交流的理论和方法。
利用音译和网络挖掘翻译命名实体

关 键 词 : 工 智 能 ; 器 翻 译 ; 译 ; 名 实体 翻 译 ; 人 机 音 命 网络 挖 掘
中 图分 类 号 : 3 1 TP 9
( .De at n fI fr t n Ma a e n ,PKU,B in 0 8 1 1 p rme to n o mai n g me t o ej g 1 0 7 ,Chn ; .NIC Gr u i ia 2 o p,Mirs f co ot
R sa c i, e ig 1 0 8 ;.I si t o no ma i c n e C DE A S N C ee rh As B rn 0 0 3 n t u e f fr t n S i c ,A A MI I I A,T ie 1 , hn ) a 0 t I o e ap i C i 1 5 a
a dt e h b if r t n a pid t e r rn lt n . A a i u E to y ( E) mo e i e ly d t n h n tewe n o mai p l o g tmo e ta sai s o e o M xm m n r p M d l s mpo e O
音 译 模 型 生 成 一 个 候 选 翻 译 , 后 利 用音 译 信 息配 舍 网络 挖 掘 获 得 更 多的 候 选 翻 译 。最 后 , 用 最 大 熵 ( x m 然 使 Ma i mu
E to y 模型综合考虑源词和候选翻译之间的各 种特征 , nrp ) 如发 音相似 度, 下文本特征 , 页共现 关 系等 , 上 网 来排序
基于大语言模型知识增强和多特征融合的中文命名实体识别方法

基于大语言模型知识增强和多特征融合的中文命名实体识别方法目录一、内容概括 (2)二、背景知识介绍 (2)1. 中文命名实体识别概述 (3)2. 大语言模型知识增强技术 (4)3. 多特征融合技术 (5)三、基于大语言模型的知识增强技术细节 (6)1. 数据预处理 (7)2. 模型选择与训练 (8)3. 知识增强策略设计 (10)4. 模型优化与性能提升 (11)四、多特征融合策略的实现细节 (12)1. 特征选择和提取 (13)2. 特征融合方法选择 (13)3. 特征融合策略的优化和改进 (15)五、基于大语言模型和多特征融合的中文命名实体识别方法的具体实施步骤161. 数据集准备与处理 (17)2. 构建和训练大语言模型 (17)3. 特征提取与融合策略设计 (18)4. 模型训练和评估流程 (19)一、内容概括采用多特征融合的方法,将多种特征信息融合在一起,包括词性特征、结构特征、上下文特征等。
这些特征有助于模型更全面地捕捉命名实体的特征,提高识别准确性。
通过构建训练集和验证集,并在训练集上进行迭代训练,不断优化模型参数。
在验证集上评估模型的性能,根据评估结果调整模型结构或参数,以达到最佳识别效果。
本文提出的方法通过结合大语言模型的知识增强和多特征融合技术,有效提高了中文命名实体识别的性能,为中文自然语言处理领域的发展提供了有益的参考。
二、背景知识介绍随着自然语言处理技术的不断发展,中文命名实体识别(Named Entity Recognition, NER)作为其中的重要分支,在信息抽取、知识图谱构建、机器翻译等领域发挥着越来越重要的作用。
命名实体识别旨在从文本中识别出具有特定意义的实体,如人名、地名、机构名等,这些实体通常携带大量丰富的语义信息和业务价值。
传统的中文命名实体识别方法主要依赖于基于规则的方法和统计学习方法。
随着大规模预训练模型(如BERT、GPT等)的出现,基于深度学习的命名实体识别方法逐渐成为研究热点。
基于维汉机器翻译的维语命名实体的识别与翻译

基于维汉机器翻译的维语命名实体的识别与翻译发表时间:2018-10-12T09:36:36.063Z 来源:《教学与研究》2018年12期作者:毛兰·买买提[导读] 现阶段,我国国际上所开展的研究工作会关注于维汉机器翻译内容,这种机器翻译的方式带有一定的通用性,其在研究维汉机器翻译内容时毛兰·买买提(新疆自治区党委网信办新疆乌鲁木齐 830000)摘要:现阶段,我国国际上所开展的研究工作会关注于维汉机器翻译内容,这种机器翻译的方式带有一定的通用性,其在研究维汉机器翻译内容时,可以以主流机器翻译方式为基准。
维吾尔语的语言较为复杂,其所形态变化比较丰富,很多词根都可以进一步的演变成为多种新形式。
相比之下,我国汉语的形态变化就比较微弱,所以,目前,国际上所使用的机器翻译主要针对的对象就是英语等形态变化较为简单的语言,不需要对词形的变化进行分析。
可以将各个不同词形的词语当做独立性的词语分析。
本文主要就维汉机器翻译的维语命名实体的识别与翻译进行探究,找出现阶段我国维汉机器翻译现状以及存在的问题,科学合理的设计相应的系统。
关键词:维汉机器翻译;维语命名实体;识别与翻译中图分类号:G652.2 文献标识码:A 文章编号:ISSN0257-2826 (2018)12-172-01引言维汉机器翻译可以有效的识别以及翻译维语命名实体,其是该类机器翻译的重要任务,其应当建立在信息检索、抽取等各类技术的基础层面上。
现阶段,我国的维吾尔语命名实体处于一个初步发展的研究时期,维吾尔语命名实体有着其自身较为独特的特征以及语法含义等,在进行维吾尔语命名实体的识别以及翻译过程中,必须要对其相关的语言特性进行深入的分析,处理好其机构名称的识别问题,对其进行序列性的标准,综合性的使用相应的条件探究上下文信息以及外部的特征内容,提升维吾尔语机构名识别的F值。
1维汉机器翻译现状以及存在的问题1.1语料库资源较少我国新疆地区的地理位置较为偏僻,所以其地区的经济发展速度比较慢,这就在一定程度上阻碍了我国维吾尔语和汉语的双语语料库构建工作开展进程,让其所开展的各类建设活动都明显带有一定的滞后性。
命名实体识别技术研究进展综述

命名实体识别技术研究进展综述一、本文概述随着信息技术的快速发展,自然语言处理(NLP)领域的研究日益深入,命名实体识别(Named Entity Recognition, NER)作为其中的一项关键技术,在信息抽取、机器翻译、问答系统、语义理解等多个领域具有广泛的应用价值。
本文旨在对命名实体识别技术的研究进展进行综述,以期为相关领域的研究者和实践者提供全面的技术概览和前沿动态。
本文首先介绍了命名实体识别的基本概念和重要性,阐述了NER 技术的核心任务和应用场景。
接着,回顾了NER技术的研究历程,包括早期的规则方法和基于词典的方法,以及近年来基于深度学习的NER技术的快速发展。
在此基础上,本文重点分析了当前主流的NER 技术,包括基于深度学习的监督学习方法、无监督学习方法、迁移学习方法和弱监督学习方法等,并对这些方法的优缺点进行了比较和评价。
本文还关注了NER技术在多语种、跨领域和少样本场景下的应用和挑战,探讨了相应的解决策略和发展趋势。
本文总结了NER技术的研究现状和未来发展方向,以期为推动NER技术的进一步发展提供参考和借鉴。
二、命名实体识别技术概述命名实体识别(Named Entity Recognition,简称NER)是自然语言处理(NLP)中的一个重要任务,旨在从文本中识别出具有特定意义的实体,如人名、地名、组织机构名、日期、时间等。
这些实体在文本中扮演着重要的角色,对于理解文本的含义和上下文信息具有关键的作用。
NER技术广泛应用于信息抽取、机器翻译、问答系统、语义网、智能代理等领域,是自然语言处理中不可或缺的一部分。
NER技术的核心在于对文本进行语义理解和分析,通过算法和模型来识别和标注文本中的实体。
根据不同的应用场景和数据特点,NER 技术可以分为多种类型,如基于规则的方法、基于统计的方法、基于深度学习的方法等。
基于深度学习的NER技术近年来取得了显著的进展,成为当前研究的热点和趋势。
机器翻译中的命名实体识别和实体关系抽取方法

机器翻译中的命名实体识别和实体关系抽取方法机器翻译(Machine Translation, MT)是一项涉及自然语言处理(Natural Language Processing, NLP)和人工智能(Artificial Intelligence, AI)的重要技术,旨在将源语言文本自动翻译成目标语言文本。
命名实体识别(Named Entity Recognition, NER)和实体关系抽取(Entity Relationship Extraction)是机器翻译中的两个关键任务,本文将详细介绍这两个方法及其在机器翻译中的应用。
一、命名实体识别(Named Entity Recognition, NER)命名实体识别是一种识别文本中特定类别实体(如人名、地名、组织机构名等)的技术。
NER在机器翻译中具有重要意义,因为命名实体在句子中往往具有特殊的语义和语法作用,对翻译结果起到重要影响。
1.传统方法传统的命名实体识别方法主要基于规则和词典匹配。
规则匹配方法依赖于手工编写的规则来识别命名实体,例如,利用正则表达式来匹配人名的特定模式。
词典匹配方法则利用已有的命名实体词典,通过查找词典中的实体词来识别命名实体。
这些方法在一定程度上能够识别命名实体,但对于未知的实体和词义消歧等问题表现不佳。
2.基于机器学习的方法随着机器学习的发展,基于机器学习的命名实体识别方法逐渐兴起。
常用的机器学习方法包括:最大熵(Maximum Entropy)、支持向量机(Support Vector Machine)、条件随机场(Conditional Random Field)等。
这些方法通过在标注数据上进行训练,学习到命名实体识别的模式和规律,并能够识别未知的实体。
3.深度学习方法近年来,深度学习方法在命名实体识别中逐渐崭露头角。
其中,基于循环神经网络(Recurrent Neural Network, RNN)的模型如长短时记忆网络(Long Short-Term Memory, LSTM)和门控循环单元(GatedRecurrent Unit, GRU)等,以及基于卷积神经网络(Convolutional Neural Network, CNN)的模型在命名实体识别任务上表现出色。
自然语言处理技术研究

自然语言处理技术研究一、概述自然语言处理技术(Natural Language Processing,NLP)是计算机科学、人工智能、语言学等多个学科交叉的研究领域。
其目的是让计算机理解和应用自然语言(例如汉语、英语等),并能够进行自然语言与计算机语言转换和处理。
近年来,NLP技术不断发展,应用广泛,包括机器翻译、智能客服、智能搜索、情感分析、语音识别等多个领域。
本文将对自然语言处理技术进行系统性的探讨。
二、自然语言处理技术分类1. 语音识别语音识别是将人的语音转化为计算机可以理解的文本或指令的技术。
该技术已广泛应用在智能客服、语音助手、智能家居等领域。
其实现过程主要包括声学模型、语言模型、发音词典等过程。
2. 机器翻译机器翻译是指使用计算机技术将一种自然语言(源语言)的文本翻译成另一种自然语言(目标语言)的文本。
其应用广泛,如谷歌翻译、百度翻译等。
其实现过程主要包括语料库建立、特征提取、模型训练等过程。
3. 文本分类文本分类是对文本进行分类的技术,主要用于垃圾邮件过滤、新闻分类、情感分析等。
其实现过程主要包括特征提取、分类器训练等过程。
4. 信息抽取信息抽取是从非结构化文本中提取出特定的信息,如人名、地名、时间等。
其应用广泛,如舆情分析、新闻自动摘要等。
其实现过程主要包括实体识别、关系抽取等过程。
三、自然语言处理技术研究现状1. 中文分词中文分词是将中文句子分割成一个个词语。
中文分词技术是自然语言处理的基础,对后续的自然语言处理任务都有重要的影响。
目前,中文分词的方法主要有基于规则的方法、基于统计的方法、基于深度学习的方法等。
其中,基于深度学习的方法由于其准确度较高,应用越来越广泛。
2. 情感分析情感分析是对文本表达情感进行分析的技术,通常包括情感极性(正向、负向、中性)和情感强度(强烈、中等、微弱)等方面。
情感分析的应用范围较广,如社交媒体监测、舆情分析、产品评价等。
目前,情感分析的方法主要有基于规则的方法、基于统计的方法和基于深度学习的方法。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1. 2.
二、NE对齐
过滤候选翻译对(过程 ): 过滤候选翻译对(过程2):
采用多特征融合的方法,所以一般利用多特征 对齐模型或者最大熵模型等 可用的特征模型: 可用的特征模型:
Translation Model Transliteration Model Tagging Model Co-occurrence Model Distortion Model Abbreviation handling ……
(n ≥ 1 )
三、组织机构名的翻译研究
Chunking model: C * = arg max p(C | O)
C
(1)
= arg max( p (O | C ) p (C ))
C
= arg max( p (o1o2 ...on | c1c2 ...cm ) p(c1c2 ...cm ))
C
≈ arg max[∏ p (oi1...oij | ci ) p(ci | ci −1 )]
三、组织机构名的翻译研究
翻译模型步骤二:
例子“中国国际对外交流中心”的同步CFG文法推导过程:
< O,O > ⇒ < X, X > step1 ⇒< (中国国际)FC X , (China International)FC X > step2 ⇒< (中国国际)FC X (中心)TC, (China International)FC (Center for)TC X > step3 ⇒< (中国国际)FC(对外交流)SC (中心)TC, (China International)FC (Center for)TC (Exchanges with Foreign Countries)SC >
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法: 翻译模型步骤一: 1、single-ON和multi-ON的切分 例如:北京医科大学/第一附属医院 2、语块的切分 O 代表一个single-ON: o1 , o 2 , ...o n
C* = c1...cm (m ≤ n, ci ∈{FC, SC, TC})
整个语块在翻译中的位置:与SC相邻 语块内部翻译特点:连续,词按顺序翻译
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法:
借鉴Chunk-based model (Watanabe, 2003)
切分语块模型(chunking model) 步骤一 每个语块内词的排序和翻译 步骤二 语块的调序 (chunk reordering) 将语块内部调序翻译和外部调序同时进行。
命名实体翻译分析与研究
报告人:陈钰枫 中科院自动化所中文信息处理组
2006.10.17
Outline
NE(Named Entity)翻译概述 NE对齐 组织机构名的翻译研究 参考文献
一、NE翻译概述
NE翻译
各类机器翻译方法
NE对齐
双语NE语料库
双语平行文档语料库
一、NE翻译概述
采用各种机器翻译方法的缺陷: 翻译结果不够规范 NE中的一些词义是特定的,例如: 风陵渡——Fenglingdu —— wind comb cross (×) 音译问题
三、组织机构名的翻译研究
ON翻译模型测试
测试语料:集外436个机构名(每个包括2~9个词),共1521个词。 以含义完整和准确作为评估标准,定义了四个等级:
等级 1 2 3 4
标准
至少有一个词没被翻译,部分准确 或完全不准确 每个词都被翻译,但部分准确 意思准确,和标准含义相符 和标准答案完全符合
Society for the Study of Mao Zedong‘s Philosophical Ideas 毛泽东哲学思想 ({ 6 7 8 9 }) 研究 ({ 3 4 5}) 会 ({ 1 2 }) 假设每个连续部分相当于一个phrase(大于词的结构) 上面这个例子包含了3个phrase。
三、组织机构名的翻译研究
行政管理机构名
主要是从属于国家或地方级别的公共机构,例如国家部 门、省市政府、大学和协会等。这类机构名的组成比较 规则,并且它的组成词大部分是已登录词。
企业机构名
主要是私有的带有盈利性质的机构,例如酒店、银行、 公司等,这类机构名多以地名开头,中间加以企业字号, 例如“吉百利”等,大部分是未登录词。
三、组织机构名的翻译研究
对3000多个机构名对位处理后得到的结果:
每个ON包 含的phrase 数量
1
2 502
3 541
4 78
5 15
6 1
NE NE数 2105
可以看出ON翻译以顺序翻译占大比例,多个phrase的情况: Beijing association for international exchange of personnel NULL ({ 3 6 }) 北京 ({ 1 }) 国际 ({ 4 }) 人才 ({ 7 }) 交流 ({ 5 }) 协会 ({ 2 }) 用pharse-based等机器翻译方法? 用词典直接翻译?
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法: 2. 第二类语块(SC)例如:“对外科技交 流”等,作为次高级的修饰词
整个语块在翻译中的位置:与TC相邻,前置 TC 或后置于它 语块内部翻译特点:词的次序需要调整,
三、组织机构名的翻译研究
基于语块的机构名翻译方法: 基于语块的机构名翻译方法: 3. 第三类语块(TC)例如:“国家实验 室”, “筹建委员会”,“研究所”等。 每个机构名必有的块结构。
三、组织机构名的翻译研究
机构名( 机构名(ON, Organization name)特点: )特点:
1、ON的结构最复杂,其中可能包含人名,地名等; 2、通过NE对齐建立翻译词典的方法比较适合人名、地名 的翻译,而对于粒度大,结构易变 粒度大, 粒度大 结构易变的ON,还要抓住其 本质结构; 例如:中国国际对外科技交流中心
Segmentation error 2. Untagged 3. Partially tagged 4. Tagged with other words as one NE
1.
二、NE对齐
解决方法: 解决方法
用单语NE识别代替双语NE识别 滑动窗(An open-end NE alignment window) 基于双语NE识别:将已标注为NE的词作为中心,窗口 向两边扩展 基于单语NE识别:利用IBM模型得到的翻译词表来确 定“锚点”。然后以这些“锚点”为中心,在一定长 度的词窗范围内选取词或词组作为候选命名实体。
三、组织机构名的翻译研究
行政管理机构名对位结果分析
Society(1) for(2) the(3) Study(4) of(5) Mao(6) Zedong‘s(7) Philosophical(8) Ideas (9) 毛泽东 ({ 6 7 }) 哲学 ({ 8 }) 思想 ({ 9 }) 研究 ({ 3 4 5}) 会 ({ 1 2 })
54747
1~21个词
包含2~7个词 的NE占92.0%
90% 单一如 以上 银行,
公司
三、组织机构名的翻译研究
行政管理机构名和企业机构名比较:
行政管理机构名特征:1、有比较强的组成结构信息;2、 地名,人名涉及音译,通过词典可以大部分解决;翻译 的重点在结构 企业机构名特征:1、绝大部分按顺序翻译,即使有次 序调整,只是前后调换一次;例如:中国银行/bank of china/ 2、企业商标名以音译为主,约定俗成,音译缺 乏规律性,例如:吉百利/cadbury/;3、词尾信息单一: 以“公司”结尾占83%。翻译的重点在于音译。采用 NE对齐方法实现翻译可行
三、组织机构名的翻译研究
双语NE语料库
NE (中文)
NE翻译
SMT
双语平行文档的 NE对齐
四、参考文献
David Chiang. (2005). A Hierarchical Phrase-Based Model for Statistical Machine Translation. In Proceedings of the 43rd Annual Meeting of the ACL, pages 263-270. F. Huang. S. Vogel and A. Waibel. (2004). Improving Named Entity Translation Combining Phonetic and Semantic Similarities. In Proceedings of the HLT/NAACL2004. Boston, MA, May,2004. Feng, Donghui, Yajuan Lv, and Ming Zhou. 2004. A new approach for English-Chinese named entity alignment. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2004), pages 372-379. Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2003. A statistical approach to Chinese-to-English back-transliteration. In Proceedings of the 17th Pacific Asia Conference on Language, Infor-mation, and Computation (PACLIC), Singapore, pages 310-318. Lee, Chun-Jen, Jason S. Chang and Jyh-Shing Roger Jang. 2004a. Bilingual named-entity pairs extrac-tion from parallel corpora. In Proceedings of IJCNLP-04 Workshop on Named Entity Recognition for Natural Language Processing Applications, Hainan Island, China, pages 9-16. Franz Josef Och and Hermann Ney. (2002). Discriminative training and maximum entropy models for statistical machine translation. In Proceedings of the 40th Annual Meeting of the ACL, pages 295-302. Philipp Koehn, Franz Josef Och, and Daniel Marcu. 2003. Statistical phrase-based translation. In Proceedings of HLT-NAACL 2003, pages 127-133. Taro Watanabe, Eiichiro Sumita and Hiroshi G. Okuno. (2003). Chunk-based Statistical Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics, July 2003, pp. 303 - 310. ……