基于感知机模型藏文命名实体识别(华却才让)
基于机器学习的中文命名实体识别技术研究

基于机器学习的中文命名实体识别技术研究随着互联网的快速发展和普及,大量的数据被不断地产生和积累。
其中,文本数据占据了很大的比例,尤其是中文文本数据。
而命名实体识别(Named Entity Recognition,NER)作为文本处理和信息提取的基础和重要环节,对于有效处理和利用这些数据具有重要的作用。
本文将介绍基于机器学习的中文命名实体识别技术,重点探讨其技术原理、应用场景及发展前景。
一、机器学习的中文命名实体识别技术机器学习是指计算机通过学习数据模式和建立模型,进行自主的判断和决策,以达到优化目标的一种方法。
而中文命名实体识别技术则是指对于中文文本数据中的人名、地名、组织机构名等命名实体进行自动识别和标注的技术。
基于机器学习的中文命名实体识别技术包括以下步骤:1.数据预处理:包括中文分词和词性标注等处理,将原始文本划分成词语和相应的标签,如人名、地名、组织机构名等。
2.特征提取:从处理后的文本数据中提取相关的特征,如词语的形态、句法、语义等特征,以辅助后续的模型训练和预测。
3.模型训练:使用已标注的训练数据集,建立机器学习模型,如条件随机场(CRF)、支持向量机(SVM)等,以实现对文本数据的自动分类和识别。
4.预测和评估:使用训练好的模型对新的未标注文本数据进行分类和标注,并进行评估,如准确率、召回率、F1值等指标。
二、中文命名实体识别的应用场景中文命名实体识别技术具有广泛的应用场景。
以下是其中比较典型的几个方面:1.信息检索和分类:在文本搜索和分类领域,中文命名实体识别技术可以帮助提升检索和分类的准确率,优化用户体验。
2.社交网络分析:在社交网络分析中,中文命名实体识别技术可以辅助识别用户的身份、兴趣和关系等信息,以实现更为精准的社交网络分析和推荐。
3.媒体新闻分析:在新闻报道媒体等领域,中文命名实体识别技术可以帮助识别新闻中的人物、地点、事件等实体,建立知识图谱和实现智能分析。
4.金融风控领域:在金融风控领域,中文命名实体识别技术可以帮助识别客户的身份、背景和交易数据等信息,提高金融风控的效率和准确性。
基于机器学习的中文命名实体识别算法研究

基于机器学习的中文命名实体识别算法研究标题:基于机器学习的中文命名实体识别算法研究摘要:命名实体识别(Named Entity Recognition,NER)是自然语言处理中的重要任务之一,其目的是从给定的文本中识别并分类命名实体。
随着中文信息的快速增长,中文NER的研究也变得越来越重要。
本论文通过对中文NER算法的研究,基于机器学习的方法来识别中文命名实体,并对其中的关键技术和方法进行了探讨。
实验结果表明,所提出的中文NER算法在准确性和效率上相对于传统方法具有明显的优势。
一、引言随着人工智能和大数据技术的发展,自然语言处理领域获得了快速的发展。
命名实体识别作为其中的重要任务之一,对于实现智能化的文本分析和信息提取具有重要意义。
本章首先介绍了NER的定义、应用场景以及研究现状,然后提出了论文的主要目标和内容安排。
二、中文命名实体识别算法综述该章节主要对中文命名实体识别算法的研究现状进行综述,包括基于规则的方法、基于统计的方法以及基于深度学习的方法。
对于每个方法,分别介绍了其原理、优缺点以及在中文NER中的应用情况,并总结了各种方法的发展趋势和挑战。
三、基于机器学习的中文NER算法设计在本章中,我们介绍了基于机器学习的中文NER算法的设计思路和流程。
首先,从数据预处理开始,包括数据清洗、分词和特征提取等步骤。
然后,我们介绍了常用的机器学习算法,包括最大熵模型、支持向量机和条件随机场,并对其在中文NER中的应用进行了探讨。
四、实验与结果分析在本章中,我们设计了一系列实验,对所提出的中文NER算法进行了评估和比较。
实验数据集包括了常见的中文命名实体类别,如人名、地名和组织名等。
通过比较各种算法的准确性和效率,我们验证了所提出算法的优势,并分析了实验结果的原因和改进空间。
五、讨论与展望在本章中,我们对中文NER算法进行了综合讨论和总结,并对未来的研究方向进行了展望。
同时,我们也对本论文的不足之处提出了改进的建议,并探讨了相关问题的解决方案。
基于集成学习的中文命名实体识别方法

基于集成学习的中文命名实体识别方法梁兵涛;倪云峰【期刊名称】《南京师大学报:自然科学版》【年(卷),期】2022(45)3【摘要】针对中文命名实体识别经典的BiLSTM-CRF(bi-directional long short-term memory-conditional random field)模型存在的嵌入向量无法表征多义词、编码层建模时注意力分散以及缺少对局部空间特征捕获的问题,本文提出一种融合BERT-BiGRU-MHA-CRF和BERT-IDCNN-CRF模型优势的集成模型完成命名实体识别.该方法利用裁剪的BERT模型得到包含上下文信息的语义向量;再将语义向量输入BiGRU-MHA(bi-directional gated recurrent unit-multi head attention)及IDCNN(Iterated Dilated Convolutional Neural Network)网络.前者捕获输入序列的时序特征并能够根据字符重要性分配权值,后者主要捕获输入的空间特征,利用平均集成方式将捕获到的特征融合;最后通过CRF层获得全局最优的标注序列.集成模型在人民日报和微软亚洲研究院(Microsoft research asia, MSRA)数据集上的F1值分别达到了96.09%和95.01%.相较于单个模型分别提高了0.74%和0.55%以上,验证了本文方法的有效性.【总页数】9页(P123-131)【作者】梁兵涛;倪云峰【作者单位】杭州优行科技有限公司;西安科技大学通信与信息工程学院【正文语种】中文【中图分类】TP391【相关文献】1.基于词汇增强的中文命名实体识别方法2.基于ALBERT-BGRU-CRF的中文命名实体识别方法3.基于多颗粒度文本表征的中文命名实体识别方法4.面向教育领域的基于SVR-BiGRU-CRF中文命名实体识别方法5.基于ALBERT预训练模型的通用中文命名实体识别方法因版权原因,仅展示原文概要,查看原文内容请购买。
基于深度学习的命名实体识别算法研究

基于深度学习的命名实体识别算法研究近年来,随着机器学习技术的发展,基于深度学习的命名实体识别算法日益被人们所重视。
命名实体识别算法是自然语言处理领域中的一个重要研究方向,它可以将文本中的实体名称(人名、地名、组织机构名等)自动识别出来,并进行分类和标注。
准确地识别出各种实体名称,对于信息提取、文本分类、知识图谱构建等应用领域具有重要的意义。
本文将围绕基于深度学习的命名实体识别算法展开研究。
一、命名实体识别算法的研究现状最初的命名实体识别算法主要基于规则和模式匹配,这些方法需要人工设计特征和规则,难以处理复杂的句子结构和语言变化。
近年来,传统的基于统计机器学习的方法,如最大熵模型、条件随机场等,取得了较好的效果。
但是,这些方法需要对文本进行预处理,并采用手工工程特征,这限制了算法的泛化能力。
而基于深度学习的命名实体识别算法则可以使用端到端的方式进行模型训练和应用。
二、基于深度学习的命名实体识别算法基于深度学习的命名实体识别算法一般分为两类:基于卷积神经网络的方法和基于循环神经网络的方法。
1. 基于卷积神经网络的方法基于卷积神经网络的命名实体识别算法主要由卷积层、池化层和全连接层组成。
其中,卷积层可以提取文本中的特征,池化层可以降低特征的维度,全连接层可以进行分类和标注。
例如,Zhang等人提出的卷积神经网络命名实体识别算法(CNN-NER)可以通过学习句子中的词向量来识别命名实体,并将其分类为不同的类别。
2. 基于循环神经网络的方法基于循环神经网络的命名实体识别算法主要由循环层和全连接层组成。
循环层可以学习长期依赖和上下文信息,全连接层可以进行分类和标注。
例如,Lample等人提出的循环神经网络命名实体识别算法(LSTM-CRF)可以学习上下文信息和序列特征,并将命名实体识别结果与标注结果通过条件随机场进行融合,提高了算法的准确性。
三、算法效果的评价指标对于命名实体识别算法的效果评价指标主要包括准确率、召回率和F1值。
bert-base-chinese 使用案例

bert-base-chinese 使用案例随着自然语言处理技术的不断发展,深度学习模型成为了处理自然语言任务的重要工具。
BERT(Bidirectional Encoder Representations from Transformers)作为一种基于变压器的预训练模型,具有在各种自然语言处理任务上取得卓越性能的能力。
本文将介绍几个bert-base-chinese的使用案例,展示该模型在不同领域任务中的应用。
一、文本分类任务文本分类是自然语言处理中的一项重要任务,常见于新闻分类、情感分析等场景。
bert-base-chinese作为一种预训练模型,可以用于文本分类任务。
首先,我们需要将待分类的文本经过分词处理,然后输入到bert-base-chinese模型中。
模型将生成词向量表示,并通过多层感知机进行分类。
通过训练模型,可以获得一个高性能的文本分类器,对输入文本进行准确分类。
二、命名实体识别任务命名实体识别是信息抽取和自然语言处理领域的重要任务,其目标是从文本中识别并分类出实体的各个部分。
bert-base-chinese可以应用于命名实体识别任务并取得很好的效果。
首先,我们需要将待处理的文本进行分词,并使用标签对实体进行标注。
然后,将经过标注的文本输入到bert-base-chinese模型中进行训练。
通过学习,模型可以提取出文本中的实体,并进行准确的分类。
三、问答系统问答系统是人工智能领域的热门研究方向,旨在实现机器对自然语言问题的理解和准确回答。
bert-base-chinese可以用于问答系统的搭建。
首先,我们需要将问题和相关文本进行编码,然后将编码后的问题和文本输入到bert-base-chinese模型中。
模型将生成问题和文本之间的相似度得分,根据得分可以准确地选择和问题相关的答案。
四、机器翻译机器翻译是将一种语言的文本转化为另一种语言的过程。
bert-base-chinese可以应用于机器翻译任务,并取得不错的效果。
基于多级别特征感知网络的中文命名实体识别

基于多级别特征感知网络的中文命名实体识别宋威;周俊昊【期刊名称】《中文信息学报》【年(卷),期】2022(36)9【摘要】当前中文命名实体识别方法仅采用字级别或词级别特征方法进行识别,不能兼顾字和词级别的优点,难以获取足够的字形或者词义信息。
针对此问题,该文提出一种基于多级别特征感知网络的中文命名实体识别方法。
首先提出一种双通道门控卷积神经网络,通过感知字级别特征,在减少了未登录词的同时,也表示了字的字形信息。
同时,为了获取词语的词义信息,该文在词级别的特征中嵌入对应位置信息。
为了赋予实体更多的权重,该文利用自注意力机制感知带有位置信息的词级别特征。
进一步,将上述得到的字级别和词级别信息融合,全面表示句子的语义信息。
由于采用字词结合的方法容易产生冗余信息,该文设计一种门控机制的Highway网络,来过滤冗余信息,减少冗余信息对命名实体识别的影响,再结合条件随机场学习到句子中的约束条件实现中文命名实体的识别。
实验结果表明,该文所提出的方法总体上优于目前主流的中文命名实体识别方法。
【总页数】9页(P84-92)【作者】宋威;周俊昊【作者单位】江南大学人工智能与计算机学院;江南大学江苏省模式识别与计算智能工程实验室【正文语种】中文【中图分类】TP3【相关文献】1.基于多特征融合的中文电子病历命名实体识别2.生物医学命名实体识别研究现状及中文生物医学命名实体识别难点与意义综述3.基于多维度特征融合的中文命名实体识别系统4.基于BERT与融合字词特征的中文命名实体识别方法5.基于调整方向感知的中文命名实体识别因版权原因,仅展示原文概要,查看原文内容请购买。
基于深度学习的中文命名实体识别研究的开题报告

基于深度学习的中文命名实体识别研究的开题报告1.研究背景目前,由于互联网技术的不断发展和普及,文本信息的数量呈指数增长。
然而,大量的文本信息中包含着各种实体,例如人名、地名、组织机构等。
对这些实体进行自动识别并抽取出有用信息,不仅可以大大提高人们的信息检索效率,而且对于自然语言处理、知识图谱构建等领域也具有重要意义。
因此,中文命名实体识别(Chinese Named Entity Recognition,CNER)成为了自然语言处理研究中的一个核心问题。
该问题的解决对于机器理解文本的能力有很大帮助。
随着深度学习技术的兴起,其在该领域中也取得了很多进展。
因此,本研究将重点基于深度学习技术对中文命名实体识别算法进行研究和探讨。
2.研究目的本研究旨在探究基于深度学习的中文命名实体识别算法,通过对中文文本中的命名实体进行自动识别提取出有用信息,提高文本信息检索的效率和精度。
3.研究内容(1)中文命名实体识别的基本概念和算法;(2)深度学习技术在中文命名实体识别中的应用现状和发展趋势;(3)基于深度学习的中文命名实体识别算法的研究和探讨,包括基于循环神经网络(Recurrent Neural Networks,RNN)的模型和基于卷积神经网络(Convolutional Neural Networks,CNN)的模型;(4)基于公开数据集的实验和分析,对比不同模型在中文命名实体识别任务上的效果;(5)对研究结果进行总结和分析,提出未来研究的方向和深度学习在自然语言处理领域的应用前景。
4.研究方法本研究将主要采用如下方法:(1)数据预处理:收集、清洗并进行标注的数据集;(2)模型设计:基于深度学习方法,设计一些常用模型,如RNN、CNN等等;(3)模型训练:通过已经标注好的数据集进行训练,并结合优化方法进行模型的快速迭代;(4)模型评估:通过公开数据集进行模型的效果评估,比较不同模型在中文命名实体识别任务中的表现;(5)结果分析:分析研究结果,发掘深度学习在中文命名实体识别中的应用前景。
基于机器学习的中文命名实体识别研究

基于机器学习的中文命名实体识别研究近年来,机器学习技术在自然语言处理领域得到了广泛应用,其中命名实体识别(Named Entity Recognition,NER)作为自然语言处理的重要任务之一,也得到了越来越多的关注。
命名实体是指指代具体事物的名称,例如人名、地名、组织机构名等,识别这些实体对于很多应用场景来说都至关重要,如信息抽取、搜索引擎等。
在这篇文章中,我们将聚焦于基于机器学习的中文命名实体识别研究。
一、命名实体识别命名实体识别是自然语言处理任务中的一个子任务,它的目标是在文本中识别出指称某一类具体事物实体的字符串序列,例如人名、地名、组织机构名等。
一句话中可能包含多个实体,如“马云是阿里巴巴的创始人”,其中“马云”和“阿里巴巴”分别是人名和组织机构名。
为了实现命名实体识别,通常需要使用机器学习算法训练分类模型,这样可以从数据中自动学习实体的特征,如实体的词性、上下文信息等,进而对文本中的实体进行识别。
二、中文命名实体识别中文命名实体识别与英文相比,具有一些特殊性。
中文是汉字构成的语言,一个词可以由多个汉字组成,而且一个汉字本身就包含了大量的信息。
这些特点需要我们在命名实体识别时进行特殊的处理。
中文命名实体的主要类型包括人名、地名、组织机构名和专有名词等。
中文命名实体的识别方法可以分为基于规则和基于统计的方法。
基于规则的方法主要是通过定义一些规则来识别实体,虽然准确率高,但是需要人工编写规则并频繁更新,不利于系统的扩展。
基于统计的方法则是使用机器学习算法训练分类模型,这样可以从数据中自动学习实体的特征,准确率较高,并且可以进行在线学习,不需要频繁更新规则。
通常使用的中文命名实体识别技术包括条件随机场(Conditional Random Fields,CRF)、递归神经网络(Recurrent Neural Networks,RNN)等。
其中,CRF是基于标注的机器学习算法,通过考虑实体标注之间的关系,可以更好地识别实体。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2014, 50 (15)
Computer Engineering and Applications 计算机工程与应用
基于感知机模型藏文命名实体识别
2 华却才让 1, , 姜文斌 3, 赵海兴 1, 刘
群3
2 HUA Quecairang1, , JIANG Wenbin3, ZHAO Haixing1, LIU Qun3
[2] [1]
导致与音节的后置字符及又后置字符间存在歧义; 第三 动词在时态上具有屈折变化。这些复杂性使得藏文分 词已成为藏文信息处理中的一个难题 [3], 而藏文命名实 体的识别更为困难, 也是必须要解决的问题。 藏文中命名实体类似中文命名实体没有区分标记, 其基本单元一个音节类似中文的一个字, 没有英文中的 大小写特征, 它们和非命名实体没有形态上的区别。大 部分藏族都有姓, 包括古代庄园名、 家族名、 部落名和地 名等, 也有寺院和封号名。常见的藏族人名按音节长度
3
命名实体的序列标注规范
在应用机器学习算法之前, 首先将语料中标注好的
命名实体的单词序列转换成音节标注序列。根据音节
174
2014, 50 (15)
Computer Engineering and Applications 计算机工程与应用
与命名实体的关系, 将音节标注为 13 个标注规范中的 一个。标注详细信息见表 2。比如, 可以将词级别人工 标注好的命名实体句子 (1) 转换为命名实体音节序列标 注句子 (2) 。 (1) 的话。 ) (2) 如果在识别过程中发生歧义, 则句子中的某些音节 会有多个可能的标注。比如, 对于上述句子 (1) 中的组 成人名的每个音节可能存在多个标注 (3) , 下面只给出 了前三个词的标注结果: (3) 这和词性标记相似, 一个音节的标注会受前面音节 的标注影响。比如, 当 标注为 LR 时, 则其后面的音 被标注为 OW 时, 其 节只能被标注为 MR 或 RR; 而当 (意 为 : 端智听了白玛
行分析, 提出基于音节特征感知机训练模型的藏文命名实体识别方案。重点研究了利用藏文紧缩格识别音节的方 法, 命名实体内部和边界音节的模型训练特征模板, 训练模型, 以及命名实体分类识别方法。提出的藏文命名实体 识别方法在测试集上获得 86.03% 的 F 值, 相对基于分词的基线系统高出 10.5% 个点。 关键词: 藏文音节; 命名实体; 藏文命名实体; 感知机模型 文献标志码: A 中图分类号: TP391 doi: 10.3778/j.issn.1002-8331.1308-0196
华却才让, 姜文斌, 赵海兴, 等: 基于感知机模型藏文命名实体识别
2014, 50 (15)
173
有2个 (1 个词) 、 3个 (1 个或 2 个词) 和 4 个音节 (2 个词) , 个别有 1 个和 6 个音节, 加上姓和封号后甚至有 26 个音 节长度的姓名。而藏文地名、 机构名同汉语类似, 都有一 些开头和结尾特征, 但用词特点不同 。此外藏文中汉族 以及外国人名、 地名和机构名均类似汉语中的命名实体。 藏文命名实体识别模块是藏文分词和藏汉翻译系统 中不可或缺的组成部分, 然而国内外对其研究很少, 文献[5] 中首次提出了基于规则和 HMM 模型藏语命名实体识别 方案。文献 [6]中研究了藏族人名汉译后的识别方法, 提 取藏族人名用字 (串) 特征和命名规则, 结合词典 (3 千条) 采用串频统计和频率对比策略, 以及人名前后一个词为 单位共现概率作为可信度的藏族人名识别模型, 需给出 预先定义的阈值。在新华网藏族频道文本和 《人民日报》 (2000-01) 上实验的召回率分别为 85.54%和 81.73%。 本文只讨论藏文人名、 地名和机构名的识别方法, 提出的基于音节的藏文命名实体识别方案, 采用基于音 节特征训练模型, 准确识别藏文人名、 地名和机构名, 识 别综合性能达到 86.03% 。
1.3 万句标注好的训练语料中训练得到感知机在线平均 权重训练模型, 以对新出现的句子进行自动标注。
4 模型及特征训练 4.1 模型
感知机方法是利用错误分类对决策权向量进行修 正至收敛的方法。基于感知机文本序列标注方法在句 法分析 [9]中取得了比较好的效果, 具有容易定义特征、 训 练速度快和分类效果好等特性。此方法同样在 Unicode 编码藏文文本自动分词和词性标注中得到了验证 [1]。设 输入句子 xi Î X , 输出标注序列 yi Î Y , X 表示训练语料 中的所有句子, Y 表示对应标注命名实体标记的音节序 列。本文采用项目组制订的命名实体音节标注规范见 表 2, 其中藏文音节标注代码包括 13 个。那么最佳命名 实体音节标注序列为:
基金项目: 国家自然科学基金 (No.61363055, No.61063033, No.61163018) ; 教育部 “春晖计划” 合作科研项目 (No.Z2012102) 。 作者简介: 华却才让 (1976—) , 男, 博士生, 副教授, 主要研究领域为藏语词法分析、 句法分析和机器翻译; 姜文斌 (1984—) , 男, 博士, 主要研究领域为词法分析、 句法分析和机器翻译; 赵海兴 (1969 —) , 男, 博士, 教授, 博士生导师, CCF 会员, 主要研究 领域为图理论、 复杂网络、 理论计算机科学和自然语言处理; 刘群 (1966—) , 男, 博士, 研究员, 博士生导师, CCF 会员, 主要研究领域为机器翻译、 自然语言处理。 E-mail: cairanghuaque@ 收稿日期: 2013-08-15 修回日期: 2013-09-30 文章编号: 1002-8331 (2014) 15-0172-05 CNKI 网络优先出版: 2013-12-19, /kcms/doi/10.3778/j.issn.1002-8331.1308-0196.html
1
总体框架
由于藏文句子中词与词之间没有明显的分隔符, 使
音节 ( ) 和一个黏着格 ( ) , 或者可能为一个单音节名 ) 问题。为获得藏文实 际拼写时的上下文音节特征, 本文没有按照严格分词方 法处理。当用非紧缩音节表 1 和紧缩词, 判断一个音节 为紧缩准音节后根据格助词直接分隔即可, 譬如: ( 确定为紧缩关系, 则划分为 ) 形式, 中间加个空格来
藏文命名实体识别 (Named Entity Recognition, NER) 是确定藏文文本中人名、 地名、 机构名和数词等名词短 语的过程。它是藏文分词、 机器翻译、 跨语言检索和文 档摘要等自然语言处理中应用的关键技术, 也是目前藏 文自然语言处理中亟待解决的问题。藏文作为典型的 逻辑格语法体系的复杂拼音文字之一 , 首先句子中最 基本的单元为音节 (字) , 一个或多个音节构成词语, 词 与词之间没有明显标记; 其次, 具有严格的格词接续规 则, 部分格词与前一个词存在粘着和形态变化等关系 ,
图2
紧缩词还原切分和实际拼写切分比较
本文首先按藏语音节分隔符 “·” 分隔为准音节, 准 音节分为紧缩准音节和非紧缩准音节, 而紧缩准音节包 括三种, 分别为直接分隔紧缩准音节、 可还原紧缩准音 节和歧义紧缩准音节; 其中非紧缩准音节 (譬如: 节, 其中直接分隔紧缩准音节 (譬如: (譬如: ) 可直接划分为一个音节; 紧缩准音节可划分为两个音 ) 可直接分隔 ) 和一个 为一个音节 ( ) 和可分黏着格 ( ) ; 可还原紧缩准音节 ) 可直接还原为一个还原音节 ( (还原) 黏着格 ( ) ; 歧义紧缩准音节 ( 词 ( ) , 同时可能存在还原 ( ) 可能为一个
命名实体 知识库 特征集 基本构件表 n-best 识别 解码 音节识别 藏文句子 训练语料 词典库
划分。歧义紧缩准音节根据建立的排歧词表 1 来划分, 当前歧义紧缩准音节与第一个左部或右部出现的音节 同时出现在歧义词表时将其直接划分为一个音节, 否则 划分为两个音节。经测试, 在 25 MB 藏文语料中紧缩词 的识别准确率达 99.91% 。此外, 当抽取命名实体词典 时对特殊紧缩边界作还原, 譬如, “ 还原为 “
[4]
组成音节的字根、 前置字、 后置字等字母构件集和字母 拼写规则, 识别实际拼写音节, 校对音节 [8]。本文考虑到 有效获取音节间实际上下文特征, 只要将黏着紧缩音节 划分为两个音节, 能准确判断出黏着紧缩关系即可。图 2 中实际拼写切分为本文采用的方法。
原句子: 黏着紧缩还原切分: 实际拼写切分: 译为: 才航南夸说西宁市的气温要降 4 度左右。
表1Biblioteka ” 抽取并” 。非紧缩音节和排歧词表
歧义紧缩音节 排歧词
感知机训练模型 音节规则模型
非紧缩音节
…
图1
藏文命名实体识别流程图
… … … … …
2
藏文音节及识别
藏语文本中绝大部分音节可由音节分隔符 “ · ” 划分, ) ,
但由于藏语文法中存在的六种紧缩格 (
导致这六种格与其前的音节间存在黏着关系, 甚至存在 紧缩关系。文献 [8] 提出了藏文紧缩词及还原法, 利用 藏文紧缩词的添接规则还原分词后的藏文原文。利用
1.陕西师范大学 计算机学院, 西安 710062 2.青海师范大学 藏文信息研究中心, 西宁 810008 3.中国科学院 计算技术研究所, 北京 100190 puter Science School of Shaanxi Normal University, Xi’ an 710062, China 2.Tibetan Information Research Center, Qinghai Normal University, Xining 810008, China 3.Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China HUA Quecairang, JIANG Wenbin, ZHAO Haixing, et al. Tibetan name entity recognition with perceptron model. Computer Engineering and Applications, 2014, 50 (15) : 172-176. Abstract:Tibetan name entity recognition is essential for Tibetan text segmentation and the part of speech tagging. This paper proposes a syllable features perceptron training model to identify Tibetan name entity with detail analysis NE structure rule and word segmentation ambiguity. It focuses on Tibetan syllable segmentation, training features templates of inner and boundary of NE, training model and NE classification method. The F-score of NE identification is 86.03% for the test set, and 10.5% higher than the Tibetan segmentation baseline system. Key words: Tibetan syllable; Name Entity (NE) ; Tibetan NE; perceptron model 摘 要: 藏文命名实体识别是藏文分词和标注系统中必须要解决的问题。通过对命名实体构词规律及分词歧义进