混合的汉语基本名词短语识别方法

混合的汉语基本名词短语识别方法
混合的汉语基本名词短语识别方法

—199—

混合的汉语基本名词短语识别方法

胡乃全1,朱巧明1,2,周国栋1,2

(1. 苏州大学计算机科学与技术学院,苏州 215006;2. 江苏省计算机信息处理技术重点实验室,苏州 215006)

摘 要:提出一种混合的汉语基本名词短语(BaseNP)识别模型,包括采用语法规则、统计方法和组合分类器方法。利用BaseNP 词的信息、词性信息及上下文句法信息,构建组合分类器,提高判断的准确性。在中文树库(CTB5.0)上进行实验,F 值达到了90.09%,证明该方法能有效地识别BaseNP 。

关键词:基本名词短语;规则模板;组合分类器

Hybrid Method to Chinese Base Noun Phrase Recognition

HU Nai-quan 1, ZHU Qiao-ming 1,2, ZHOU Guo-dong 1,2

(1. School of Computer Science and Technology, Soochow University, Suzhou 215006; 2. Jiangsu Provincial Key Lab for Computer Information Processing Technology, Suzhou 215006)

【Abstract 】This paper proposes a hybrid method to recognize Chinese Base Noun Phrase(BaseNP), including the use of grammer rules, statistical approach and classification combination. It utilizes words information, part of speech information and context syntax information of BaseNP,generates a combination classification and improves the precision. Experimental results on CTB5.0 show that the F -score is 90.09%, it proves that the method is an effective approach to Chinese BaseNP recognition.

【Key words 】Base Noun Phrase(BaseNP); rule templates; combined classifier

计 算 机 工 程Computer Engineering 第35卷 第20期

Vol.35 No.20 2009年10月

October 2009

·人工智能及识别技术·文章编号:1000—3428(2009)20—0199—03

文献标识码:A

中图分类号:TP18

1 概述

名词短语的正确识别与分析对机器翻译、文本分类以及

句法分析具有重要作用。名词短语是以名词为主体的短语,它的性质和作用与名词相同,如风俗习惯、自然语言处理等。文献[1]将英语基本名词短语(Base Noun Phrase, BaseNP)定义为“简单的非嵌套的名词短语”,即一个BaseNP 内部不能再包含有更小的名词短语。文献[2]从限定性定语出发给出汉语BaseNP 的形式化描述:

BaseNP →BaseNP+BaseNP BaseNP →BaseNP+名词|名动词 BaseNP →限定性定语+BaseNP BaseNP →限定性定语+名词|名动词

定语→形容词|区别词|动词|名词|处所词|西文字串|数量词

本文参考英语的定义,将基本名词短语定义为具有单一的语义核心、非嵌套的名词短语。它包括单个名词、没有任何修饰成分的名词短语、难以确定修饰关系的一串名词、并列名词性成分、专有名词、时间、地点等。

2 任务描述

基本名词短语识别可转化为标注问题。这里引入3个标注符号:B, I, O ,其中,B 表示基本名词短语的开始;I 表示基本名词短语的内部;O 表示其他。这样,基本名词短语识别问题就转化为标注问题。

2.1 特征的表示

特征向量的属性主要考虑3类信息:词汇本身(W),词性(P)和BIO 标注(T)。假设标注过程是从左到右进行的,因此,不考虑当前位置之后的BIO 标注。特征向量可能采用的属性如图1所示。其中,W0表示当前词汇;W-1表示当前位置左面第一个词;P-1表示W-1的词性;T-1表示W-1的

BIO 标注。

图1 特征向量的属性

2.2 最大熵(ME)模型

文献[3]将最大熵方法应用到英语组块识别分析。对位置限于考虑当前词左右第1、第2个词;对信息限于考虑BIO 标注(T)、词性标注(P)和单词本身(W)3种,但不考虑当前位置及之后的BIO 标注。保留候选特征频数高的,其他的特征被当作噪声舍弃,运用改进的迭代算法(IIS)计算特征参数λi 和P (y |x ),其中,λi 表示每个特征的重要性;x 表示上下文,y 表示当前位置的BIO 标记。在对新的样本进行标注时,把当前词满足条件的特征的参数按特征右部标注分类迭加取得最大的标注结果。可形式化表示为

(1)输入:上下文x ;

(2)过程:计算(|)exp((,))i k k i k

p y x f x y λ=∑;

取arg max (|)i t p y x =; (3)输出:标注y i 。

2.3 CRF 模型

文献[4]提出CRF 的概念,其模型描述如下:给定的输出

基金项目:国家自然科学基金资助项目(0673041);国家“863”计划基金资助项目(006AA01Z147)

作者简介:胡乃全(1981-),男,硕士研究生,主研方向:自然语言处理;朱巧明,教授;周国栋,教授、博士生导师

收稿日期:2009-03-13 E-mail :naiquan_hu@https://www.360docs.net/doc/1913705421.html,

—200

—标识序列Y 和观察序列X ,为了描述(X , Y )序列,对上述CRF ,定义特征函数1(,,,)j i i f y y x i ? 和权值向量λ,y i -1, y i 为标识序列,x 为输入序列,i 为输入位置,则

1

(|,)exp((,))()

j j j p y x F y x Z x λ =

∑λ

11

(,)(,,,)n

j i i i i F y x f y y x i ?== ∑

其中,Z (x )是归一化因子。

由上式求得条件随机场的条件概率,对于输入序列x ,最佳序列y 可以通过下式确定:

*(|)(,)arg max arg max y

y

Y p Y X F y x == λλi

3 系统实现

基于混合方法的BaseNP 识别流程如图2所示,主要分

为训练模块和识别模块。训练模块实现特征的构建、规则集的提取和模型的训练,识别模块完成基本名词短语的识别和性能的评估。

图2 基于混合方法的BaseNP 识别流程

3.1 模板获取

规则模板分为4类:单词模板,词性-BIO 标注模板,词性模板,扩展词性模板。 3.1.1 单词模板

在名词短语识别中,先将常用的BaseNP 和常用的专有名词抽取出来,建成BaseNP 单词模板库。本文对CTB5.0前670篇文章中出现的BaseNP 进行了统计,其中,BaseNP 总数为89 399个,取出现次数大于50次的为单词模板(占总数的26.8%)。单词模板具有最高的优先级,如果句子中包含某个序列和单词模板匹配,则可以直接取出该单词序列作为BaseNP 。

3.1.2 词性-BIO 标注模板

本文统计语料中每种词性与其标识的对应关系,如果某个词性的统计结果97%以上都是同一类标识,则在识别时将该类词性都标注为该标识。部分统计结果如表1所示。

表1 单一词性与标注间的关系

B I O total 处理方式 NN 62 890 27 097 1 622 91 609 预标注为B PU 1 065 3 884 45 253 50 202 预标注为O VV

1

1

44 920

44 922

标注为O

对于不能满足97%以上的标注结果为同一标识的词性类别(共有6类:CC, ETC, NN, NR, NT, PU),先标注为出现次数最多的标识,再利用模板修正结果。 3.1.3 词性模板

定义 设一个汉语的句子为S =w 1w 2…w m ,对应的词性序列为A =a 1a 2…a m ,假设P i,j =w i w i +1…w j (1≤i <j ≤m )为S 中的一个基本名词短语,则P i,j 对应的词性序列B =b i b i +1…b j 为BaseNP 的词性模板。通过统计,得到了450种词性模板,综合分析模板的出现次数、正确率及合理性,采用了其中 19个词性模板,如表2所示。使用时,采用最长匹配的原则。

表2 词性模板

编号

词性模板

编号

词性模板

1 NN-NN 11 PU-NN-NN-PU

2 NN-NN-NN 12 NR-CC-NR

3 NR-NN 13 NN-NN-CC-NN-NN

4 NN-CC-NN 14 NT-NN

5 NR-NR 15 NR-PU-NR

6 NR-NN-NN 16

NR-NR-NN

7 NT-NT 17 NN-CC-NN-NN 8 PU-NN-PU 18 NR-NN-NN-NN 9 NN-PU-NN 19 NN-PU-NN-PU-NN 10 NN-NN-NN-NN

3.1.4 扩展词性模板

本文在研究词性模板的基础上,考察词性模板的所处的上下文环境、标点符合类型,得到了识别更为准确的扩展词性模板。

设当前词汇为W i ,词性为P i ,其前一个词的编号为i -1,后一个词的编号为i +1,单一词汇的扩展模板举例如下:

(1)扩展模板1:W i =顿号,P i -1是VA, VV, PU, M ,或P i +1是CD, VV, JJ, P, DT, VE, VA ,或P i -1=NN, P i +1=NR 或P i -1=NR, P i +1=NN 时,顿号标注为“O ”,否则顿号标注为“I ”。

(2)扩展模板2:如果P i =NN 或P i =NR ,W i -1=顿号,P i -2=NN ,则当前词汇标注为“I ”。

对于表2中的词性模板,统计前后各一个词汇的词性与短语是否是BaseNP 的关系。词性模板NN-NN 的环境与是否为BaseNP 间的关系如表3所示,其中,BaseNP 列表示符合该词性序列,且模板NN-NN 对应的词为基本名词短语的个数;~BaseNP 列表示符合该词性序列,但模板NN-NN 对应的词不是基本名词短语的个数。

表3 NN-NN 模板上下文环境分析结果

词性模板

BaseNP ~BaseNP

M-NN-NN-PU 88 7 PU-NN-NN-VV 203 7 M-NN-NN-VV 62 0 DEC-NN-NN-PU 243 3 M-NN-NN-VV 40 0 M-NN-NN-NN 2 156 JJ-NN-NN-NN 0 184 CC-NN-NN-NN 1 97

3.2 组合分类器

在机器学习方法中使用多分类器组合可以提高分类准确性。本文参考文献[5]实现了一个基于加权投票机制的组合分类器。因为各个分类器对每个类别的识别能力有一定的差别,所以不能实行“一人一票”的表决原则,尽可能发挥各个分类器的优点,就有可能使组合结果提高。加权投票机制关键问题是如何确定每个分类系统所具有的权重,直接估算它们比较困难。根据训练语料生成各自的模型,再利用测试语料对模型进行测试,根据各自的性能结果分配给每个系统一个权值,然后采用交叉确认、VC-bound 和Leave-One-Out bound 的处理步骤来确定每个系统的最终权值[5]。

—201—

4 实验结果与分析

本文使用LDC 公开的中文树库CTB5.0语料。实验将语料分成2个部分:前670篇作为训练语料,后220篇作为测试语料。测试指标如下:

(1)精确率:100%a P b =×;

(2)召回率:100%a

R c

=×;

(3)F -score :22

(1)100%RP

F R P

ββ+=×+, β=1。 其中,a 是识别正确的BaseNP 数;b 是识别为BaseNP 的词串数;c 是文本中实际存在的BaseNP 数。

本文基于ME 系统、CRFs 系统和混合系统(Combination)进行实验。经过多次实验,分别为ME 和CRFs 选择性能最好的特征:CRFs 选择当前词词性P0,当前词W0,前一词词性P-1作为特征向量;ME 选择当前词词性P0,当前词W0,前一词词性P-1和标注T-1作为特征向量。与基于同样语料库的其他系统作了对比,实验结果如表4所示。

表4 各系统的实验结果对比 (%)

系统 召回率 精确率 F -score

ME 系统 87.53 88.07 87.80 CRFs 系统(有模板库) 88.96 89.05 89.00 Combination 系统 89.67 90.52 90.09 文献[6]的系统 87.43 88.09 87.75

文献[7]的系统

— —

89.27

可以看出,CRFs 模型在处理BaseNP 识别问题时性能比

ME 模型好,当采用混合的方法时,Combination 系统的性能比ME 和CRFs 都好,F -score 达到了90.09%,高出CRFs 系统近1%,比文献[7]的系统高出0.82%。这主要是因为大量的规则给判断提供了依据,同时使用多分类器组合也提高了预测的准确性。

5 结束语

本文提出一种有效的汉语BaseNP 识别方法。该模型的不足之处是对单词模板的适用性要求较高,有些BaseNP 在某些语言环境中不再是BaseNP 或只是BaseNP 的一个部分,从而降低了精确率,且系统对上下文句法特征不明显的BaseNP 识别的精确率较低。下一步的工作是挖掘更多的上下文信息,并把BaseNP 识别结果应用于指代消解任务中。

参考文献

[1] Chruch K W. A Stochastic Parts Program and Noun Phrase for

Unrestricted Test[C]//Proc. of the 2nd Conf. on Applied Natural Language Processing. Austin, TX, USA: Kluwer Academic Publicshers, 1998.

[2] 赵 军, 黄昌宁. 基于转换的汉语基本名词短语识别模型[J].

中文信息学报, 1999, 13(2): 1-7.

[3] Koeling R. Chunking with Maximum Entropy Models[C]//Proc. of

CoNLL-2000 and LLL-2000. Lisbon, Portugal: [s. n.], 2000. [4] Lafferty J, McCallum A, Pereira F. Conditional Random Fields:

Probabilistic Models for Segmenting and Labeling Sequence Data[C]//Proc. of the 18th International Conference on Machine Learning. San Francisco, USA: [s. n.], 2001.

[5] Tjong E F, Sang K, Daelemans W, et al. Applying System Combi-

nation to Base Noun Phrase Identification[C]//Proc. of COLING’00. Saarbrucken, Germany: [s. n.], 2000.

[6] 周雅倩, 郭以昆, 黄萱菁, 等. 基于最大熵方法的中英文基本名

词短语识别[J]. 计算机研究与发展, 2003, 40(3): 440-446.

[7] 徐 昉. 汉语Base NP 识别: 错误驱动的组合分类器方法[J].

中文信息学报, 2007, 21(1): 115-119.

编辑 顾姣健

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

(上接第198页)

图3沿y 轴分解的情形与图2沿x 轴分解的情形相似,在此不作详细描述。

时间/s

y 轴投影/c m

时间/s

y 轴投影/c m

(a)关闭条件 (b)运行条件

图3 手动轨迹真实图像与神经状态识别关闭/运行的译码图像

5 结束语

本文利用相关向量机完成了对神经活动准确分类,在此基础上预测出手部运动轨迹。实验证明,相关向量机计算速度快、分类及回归性能出色、内存消耗少,是极为优秀的统

计学习和推理工具。然而,在训练中复杂的矩阵运算、RVM 核参数计算方法及误差的减小等方面仍然有待改进和解决。

参考文献

[1] Prabhat F W, Donoghue J P, Black M J, et al. Inferring Attentional

State and Kinematics from Motor Cortical Firing Rates[C]//Proc. of the 27th IEEE Engineering in Medicine and Biology Conference. Shanghai, China: [s. n.], 2005.

[2] Tipping M E. Sparse Bayesian Learning and the Relevance Vector

Machine[J]. Journal of Machine Learning Research, 2001, 1(3):

211-244.

[3] Vapnik V N. The Nature of Statistical Learning[M]. New York, USA:

Springer-Verlag, 1995.

[4] Lawrence N D, Seeger M. Fast Sparse Gaussian Process Methods:

The Informative Vector Machine[C]//Proc. of Workshop on Neural Information Processing Systems. [S. 1.]: IEEE Press, 2003: 609- 616.

编辑 顾逸斐

英语翻译专业词组的50个重要表达

专业翻译的50个重要表达 一、政治类: 1. 日益昌盛become increasingly prosperous 2. 快速发展develop rapidly 3. 隆重集会gather ceremoniously 4. 热爱和平love peace 5. 追求进步pursue progress 6. 履行权利和义务perform the responsibilities and obligations 7. 回顾奋斗历程review the course of struggle 8. 展望伟大征程look into the great journey 9. 充满信心和力量be filled with confidence and strength 10. 必胜be bound to win 11. 主张各国政府采取行动urge governments of all countries to take action 12. 和平共处coexist peacefully 13. 对内开放和对外开放open up both externally and internally 14. 经历两个不同时期experience two different periods 15. 战胜无数的困难overcome numerous difficulties 16. 赢得一个又一个胜利win one victory after another 17. 完全意识到be fully aware that 18. 迈出重要的一步make an important step 19. 采取各种措施adopt various measures 20. 得出结论,告一段落draw ( arrive at, come to reach ) a conclusion 21. 实现民族独立realize national independence 22. 追求真理seek the truth 23. 建立社会主义制度establish a socialist system 24. 根除(防止,消除)腐败root out (prevent, eliminate) corruption 25. 响应号召respond to the call 26. 进入新时期enter a new period 27. 实行新政策practice new policies 28. 展现生机和活力display one’s vigor and vitality 29. 增强综合国力和国际竟争力 enhance comprehensive(overall) national strength and international competitiveness 30. 进入世界先进行列edge into the advanced ranks in the world 31. 解决温饱问题solve the problem of food and clothing 32. 吸收各国文明的先进成果absorb what is advanced in other civilizations 33. 与日俱增increase every day 34. 实现夙愿fulfill the long-cherished wishes 35. 必将实现be bound to come true 36. 锻造一支人民军队forge a people’s army 37. 建立巩固的国防build a strong national defense 38. 进行和谈hold peace talks 39. 修改法律amend the laws 40. 在...中起(至关)重要作用 play a major的(crucial, an important ) role in 41. 对...做出重要(巨大)贡献make important (great, major )contributions to

实验6数据拟合及参数辨识方法(精)

实验6 数据拟合及参数辨识方法 一、实验目的及意义 [1] 了解最小二乘拟合的基本原理和方法; [2] 掌握用MATLAB作最小二乘多项式拟合和曲线拟合的方法; [3] 通过实例学习如何用拟合方法解决实际问题,注意与插值方法的区别。 [4] 了解各种参数辨识的原理和方法; [5] 通过范例展现由机理分析确定模型结构,拟合方法辨识参数,误差分析等求解实 际问题的过程; 通过该实验的学习,掌握几种基本的参数辨识方法,了解拟合的几种典型应用,观察不同方法得出的模型的准确程度,学习参数的误差分析,进一步了解数学建模过程。这对于学生深入理解数学概念,掌握数学的思维方法,熟悉处理大量的工程计算问题的方法具有十分重要的意义。 二、实验内容 1.用MATLAB中的函数作一元函数的多项式拟合与曲线拟合,作出误差图; 2.用MATLAB中的函数作二元函数的最小二乘拟合,作出误差图; 3.针对预测和确定参数的实际问题,建立数学模型,并求解。 三、实验步骤 1.开启软件平台——MATLAB,开启MATLAB编辑窗口; 2.根据各种数值解法步骤编写M文件 3.保存文件并运行; 4.观察运行结果(数值或图形); 5.根据观察到的结果写出实验报告,并浅谈学习心得体会。 四、实验要求与任务 根据实验内容和步骤,完成以下具体实验,要求写出实验报告(实验目的→问题→数学模型→算法与编程→计算结果→分析、检验和结论→心得体会) 应用实验 1.旧车价格预测 某年美国旧车价格的调查资料如下表,其中x i表示轿车的使用年数,y i表示相应的平均价格。试分析用什么形式的曲线来拟合上述的数据,并预测使用4.5年后轿车的平均价

词组翻译

一级 abrasion磨损 accommodation调节 accommodative convergence调节性集合 acute angle-closure glaucoma急闭青 afferent pupillary defect瞳孔传入障碍 age-related macular degeneration年龄相关性黄斑变性 allergic conjunctivitis过敏性结膜炎 ametropia非正视眼 Amsler grid阿姆斯勒方格表 angle of anterior chamber 前房角 angle recession 房角后退 anomalous retinal correspondence 视网膜异常对应anterior capsular前囊膜 anterior chamber 前房 intraocular lens人工晶体 anterior segment前段 aqueous humor房水 aqueous tear deficiency 水样液缺乏性干眼症astigmatism散光 axial myopia 轴性近视 bacterial_(bacteria) 细菌的 bifocal双焦的 binocular balance双眼平衡 binocular disparity双眼差异 binocular indirect ophthalmoscope双目间接检眼镜binocular vision 双眼视觉 binocular visual confusion双目视觉混乱 blind spot盲点 blindness失明 blood staining of cornea 角膜血染 blunt trauma钝挫伤 cataract白内障 central corneal thickness中央角膜厚度 choroid脉络膜 choroidal rupture 脉络膜挫伤 chronic angle-closure glaucoma 慢性闭角型青光眼chronic open-angle glaucoma慢性开角型青光眼ciliary body 睫状体 ciliary muscle 睫状肌 circle of least confusion最小模糊圆 color blindness色盲 colour vision deficiency 色弱coma 昏迷、彗差 concave lens 凹透镜 confusion 混淆 cons视锥细胞 contact lens接触镜 contrast sensitivity对比灵敏度 contusion 挫伤 convergence会聚、集合 convex lens凸透镜 corneal collagen cross-linking 角膜交联术corneal degeneration 角膜变性 corneal dystrophy角膜营养障碍 corneal edema角膜水肿 corneal flap 角膜瓣 corneal graft 角膜植片 corneal scar角膜瘢痕 corneal stroma 角膜基质 corneal topography角膜地形图 cortical cataract 皮质性白内障 cotton wool spot 棉絮斑 cover test 遮盖试验 crowding phenomenon 拥挤现象crystalline lens 晶状体 cup/disc ratio杯/盘比 cylindrical lens柱面透镜 cyst囊肿 cystoid macular edema黄斑囊样水肿 dark adaptation 暗适应 deep and quiet 幽深 defocus散焦 diabetic retinopathy 糖尿病视网膜病变dilated fundus examination扩大的眼底检查dilation扩张膨胀 diopter屈光度 direct ophthalmoscope直接检眼镜divergence分歧 dominant eye优势眼 drusen玻璃疣 dry eye干眼 eccentric fixation偏心注视 emboli 栓子 emmetropia 正视眼 erosion 侵蚀 excimer laser 准分子激光

基于神经网络方法的字符识别方法

论文写作与规范 题目:基于神经网络方法的字符识别方法 学号: 210802102 专业:计算机系统结构 姓名:靳飞飞 2009 年 1 月 9日

基于神经网络方法的字符识别方法 靳飞飞 (中国海洋大学信息科学与工程学院, 山东青岛266071) 摘要:字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,而是模式识别领域中大多数课题都会遇到的基本问题,并且在不同的课题中,由于具体的条件不同,解决的方法也不尽相同,因而字符识别的研究仍具有理论和实践意义。这里讨论的是用神经网络方法实现基于照相的数字图像的字符识别的问题。并且通过模板匹配的方法作为参照,以体现神经网络在处理模式识别问题上的优势。由于人工神经网络的非线性以及并行性和鲁棒性等特点,在上述领域,其取得了以往传统算法无法获得的成功。 关键词:神经网络;字符识别;图像处理 Character recognition based on neural network Jin Feifei (College of Information Science and Engineering,Ocean University of China,Qingdao 266071,China) Abstract:Character recognition is a traditional problem in the field of pattern recognition, for it is rather an isolated task than a fundamental problem in most work of pattern recognition area, with which we have various methods to deal in terms of specific conditions. That means the pursuit of character recognition is of great significance both in theory and in practice .The goal of this paper is using neural network to recognize characters on digital image based on camera. It also can be seen, in the paper, the advantage of neural network compared with the template matching method. Because its nonlinearity, parallel and strong, in these fields mentioned above, artificial neural network has achieved the success which other traditional algorithms can not reach. Key word: neural network, character recognition, image processing 1引言 字符识别是模式识别领域的一项传统的课题,这是因为字符识别不是一个孤立的问题,

混合的汉语基本名词短语识别方法

—199— 混合的汉语基本名词短语识别方法 胡乃全1,朱巧明1,2,周国栋1,2 (1. 苏州大学计算机科学与技术学院,苏州 215006;2. 江苏省计算机信息处理技术重点实验室,苏州 215006) 摘 要:提出一种混合的汉语基本名词短语(BaseNP)识别模型,包括采用语法规则、统计方法和组合分类器方法。利用BaseNP 词的信息、词性信息及上下文句法信息,构建组合分类器,提高判断的准确性。在中文树库(CTB5.0)上进行实验,F 值达到了90.09%,证明该方法能有效地识别BaseNP 。 关键词:基本名词短语;规则模板;组合分类器 Hybrid Method to Chinese Base Noun Phrase Recognition HU Nai-quan 1, ZHU Qiao-ming 1,2, ZHOU Guo-dong 1,2 (1. School of Computer Science and Technology, Soochow University, Suzhou 215006; 2. Jiangsu Provincial Key Lab for Computer Information Processing Technology, Suzhou 215006) 【Abstract 】This paper proposes a hybrid method to recognize Chinese Base Noun Phrase(BaseNP), including the use of grammer rules, statistical approach and classification combination. It utilizes words information, part of speech information and context syntax information of BaseNP,generates a combination classification and improves the precision. Experimental results on CTB5.0 show that the F -score is 90.09%, it proves that the method is an effective approach to Chinese BaseNP recognition. 【Key words 】Base Noun Phrase(BaseNP); rule templates; combined classifier 计 算 机 工 程Computer Engineering 第35卷 第20期 Vol.35 No.20 2009年10月 October 2009 ·人工智能及识别技术·文章编号:1000—3428(2009)20—0199—03 文献标识码:A 中图分类号:TP18 1 概述 名词短语的正确识别与分析对机器翻译、文本分类以及 句法分析具有重要作用。名词短语是以名词为主体的短语,它的性质和作用与名词相同,如风俗习惯、自然语言处理等。文献[1]将英语基本名词短语(Base Noun Phrase, BaseNP)定义为“简单的非嵌套的名词短语”,即一个BaseNP 内部不能再包含有更小的名词短语。文献[2]从限定性定语出发给出汉语BaseNP 的形式化描述: BaseNP →BaseNP+BaseNP BaseNP →BaseNP+名词|名动词 BaseNP →限定性定语+BaseNP BaseNP →限定性定语+名词|名动词 定语→形容词|区别词|动词|名词|处所词|西文字串|数量词 本文参考英语的定义,将基本名词短语定义为具有单一的语义核心、非嵌套的名词短语。它包括单个名词、没有任何修饰成分的名词短语、难以确定修饰关系的一串名词、并列名词性成分、专有名词、时间、地点等。 2 任务描述 基本名词短语识别可转化为标注问题。这里引入3个标注符号:B, I, O ,其中,B 表示基本名词短语的开始;I 表示基本名词短语的内部;O 表示其他。这样,基本名词短语识别问题就转化为标注问题。 2.1 特征的表示 特征向量的属性主要考虑3类信息:词汇本身(W),词性(P)和BIO 标注(T)。假设标注过程是从左到右进行的,因此,不考虑当前位置之后的BIO 标注。特征向量可能采用的属性如图1所示。其中,W0表示当前词汇;W-1表示当前位置左面第一个词;P-1表示W-1的词性;T-1表示W-1的 BIO 标注。 图1 特征向量的属性 2.2 最大熵(ME)模型 文献[3]将最大熵方法应用到英语组块识别分析。对位置限于考虑当前词左右第1、第2个词;对信息限于考虑BIO 标注(T)、词性标注(P)和单词本身(W)3种,但不考虑当前位置及之后的BIO 标注。保留候选特征频数高的,其他的特征被当作噪声舍弃,运用改进的迭代算法(IIS)计算特征参数λi 和P (y |x ),其中,λi 表示每个特征的重要性;x 表示上下文,y 表示当前位置的BIO 标记。在对新的样本进行标注时,把当前词满足条件的特征的参数按特征右部标注分类迭加取得最大的标注结果。可形式化表示为 (1)输入:上下文x ; (2)过程:计算(|)exp((,))i k k i k p y x f x y λ=∑; 取arg max (|)i t p y x =; (3)输出:标注y i 。 2.3 CRF 模型 文献[4]提出CRF 的概念,其模型描述如下:给定的输出 基金项目:国家自然科学基金资助项目(0673041);国家“863”计划基金资助项目(006AA01Z147) 作者简介:胡乃全(1981-),男,硕士研究生,主研方向:自然语言处理;朱巧明,教授;周国栋,教授、博士生导师 收稿日期:2009-03-13 E-mail :naiquan_hu@https://www.360docs.net/doc/1913705421.html,

电容参数识别方法

电容参数识别方法 1、国外电容器耐压值通常用字母来表示基数,常见的代码和基数对应关系是: A:1.0;B:1.25;C:1.6;D:2.0;E:2.5;F:3.15;G4.0; H:5.0;J:6.3;K:8.0;Z:9.0; 2、字母前面的数表示10的幂,比如2A,即为1.0*10^2=100V,2C为1.6*10^2=160V等等。 3、耐压值后方的字母表示电容容量,单位为pF。 例如823表示容量为82*10^3=82000Pf ,224表示22*10^4=220000pf=0.22uF;最后的字母表示精度,比如J表示容量允许偏差为±5%等等。 4、典型的电容标识示例:2A823J 即82000Pf±5%,耐压100V。 涤纶电容- 标注方法 涤纶电容1、直标法:将电容器的主要参数(标称容量、额定电压、及允许偏差)直接标注在电容器上,如0.0047μf/275V,0.0047μf是容量,相当于4700Pf,275V应是耐压(不属优选数系列)。 2、文字符号法:采用数字或字母与数字混合的方法来标注电容器的主要参数。 3、数字标注法一般是用3位数字表示电容器的容量。其中前两位为有效值数字,第三位为倍乘数(即表示有效值后有多少个0)。如104,表示有效值是10,后面再加4个0,即100000Pf=0.1μf。 4、字母与数字混合标注法用2—4位数字表示有效值,用P、n、M、μ、G、m等字母表示有效数后面的量级。进口电容器在标注数值时不用小数点,而是将整数部分写在字母之前,将小数部分写在字母后面。如4P7表示4.7Pf,3m3表示3300μf等。 涤纶电容- 偏差标注 电容器的容量的允许偏差标注字母及含义: 字母含义 F ±1% G ±2% J ±5% K ±10% M ±20% N ±30% 如104K表示容量100000Pf=0.1μf,容量允许偏差为±10%。 涤纶电容又称聚酯电容,字母为“CL ”,容量一般是40P~4μ,电压是63~630V,主要用于 对稳定性和损耗要求不高的低频电路。

一种基于多模板匹配的字符识别方法

一种基于多模板匹配的字符识别方法 李 婧,龚晓峰,王瑞辉 (四川大学 电气信息学院 成都 610065) 摘要:本文在对字符进行各种预处理,包括倾斜校正,归一化,分割的基础上,依据字符的高度,宽度范围,提出了一种基于多模板匹配的字符识别方法,并将该算法运用于仿宋_GB2312字体,识别率达到98%以上,有效的提高了识别正确率,简单易实现。 关键词:倾斜校正;字符分割;多模板匹配 中图分类号:TP391.41 文献标识码:A A recognition method of characters based on Multi-Template Matching LI Jing, GONG Xiao-feng, Wang Rui-hui (College of Electrical Information, Sichuan University, Chengdu 610065, China) Abstract: This paper first do pretreatment such as skew correction, normalization, segmentation of characters, etc. Then it presented a new muti-template matching method according to the range of the character’s width and height. At last, the experiment used in the FangSong_GB2312 font show that this method can improve recognition accuracy and is easy to put into practice. Keywords: skew correction; character segmentation; multi-template matching 0 引言 字符识别是图像处理和模式识别领域中的研究课题之一,它涉及模式识别、图像处理、人工智能、中文信息处理等学科,是一门综合性技术,在中文信息处理、办公室自动化、人工智能、车牌识别、交通管理等高技术领域都有着重要的实用价值和理论意义[1]。目前字符识别主要有以下几种方法:1)利用字符的统计特征进行特征提取,2)基于字符结构分析的识别方法,3)利用字符的结构特征和变换进行特征提取,4)基于模板匹配的方法进行字符识别,5)近年来又出现了基于神经网络的算法和基于矩和小波变换的识别算法。但由于同一字体的字符有各种字号的差异,单一的运用上述某一种方法的效果都不理想[2]。为了提高识别率,本文从识别率较高的模板匹配法入手,对单模板匹配和特征模板进行改进,提出了一种根据字符高度,宽度值为每个字聚类多个模板,最后采用海明距离实现多模板的匹配。通过将该算法运用于仿宋_GB2312字体,发现这一方法能有效解决相似度高的字符的正确识别问题,有一定的实用价值。 1 识别系统总体方案 字符识别系统一般包括字符预处理,字符分割,字符识别三个环节,系统框图如图1所示。

最长名词短语识别研究

最长名词短语识别研究 本文分析了最长名词短语的内部构成特征,提出了一种基于基本名词短语中心归约的最长名词短语识别方法,并使用条件随机场模型识别了最长名词短语。实验取得了87.58%的正确率和88.31%的召回率。 标签:最长名词短语基本名词短语条件随机场中心规约 一、引言 最长名词短语(MNP)的识别能够显著地改善句法分析等系统的性能。如对于句法分析而言,最长名词短语在句子中主要充当主语和宾语,其内部结构复杂多样。正确地识别出这些结构,可以大大降低句法分析过程中的浅层歧义,提高句法分析器的性能。 最长名词短语的识别研究涉及自然语言处理中常见的统计和规则方法。李文捷等(1995)使用边界分布信息构造概率模型识别MNP;周强、孙茂松等(2000)提出两种不同的识别算法,其中基于内部结构组合的算法通过基本组合成分向左迭代组合,形成新的最长名词短语,取得了良好效果;代翠等(2008)则使用了条件随机场模型识别最长名词短语,并针对识别错误使用后继规则进行修正。 总的来说,随着一些新的统计模型和新方法的应用,汉语最长名词短语的识别效果逐步提高,但由于MNP自身构造的复杂性,MNP识别问题还有待进一步的研究。在前人研究的基础上,本文提出了一种基于基本名词短语中心压缩的最长名词短语的方法,并基于条件随机场模型实现了该方法,实验证实了这种方法的有效性。 二、最长名词短语及其构成 中文信息处理学界所说的“名词短语”与本体语言学的定义大体一致,是“名词性短语”“体词性短语”的意思。周强、孙茂松等(2000)从组成结构上将名词短语分为最短名词短语(MNP)、最长名词短语(MNP)、一般名词短语(GNP)三类,其中,最长名词短语的定义沿承了Kuang-hua Chen (1994)关于英语MNP的定义,指“不被其他名词短语所包含的名词短语”。我们把最长名词短语定义为不被其他任何名词短语所包含的名词短语,最长名词短语是句子级的短语单位,其上层结构即为句子根节点S。本文定义的最长名词短语包含单词短语,下面的句子用括号标注了MNP: (1)[罗马/nS 时代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更为/dD 巧妙/a 的/u 一/m 位/qN 艺术家/n ”/” 的/u 评说/vN]。/。 (2)[电荷/n 周围/s]伴有/v [电场/n],/,[电场/n]对/p [电荷/n]产生/v [力/n 的/u 作用/n]。/。

英文词组翻译

心之所向,所向披靡 中国国家机关China’s State Organs 全国人民代表大会--------------National People’s Congress (NPC) 主席团-----------------------Presidium 常务委员会-------------------Standing Committee --办公厅---------------------General Office --秘书处---------------------Secretariat --代表资格审查委员会----------Credentials Committee --提案审查委员会--------------Motions Examination Committee --民族委员会------------------Ethnic Affairs Committee --法律委员会------------------Law Committee --财务经济委员会--------------Finance Affairs Committee --外事委员会------------------Foreign and Economy Committee --教育,科学,文化委员会-------Education, Science, Culture and Public Health Committee --内务司法委员会--------------Committee for Internal and Judicial Affairs --华侨委员会------------------Overseas Chinese Affairs Committee --法制委员会------------------Commission of Legislative Affairs --特定问题委员会--------------Committee of Inquiry into Special Questions --宪法修改委员会--------------Committee for Revision of the Constitution 中华人民共和国主席------------President of the People’s Republic of China 中央军事委员会----------------Central Military Commission 最高人民法院------------------Supreme People’s Court 最高人民检察院----------------Supreme People’s Procuratorate 国务院-----------------------State Council (1)国务院部委----------------Ministries and Commissions Directly under the State Council ------外交部-----------------Ministry of Foreign Affairs ------国防部-----------------Ministry of National Defense

基于MATLAB的字符识别研究

基于MATLAB的字符识别研究 汽车牌照识别程序的设计 摘要:本次课程设计的目的是通过对基于MATLAB的字符识别的研究,以汽车牌照识别的设计为实例,详细介绍字符识别的相关原理。整个汽车牌照识别的过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用MATLAB软件编程来实现每一个部分,最后识别出汽车牌照。在研究的同时对其中出现的问题进行了具体分析,处理。寻找出对于具体的汽车牌照识别过程的最好的方法。 关键词:MATLAB 字符识别车牌识别神经网络图像处理 引言 在MATLAB的字符识别研究中,汽车牌照的识别是最经典的样例,因为车辆牌照识别系统(License Plate Recognition System,简称LPRS)是建设智能交通系统不可或缺的部分。基于 MATLAB 图像处理的汽车牌照识别系统是通过引入数字摄像技术和计算机信息管理技术,采用先进的图像处理模式识别和人工智能技术,通过对图像的采集和处理,获得更多的信息,从而达到更高的智能化管理程度。车牌识别系统整个处理过程分为预处理、边缘提取、车牌定位、字符分割、字符识别五大模块,用 MATLAB软件编程来实现每一个部分处理工程,最后识别出汽车牌照。 一、 MATLAB及其图像处理工具概述 MATLAB 是 MATrix LABoratory (矩阵实验室)的缩写,是 Math Works 公司开发的一种功能强效率高简单易学的数学软件。MATLAB 的图像处理工具箱,功能十分强大,支持的图像文件格式丰富,如*.BMP、*.JPG、 *.JPEG、 *.GIF、 *.TIF 、*.TIFF、 *.PNG 、*.PCX、 *.XWD、 *.HDF、*.ICO 、*.CUR 等。MATLAB 7.X 提供了20 多类的图像处理函数,几乎涵盖了图像处理的所有技术方法,是学习和研究图像处理的人员难得的宝贵资料和加工工具箱。这些函数按其功能可分为:图像显示、图像文件 I/O、图像算术运算、几何变换、图像登记、像素值与统计图像分析、图像增强、线性滤波、线性二元滤波设计、图像去模糊、图像变换、邻域与块处理、灰度与二值图像的形态学运算、基于边缘的处理、色彩映射表操作色彩空间变换图像类型与类型转换。MATLAB 还着重在图形用户界面(GUI)的制作上作了很大的改善,对这方面有特殊要求的用户也可以得到满足。本文将给出 MATLAB 的图像处理工具箱中的图像处理函数实现图像处理与分析的应用技术实例。 二、基于 MATLAB图像处理的汽车牌照识别系统 1.系统组成 基于MATLAB图像处理的汽车牌照识别系统主要包括车牌定位字符车牌分割和车牌字符识别三个关键环节其识别流程图如图 1所示。 图1 识别流程图 其中, (1)原始图像:由数码相机或其它扫描装置拍摄到的图像; (2)图像预处理:对动态采集到的图像进行滤波、边界增强等处理以克服图像干扰; (3)车牌定位:计算边缘图像的投影面积,寻找峰谷点,大致确定车牌位置,再计算此连通域内的宽 高比,剔除不在域值范围内的连通域,最后得到的便为车牌区域; (4)字符分割:利用投影检测的字符定位分割方法得到单个的字符; (5)字符数据库:为第6步的字符识别建立字符模板数据库; (6)字符识别:通过基于模板匹配的OCR算法或基于人工神经网络的OCR算法,通过特征对比或训练 识别出相关的字符,得到最后的汽车牌照,包括英文字母和数字。

500个常用词组翻译

500个常用词组翻译 1. a big headache 令人头痛的事情 2. a fraction of 一部分 3. a matter of concern 焦点 4. a series of 一系列,一连串above all 首先,尤其是 5. absent from不在,缺席 6. abundant in富于 7. account for 解释 8. accuse sb. of sth.控告 9. add to增加(add up to) 10. after all 毕竟,究竟 11. agree with同意 12. ahead of time / schedule提前 13. ahead of 在...之前(ahead of time 提前) 14. alien to与...相反 15. all at once 突然,同时 16. all but 几乎;除了...都 17. all of a sudden 突然 18. all over again 再一次,重新 19. all over 遍及 20. all right 令人满意的;可以 21. all the same 仍然,照样的 22. all the time 一直,始终 23. angry with sb. at/about sth.生气,愤怒 24. anxious about/for忧虑,担心 25. anything but 根本不 26. apart from 除...外(有/无) 27. appeal to 吸引,申诉,请求 28. applicable to适用于 29. apply to适用 30. appropriate for/to适当,合适 31. approximate to近似,接近 32. apt at聪明,善于 33. apt to易于 34. around the clock夜以继日 35. as a matter of fact 实际上 36. as a result(of) 因此,由于 37. as a rule 通常,照例 38. as far as ...be concerned 就...而言 39. as far as 远至,到...程度40. as follows 如下 41. as for 至于,关于 42. as good as 和...几乎一样 43. as if 好像,防腐(感谢关注英语口语精华) 44. as regards 关于,至于 45. as to 至于,关于 46. as usual 像平常一样,照例 47. as well as 除...外(也),即...又 48. as well 同样,也,还 49. ashamed of羞愧,害臊 50. aside from 除...外(还有) 51. ask for the moon异想天开 52. at a loss 茫然,不知所措 53. at a time 一次,每次 54. at all costs 不惜一切代价 55. at all events 不管怎样,无论如何 56. at all times 随时,总是 57. at all 丝毫(不),一点也不 58. at any rate 无论如何,至少 59. at best 充其量,至多 60. at first sight 乍一看,初看起来 61. at first 最初,起先 62. at hand 在手边,在附近 63. at heart 内心里,本质上 64. at home 在家,在国内 65. at intervals 不时,每隔... 66. at large 大多数,未被捕获的 67. at last 终于 68. at least 至少 69. at length 最终,终于 70. at most 至多,不超过 71. at no time 从不,决不 72. at one time 曾经,一度;同时 73. at present 目前,现在 74. at someone‘s disposal 任...处理 75. at the cost of 以...为代价 76. at the mercy of 任凭...摆布 77. at the moment 此刻,目前 78. at this rate 照此速度

电阻参数的识别方法直标法

1.电阻参数的识别方法直标法.文字符号法.色标法.数码表示法。 2 色标法:用不同颜色的色环表示电阻的主要参数。这种方法在小型电阻上用 的较多。常用四色标法和五色标法两种。 四色标法规定: 第一、二环是有效数值,第三环是乘数,第四环是允许偏差。 五色标法规定:第一、二、三环是有效数值,第四环是乘数,第五环是允许 偏差。 读色环的顺序规定为:更靠近电阻器引线的色环为第一环,离电阻器引线远一些的色环为偏差环。若两端色环距离电阻体两端引线等距离,则可借助电阻的标称值系列及色环符号规定的特点来判断。 色环标记: 黑、棕、红、橙、黄、绿、蓝、紫、灰、白(0-9),金(0.1),银(0.01) 数码表示法:用三位数码表示电容容量。从左到右第一、二位为有效数值,第三位为乘数(即零的个数),单位为pF。偏差用文字符号表示。 22二极管的作用:稳压、整流、检波、开关、光电转换等.特点:单向导电性。 30、场效应管特点:电压控制型器件;单极性晶体管;输入电阻高;热稳定性好;噪声低;成本低;易于集成。 电子产品生产工艺复习题 1、选用导线时要考虑的因素有哪些?答:电气因素、导线因素、装配工艺因素。 2、绝缘材料的分类。答:按其形态可分为:液体和固体;按其化学性质可分为:无机材料、有机材料、混合材料。 3、常见的电烙铁有哪些?答:外热式、内热式、恒温。 4、常用的防止螺钉松动的方法有哪三种?答:(1)加装垫圈(2)使用双螺母(3)使用防松漆 5、电子产品的检测方法有哪些?答:(1)观察法(2)电阻法(3)电压法(4)替代法 6、电子产品的检验项目有哪些?(146)答:(1)性能(2)可靠性(3)安全性(4)适应性(5)经济性(6)时间性 7、根据电子产品的特点,工艺文件通常分为(工艺管理)文件和(工艺规程)文件两大类。(152) 8、阻值和允许误差在电阻器上常用的表示方法有哪些?(5) 答:(1)直接标识法(2)文字符号法(3)色环标识法(4)数码标识法 9、焊料按其组成成份,可分为哪些?(52)答:锡铅焊料、银焊料、铜焊料。 10、形成良好粘接的要素是什么?(57)答:(1)选择适宜的粘剂(2)处理好粘结表面(3)选择正确的固化方法 11、导线端头绝缘层的剥离方法有哪些?答:(1)刃截法:设备简单但有可能损伤导线;(2)热截法:剥头质量好,不会损伤导线。 12、印制电路板按结构分类有哪些?答:(1)单面印制电路板;(2)双面印制电路板;(3)多层印制电路板;(4)软印制电路板;(5)平面印制电路板。13、集成电路的安装要点有哪些?答:(1)防静电(2)找方位(3)匀施力 14、手工SMT的技术关键有哪些?(126)答:(1)涂布黏合剂和焊膏(2)贴片(3)焊接 15、样机调试工作的调试要点有哪些?答:(1)电源第一;a:空调初载 b:

字符识别方法归纳

字符识别 一、理论 1.结构模式识别:根据字符结构特征进行识别,可用来识别汉字,但抗干扰能力差。可用来识别少量和简单的字符,如数字。 2.统计模式识别:其要点是提取待识别模式的的一组统计特征,然后按照一定准则所确定的决策函数进行分类判决。 常见的统计模式识别方法有: (1) 模板匹配。模板匹配并不需要特征提取过程。字符的图象直接作为特征,与字典中的模板相比,相似度最高的模板类即为识别结果。这种方法简单易行,可以并行处理;但是一个模板只能识别同样大小、同种字体的字符,对于倾斜、笔划变粗变细均无良好的适应能力。 (2)利用变换特征的方法。对字符图象进行二进制变换(如Walsh, Hardama变换)或更复杂的变换(如Karhunen-Loeve, Fourier,Cosine,Slant变换等),变换后的特征的维数大大降低。但是这些变换不是旋转不变的,因此对于倾斜变形的字符的识别会有较大的偏差。二进制变换的计算虽然简单,但变换后的特征没有明显的物理意义。K-L变换虽然从最小均方误差角度来说是最佳的,但是运算量太大,难以实用。总之,变换特征的运算复杂度较高。 (3)投影直方图法。利用字符图象在水平及垂直方向的投影作为特征。该方法对倾斜旋转非常敏感,细分能力差。 (4)几何矩(Geometric Moment)特征。M. K. Hu提出利用矩不变量

作为特征的想法,引起了研究矩的热潮。研究人员又确定了数十个移不变、比例不变的矩。我们都希望找到稳定可靠的、对各种干扰适应能力很强的特征,在几何矩方面的研究正反映了这一愿望。以上所涉及到的几何矩均在线性变换下保持不变。但在实际环境中,很难保证线性变换这一前提条件。 (5)Spline曲线近似与傅立叶描绘子(Fourier Descriptor)。两种方法都是针对字符图象轮廓的。Spline曲线近似是在轮廓上找到曲率大的折点,利用Spline曲线来近似相邻折点之间的轮廓线。而傅立叶描绘子则是利用傅立叶函数模拟封闭的轮廓线,将傅立叶函数的各个系数作为特征的。前者对于旋转很敏感。后者对于轮廓线不封闭的字符图象不适用,因此很难用于笔划断裂的字符的识别。 (6)笔划密度特征。笔划密度的描述有许多种,这里采用如下定义:字符图象某一特定范围的笔划密度是在该范围内,以固定扫描次数沿水平、垂直或对角线方向扫描时的穿透次数。这种特征描述了汉字的各部分笔划的疏密程度,提供了比较完整的信息。在图象质量可以保证的情况下,这种特征相当稳定。在脱机手写体的识别中也经常用到这种特征。但是在字符内部笔划粘连时误差较大。 (7)外围特征。汉字的轮廓包含了丰富的特征,即使在字符内部笔划粘连的情况下,轮廓部分的信息也还是比较完整的。这种特征非常适合于作为粗分类的特征。 (8)基于微结构特征的方法。这种方法的出发点在于,汉字是由笔划组成的,而笔划是由一定方向,一定位置关系与长宽比的矩形段组

相关文档
最新文档