[2013]基于表示学习的中文分词算法探索
中文分词——HMM算法

中⽂分词——HMM算法上⼀篇⽂章中,我们讲述了如何⽤查词典的⽅法对中⽂语句分词,但这种⽅式不能百分百地解决中⽂分词问题,⽐如对于未登录词(在已有的词典中,或者训练语料⾥⾯没有出现过的词),⽆法⽤查词典的⽅式来切分,这时候可以⽤隐马尔可夫模型(HMM)来实现。
在实际应⽤中,⼀般也是将词典匹配分词作为初分⼿段,再利⽤其他⽅法提⾼准确率。
HMM介绍隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,是关于时序的概率图模型,它⽤来描述⼀个含有隐含未知参数的马尔可夫过程,即由⼀个隐藏的马尔可夫链随机⽣成不可观测的状态随机序列,再由各个状态⽣成⼀个观测⽽产⽣观测随机序列的过程。
序列的每⼀个位置⼜可以看作是⼀个时刻,其结构见下图。
其难点是从可观察的参数中确定该过程的隐含参数,然后利⽤这些参数来作进⼀步的分析,例如中⽂分词。
如上图所⽰,状态序列H可表⽰为:H=H1,H2,...,H T假设总共有n个状态,即每个状态序列必为状态集合之⼀,状态值集合Q为:Q={q1,q2,...,q n}观测序列O表⽰为:O=O1,O2,...,O T假设观测值总共有m个,则观测值集合为:V={v1,v2,...,v m}⼀个模型,两个假设,三个问题1、⼀个模型HMM的基本元素可以表⽰为λ={Q,V,π,A,B}Q:状态值集合V:观测值集合π:初始概率分布A:[a ij] 状态转移矩阵B:[b j(k)] 给定状态下,观测值概率矩阵,即发射矩阵2、两个假设齐次Markov即假设观测序列中t时刻的状态,只跟上⼀时刻t-1有关,P(h t+1|h t,...,h1;o t,...,o1)=P(h t+1|h t)观测独⽴即每个时刻的观测值只由该时刻的状态值决定P(o t|o t−1,...,o1;h t,...,h1)=P(o t|h t)3、三个问题HMM在实际应⽤中主要⽤来解决3类问题:评估问题(概率计算问题)即给定观测序列O=O1,O2,O3…O t和模型参数λ=(A,B,π),怎样有效计算这⼀观测序列出现的概率.(Forward-backward算法)解码问题(预测问题)即给定观测序列O=O1,O2,O3…O t和模型参数λ=(A,B,π),怎样寻找满⾜这种观察序列意义上最优的隐含状态序列S。
基于表示学习的中文分词

基于表示学习的中文分词刘春丽;李晓戈;刘睿;范贤;杜丽萍【期刊名称】《计算机应用》【年(卷),期】2016(036)010【摘要】为提高中文分词的准确率和未登录词(OOV)识别率,提出了一种基于字表示学习方法的中文分词系统.首先使用Skip-gram模型将文本中的词映射为高维向量空间中的向量;其次用K-means聚类算法将词向量聚类,并将聚类结果作为条件随机场(CRF)模型的特征进行训练;最后基于该语言模型进行分词和未登录词识别.对词向量的维数、聚类数及不同聚类算法对分词的影响进行了分析.基于第四届自然语言处理与中文计算会议(NLPCC2015)提供的微博评测语料进行测试,实验结果表明,在未利用外部知识的条件下,分词的F值和OOV识别率分别达到95.67%和94.78%,证明了将字的聚类特征加入到条件随机场模型中能有效提高中文短文本的分词性能.【总页数】5页(P2794-2798)【作者】刘春丽;李晓戈;刘睿;范贤;杜丽萍【作者单位】西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121;西安邮电大学计算机学院,西安710121【正文语种】中文【中图分类】TP391.1【相关文献】1.基于表示学习的中文分词算法探索 [J], 来斯惟;徐立恒;陈玉博;刘康;赵军2.基于深度学习和迁移学习的领域自适应中文分词 [J], 成于思; 施云涛3.基于联合学习的跨领域法律文书中文分词方法 [J], 江明奇; 严倩; 李寿山4.一种基于双向LSTM的联合学习的中文分词方法 [J], 章登义; 胡思; 徐爱萍5.基于深度学习的中文分词方法研究 [J], 胡晓辉; 朱志祥因版权原因,仅展示原文概要,查看原文内容请购买。
study的现在分词形式

study的现在分词形式study的现在分词形式是studying,它是一个动词,表示正在进行的动作或学习的状态。
现在分词是动词的一种变体,也叫做动名词或动词的-ing 形式。
其中最常用的就是study的现在分词形式studying,它指的是正在进行的动作,表示正在学习的意思。
比如,I'm studying for an exam. 我正在准备考试。
He's studying Chinese. 他正在学习中文。
The students are studying hard. 学生们正在努力学习。
study 的现在分词形式 studying,可以用来表达不同的动作,比如正在学习、浏览、调查等。
例句1:She is studying the causes of cancer. 她正在研究癌症的原因。
例句2:He is studying the history of China. 他正在学习中国历史。
例句3:They are studying the effects of global warming. 他们正在研究全球变暖的影响。
除了表达正在学习的意思之外,study的现在分词形式studying,还可以用来表示正在休息的意思。
例句1:We are studying in the library. 我们正在图书馆里休息。
例句2:I'm studying in my bedroom. 我正在卧室里休息。
例句3:He is studying in the park. 他正在公园里休息。
study的现在分词形式studying,还可以表示正在寻找的意思。
例句1:They are studying for a better job. 他们正在寻找更好的工作。
例句2:She is studying for a new car. 她正在寻找新车。
例句3:He is studying for a house. 他正在寻找房子。
中文分词算法的研究与实现

中文分词算法的探究与实现导言中文作为世界上最为复杂的语言之一,具有很高的纷繁变化性。
对于计算机来说,要理解和处理中文文本是一项极具挑战的任务。
中文分词作为自然语言处理的核心步骤之一,其目标是将连续的中文文本按照词语进行切分,以便计算机能够更好地理解和处理中文文本。
本文将谈论。
一、中文分词的重要性中文是一种高度语素丰富的语言,一个复杂的中文句子往往由若干个词汇组成,每个词汇之间没有明显的分隔符号。
若果不进行适当的中文分词处理,计算机将无法准确理解句子的含义。
例如,对于句子“我喜爱进修机器进修”,若果没有正确的分词,计算机将无法区分“进修”是动词仍是名词,从而无法准确理解这个句子。
因此,中文分词作为自然语言处理的重要工具,被广泛应用于查找引擎、信息检索、机器翻译等领域。
二、基于规则的中文分词算法基于规则的中文分词算法是最早出现的一类中文分词算法。
它通过事先定义一些规则来进行分词,如使用词表、词典、词性标注等方法。
这类算法的优点是原理简易,适用于一些固定语境的场景。
但是,这类算法对语言的变化和灵活性要求较高,对于新词和歧义词的处理效果较差。
三、基于统计的中文分词算法基于统计的中文分词算法以机器进修的方法进行训练和处理。
这类算法通过构建统计模型,利用大量的训练样本进行进修和猜测,从而裁定文本中哪些位置可以进行分词。
其中最著名的算法是基于隐马尔可夫模型(Hidden Markov Model,简称HMM)的分词算法。
该算法通过建立状态转移概率和观测概率来进行分词猜测。
此外,还有一些基于条件随机场(Conditional Random Field,简称CRF)的分词算法,通过模型的训练和优化,得到更准确的分词结果。
四、基于深度进修的中文分词算法随着深度进修的兴起,越来越多的中文分词算法开始接受深度进修的方法进行探究和实现。
深度进修通过构建多层神经网络,并利用大量的训练数据进行训练,在分词任务中表现出了很强的性能。
基于深度学习的中文主题识别与聚类研究

基于深度学习的中文主题识别与聚类研究摘要:本文通过深度学习方法,研究了中文主题识别与聚类问题。
首先,对中文文本进行分词和预处理,然后利用深度学习模型进行特征提取和主题分类。
最后,使用聚类算法对主题进行聚类分析。
实验结果表明,基于深度学习的中文主题识别与聚类方法具有良好的性能和准确性。
1. 引言随着互联网的发展,海量的中文文本数据涌现,如何从中识别和聚类主题成为了一个重要的研究问题。
传统的方法往往依赖于手动选择特征描述词汇或规则,但这种方法需要大量的人工介入和专业知识,并且对于新兴的或特定领域的主题识别效果较差。
因此,基于深度学习的方法成为了解决这个问题的新方向。
2. 方法2.1 数据预处理中文文本的预处理主要包括分词和去除停用词两个步骤。
分词是将连续的文本切分为独立的词语,常用的分词工具有结巴分词、THULAC等。
去除停用词是指去除没有实际含义的常用词语,如“的”、“是”等。
通过这两个步骤,可以将中文文本转化为适合深度学习模型处理的输入。
2.2 特征提取深度学习模型通常需要将文本转化为定长的向量表示,因此需要进行特征提取。
常见的方法有词嵌入(Word Embedding)和主题模型(Topic Model)。
词嵌入将每个词语映射到一个实数向量,通过考虑上下文的语义关联性,使得语义相似的词在向量空间中距离较近。
主题模型则通过概率分布来描述文本中的主题,常用的主题模型有潜在狄利克雷分配(LDA)模型等。
2.3 主题分类深度学习模型常用于文本分类任务,可以通过卷积神经网络(CNN)、循环神经网络(RNN)或Transformer等结构来实现。
这些模型可以对文本进行特征表示和抽取,然后使用softmax或sigmoid函数将文本分类到不同的主题。
2.4 主题聚类聚类是将相似的样本归为一类,常见的聚类算法有k-means、层次聚类(HAC)等。
对于深度学习模型得到的主题表示,可以采用这些聚类算法对主题进行聚类分析,以发现潜在的主题关系和相似性。
基于知识发现的中文分词技术的自动分类研究

基于知识发现的中文分词技术的自动分类研究前言自然语言处理是当今信息技术领域的一个热门研究领域,其中中文分词技术是自然语言处理的一个重要组成部分。
中文分词技术旨在将中文文本切分成词语,从而方便后续的自然语言处理任务。
然而,传统的中文分词技术在面对领域广泛的语料库时很容易出现严重的误切问题。
因此,本文将介绍一种基于知识发现的中文分词技术,并探讨该技术在自动分类中的应用。
一、传统中文分词技术研究现状在传统的中文分词技术研究中,主要采用两种方法:基于规则和基于统计。
基于规则的方法将中文文本与预定义的规则进行匹配,从而切分成词语。
基于统计的方法则是通过分析大量的语料库数据,提取其中的规律,构建词典,再利用统计模型对新的中文文本进行分词。
但是,这两种方法都有其局限性。
基于规则的方法需要手动编写规则,并且难以适应领域广泛的语料库。
基于统计的方法则需要大量的语料库数据,且对新领域的语料库不够稳健。
因此,前人们开始探索新的中文分词技术。
二、基于知识发现的中文分词技术研究现状随着自然语言处理的不断发展,研究者们开始探索基于知识发现的中文分词技术。
这种技术是通过文本挖掘和知识图谱构建等技术,自动挖掘中文词语的语义属性和关系,并将其应用到中文分词中。
基于知识发现的中文分词技术可以利用领域知识库中的信息,得到更加准确的切分结果。
例如,对于生物医药领域的研究文献,该技术可以利用生物医药领域的专业术语和上下文关系,精确地切分文本。
此外,该技术可以自动识别词语的关键属性,如词性和情感极性等,对后续的分析和挖掘任务具有重要意义。
三、基于知识发现的中文分词技术在自动分类中的应用基于知识发现的中文分词技术不仅可以应用于文本挖掘和信息提取等任务,还可以应用于文本分类任务。
在文本自动分类中,中文分词是一个必不可少的步骤,它可以将文本转化为词频向量,从而方便分类算法的处理。
传统的中文分词技术容易在特定领域的语料库上产生误差,从而导致分类准确率下降。
基于语义分析的中文分词技术研究

基于语义分析的中文分词技术研究
中文分词是将连续的汉字序列切分成一个个有意义的词语的过程。
基
于语义分析的中文分词技术是一种通过利用语义信息进行分词的方法。
传统的中文分词方法是基于语法规则和统计模型的,通常依赖于词典
和规则,但这些方法在处理歧义性和新词识别等问题上存在一定的局限性。
因此,基于语义分析的中文分词技术出现,旨在通过使用更多的语义信息
来提高分词的准确性和效果。
1. 词向量模型:利用词向量模型,如Word2Vec和GloVe等,将每个
词语表示为向量,基于词语之间的语义相似度进行分词。
通过计算词向量
之间的余弦相似度,可以识别出合适的分词点。
2.基于上下文的分析:利用上下文信息来辅助分词。
例如,可以通过
观察词语前后的词性、语法关系以及常见的搭配等来进行分词。
3.基于语义角色标注:利用语义角色标注的结果来指导分词。
语义角
色标注模型可以识别出句子中的主谓宾关系,根据这些关系可以将句子切
分成有意义的词组。
4.基于深度学习的方法:利用深度学习模型,如循环神经网络(RNN)和长短期记忆(LSTM)等,学习中文分词的模式和规律。
通过训练模型识
别词语边界,可以提高中文分词的准确性。
需要注意的是,基于语义分析的中文分词技术虽然可以提高分词的准
确性和效果,但也存在一定的挑战和难点。
例如,如何处理多义词、新词
以及长词等问题,仍然是待解决的课题。
因此,目前仍然需要进一步的研
究和改进。
基于深度学习的中文情感分析模型设计

基于深度学习的中文情感分析模型设计深度学习技术在自然语言处理领域的应用日益广泛,其中中文情感分析是一个重要且有挑战性的任务。
本文将详细介绍基于深度学习的中文情感分析模型设计,并讨论其主要挑战、模型架构、数据预处理及训练过程等方面内容。
一、中文情感分析的主要挑战1. 语义歧义:中文语言特点使得情感分析任务存在较多的语义歧义问题,单词和短语的多义性使得情感极性判断变得复杂。
2. 句子结构复杂:中文句子结构相对复杂,例如成分的省略、动词的隐式引导以及语序的灵活性等,这给情感分析带来了困难。
3. 数据稀缺问题:相较于英文,中文情感分析面临着数据稀缺的问题,这使得训练深度学习模型变得更加困难。
二、基于深度学习的中文情感分析模型架构基于深度学习的中文情感分析模型通常由以下几个核心组件构成:1. 词嵌入层:将中文文本转化为向量表示是深度学习模型的基础,可以使用词嵌入层将中文词语映射到低维向量空间中。
2. 卷积神经网络(CNN)或循环神经网络(RNN):这些经典的深度学习模型被广泛应用于情感分析任务。
CNN可以捕获局部特征,而RNN可以考虑全局上下文信息。
3. 注意力机制(Attention):为了解决句子中关键信息的判断问题,引入注意力机制可以提高模型的性能。
4. 输出层:针对情感分析任务,输出层通常是一个二分类器,用于预测文本的情感极性。
三、数据预处理数据预处理是构建情感分析模型的关键步骤之一。
在处理中文文本时,可以采取以下预处理方法:1. 分词:中文分词是将连续的中文文本分割成一个个的词语的过程。
可以使用分词工具如jieba等来进行中文分词。
2. 构建词表:通过对数据集进行统计,可以构建一个词表来表示整个语料库中的词汇,便于后续词嵌入操作。
3. 文本向量化:将分词得到的文本转化为向量表示,可以采用词袋模型或者TF-IDF模型等进行文本向量化。
4. 标签编码:对情感极性标签进行编码,通常将积极情感编码为1,消极情感编码为0,便于模型的训练和评估。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
4无监督学习字表示
在有监督的学习中,往往会遇到低频字训练不 充分的问题。无论在传统的浅层模型(如最大熵、 CRF)中,还是第3节描述的以神经网络为框架的模 型中,低频字只会在极少量的样本中出现。因此,如 果引入一个更大的语料,从这个语料中学习出各个 字更丰富的信息,并加入有监督学习中,将有可能极 大地提高有监督学习的训练效果。 4一字表示的训练 字表示的无监督训练Collobert等人[43和Mnih 等人[171均提出过。Joseph[18]对这两种方法进行了 更公平的比较,结果表明,C01lobert的方法略胜一 筹。在中文中,尚未看到类似的比较,因此本文直接 使用Collobert的方法训练字向量。 在无监督字表示训练中,我们仍然使用如图1 所示的神经网络结构图。不同之处在于,最后一层 只输出一个得分,而并不输出4个标签的概率。该 得分的含义为这个连续的字序列是否是一个正常的 词序列。所谓的正常序列,是相对随机序列而言的。 语料中真实存在的序列均认为是正常序列,而一个 随机从字典中选取若干个字生成的序列,则认为是 非正常序列。 由于这个想法与语言模型非常相似,因此在文 献[4]中也被称作语言模型。实际上,Collobert的 方法与传统的语言模型略有差别。传统意义上,语 言模型是给定了前若干个字/词,预测下一个字/词。 而在这种方法中,并不需要预测下一个字,只需知道 一个序列是否是正常序列。在无监督训练阶段,我 们希望一个正常的序列可以得到高分,而一个非正 常的序列,我们希望它的分数更小。 在实际操作中,正样本可以直接从语料中选取 得到,而负样本则需要构造。如果负样本直接从字 典中选取若干个随机字符,则容易生成完全没有可
万方数据
5期
来斯惟等:基于表示学习的中文分词算法探索
9
信息处理尤为重要。 传统对于中文分词的研究比较丰富,例如,最大 正向匹配、最大逆向匹配、双向匹配等基于词典的匹 配方法。然而,由于语言的复杂性,中文文本中存在 大量的词边界歧义与未登录词(00V)。仅仅是基 于词典的匹配方法无法有效地解决以上两个中文分 词中的关键难点问题。所以越来越多的方法关注基 于字的中文分词。基于字的中文分词方法基本假设 是一个词语内部文本高内聚,而词语边界与外部文 字低耦合。每一个词都可以通过其所在的上下文特 征进行表示,通过统计模型可以很好的判别当前字 在构词过程中的作用(词的开始、中间、结束或是单 字词)。通过大量实验表明这种基于字的中文分词 方法要明显优于基于词典匹配的分词方法。然而, 基于字标注的分词方法的问题在于:传统的字表示 特征,无论是一元特征(Unigram)或是二元特征 (Bigram),都很难有效表示目标字,使得统计模型 不能有效地理解每个字的含义。另外,所有的特征 表示都是基于词袋子模型,然而这样表示模型有两 个较为明显的缺点:1)语义鸿沟问题。通过词袋子 模型,我们没法直接知道“麦克风”和“话筒”描述的 是同样的事物。2)低频词的问题。在使用词袋子特 征训练模型时,低频词由于出现次数较少,往往只被 训练的极少的次数,容易造成训练不足,也非常有可 能过拟合。因此如何对于中文文本中每个字进行建 模,并自动的抽取字的表示特征是基于字表示的分 词方法中的一个难点问题。 然而,近些年随着深度学习(Deep Learning)的 兴起,特征表示学习(Feature
Learning)逐步成为机器学习的一个新兴分支。深 度学习是利用深层神经网络自动学习出数据的一种 表示。自2006年Hinton[2]提出深度学习后,该方 法在语音、图像领域均取得了惊人的成果。已有工 作表明,随着网络层数的加深,深度学习算法可以学 习出越来越抽象的数据表示。在这种特征的基础上 进一步地进行模型的学习,可以显著地提高分类的 性能。在自然语言处理任务中,深度学习也已经广 泛地应用于命名实体识别(NER)、词性标注(POS Tagging)、情感分类(Sentiment Classification)等任 务,并有一定优势。然而在中文分词任务中,还未见 针对深度学习的应用研究成果。因此本文试图将深 度学习应用于中文分词任务,来探讨其是否可以有 效地提高分词的性能。 具体地,我们利用基于词的稠密向量表示方
有4个节点,使用softmax[163归一化后,分别表示这 个字被打上B、M、E、S标签的概率。 网络结构可以形式化的表示为:
^一tanh(U口) o—VJl
州旧口)一蠡
其中u为输入层到隐藏层的权重,V为隐藏层 到输出层的权重。这两层均可理解为简单的矩阵相 乘。最后使用softmax函数可以将输出。转换成标
经过预处理步骤将会变成“中国/教育/与/科研/计 算机网/(/WORD/)/已/连接/了/NUMBER/多/ 所/大学”。其中NUMBER和WORD在训练时都 当作一个字符来考虑。 这种方法在一定程度上丢失了部分语义信息, 会对分词精度产生负面的影响。但是在训练语料不 充分的情况下,该预处理可以简化后续步骤,将实验 重心放在处理汉字词语上。 3.2字的稠密向量表示 借鉴Bengio等人嘲的思想,本文将每个汉字用 一个咒维实数向量来表示(后文简称字向量)。字向 量初始化为一个随机的小实数值,在训练过程中,每 个字的字向量会进行更新,最后根据训练目标的不 同,字向量之间的相似度也会有所不同。具体可见 第4节实验部分。
^
输入层
tF【”l;吨;均;弛;鸭】
原始文本
教
育
与
科
研
w2【wl;”2;”3;w4;”5】
图1算法基本结构图
Hale Waihona Puke 对于句子中的每个字的标签分类任务,本文选 取上下文以及当前字,共叫个字作为特征。其中上 文和下文均为(叫一1)/2个字。图中最下方为这叫 个字的原始文本,经过第一层,将每个字转换成其字 向量表示"i,并把础个字连接成一个叫行维的向量 口。该w咒维的向量是神经网络的输入层。隐藏层 庇的设计与传统的BP神经网络一致,输入层的叫,z 个节点与隐藏层的H个节点之间两两均有边连接。 隐藏层选用tanh函数作为激活函数。输出层一共
万方数据
10
中文信息学报
表示某种隐含(1atent)的句法或语义信息。Col— lobert等人在2011年发布了首个基于表示学习的 多任务学习系统SENNA[4]。它将词性标注、命名 实体识别、句法分析和语义角色标注任务融合于一 个框架,运用神经网络替代传统序列标注模型,进行 自动的特征学习,从而避免了繁琐的人工特征设计 过程。此后,基于深度神经网络的表示学习方法被 应用于句法分析m]、复述检测[13]、语义分析[141以及 情感分类任务[1引,并取得了巨大的成功。在不需要 人工参与设计有效特征的情况下,表示学习方法相 比于传统有监督模型取得了等价于或更好的成绩。
2
相关工作
传统分词方法依赖词典匹配,并通过贪心算法
截取可能的最大长度词进行有限的歧义消除。常用 的贪心策略有正向最大匹配法、逆向最大匹配法和 双向匹配等。然而,基于词典方法存在两个明显的 缺陷,即不能很好地处理词边界歧义和未登录词 (OOV)。为了解决中文分词的这两个关键问题,许 多研究工作集中到了基于字标注的机器学习中文分 词方法。 基于字的中文分词方法基本假设是一个词语内 部文本高内聚,而词语边界与外部文字低耦合。通 过统计机器学习方法学习判断词界是当前中文分词 的主流做法。现有工作大多使用序列标注模型执行 BMES标注。Xue等人提出了基于HMM模型的 字标注中文分词方法[5]。刘群等提出一种基于层叠 隐马模型的汉语词法分析方法[6]。该方法引入角色 HMM识别未登录词,使用Viterbi算法标注出全局 最优的角色序列。同时,该方法还提出了一种基于 N一最短路径的策略进行切分排歧。Wang等人使用 基于字分类的CRF模型进行中文词法分析[7]。对 基于字标注中文分词方法的改进包括引入更多的标 签和设计更多高效的特征[8。9]、联合使用产生式模型 和判别式模型以融合两者的优点[10]以及将无监督 方法中使用的特征引入有监督方法中[1妇等。然而, 传统统计机器学习方法往往依赖于人工设计的特 征,而一个特征是否有效需要多次尝试与选择。因 此人工设计一系列好的特征既费时又费力。 近年来,随着深度神经网络优化方法的突破[2], 基于神经网络的表示学习方法得到了蓬勃的发展。 在自然语言处理领域,表示学习的目标是要将最小 的语义单位表示成一个n维向量,向量中的每一维
3基于字表示的有监督分词
3.1数据预处理 中文分词的训练语料中,英文与数字的出现次 数较少(甚至有可能26个英文字母中有的字母未在 训练集中出现过)。为了简化处理流程,本文使用了 一个简单的数据预处理步骤,将所有的连续数字字 符替换成一个专用的数字标记“NUMBER”,将所有 连续的英文字母替换成一个专用的英文单词标记 “WORD”。如训练语料“中国/教育/与/科研/计算 机网/(/CERNET/)/已/连接/了/200/多/所/大学”
Representation
法口],将一个字用挖维实数向量来描述。同时采用 SENNA[4]在海量无标注数据来无监督的训练每个 字的稠密特征表示向量,并以此作为特征,应用于分 词算法中。经过多组实验比对,我们的方法的效果相 对于人工设计特征的最大熵算法有一定的竞争力。 文本章节安排具体如下:第2节介绍了分词及 词的表示学习的相关工作;第3节介绍了基于字表 示的分词算法框架;第4节介绍一种在大规模语料 上无监督学习出字的稠密表示的方法;第5节为实 验及分析;最后对本文工作进行了总结,并指出将来 工作的方向。
记z为一组正常的字序列,则^(z)表示网络 的输出。每个负样本记作z”,表示一个正常的序列 z中将中间的字替换为硼。同样地,负样本的输出 为^(z”)。 无监督训练阶段,这里使用成对训练的方法,即 最小化如下目标:
∑∑max{o,1一^(z)+^(z”))
z∈XⅥ∈D
式中,X为从语料集中选取出了所有连续的硼 个字,D表示字典。 与监督学习阶段相同,这里也采用随机梯度下 降法进行训练,最后只使用其词向量部分。 4.2字表示的使用 通过无监督训练得到的字表示通常有两种用 法。一、作为神经网络模型的初始值。二、加入到现 有的浅层模型中,如最大熵模型。 文献[4]将无监督学习得到的词向量作为有监 督学习网络中的初始值,大幅度提高了其有监督学 习的训练效果。这一思想与音频、图像领域在深度 学习中,对深层神经网络的初始值使用受限玻尔兹 曼机进行无监督的初始化非常类似。由于神经网络 是一个非凸优化的问题,局部极值点非常的多,好的 初始值可以使其最后收敛到一个更好的解,同时也 能在一定程度上抑制训练的过拟合。 本节无监督训练得到的字向量同样可以直接作 为第3节中字向量的初始值用于训练。对于网络结 构中的U、V矩阵,仍然使用随机的初始值。 文献[18]在英语中使用词向量作为扩展特征, 提升了命名实体识别(NER)和语块分析(Chun— king)的效果。其方法较为直接,在最大熵做序列标 注问题时,直接将周围共硼个词的词向量直接加入 改词特征向量中。 在第5节的实验中,我们同时尝试了以上两种 思路。