中文分词-ppt课件
合集下载
第三章二元语法与中文分词

• 当 = 3时的n元语法称为三元语法(trigram)
• >= 4时数据稀疏和计算代价又变得显著起来,实际工程中几乎不使用。
• 另外,深度学习带了一种递归神经网络语言模型(RNN Language Model),
理论上可以记忆无限个单词,可以看作“无穷元语法”(∞ −gram)。
《自然语言处理入门》
1) 前向:由起点出发从前往后遍历节点,更新从起点到该节点的最小花费
以及前驱指针。
2) 后向:由终点出发从后往前回溯前驱指针,取得最短路径。
《自然语言处理入门》
3.4.4 词图上的维特比算法
def viterbi(wordnet):
nodes = wordnet.getVertexes()
# 前向遍历
3.4.4 词图上的维特比算法
• 粗分词图:========按终点打印========
to: 1, from: 0, weight:04.60, word:始##始@商品
to: 2, from: 1, weight:00.80, word:商品@和
to: 3, from: 1, weight:00.80, word:商品@和服
• 最大似然估计(Maximum Likelihood Estimates,MLE)
0 … −1 = ML 0 … −1
0 …
=
0 … −1
其中,(0 … )表示0 … 的计数(count),比如
(商品 和 服务) = (商品|BOS)(和|BOS 商品)(服务|BOS 商品 和)(EOS|BOS 商品 和 服务)
《自然语言处理入门》
3.4 预测
• 预测(predict)指的是利用模型对样本(句子)进行推断的过程,
• >= 4时数据稀疏和计算代价又变得显著起来,实际工程中几乎不使用。
• 另外,深度学习带了一种递归神经网络语言模型(RNN Language Model),
理论上可以记忆无限个单词,可以看作“无穷元语法”(∞ −gram)。
《自然语言处理入门》
1) 前向:由起点出发从前往后遍历节点,更新从起点到该节点的最小花费
以及前驱指针。
2) 后向:由终点出发从后往前回溯前驱指针,取得最短路径。
《自然语言处理入门》
3.4.4 词图上的维特比算法
def viterbi(wordnet):
nodes = wordnet.getVertexes()
# 前向遍历
3.4.4 词图上的维特比算法
• 粗分词图:========按终点打印========
to: 1, from: 0, weight:04.60, word:始##始@商品
to: 2, from: 1, weight:00.80, word:商品@和
to: 3, from: 1, weight:00.80, word:商品@和服
• 最大似然估计(Maximum Likelihood Estimates,MLE)
0 … −1 = ML 0 … −1
0 …
=
0 … −1
其中,(0 … )表示0 … 的计数(count),比如
(商品 和 服务) = (商品|BOS)(和|BOS 商品)(服务|BOS 商品 和)(EOS|BOS 商品 和 服务)
《自然语言处理入门》
3.4 预测
• 预测(predict)指的是利用模型对样本(句子)进行推断的过程,
分词作定语ppt课件

现在分词的形式
主动Байду номын сангаас:doing
被动式:being done (正在被做)
过去分词的形式
done (已被做)
单个分词做定语
I:“使”动词(表情感心理)作
前 置定语
• The news excited us. He told us the exciting news.
The excited pupils jumped with joy
• The story amused the audience.
The amusing story made us laugh.
The amused audience laughed all the time.
Some other examples: an interesting story
{
an interested look a pleasing voice {a pleased look { a moving story moved audience the tiring work
你知道昨天发生的那起交通事故吗?
Do you know the traffic accident which happened yesterday?
Practice:
• The flowers_n_od_d_i_n_g(nod) gently in the wind smell sweet.
=flowers which are nodding • There are stars _m_o_vi_n_g_(move) in
the sky? =stars which are moving • A man _g_oi_n_g_(go) to die is always
主动Байду номын сангаас:doing
被动式:being done (正在被做)
过去分词的形式
done (已被做)
单个分词做定语
I:“使”动词(表情感心理)作
前 置定语
• The news excited us. He told us the exciting news.
The excited pupils jumped with joy
• The story amused the audience.
The amusing story made us laugh.
The amused audience laughed all the time.
Some other examples: an interesting story
{
an interested look a pleasing voice {a pleased look { a moving story moved audience the tiring work
你知道昨天发生的那起交通事故吗?
Do you know the traffic accident which happened yesterday?
Practice:
• The flowers_n_od_d_i_n_g(nod) gently in the wind smell sweet.
=flowers which are nodding • There are stars _m_o_vi_n_g_(move) in
the sky? =stars which are moving • A man _g_oi_n_g_(go) to die is always
中文分词

Class-based Ngram Ngram分词评价
能够处理大多数常用词带来的歧义问题 不能处理新词以及新词带来的歧义问题
解决之道:Class-based Ngram
在统一的框架下进行分词与新词识别 将词分为若干类
词典词:教师(词典处理) 仿词:2000年(规则处理) 新词:范路(基于类的新词识别) 形态词:高高兴兴(规则处理) 不同类型的词用不同处理方法,最后利用Ngram框架寻找全 局最优切分结果
P(C ) ≅ ∏P(ci | ci−2ci−1)
m 1 i=1
m
P (S1n | C1m ) = P (s1, s2 ,⋅ ⋅ ⋅, sn | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ P ([s1,⋅ ⋅ ⋅, sc1−end],⋅ ⋅ ⋅,[scm−start,⋅ ⋅ ⋅, sn ] | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ ∏ P ([scj −start,⋅ ⋅ ⋅, scj −end] | c j )
中文分词一席谈
suntian@
内容提要
中文分词概述 分词技术发展 国际分词评测 分词技术总结
中文分词概述
什么是分词? 什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如 句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音 汉字处理:拼音输入法、手写识别、简繁转换 …告推荐、内容监控 … 语音处理: 语音处理:语音识别、语音合成 … …
w w
P (W | O ) = max ∏ P ( wt | wt −1 , ot )
w t =1
T
W:分词结果 O:待分词文本
生成式分词(Cont.)
能够处理大多数常用词带来的歧义问题 不能处理新词以及新词带来的歧义问题
解决之道:Class-based Ngram
在统一的框架下进行分词与新词识别 将词分为若干类
词典词:教师(词典处理) 仿词:2000年(规则处理) 新词:范路(基于类的新词识别) 形态词:高高兴兴(规则处理) 不同类型的词用不同处理方法,最后利用Ngram框架寻找全 局最优切分结果
P(C ) ≅ ∏P(ci | ci−2ci−1)
m 1 i=1
m
P (S1n | C1m ) = P (s1, s2 ,⋅ ⋅ ⋅, sn | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ P ([s1,⋅ ⋅ ⋅, sc1−end],⋅ ⋅ ⋅,[scm−start,⋅ ⋅ ⋅, sn ] | c1, c2 ,⋅ ⋅ ⋅, cm ) ≅ ∏ P ([scj −start,⋅ ⋅ ⋅, scj −end] | c j )
中文分词一席谈
suntian@
内容提要
中文分词概述 分词技术发展 国际分词评测 分词技术总结
中文分词概述
什么是分词? 什么是分词?
分词就是利用计算机识别出文本中词汇的过程。比如 句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 汉字处理:拼音 汉字处理:拼音输入法、手写识别、简繁转换 …告推荐、内容监控 … 语音处理: 语音处理:语音识别、语音合成 … …
w w
P (W | O ) = max ∏ P ( wt | wt −1 , ot )
w t =1
T
W:分词结果 O:待分词文本
生成式分词(Cont.)
中文分词技术的研究现状与困难

四、解决方案
为了克服中文分词技术的研究困难,以下一些解决方案值得:
1、优化分词算法:针对分词算法的复杂性问题,可以尝试优化算法的设计和 实现,提高其效率和准确性。例如,可以通过引入上下文信息、利用语言学知 识等方式来改进算法。
2、改进信息检索技术:在信息检索领域,可以尝试将先进的排序算法、推荐 系统等技术引入到检索过程中,以提高检索效果。此外,还可以研究如何基于 用户行为和反馈来优化检索结果。
3、缺乏统一的评价标准:中文分词技术的评价标准尚未统一,这使得不同研 究之间的比较和评估变得困难。建立通用的中文分词技术评价标准对于推动相 关研究的发展至关重要。
4、特定领域的应用场景:中文分词技术在不同领域的应用场景中面临着不同 的挑战。例如,在金融领域中,需要分词技术对专业术语进行精确识别;在医 疗领域中,需要处理大量未登录词和生僻字。如何针对特定领域的应用场景进 行优化,是中文分词技术的重要研究方向。
3、建立大型标注语料库:通过建立大型标注语料库,可以为分词算法提供充 足的训练数据,提高其准确性和自适应性。此外,标注语料库也可以用于开发 基于规则的分词方法和测试集的构建。
4、研究跨领域的应用场景:针对不同领域的应用场景,可以研究如何将中文 分词技术进行迁移和适配。例如,可以通过知识图谱等技术将不同领域的知识 引入到分词过程中,以提高分词效果。
然而,各种分词方法也存在一定的局限性和不足。例如,基于规则的分词方法 需要人工编写规则和词典,难以维护和更新;基于统计的分词方法需要大量标 注语料库,而且训练模型的时间和计算成本较高;基于深度学习的分词方法虽 然取得了较好的效果,但也需要耗费大量的时间和计算资源进行训练。
三、研究困难
中文分词技术的研究面临着诸多困难和挑战,以下是一些主要词方法:该方法主要依靠人工编写的分词规则来进行分词。 代表性的工作包括台湾大学开发的中文分词系统“THULAC”和北京大学开发 的“PKU中文分词系统”。这些系统均基于词典和规则,具有较高的准确率和 召回率。
中文分词简介

FMM 算法过程: (1) 令 令 i=0 , 当前指针 p i 指向输入字串的初始位置,执行下面的操作: (2) 计算当前指针 p i 到字串末端的字数(即未被切分字串的长度)n , 如果n=1 ,转 (4) ,结束算法。否则,令 m= 词典中最长单词的字数,如果n<m, 令 令 m=n (3) 从当前 p i 起取m 个汉字作为词 w i , 判断: (a) 如果 w i 确实是词典中的词,则在w i 后添加一个切分标志,转(c) ; (b) 如果 w i 不是词典中的词且 w i 的长度大于1 ,将 w i 从右端去掉一个字,转(a) 步;否则(w i 的长 度等于1 ),则在w i 后添加一个切分标志,将w i 作为单字词添加到词典中,执行 (c) 步; (c) 根据 w i 的长度修改指针 p i 的位置,如果 p i 指向 字串末端,转(4) ,否则, i=i+1 ,返回 (2) ; (4) 输出切分结果,结束分词程序。
研究 意义
中文分词是计算机处理汉字的首要 也是基础性工作,只有不断提高中文分 词算法的效率才能跟上信息爆炸增长的 现状,使我国信息技术相关方面在 21 世 纪能够稳步发展。
Part 3
中文分词的主要问题
难点一
分词规范问题
难点二
歧义切分问题
难点三
未登录词问题
分词规范问题
“词”这个概念一直是汉语语言学界纠缠不清而又挥之不去的问题。“词是 什么”(词的抽象定义)及“什么是词”(词的具体界定),这两个基本问题有 点飘忽不定,迄今拿不出一个公认的、具有权威性的词表来。 主要困难出自两个方面:一方面是单字词与词素之间的划界,另一方面是词 与短语(词组)的划界。此外,对于汉语“词”的认识,普通说话人的语感与语 言学家的标准也有较大的差异。有关专家的调查表明,在母语为汉语的被试者之 间,对汉语文本中出现的词语的认同率只有大约70%,从计算的严格意义上说, 自动分词是一个没有明确定义的问题。 建立公平公开的自动分词评测标准一直在路上。
分词作宾语补足语课件

句型结构三:主语+谓语+宾语+to+分词
总结词
to引导的分词短语表示结果或目的。
详细描述
在这种句型结构中,to引导的分词短语表示结果或目的。例如,“He left the room to find a solution.”这句话中的“to find a solution”表示“他”离开 房间的目的,是为了找到一个解决方案。
04 分词作宾语补足 语的实例分析
实例一:现在分词作宾语补足语的句子分析
总结词 现在分词作宾语补足语时,通常 表示正在进行的动作或存在的状 态。
详细描述 例如,在句子"I found the cat playing with a ball."中,现在分 词"playing"用作宾语补足语,描 述"cat"正在进行的动作,即玩耍 。
详细描述 例如,在句子"I saw him running towards me."中,现在 分词"running"用作宾语补足语, 描述"him"正在进行的动作。
总结词 现在分词还可以表示伴随的动作 或状态,补充说明宾语的性质或 特征。
实例二:过去分词作宾语补足语的句子分析
总结词
过去分词作宾语补足语时,通常表示动作的完成或存在的 状态。
第一季度
第二季度
第三季度
第四季度
总结词
过去分词作宾语补足语 表示被动关系或完成的 动作。
详细描述
过去分词在句子中作为 宾语的补足语,表示被 动关系或完成的动作, 通常与助动词be或助 动词have一起使用。
例如,“The building has been destroyed in the fire.”(这座建筑在大 火中被毁掉了。)
中文分词

汉语的修饰在前
他说的确实在理
他/说/的确/实在/理 他/说/的/确实/在理
双向匹配
最短路径算法
最少分词问题 等价于在有向图中搜索最短路径问题
发 1 2
展 3
中 4
国 5
家 6
基于统计的最短路径分词算法
基本的最短路径每条边的边长为1
当最短路径有多条时,往往只保留一条结果
南京市长江大桥
南京市/长江大桥 南京/市长/江大桥
歧义例子续
当结合成分子时
当/结合/成分/子时 当/结合/成/分子/时 当/结/合成/分子/时 当/结/合成分/子时
中文分词歧义分类
交集型歧义
如果AB和BC都是词典中的词,那么如果待切分字串 中包含“ABC”这个子串,就必然会造成两种可能的切 分:“AB/ C/ ” 和 “A/ BC/ ”。 比如“网球场”就可能造成交集型歧义(网球/ 场/ : 网/ 球场/)。
路径1: 0-1-3-5
路径2: 0-2-3-5
该走哪条路呢?
最大概率法分词
S: 有意见分歧
W1: 有/ 意见/ 分歧/ W2: 有意/ 见/ 分歧/
Max(P(W1|S), P(W2|S)) ?
P( S | W ) P(W ) P(W | S ) P(W ) P( S )
P(W ) P( w1, w2 ,...,wi ) P( w1 ) P( w2 ) ... P( wi )
对其它符合要求的路径不公平
这里考虑每个词的权重,即每条边的边长 不相等
最简单的权重是词频(必须真实、科学有效)
百度中文分词原理

用户的 需求,并且为了快速提供给用户需求性信息而使用的算 法。搜索引擎要在单位时间内处理千万亿级的
页面数据量,因此搜索引擎拥有一个中文词库。比如百 度现在大约有9万个中文词,那么搜索引擎就可以对千亿 级的页面进学 堂屋 顶 (刘
强大地方法)正向分法:刘 强大 地方 法。反向分法:方 法 大地 刘 强。而在这个词语当出人物(如:毛泽东)明星(如:刘 德华)检索量大的词(如:买票难) 。当然这些只是中 文分词原理的一部分,也不是全对
个词标红的原因:标红的词一所最大匹配:一直匹配到没词可配;最小匹配:匹 配出
词了算法我们把它 当成一个黑盒子,!
猫先生 /
页面数据量,因此搜索引擎拥有一个中文词库。比如百 度现在大约有9万个中文词,那么搜索引擎就可以对千亿 级的页面进学 堂屋 顶 (刘
强大地方法)正向分法:刘 强大 地方 法。反向分法:方 法 大地 刘 强。而在这个词语当出人物(如:毛泽东)明星(如:刘 德华)检索量大的词(如:买票难) 。当然这些只是中 文分词原理的一部分,也不是全对
个词标红的原因:标红的词一所最大匹配:一直匹配到没词可配;最小匹配:匹 配出
词了算法我们把它 当成一个黑盒子,!
猫先生 /
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3.4 中文分词原理
1
【目 录】
12
3
4
5
什
查
分
分
应
么
询
词
词
用
是
处
技
技
举
中
理
术
术
证
文
概
分
分
述
析
词
2
为什么要分词
英文 Knowledge is power 单词之间有空格,很容易进行词语的匹配。
中文的语义与字词的搭配相关
和服务必于三日之后裁制完毕 王府饭店的设施和服务是一流的
杭州市长春药店 杭州市长春药店
普通词与新词交织在一起
➢ 克林顿对内塔尼亚胡说 ➢ 胡锦涛听取龚学平等同志的汇报
中文分词概述(Cont.)
分词难点(需要重新处理)
需求多种多样
➢ 切分速度:搜索引擎VS单机版语音合成 ➢ 结果呈现:
➢ 切分粒度要求不同:机器翻译VS搜索引擎 ➢ 分词重点要求不同:语音合成VS搜索引擎 ➢ 唯一结果VS多结果:语音合成VS搜索引擎 ➢ 新词敏感度不同:语音合成VS搜索引擎 ➢ 处理对象:书面文本(规范/非规范)VS口语文本 ➢ 硬件平台:嵌入式VS单机版VS服务器版
基于关键词的口碑分析
客户:某知名全国连锁餐饮品牌 需求:自身及竞争对手在互联网上的口碑变化
2020/7/4
2020/7/4
Part 2
【接受用户查询后做了哪些事情】
『 查询处理 』
11 11
查询处理
用户查询方式
用户提交字符串小于3个字符 用户提交字符串多于3个字符 提交的中文查询包含英文单词
中文的语义与字词的搭配相关
唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。 又一天,下起了雨,这个朋友想让他快点回去,不好意思说, 于是,写了一封信,但没加标点。这个朋友的意思是:下雨 天留客,天留人不留。没想到,这位聪明的穷人在信中夹了 标点,意思全变了:下雨天,留客天,留人不?留。
后人又有人写: 1、下雨天留客,天留,我不留。 2、下雨天留客,天留我不留。 3、下雨天,留客,天留,我不留。 4、下雨天,留客,天留我,不留。 5、下雨天留客,天留我不?留! 6、下雨天,留客天,留我不留? 7、下雨天,留客天,留我?不留! 8、下雨天留客,天!留我不?留! 9、下雨天,留客!天!留我不留?
29
基于字典的分词方法
最短路径分词法
最短路径分词法
中医治白癜风 中医/治白癜风
30
基于字典的分词方法
常用方法
注
采用最短路径分词方 法,因词典中没有 “治白癜风”这个词 组,所以从用户体验 考虑,调取了字典中 意思相近、用户搜索 量大的词“治疗白癜 风”、“治愈白癜风”
31
基于统计的分词方法
常用方法
中文分词概述(Cont.)
分词难点 新词层出不穷
➢ 人名、地名、机构名
✓ 奥巴马 表哥 房叔
➢ 网名
➢ 你是我的谁 旺仔小馒头
➢ 公司名、产品名
✓ 摩托罗拉 谷歌 爱国者 腾讯 网易 新浪
✓ 诺基亚C5 尼康D700
中文分词概述(Cont.)
分词难点 普通词与新词互用
➢高明表演真好(演员)/他的表演很高明 ➢汪洋到深圳检查工作/洞庭湖一片汪洋
相邻的字同时出现的次数越多,就越有可能构成一个词
例如:你的、我的
优点 用于系统自动识别新词
、许多的、最好的、之一
缺点 对常用词的识别精度差
32
统计分词 生成式统计分词 判别式统计分词
生成式分词
原理
➢首先建立学习样本的生成模型,再利用模型对预 测结果进行间接推理
➢两个假设前提
✓马尔可夫假设
• 当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态 无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖 于它前面的i-1个词,而与其他词无关。
✓输出独立性假设
• 当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。
生成式分词(Cont.)
学习 素材
产生式 学习算法
分词 词典
分词 知识库
句子
12
查询处理
用户查询方式
小于等于3个字符串
皮肤病 皮肤病
13
查询处理
用户查询方式
注
小于等于3个中文汉 字,将直接调取数 据库中索引的词汇
14
查询处理
用户查询方式
用户提交了不止一个查询串 多于3个字串符
上海皮肤病医院
上海皮肤病/医院
上海/皮肤病院
上海/皮肤病/医院 上海皮肤病医院
15
查询处理
什么是中文分词 中文分词定义
分词就是将一句话切分成一个个单词的过程. ➢ 分词的目的是更加有效、准确的关键词索引。
上海/武警/总队/医院/地址
6
中文分词概述
什么是分词?
➢ 比如句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 ➢ 汉字处理:拼音输入法、手写识别、简繁内容监控 … ➢ 语音处理:语音识别、语音合成 … ➢…
询的单词不存在,也
会当做一个字符处理
,不会进行拆分
18
中文分词概述(Cont.)
分词难点 歧义无处不在
➢ 交叉歧义(多种切分交织在一起)
✓ 内塔内亚胡说的/确实/在理
➢ 组合歧义(不同情况下切分不同)
✓ 这个人/手上有痣 ✓ 我们公司人手
➢ 真歧义(几种切分都可以)
✓ 乒乓球拍/卖/完了 ✓ 乒乓球/拍卖/完了
Part 3
【都有哪些分词技术】
『 分词技术概述 』
23 23
Part 3
『 目
录 』
分词技术概述
〖基于字典的分词方法〗 〖基于统计的分词方法〗 〖基于词义分词方法〗
24 24
Part 3
基于字典的分词方法
概念
按照一定的策略将待分析的汉字串与一个充分大的 词典中的词条进行匹配,若在词典中找到某个字符 串,则匹配成功
25 25
Part 3
基于字典的分词方法
第一页
最后一页 26 26
基于字典的分词方法
常用方法
正向最大匹配法
反向最大匹配法 最短路径分词法
27
基于字典的分词方法
正向最大匹配法
正向最大匹配法
中医治白癜风 中医 / 治 / 白癜风
28
基于字典的分词方法
反向最大匹配法
反向最大匹配法
中医治白癜风 中 / 医治 / 白癜风
用户查询方式
注
大于等于4个中文 汉字,搜索引擎会 默认将所有字符串 按词分隔开,分成 若干子查询串
16
查询处理
用户查询方式
提交的中文查询包含英文单词 Iphone手机
Iphone/手机 Iphone手机
17
查询处理
用户查询方式
注
当提交的中文查询包
含英文单词时,查询
结果会将英文单词优
先完整展现,即使查
1
【目 录】
12
3
4
5
什
查
分
分
应
么
询
词
词
用
是
处
技
技
举
中
理
术
术
证
文
概
分
分
述
析
词
2
为什么要分词
英文 Knowledge is power 单词之间有空格,很容易进行词语的匹配。
中文的语义与字词的搭配相关
和服务必于三日之后裁制完毕 王府饭店的设施和服务是一流的
杭州市长春药店 杭州市长春药店
普通词与新词交织在一起
➢ 克林顿对内塔尼亚胡说 ➢ 胡锦涛听取龚学平等同志的汇报
中文分词概述(Cont.)
分词难点(需要重新处理)
需求多种多样
➢ 切分速度:搜索引擎VS单机版语音合成 ➢ 结果呈现:
➢ 切分粒度要求不同:机器翻译VS搜索引擎 ➢ 分词重点要求不同:语音合成VS搜索引擎 ➢ 唯一结果VS多结果:语音合成VS搜索引擎 ➢ 新词敏感度不同:语音合成VS搜索引擎 ➢ 处理对象:书面文本(规范/非规范)VS口语文本 ➢ 硬件平台:嵌入式VS单机版VS服务器版
基于关键词的口碑分析
客户:某知名全国连锁餐饮品牌 需求:自身及竞争对手在互联网上的口碑变化
2020/7/4
2020/7/4
Part 2
【接受用户查询后做了哪些事情】
『 查询处理 』
11 11
查询处理
用户查询方式
用户提交字符串小于3个字符 用户提交字符串多于3个字符 提交的中文查询包含英文单词
中文的语义与字词的搭配相关
唐朝时,一个穷人到他朋友家去玩,这个穷人非常的聪明。 又一天,下起了雨,这个朋友想让他快点回去,不好意思说, 于是,写了一封信,但没加标点。这个朋友的意思是:下雨 天留客,天留人不留。没想到,这位聪明的穷人在信中夹了 标点,意思全变了:下雨天,留客天,留人不?留。
后人又有人写: 1、下雨天留客,天留,我不留。 2、下雨天留客,天留我不留。 3、下雨天,留客,天留,我不留。 4、下雨天,留客,天留我,不留。 5、下雨天留客,天留我不?留! 6、下雨天,留客天,留我不留? 7、下雨天,留客天,留我?不留! 8、下雨天留客,天!留我不?留! 9、下雨天,留客!天!留我不留?
29
基于字典的分词方法
最短路径分词法
最短路径分词法
中医治白癜风 中医/治白癜风
30
基于字典的分词方法
常用方法
注
采用最短路径分词方 法,因词典中没有 “治白癜风”这个词 组,所以从用户体验 考虑,调取了字典中 意思相近、用户搜索 量大的词“治疗白癜 风”、“治愈白癜风”
31
基于统计的分词方法
常用方法
中文分词概述(Cont.)
分词难点 新词层出不穷
➢ 人名、地名、机构名
✓ 奥巴马 表哥 房叔
➢ 网名
➢ 你是我的谁 旺仔小馒头
➢ 公司名、产品名
✓ 摩托罗拉 谷歌 爱国者 腾讯 网易 新浪
✓ 诺基亚C5 尼康D700
中文分词概述(Cont.)
分词难点 普通词与新词互用
➢高明表演真好(演员)/他的表演很高明 ➢汪洋到深圳检查工作/洞庭湖一片汪洋
相邻的字同时出现的次数越多,就越有可能构成一个词
例如:你的、我的
优点 用于系统自动识别新词
、许多的、最好的、之一
缺点 对常用词的识别精度差
32
统计分词 生成式统计分词 判别式统计分词
生成式分词
原理
➢首先建立学习样本的生成模型,再利用模型对预 测结果进行间接推理
➢两个假设前提
✓马尔可夫假设
• 当前状态出现的概率仅同过去有限的历史状态有关,而与其他状态 无关。具体到分词任务,就是文本中第i个词出现的概率仅仅依赖 于它前面的i-1个词,而与其他词无关。
✓输出独立性假设
• 当前状态的输出仅仅取决于当前状态本身,而与其他状态无关。
生成式分词(Cont.)
学习 素材
产生式 学习算法
分词 词典
分词 知识库
句子
12
查询处理
用户查询方式
小于等于3个字符串
皮肤病 皮肤病
13
查询处理
用户查询方式
注
小于等于3个中文汉 字,将直接调取数 据库中索引的词汇
14
查询处理
用户查询方式
用户提交了不止一个查询串 多于3个字串符
上海皮肤病医院
上海皮肤病/医院
上海/皮肤病院
上海/皮肤病/医院 上海皮肤病医院
15
查询处理
什么是中文分词 中文分词定义
分词就是将一句话切分成一个个单词的过程. ➢ 分词的目的是更加有效、准确的关键词索引。
上海/武警/总队/医院/地址
6
中文分词概述
什么是分词?
➢ 比如句子“内塔尼亚胡说的确实在理”
中文分词概述(Cont.)
分词作用
互联网绝大多数应用都需要分词,典型应用实例 ➢ 汉字处理:拼音输入法、手写识别、简繁内容监控 … ➢ 语音处理:语音识别、语音合成 … ➢…
询的单词不存在,也
会当做一个字符处理
,不会进行拆分
18
中文分词概述(Cont.)
分词难点 歧义无处不在
➢ 交叉歧义(多种切分交织在一起)
✓ 内塔内亚胡说的/确实/在理
➢ 组合歧义(不同情况下切分不同)
✓ 这个人/手上有痣 ✓ 我们公司人手
➢ 真歧义(几种切分都可以)
✓ 乒乓球拍/卖/完了 ✓ 乒乓球/拍卖/完了
Part 3
【都有哪些分词技术】
『 分词技术概述 』
23 23
Part 3
『 目
录 』
分词技术概述
〖基于字典的分词方法〗 〖基于统计的分词方法〗 〖基于词义分词方法〗
24 24
Part 3
基于字典的分词方法
概念
按照一定的策略将待分析的汉字串与一个充分大的 词典中的词条进行匹配,若在词典中找到某个字符 串,则匹配成功
25 25
Part 3
基于字典的分词方法
第一页
最后一页 26 26
基于字典的分词方法
常用方法
正向最大匹配法
反向最大匹配法 最短路径分词法
27
基于字典的分词方法
正向最大匹配法
正向最大匹配法
中医治白癜风 中医 / 治 / 白癜风
28
基于字典的分词方法
反向最大匹配法
反向最大匹配法
中医治白癜风 中 / 医治 / 白癜风
用户查询方式
注
大于等于4个中文 汉字,搜索引擎会 默认将所有字符串 按词分隔开,分成 若干子查询串
16
查询处理
用户查询方式
提交的中文查询包含英文单词 Iphone手机
Iphone/手机 Iphone手机
17
查询处理
用户查询方式
注
当提交的中文查询包
含英文单词时,查询
结果会将英文单词优
先完整展现,即使查