seo技术之百度(baidu)分词算法分析

合集下载

搜索引擎分词技巧

搜索引擎分词技巧

搜索引擎分词技巧我是seoerboy,也许你还没读过我的SEO实验室,但你一定看过ZAC的“搜索引擎每日一贴”。

今天用ZAC的博客文章作为实例,分享一个SEO写作技巧——分词写作什么是分词?简单的说:就是把语句正确分解成词组的技术,搜索引擎核心技术之一。

搜索引擎抓到一个页面,找到核心内容后就开始进行词组分解。

分词完成后才开始后续的关键词密度计算等等。

比如:银行利率网可以分词成为: 4c2 利率网银行写作:当然就是指网站内容编辑,主要包括原创、半原创。

分词写作:指的是在编辑文章时,有意的对目标关键词的分词进行多次重复的写作意识。

下面以ZAC的这篇“到底SEO是什么”作为案例进行讲解。

这篇文章的目标关键词是“SEO是什么”,我们先看一下该文章的排名。

目前关键词“SEO是什么”,百度第五、谷歌也第五,下面是2张SERP的截图。

现在我们来看一下这篇文章的写作技巧。

首先,我们需要了解目标关键词和目标关键词的分词结果:目标关键词: SEO是什么该目标关键词可以分解成2个词: SEO 什么“是”在这里是连词,所以可以忽略。

下面我们分别查看关键词及分词在“到底SEO是什么”一文中的出现情况。

下面是三张截图,黄底部分是关键词首先我们通过下图,可以看到“SEO是什么”在文章中出现2次,一次接近头部并加粗了,另一次接近底部。

再来看看“SEO”出现的情况,文中一共显示了15次,如下图:最后再看看“什么”出现几次,文中“什么”一共出现7次,如下图:首发公积金利率网该文章中:SEO是什么出现2次SEO 出现15次什么出现7次大家注意,文中带“什么”的句子,其实都是可有可无的话。

举例:“大公司的链接都是用户自己给的,人家根本不去做什么外部链接建设……”这句话里的“什么”,完全可以去掉,一样可以读的通,并且保持原意。

ZAC平时就习惯用“什么”吗?NO!该文章中出现7次“什么”,完全是ZAC为了争取“SEO是什么”这个关键词排名而出现的。

浅谈站长如何利用百度的搜索引擎分词技巧进行优化

浅谈站长如何利用百度的搜索引擎分词技巧进行优化

浅谈站长如何利用百度的搜索引擎分词技巧进行优化浅谈站长如何利用百度的搜索引擎分词技巧进行优转动1、运用百度快照机制来优化网站当我们浏览网站时,我们经常无法打开或打开网页太慢的网站。

很多真丝用户会选择使用百度快照打开相应页面,但网站上相应的图片、音频和视频一般无法打开。

而且,一旦网站无法正常打开,该快照的缓存时间会更长,导致网站排名持续下降。

因此,在网站建设之前,我们应该找到办法做好网站空间建设,保证网站空间的稳定,为网站的发展打下良好的基础。

2.从百度蜘蛛的气质做起做好网站内页优化很多seo从业者在网站的优化过程中,非常希望能够让百度尽量多的浏览自己的网站,尽可能多的抓取更多的网站内容,可是当这些网站出现大量的死链接之后,百度蜘蛛即使来了,也很容易迷路,更容易撞到南墙而不自知,最终导致对该网站的反感,所以对于网站优化来说,光光做好网站外部优化,提升网站排名还是不行的,还需要做好基本功,把自己的网站内页优化好,比如要设置44页面,告知百度蜘蛛在遇到死链接之后,要及时的回头,不至于让百度蜘蛛困在网站里面,从而让百度蜘蛛更好的抓取你的网页。

3、学会利用百度的搜索引擎分词技巧进行优化每个搜索引擎都有自己的优势。

对于中文搜索引擎来说,分词技术无疑是核心技术。

学习分析百度等搜索引擎的分析技术,将其应用于网站优化,必须事半功倍。

这些分词技术往往可以作为长尾关键词分析的利器,因为分词技术主要依赖于根据用户的关键词使用双引号或书名号确匹配,也可以模糊匹配,而这种模糊匹配正是长尾关键词的优势!所以在选择长尾词优化的时候,一定要充分考虑搜索引擎的分词技术。

4、利用搜索引擎提供相关性搜索,为网站带来流量目前,百度、谷歌等主流搜索引擎几乎都有记忆功能。

当搜索词的搜索量较大时,搜索关键字时,搜索框会弹出关联词。

同时,搜索引擎还提供了语言纠错功能。

这些功能不仅提高了用户的搜索体验,还帮助我们优化网站,学会运用这些技巧,善于分析用户喜欢使用的长尾关键词。

SEO排行榜评分标准

SEO排行榜评分标准

SEO排行榜评分标准
1.排名总分= 关键词排名得分x 30% + 页面优化表现得分x 70%
2.关键词选取规则
每个分类选取100+个关键词例如:综合类电子商务网站(包括京东商城、当当网、亚马逊等),选取关键词配比为通用词5个(如"网上商城")、行业词10个(如"数码产品")、品类词35个(如"笔记本电脑")、品牌+产品词30个(如"诺基亚手机")和长尾产品词20个(如"摩托X301")
3.关键词排名得分
·搜索引擎:百度、Google、搜狗
·单个关键词得分=(百度指数x百度排名所在位置的点击率)x 85%+(百度指数xGoogle排名所在位置的点击率)x10%+(百度指数x搜狗排名所在位置的点击率)x 5% 关键词排名总得分= 单个关键词得分x 关键词流量系数
4.页面优化表现得分
页面基本优化表现参数主要涉及:
百度、Google、搜狗的页面收录情况;内容更新及快照时间;
外部链接(来源、数量、质量及PageRank);基本网站元素(URL、Page title、H1-H6、Robots.txt等);
网站内容(页面重复度、关键词密度等);页面加载速度;
网站地图、Robots.txt使用情况;Flash、Frame使用情况;
域名年龄;网站代码(页面文字代码比率)。

SEO优化技巧分享

SEO优化技巧分享

SEO优化技巧分享SEO(Search Engine Optimization)搜索引擎优化是指通过对网站结构、内容、代码等方面的优化,提高网站在搜索引擎中的排名,从而获得更多的有意向的访问量和销售,请点击率,增加品牌影响力,实现商业价值最大化。

SEO优化技巧是日益重要的,随着互联网的网络化不断深入,搜索引擎的使用和影响力也不断在增强。

SEO已经成为了一项难于绕过的技术,需要各位网页设计师和内容提供者与时俱进地学习。

1. 关键词研究关键词研究是SEO优化中的第一步,也是最为重要的一步。

合理使用关键词可以使网站更容易被搜索引擎收录,同时也可以帮助用户快速找到需要的信息。

在进行关键词研究时,可以使用Google AdWords、百度指数等工具,找到更多的搜索量大、竞争度低的关键词。

同时还需了解网站的目标用户,关注他们的需求、热点话题、搜索的关键词等信息,从而提高搜索引擎收录的效果。

2. 站内优化除了关键词研究外,站内优化也是SEO优化过程中必不可少的环节。

站内优化包括了网站策略、内容规划、代码优化等方面。

在进行站内优化时,需注意以下几点:(1)网站架构合理:网站的架构应简单明了,便于搜索引擎抓取。

(2)页面标题:页面的标题应尽可能简明扼要,尽量使用关键词。

(3)页面描述:页面描述要简洁明了,尽量包含关键词,并最好不超过150个字符。

(4)图片优化:在图片的属性中添加alt属性,使得搜索引擎可以更容易地理解图片的内容。

(5)URL优化:尽量简洁明了,使用关键词或描述网页内容的短语。

(6)内容质量:提供有价值、原创的内容,并经常更新,以保持用户对网站的关注度和搜索引擎的注目度。

(7)网站速度优化:保证网站的打开速度,能够让用户留下良好的印象,同时也有助于优化网站在搜索引擎的排名。

3. 外部链接外部链接也是SEO优化中的一个重要环节,外部链接有很大的权重。

外部链接是指其他网站指向自己网站的链接。

外部链接越多,网站在搜索引擎的排名就越有优势。

搜索引擎的分词机制

搜索引擎的分词机制

搜索引擎的分词机制(木木长官)〃長官" 14:57:53今天我来给大家讲下搜索引擎的分词机制〃長官" 14:57:58准备下马上就开始〃長官" 15:00:36在搜索引擎中用户提交的搜索内容会被后台提交到数据库与数据库中的数据来对比,从中调出相应的数据。

(这些东西做程序的可能了解)与普通网站的站内搜索类似〃長官" 15:01:38下面举例:比如你想要搜索的是“京珠高速的火车出轨并且无一人伤亡天上也掉下冰雹”这个语句的时候〃長官" 15:02:40如果搜索引擎直接用你段话与数据库中的数据来对比。

肯定搜索不出来任何数据。

因为这个是我自己随便写的。

〃長官" 15:03:26但是搜索引擎又不能叫客户搜索不到东西,所以他们用到了中文分词和英文分词〃長官" 15:03:42今天主要说中文英文以后在说〃長官" 15:04:50当它用了分词后,用过动易CMS系统的朋友,应该知道。

他们采集后的数据,会把标题分割成2个字一组的关键词。

〃長官" 15:04:58比如:京珠高速的火车出轨并且无一人伤亡天上也掉下冰雹〃長官" 15:05:55这个标题动易的分词机制是这么分:京珠|珠高|高速|速的|的火|火车|车出|出轨|轨并|并且|且无|无一|一人|人伤|伤亡|亡天|天上|上也|也掉|掉下|下冰|冰雹它把每个字前一个和后一个自动组合,虽然不合理,但是有一定的技术含量在里面。

〃長官" 15:06:39之所以把词拆分开,就是为了与数据库中的相应数据来对比〃長官" 15:08:10搜索引擎可以这样做分词(前提是因为数据库中有相应的数据库,还有临时数据库!这些后面有介绍)〃長官" 15:09:03京珠|高速|的|火车|出轨|并且|无一人|伤亡|天上|也掉|下|冰雹〃長官" 15:09:35也可以这样分〃長官" 15:10:42京珠高速|的|火车出轨|并且|无一人|伤亡|天上|也|掉下|冰雹〃長官" 15:11:51怎么个分词方法是根据搜索引擎的数据库与算发有直接的关系〃長官" 15:12:22比如百度搜索引擎〃長官" 15:13:23这样可以简单的看出他是怎么分的〃長官" 15:13:27〃長官" 15:14:45京珠高速|的|火车出轨|并且无一|人伤亡|天上|也掉下冰雹〃長官" 15:16:02京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹〃長官" 15:17:22下面来看看百度搜索引擎中的分词的理解与实践〃長官" 15:17:48〃長官" 15:18:15大家可以看到这个是百度中的分法(不能一概而论)〃長官" 15:19:07可以看出我在上面所规划出的词〃長官" 15:19:10〃長官" 15:16:02京|珠|高速|的|火车|出轨|并且|无|一人|伤亡|天上|也掉下冰雹〃長官" 15:19:13这个来`〃長官" 15:19:41〃長官" 15:20:01而第二个呢〃長官" 15:20:08就与上面有些出入了〃長官" 15:21:08这些就是在数据库中所存的数据也可以说是字典〃長官" 15:21:17/s?wd=%BE%A9%D6%E9%B8%DF%CB%D9%B5%C4%BB%F0%B3%B5%B3%F6%B9%EC%B2%A2% C7%D2%CE%DE%D2%BB%C8%CB%C9%CB%CD%F6+%CC%EC%C9%CF%D2%B2%B5%F4%CF%C2%B1%F9%B1%A2&cl=3〃長官" 15:21:26大家可以打开这个地址看一下〃長官" 15:21:28一会在看哦〃長官" 15:23:20当这站上的某个页面上出现了我刚才搜索的语句,搜索引擎把他分词,当查寻不到的时候,引擎中还会在把分过的词,或者原句在从新的分词〃長官" 15:23:54也就是相当于比如搜索的是某个成语〃長官" 15:24:37胸有成竹东山再起〃長官" 15:25:02刚刚我用的是只能ABC打出来的〃長官" 15:25:49直接拼音出来胸有成竹东山再起这两个就能直接打出来。

SEO优化技巧与案例分析

SEO优化技巧与案例分析

SEO优化技巧与案例分析一、SEO优化技巧1.关键词研究与使用在网站SEO优化中,关键词是至关重要的一部分。

首先,你需要确定你个网站所要优化的关键词。

然后,应在网站正确地使用这些关键词。

这包括在网页的标题、描述、H标签和正文中使用关键词。

同时,不要过于使用关键词,以免被谷歌搜索识别为关键词堆积,降低网站排名。

2.及时更新内容更新网站内容可以吸引用户,并提高网站的搜索结果排名。

许多搜索引擎,包括谷歌、百度等,都优先显示新鲜的和有用的信息。

所以,确保您的网站内容更新频繁,以吸引搜索引擎和用户。

3.良好的网站结构网站结构应该清晰,让搜索引擎和用户更容易理解。

使用Menus和子菜单来组织页面。

通过使用面包屑导航和简化的URL,让用户更容易在网站上找到相关页面。

4.网站速度网站速度是搜索引擎排名的重要因素之一。

保证你的网站速度快,并且可用性高。

5.内链建设内链是指在网站中链接到其他页面的链接。

良好的内链结构可以帮助搜索引擎理解您的网站的主题结构,以及网站的重要页面。

这在搜索排名中是很重要的。

二、案例分析1.ZillowZillow是一家美国的房产公司。

他们使用SEO技术来吸引潜在的买家和卖家,以及帮助他们在谷歌搜索中排名。

他们的SEO技术包括使用包括长尾关键词和Landing Pages,详细的房产描述,以及一些互动性的工具,以吸引用户。

他们的SEO策略成功的提高了网站的搜索排名,并且帮助他们成为美国最受欢迎的房产网站之一。

2.Red BullRed Bull是全球领先的能量饮料品牌。

他们使用SEO技术来推广自己的体育、飞行和户外方面的活动。

他们使用了社交媒体来增加用户的参与度,以及把关键词注入到他们的活动和视频中。

他们的SEO策略成功地增加了网站的流量和用户的参与度。

3.OptimalprintOptimalprint是一家在线印刷和照片书公司。

他们的SEO策略使他们成为欧洲知名的在线打印公司之一。

Optimalprint的SEO技术包括在网站上使用相关的关键词来提高搜索排名。

SEO优化技巧实用指南

SEO优化技巧实用指南随着互联网的快速发展和普及,越来越多的企业和个人开始对网站进行SEO优化,以提高其在搜索引擎中的排名,从而获得更多的用户流量。

但是,SEO优化并不是一件简单的事情,需要深入了解搜索引擎的规则和算法,以及市场的行情和竞争情况。

本文将从SEO的基础概念、关键词研究、内容优化、链接建设等方面介绍一些实用的SEO优化技巧。

一、SEO的基础概念1.搜索引擎的工作原理搜索引擎的工作原理是基于用户的搜索意图,将相关的网页按照相关性和权威度进行排名。

搜索引擎的排名算法将网页的关键词、标题、描述、内容、外链等因素作为判定因素,对其进行综合评估,从而确定其排名的先后顺序。

2.影响搜索引擎排名的因素影响搜索引擎排名的因素主要包括网页的质量、关键词的质量、外部链接的质量、网站的历史和权威度等因素。

其中网页的质量包括标题、描述、内容的质量,以及页面的结构、加载速度等方面。

关键词的质量则包括关键词的选择、密度、位置、词性等方面。

外部链接的质量则包括外部链接的数量、质量、主题相关性等方面。

网站的历史和权威度则包括网站的年龄、历史记录、域名权威度等方面。

二、关键词研究关键词研究是SEO优化的第一步,其目的是为了确定企业或者个人在网站中需要优化的关键词。

一个好的关键词研究可以为后续的内容优化、链接建设等工作做好铺垫。

1.确定目标关键词确定目标关键词是SEO优化的关键步骤之一。

企业或者个人需要根据自身的业务范围和目标用户的需求,选取一些符合其需求的关键词,以便于后续的内容优化和链接建设。

2.关键词竞争度分析关键词竞争度分析是需要考虑的一个重要因素。

如果一个关键词的竞争度太高,就可能需要耗费更多的时间和资源才能够在搜索引擎中获得较好的排名。

3.关键词的选择和排布关键词的选择和排布是关键词研究的重点之一。

在选择关键词时需要考虑其权重和重要性,在排布关键词时需要避免过分堆砌和不合理的词序。

三、内容优化内容优化也是SEO优化中非常重的一部分。

百度SEO优化:快速提高网站排名的技巧和策略

【SEO优化】百度SEO优化:快速提高网站排名的技巧和策略随着互联网的普及和发展,越来越多的企业和个人开始关注搜索引擎优化,试图通过优化自己的网站在百度和其他搜索引擎上获得更好的排名,从而获得更多的流量和商机。

然而,随着搜索引擎算法的不断升级和不断更新,搜索引擎优化变得越来越复杂和精细。

如何在短时间内快速提高百度搜索引擎的排名已经成为许多网站所有者的问题。

本文将介绍几种百度搜索引擎优化快速排名优化技术,帮助您加快百度网站的排名,获得更多的流量和订单。

一、关键词优化在网站优化中,关键词优化是最基本、最重要的环节之一,关键词优化是指将网站上的关键词尽可能与用户搜索的关键词相匹配,从而提高网站在搜索引擎中的排名。

优化关键词的方法如下:1.找到合适的关键词:首先,我们需要通过市场调研、竞争产品分析等方法找到适合我们网站的关键词。

关键词的选择应该有针对性,有一定的搜索量,竞争力低,与他们自己网站的主题有关。

2.关键词布局:网站上有很多关键词布局。

在这里,主要介绍两种经典的布局方法。

一种是单页布局,即将一个关键词集中在一个页面上,就像一个主题一样,让搜索引擎包含和强调单词的重量。

另一种是长尾关键词布局,即首先定位几个核心关键词,然后在核心关键词的基础上不断细分,形成各种长尾关键词。

3.网站优化:网站也是关键词优化的重要组成部分。

在生成网站时,需要植入关键词,注意网站的简单易记性和对用户的友好体验。

同时需要重写URL,将其转化为静态URL,有助于提高搜索引擎的收录率。

二、页面优化页面优化是指对网站的重要页面进行分析,从而优化网站的代码、内容、外部链等元素,使其更容易被搜索引擎抓取和理解。

这将提高网站在搜索引擎排名中的权重,以及用户体验和网站流量。

页面优化方法如下:1.内容优化:优化网站内容是提高网站权重和吸引搜索引擎爬虫的关键之一。

首先,我们需要确保网站的内容是高质量、准确和有价值的,并与目标关键字有关。

其次,在排版布局中还应考虑内容的可读性,包括字体大小、字体、行间距等。

百度seo优化教程

百度seo优化教程百度SEO优化教程百度SEO(Search Engine Optimization)即百度搜索引擎优化,是指通过一系列的技术手段,提升网站在百度搜索结果中的排序和曝光量,以提高网站的流量、用户体验和品牌影响力。

本篇教程将介绍百度SEO的基本概念、工作原理和优化方法,帮助网站管理员和运营人员更好地进行百度SEO优化。

一、概念和原理1. 百度SEO的目标:百度SEO的最终目标是提升网站在百度搜索结果中的排名,使其在搜索用户关键词查询时能够出现在前几页的位置,从而提高网站的曝光和点击率。

2. 百度SEO的原理:百度搜索引擎通过算法对各个网页进行评分和排序,然后按照评分高低展示在搜索结果页面上。

百度SEO的优化就是通过优化网页结构、内容和外部链接等因素,提高网页的评分和搜索排名。

二、关键词优化1. 关键词研究:通过分析用户需求、竞争对手网站和百度指数等工具,确定适合网站的关键词,选择具有一定搜索量和商业价值的关键词。

同时通过观察搜索结果页面,了解用户对不同关键词的搜索意图和结果的多样性。

2. 标题优化:网页标题是百度搜索结果中最重要的元素之一。

优化标题应包含主要关键词,同时吸引用户点击。

保持标题简短、准确,同时增加一些吸引眼球的词语或表述。

3. 内容优化:网页的内容应针对关键词进行优化,包括文字、图片和视频等。

关键词密度应适中,避免过度堆砌。

同时提供有价值、原创和高质量的内容,满足用户需求。

三、网站结构优化1. 网站布局:清晰的网站结构能够帮助搜索引擎更好地索引和理解网站内容。

合理设置导航、面包屑导航和网站地图等元素,提供便捷的用户导航和搜索引擎抓取。

2. URL优化:URL是用户和搜索引擎进入网站的入口之一。

优化URL结构,使其简短、且包含关键词。

避免使用无意义的数字和符号,提高可读性和用户友好性。

3. 链接建设:外部链接是百度SEO优化的关键。

通过建设高质量的外部链接,增加网站的权威性和流量。

百度seo优化方案

百度seo优化方案SEO(Search Engine Optimization)是指通过优化网站结构和内容,提高网站在搜索引擎中的排名,从而增加网站流量和曝光度的一种网络营销手段。

对于中国的互联网市场而言,百度搜索引擎的地位无可替代,因此掌握百度SEO优化方案对于网站的发展至关重要。

下面将从网站结构优化、内容优化以及用户体验三个方面介绍百度SEO优化方案。

一、网站结构优化1. 确定主题关键词首先需要确定网站的主题关键词,即与网站内容相关且用户搜索频率较高的关键词。

通过市场调查和关键词分析工具,确定最合适的主题关键词,并在网站的标题、URL、页面内容等位置进行合理布局。

2. 页面内链建设通过合理的内链建设,将相关页面进行连接,提高网站的整体权重和流量分配。

在每个页面中,根据关键词的相关性进行链路引导,提升用户浏览深度和网站整体权重。

3. 网站速度优化网站速度是影响用户体验和搜索引擎排名的重要因素之一。

通过压缩图片、优化代码、选择高效的服务器等手段,加快网站的加载速度,提高用户点击率和页面访问时长。

二、内容优化1. 高质量原创内容百度搜索引擎越来越注重内容的原创性和质量。

网站应提供与用户需求相关且有高度参考价值的内容,避免抄袭和低质量内容。

同时,及时更新网站内容,保持持续的创作活力。

2. 关键词密度和分布在网站的标题、正文、图片ALT标签等位置合理分布关键词,但不要过度堆砌关键词。

关键词的密度应恰到好处,符合自然语言表达习惯,不影响用户阅读和理解。

3. 页面标签优化合理设置网页的title、description、keywords等标签,让搜索引擎更好地理解网页内容和主题。

通过准确的描述和关键词的使用,提高网页在搜索结果中的展示效果。

三、用户体验优化1. 响应式设计随着移动互联网的发展,越来越多的用户通过移动设备访问网站。

优化网站的响应式设计,使其在不同终端上能够自适应地展现,并提供良好的用户体验。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

seo技术之百度(baidu)分词算法分析随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。

作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,会把有代表性的搜索引擎作为研究对象。

搜索引擎经济的崛起,又一次向人们证明了网络所蕴藏的巨大商机。

网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。

但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎。

搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-SPAM等等。

这些技术细节,作为商业公司的搜索引擎服务提供商比如百度,GOOGLE等是不会公之于众的。

我们可以将现有的搜索引擎看作一个黑盒,通过向黑盒提交输入,判断黑盒返回的输出大致判断黑盒里面不为人知的技术细节。

查询处理与分词是一个中文搜索引擎必不可少的工作,而百度作为一个典型的中文搜索引擎一直强调其“中文处理”方面具有其它搜索引擎所不具有的关键技术和优势。

那么我们就来看看百度到底采用了哪些所谓的核心技术。

我们分两个部分来讲述:查询处理/中文分词。

一、查询处理用户向搜索引擎提交查询,搜索引擎一般在接受到用户查询后要做一些处理,然后在索引数据库里面提取相关的信息。

那么百度在接受到用户查询后做了些什么工作呢?1、假设用户提交了不只一个查询串,比如“信息检索理论工具”。

那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理简单,我们接着往下看。

2、假设提交的查询有重复的内容,搜索引擎怎么处理呢?比如查询“理论工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的“理论工具”,而GOOGLE显然是没有进行归并,而是将重复查询子串的权重增大进行处理。

那么是如何得出这个结论的呢?我们可以将“理论工具”提交给百度,返回341,000篇文档,大致看看第一页的返回内容。

OK。

继续,我们提交查询“理论工具理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而 GOOGLE 则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的)。

3、假设提交的中文查询包含英文单词,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,都会当作一个整体来对待。

至于为什么,你用查询“电影dfdfdf下载”看看结果就知道了。

当然如果查询中包含数字,也是如此办理。

到目前为止,一切很简单,也很清楚,百度怎么处理用户查询的呢?归纳如下:首先根据分割符号将查询分开,然后看看是否有重复的字符串,如果有,就抛弃多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者数字当作一个整体保留并把前后的中文切开。

接着该干什么呢?该考虑分词的问题了。

二、中文分词首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个字符串就切割啊?你当百度是卖锯条的么?那么什么样的字符串才满足被切割的条件呢?简单说来,如果字符串只包含小于等于3个中文字符的话,那就保留不动,当字符串长度大于4个中文字符的时候,百度的分词程序才出马大干快上,把这个字符串肢解掉。

怎么证明呢?我们向百度提交“电影下载”,看看返回结果中标为红字的地方,不难看出来,查询已经被切割成<电影,下载>两个单词了,说明分词程序已经开工了,如果是比4个中文字符更长的字符串,那分词程序就更不客气了,一定大卸八块而后快。

我们来看看三个字符的情况,提交查询“当然择”,看起来这个查询不伦不类,那是因为我希望看到这个字符串被切分为<当然,择>,返回结果365篇相关页面,翻到最后一页,发现标红的关键字都是” 当然择”连续出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询“当然择”看看,返回结果1,090,000篇,基本上可以确定没有进行分词了,当然另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,这样看到的效果和没有切分是相似的。

但是我倾向于判断百度对于少于3个字符的串没有切分,奥卡姆不是说了么“如无必要,勿增实体”,干吗做无用功呢。

那么如果没有切分,会有一个随之而来的问题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照N-GRAM 索引,至于索引的具体问题,以后在详细论述。

下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模型方法,最短路径算法等等,有兴趣的可以用GOOGLE去搜索一下以增加理解。

这里就不展开说了。

但是要记住一点的是:判断一个分词系统好不好,关键看两点,一个是消除歧义能力;一个是词典未登录词的识别比如人名,地名,机构名等。

那么百度用的是什么方法?我的判断是用双向最大匹配算法。

至于怎么推理得出的,让我们一步步来看。

当然,这里首先有个假设,百度不会采取比较复杂的算法,因为考虑到速度问题。

我们提交一个查询“毛泽东北京华烟云”,又一个不知所云的查询,尽管不知所云但是自有它的道理,我想看看百度的分词是如何消歧以及是否有词典未登录词的识别的功能,如果是正向最大匹配算法的话,那么输出应该是:”毛泽东/北京/华/烟云”,如果是反向最大匹配算法的话,那么输出应该是:”毛/泽/东北/京华烟云”,我们看看百度的分词结果:”毛泽东/北/京华烟云”,一个很奇怪的输出,跟我们的期望相差较多,但是从中我们可以获得如下信息:百度分词可以识别人名,也可以识别”京华烟云”,这说明有词典未登录词的识别的功能,我们可以假设分词过程分为两个阶段:第一阶段,先查找一个特殊词典,这个词典包含一些人名,部分地名以及一些普通词典没有的新词,这样首先将”毛泽东”解析出来,剩下了字符串”北京华烟云”,而”北/京华烟云”,可以看作是反向最大匹配的分词结果。

这样基本说得通。

为了证明这一点,我们提交查询”发毛泽东北”,我们期望两种分词结果,一个是正向最大匹配<发毛,泽,东北>,一个是上述假设的结果<发,毛泽东,北>,事实上百度输出是第二种情况,这样基本能确定百度分词采取了至少两个词典,一个是普通词典,一个是专用词典(人名等)。

而且是专用词典先切分,然后将剩余的片断交由普通词典来切分。

继续测验,提交查询“古巴比伦理”,如果是正向最大匹配,那么结果应该是<古巴比伦,理>,如果是反向最大匹配,那么结果应该是 <古巴,比,伦理>,事实上百度的分词结果是<古巴比伦,理>,从这个例子看,好像用了正向最大匹配算法;此外还有一些例子表明好像是使用正向最大匹配的;但是且慢,我们看这个查询“北京华烟云”,正向最大匹配期望的结果是<北京,华,烟云>,而反向最大匹配期望的结果是 <北,京华烟云>,事实上百度输出的是后者,这说明可能采用的反向最大匹配;从这点我们可以猜测百度采用的是双向最大匹配分词算法,如果正向和反向匹配分词结果一致当然好办,直接输出即可;但是如果两者不一致,正向匹配一种结果,反向匹配一种结果,此时该如何是好呢?从上面两个例子看,在这种情况下,百度采取最短路径方法,也就是切分的片断越少越好,比如<古巴,比,伦理>和<古巴比伦,理> 相比选择后者,<北京,华,烟云>和<北,京华烟云>相比选择后者。

还有类似的一些例子,这样基本可以解释这些输出结果。

但是仍然遗留的问题是:如果正向反向分词不一致,而且最短路径也相同,那怎么办?输出正向的还是反向的结果?我们再来看一个例子。

提交查询“遥远古古巴比伦”,这个查询被百度切分为<遥远,古古,巴比伦>,说明词典里面有”巴比伦”,但是是否有”古巴比伦”这个词汇不确定,此时看不出是正向切分还是反向切分得出的结果,换查询为“遥远古巴比伦”,此时被切分为“遥远/古巴比伦”,这说明词典里面有” 古巴比伦”这个词汇,这说明了“遥远古古巴比伦”是正向最大匹配的结果。

那为什么“遥远古古巴比伦”不会被反向切分为”遥/远古/古巴比伦”呢,百度的可能选择是这种情况下选择单字少的那组切分结果。

当然还可以继续追问:如果切分后单字也一样多,那怎么办?最后看一个例子,查询“王强大小:”,百度将其切分为“王/强大/小”,是正向切分的结果,如果是反向的会被切分为“王/强/大小”,这说明有歧义而且单字也相同则选择正向切分结果。

OK,看到这里可能头已经有些晕了,最后总结一下百度的分词算法,当然里面还是有猜测的成分,算法如下:首先查询专用词典(人名,部分地名等),将专有名称切出,剩下的部分采取双向分词策略,如果两者切分结果相同,说明没有歧义,直接输出分词结果。

如果不一致,则输出最短路径的那个结果,如果长度相同,则选择单字词少的那一组切分结果。

如果单字也相同,则选择正向分词结果。

百度一直宣传自己在中文处理方面的优势,从上面看,分词算法并无特殊之处,消歧效果并不理想,即使百度采取比上述分词算法复杂些的算法也难以说成是优势,如果说百度有优势的话,唯一的优势就是那个很大的专用词典,这个专用词典登录了人名(比如大长今),称谓(比如老太太),部分地名(比如阿联酋等),估计百度采用学术界公布的比较新的命名实体识别算法从语料库里面不断识别出词典未登录词,逐渐扩充这个专门词典。

如果这就是优势的话,那么这个优势能够保持多久就是个很明显的问题。

Spelling Checker拼写检查错误提示(以及拼音提示功能)拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.我们分析拼写检查系统关注以下几个问题:(1)系统如何判断用户的输入是有可能发生错误的查询呢?(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇.那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询" 制才",百度提供的提示词汇为: “:制裁质材纸材",都是同音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材",另外还有一个标注拼音程序,现在能够看到的基本流程是: 用户输入" 制才",查词典,发现没有这个词汇,OK,启动标注拼音程序,将" 制才"标注为拼音"zhi cai",然后查找同音词词典,发现同音词" 制裁,质材,纸材",那么提示用户可能的正确拼写.整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音"liu li"的同音词,紫光输入法提示同音词汇有" 流丽流离琉璃流利"4个,我们看看百度返回几个,输入"流厉"作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作,百度提示: " 琉璃刘丽刘莉 ",这说明什么?说明不是所有同音词都输出,而是选择输出,那么选择的标准是什么?我能够猜测到的方法是对于用户查询LOG进行统计,提取用户查询次数多的那些同音词输出,如果是这样的话,上面的例子说明用户搜索"琉璃"次数比其它的都要高些,次之是" 刘丽",再次是" 刘莉",看来大家都喜欢查询自己或者认识的人的名字.另外一个小问题:同音词词典包含2字词,3字词,那么是否包含4字词以及更长的词条?是否包含一字词? 这里一字词好回答,不用测试也能知道肯定不包含,因为你输入一个字,谁知道是否是错误的呢?反正只要是汉字就能在词表里面找到,所以没有判断依据.二字词是包含的,上面有例子,三字词也包含,比如查询 "中城药"百度错误提示:"中成药",修改查询为"重城药",还是提示"中成药" ,再次修改查询 "重城要",百度依然提示"中成药". 那么4字词汇呢?百度还是会给你提示的,下面是个例子:输入:静华烟云提示京华烟云输入:静话烟云提示京华烟云输入:静话阎晕提示京华烟云那么更长的词汇是否提示呢?也提示,比如我输入: "落花世界有风军",这个查询是什么意思,估计读过古诗的都知道,看看百度的提示"落花时节又逢君",这说明什么?说明同音词词典包含不同长度的同音词信息,另外也说明了百度的核心中文处理技术,也就是那个词典,还真挺大的.但是,如果用户输入的查询由两个或者两个以上子字符串构成,那么百度的错误提示功能就罢工了,比如输入查询"哀体",百度提示"艾提挨踢",但是.输入为 "我哀体 ",则没有任何错误提示.还有一个比较重要的问题:如果汉字是多音字那么怎么处理?百度呢比较偷懒,它根本就没有对多音字做处理.我们来看看百度的一个标注拼音的错误,在看这个错误前先看看对于多音字百度是怎么提示错误的,我们输入查询"俱长",百度提示"剧场局长", “俱长"的拼音有两个:"ju zhang /ju chang" ,可见如果是多音字则几种情况都提示..现在我们来看看错误的情况, 我们输入查询"剧常",百度提示":剧场局长",提示为"剧场"当然好解释,因为是同音字,但是为什么 "局长"也会被提示呢?这说明百度的同音字词典有错误,说明在"ju chang"这个词条里面包含"局长"这个错误的同音词.让我们顺藤摸瓜,这个错误又说明什么问题呢?说明百度的同音词典是自动生成的,而且没有人工校对.还说明在自动生成同音词典的过程中,百度不是根据对一篇文章标注拼音然后在抽取词汇和对应的拼音信息获得的,而是完全按照某个词典的词条来标注音节的,所以对于多音字造成的错误无法识别出来,如果是对篇章进行拼音标注,可能就不会出现这种很容易发现的错误标注. 当然还有另外一种解释,就是"局长"是故意被百度提示出来可能的正确提示词汇,因为考虑到南方人"zh"和 "ch"等前后鼻音分不清么,那么是这样的么?我们继续测试到底是何种情况.是百度有错误还是这是百度的先进的算法?我们考虑词汇"长大 ",故意错误输入为"赃大",如果百度考虑到了前后鼻音的问题,那么应该会提示"长大",但是百度提示是"藏大".这说明什么?说明百度并没有考虑前后鼻音问题,根本就是系统错误. 我们输入查询"悬赏",故意将之错误输入为"悬桑",没有错误提示,说明确实没有考虑这种情况.前鼻音没有考虑,那么后鼻音考虑了么,我们输入":经常 ",故意改为后鼻音 "经缠",百度提示为"经产经忏",还是没有考虑后鼻音.这基本可以确定是百度系统的错误导致.根据以上推导, 我们可以得出如下结论:百度是将分词词典里面每个词条利用拼音标注程序标注成拼音,然后形成同音词词典,所以两个词典是同样大的 ,而且这个词典也随着分词词典的增长而在不断增长. 至于标注过程中多音字百度没有考虑,如果是多音字就标注成多个发音组合,通过这种方式形成同音词词典.这样的同音词词典显然包含着很多错误.最后一个问题:百度对于英文进行拼写检查么?让我们试试看,输入查询"china",不错,搜到不少结果,专注中文搜索的百度还能搜索到英文,真是意外的惊喜.变换一下查询"chine",会更加意外惊喜的给我们提示"china"吗?百度提示的是: 吃呢持呢,原来是不小心触发了百度的拼音搜索功能了.那么拼音搜索和中文检查错误是否采用同一套同音词词典呢,让我们来实验一下,搜索"rongji",百度提示" 榕基溶剂容积",OK,换个中文查询"容机",百度提示" 榕基溶剂容积",看来使用的是同一套同音词词典.也就是说百度的中文纠错和拼音检索使用的机制相同,中文纠错多了一道拼音注音的过程而已.难道这就是传说中那个百度的"事实上是一个无比强大的拼音输入法"的拼音提示功能么?最后让我们总结归纳一下百度的拼写检查系统:后台作业: (1)前面的文章我们说过,百度分词使用的词典至少包含两个词典一个是普通词典,另外一个是专用词典(专名等),百度利用拼音标注程序依次扫描所有词典中的每个词条,然后标注拼音,如果是多音字则把多个音都标上,比如"长大",会被标注为"zhang da/chang da"两个词条.(2)通过标注完的词条,建立同音词词典,比如上面的"长大",会有两个词条: zhang daà长大" , chang daà长大.(3)利用用户查询LOG频率信息给予每个中文词条一个权重;(4)OK,同音词词典建立完成了,当然随着分词词典的逐步扩大,同音词词典也跟着同步扩大;拼写检查:(1)用户输入查询,如果是多个子字符串,不作拼写检查;(2)对于用户查询,先查分词词典,如果发现有这个单词词条,OK, 不作拼写检查;(3)如果发现词典里面不包含用户查询,启动拼写检查系统;首先利用拼音标注程序对用户输入进行拼音标注;(4)对于标注好的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;(5)如果发现有词条,则按照顺序输出权重比较大的几个提示结果;拼音提示:(1)对于用户输入的拼音在同音词词典里面扫描,如果没有发现则不作任何提示;(2)如果发现有词条,则按照顺序输出权重比较大的几个提示结果;上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否前面的推导有错误.那么以前的分析有什么漏洞呢?我们推导百度分词有反向最大匹配的依据是百度将"北京华烟云"分词为<北,京华烟云>,从这里看好像采用了反向最大匹配,因为正向最大匹配的结果应该是<北京,华,烟云>,但是由此就推论说百度采用了双向最大匹配还是太仓促了,前面文章我们也讲过,百度有两个词典,一个普通词典, 一个专有词典,而且是专有词典的词汇先切分,然后将剩余片断交给普通词典去切分.所以上面的"北京华烟云"之所以被切分成<北,京华烟云>, 另外一个可能是:京华烟云这个词汇是在专有词典里面存储的,所以先分析,这样得出"京华烟云",剩下"北",没什么好切分的,所以输出<北,京华烟云>.这里只是假设,那么是否确实"京华烟云"在专有词典呢?我们再看一个例子"山东北京华烟云",百度切分的结果是<山东,北,京华烟云 >,如果"京华烟云"在普通词典,如果是反向切分,那么结果应该是<山,东北,京华烟云>,如果是正向切分应该是<山东,北京, 华,烟云>,无论如何都分不出<山东,北,京华烟云>.这说明什么?说明"京华烟云"是在那个专有词典,所以先切分出"京华烟云",然后剩下的"山东北"交由普通词典切分,明显是正向最大匹配的结果输出<山东,北 >.当然按照我们在第一篇文章的算法推导"山东北"的切分也会得出<山东,北>的结论,但是明显比正向最大匹配多几个判断步骤,既然效果一样,另外一个更加简洁的方法也能说得通,那当然选择简便的方法了.所以初步判断百度采取的是正向最大匹配.我们继续测试采用何种分词算法,为了减少专有词典首先分词造成的影响,那么查询里面不能出现相对特殊的词汇,构筑查询"天才能量级",这里应该没有。

相关文档
最新文档