搜索引擎――网页分析.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎——网页分析
网页分析主要包括:
——正文信息提取:主要是对标签和注释等信息的过滤
——切词 /分词:对页面内容进行切分,形成与用户查询条件相匹配的
关键字为单位的信息列表
-匹配分词:和预设的海量词汇的“ 辞典” 中的词比较,如果有匹配的词,
则为命中。匹配分词还细分成正相匹配、反向匹配以及双相匹配等 -统计分词:根据相邻的 2个或者多个字(词出现的概率判断这 2个字(词是否会形成一个词。
搜索引擎 -建立索引
-关键字索引:在切词处理后,形成了关键字列表。关键字列表的每条记录包含:关键字、关键字编号、出现次数、在网页中的位置信息等。
-根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性 ,然后用这些相关信息建立网页索引数据库
-对抓取回来的网页建立索引,以实现对页面的快速定位;
页面排序
——用户在搜索引擎中输入查询条件后,搜索引擎就在数据库中检索相关的信息,并将检索结果返回给用户
——搜索引擎在往用户端返回数据的时候,并不是随机的,而是按照一定的计算方法进行排序的
——涉及到排序的因素主要有:
-页面相关性
-链接权重
-用户行为
页面排序 -页面相关性
——页面相关性
-通过对检索结果进行相关性排序,搜索引擎的最终目的是将最相关的网络信息尽可能地优先显示在搜索结果的前面部分,以改进搜索结果的输出。 -虽然各个搜索引擎中相关度排序的具体实现各不相同,但基本上都采用了基于网站内容的分析方法,即考虑用户所查询的关键词在文档网页中的出现情况,包括关键字匹配度、关键词频率 (关键词密度、关键词位置、
HTML 标记等因素。
页面相关性
——关键字匹配度:是指网页中的内容与用户所查询的关键字之间的匹配程度, 主要是 2个因素:
-页面中是否包含关键字
-关键字在页面中出现的次数
——关键字密度:
-关键字出现的次数与该网页总词汇量的比例
——关键字分布:
-关键字在网页中出现的位置
-关键字在网页中出现的位置会影响到关键字的分布值
——关键字的权重标签
-关键字是否使用了 HTML 标签实现了不同的视觉效果(如加粗、颜色变换等——页面相关性计算公式:
R(relevance=M(match+D(density+P(position+T(html Tag