智能网络信息处理理论研究及其在搜索引擎中的应用
网络智能化技术在信息科学中的应用与创新

网络智能化技术在信息科学中的应用与创新随着信息科学的快速发展和互联网的普及,网络智能化技术在信息科学中的应用与创新成为了一个热门话题。
网络智能化技术是指利用人工智能、大数据、机器学习等技术,赋予网络系统自主学习、自主决策能力,从而提高信息科学的效率和精确度。
本文将重点探讨网络智能化技术在信息科学中的应用与创新。
一、网络智能化技术在搜索引擎中的应用搜索引擎是网络智能化技术应用最为广泛的领域之一。
通过利用大数据和机器学习算法,搜索引擎可以根据用户的搜索历史、兴趣爱好和行为模式,为用户提供个性化的搜索结果。
例如,当用户在搜索引擎中搜索"旅游"时,系统会根据用户的地理位置和过往搜索记录,为用户提供与旅游相关的信息,如酒店推荐、旅游景点介绍等。
这大大提高了用户体验和搜索效率。
此外,搜索引擎还可以通过自然语言处理和知识图谱技术,对用户的搜索意图进行深度理解。
例如,当用户搜索"苹果"时,搜索引擎可以通过上下文等因素判断出用户是在寻找关于苹果手机的信息,还是关于苹果公司的信息,从而为用户提供更加准确和有针对性的搜索结果。
二、网络智能化技术在大数据分析中的应用大数据是指规模庞大、种类复杂且难以处理的数据。
而网络智能化技术可以帮助我们更好地利用大数据,并从中挖掘出有价值的信息。
通过运用机器学习和数据挖掘技术,网络智能化技术可以从海量数据中找出隐藏的规律和趋势,从而为企业决策、市场预测等提供有力支持。
例如,在社交媒体平台上,用户的评论和行为数据都是宝贵的大数据资源。
通过网络智能化技术的应用,我们可以从这些数据中分析用户的兴趣爱好、情感倾向等,并据此进行精准的用户画像和个性化推荐。
这不仅帮助企业更好地理解用户需求,还能提高用户的满意度和忠诚度。
三、网络智能化技术在网络安全中的创新网络安全一直是一个全球性的难题,而网络智能化技术的应用也为网络安全领域带来了新的创新。
利用机器学习和数据挖掘技术,网络智能化技术可以自动识别和阻止网络攻击,提高网络的安全性。
人工智能在信息检索中的应用

人工智能在信息检索中的应用人工智能技术在如今的社会中得到了越来越广泛的应用,其中最为普遍的应用之一就是在信息检索领域。
随着互联网的迅猛发展,人们需要处理的信息越来越多,如何高效地获取所需的信息成为了一个亟待解决的问题。
人工智能技术的发展为信息检索带来了新的机遇和挑战,它正在逐渐改变着人们获取信息的方式和效率。
首先,人工智能技术在信息检索中的应用主要体现在搜索引擎的发展和优化上。
搜索引擎是人们获取信息的主要途径,而人工智能技术的引入让搜索引擎的效率和准确性得到了极大的提升。
通过自然语言处理、机器学习等技术,搜索引擎可以更好地理解用户的搜索意图,对搜索结果进行排序和过滤,提供更加精准和个性化的搜索结果。
例如,谷歌的搜索算法中就应用了深度学习技术,可以根据用户的搜索历史和行为习惯为其定制搜索结果,提高搜索的相关性和用户体验。
其次,人工智能技术还可以帮助用户更有效地管理和利用个人信息。
在信息爆炸的时代,人们面临着海量的信息资源,如何对这些信息进行筛选和整理成为一个难题。
通过人工智能技术的应用,用户可以通过智能助手等工具将自己感兴趣的信息自动分类、归档,为用户提供个性化的信息推荐和管理服务。
比如,智能语音助手可以根据用户的日常行为和兴趣爱好为其筛选出最相关的信息,帮助用户快速获取所需的信息。
此外,人工智能技术还可以帮助企业进行信息检索和知识管理。
在企业管理中,及时准确地获取和传播信息对于企业的持续发展至关重要。
通过人工智能技术,企业可以建立自己的知识图谱,实现知识的智能化管理和检索。
企业可以通过智能知识图谱将内部和外部的信息资源整合起来,为决策者提供更加全面和准确的信息支持。
同时,人工智能技术还可以帮助企业建立智能问答系统,为员工提供快速准确的解决方案,提高工作效率和员工满意度。
最后,人工智能技术的应用在信息检索领域也带来了一些新的挑战和问题。
一方面,人工智能技术在处理大规模数据和复杂问题时往往需要较高的计算资源和数据支撑,这对于一些中小型的企业和个人用户来说可能存在一定的门槛。
基于自然语言处理的智能搜索引擎技术研究与应用

基于自然语言处理的智能搜索引擎技术研究与应用智能搜索引擎技术是当今信息时代快速发展的重要技术之一。
随着互联网信息的快速增长和用户需求的多样化,传统的关键词搜索模式已经不能满足用户对精确、详尽信息的需求。
为了提高搜索结果的准确性和实用性,基于自然语言处理的智能搜索引擎技术应运而生。
一、背景介绍随着互联网和移动互联网的快速发展,人们日益依赖网络从海量信息中获取所需信息。
然而,传统的基于关键词的搜索引擎往往无法准确理解用户的意图,给出用户想要的相关和有用的搜索结果。
这就迫使我们需要研究和应用更智能的搜索引擎技术,以满足用户个性化的信息需求。
二、自然语言处理技术自然语言处理技术是人工智能研究的重要分支,旨在使计算机能够理解、处理和生成自然语言。
在智能搜索引擎中,自然语言处理技术发挥着重要作用。
它可以将用户查询中的自然语言转化为计算机能够理解和处理的形式。
1. 语义理解语义理解是自然语言处理中的关键任务之一。
它通过分析用户的查询语句,提取用户意图并转化为计算机能够理解的形式。
例如,用户输入“最近有哪些热门电影?”搜索引擎通过语义理解技术可以理解用户的意图是获取最新热门电影的信息。
2. 文本挖掘与分析文本挖掘与分析技术可用于从大量文本数据中发现和提取有用的信息,并根据用户的查询需求进行筛选和排序。
它可以帮助搜索引擎准确理解文本中的实体、关系和情感等信息,为用户提供更精确和个性化的搜索结果。
3. 信息检索信息检索是智能搜索引擎的核心技术之一。
它通过建立索引和模型,将用户的查询与已有的文档进行匹配和排序,从而找到最相关的结果。
自然语言处理技术可以帮助提高搜索的准确性和效率,从而提供更好的用户体验。
三、智能搜索引擎技术应用基于自然语言处理的智能搜索引擎技术已经在各个领域得到广泛应用,极大地改进了用户的搜索体验和信息获取效率。
1. 电子商务在电子商务领域,智能搜索引擎技术可以根据用户的查询意图和历史行为,个性化推荐相关商品。
智能搜索引擎技术研究与应用

智能搜索引擎技术研究与应用随着互联网的不断发展,信息的数量和质量都在不断提高。
然而,随着信息的爆炸式增长,我们每天要面对的信息量变得越来越大,这就让人们感到难以消化、难以掌握。
为了解决这一问题,智能搜索引擎技术应运而生。
智能搜索引擎技术不仅仅能够帮助人们快速找到所需要的信息,还能够更好地理解人们的需求,提供更为个性化的搜索结果。
本文将探讨智能搜索引擎技术的研究与应用。
一、智能搜索引擎技术的发展历程早期的搜索引擎大量使用关键字匹配的技术,根据用户输入的关键字,搜索引擎会在全文中查找所有包含了这些关键字的网页,并且按照相关性排序后展示给用户。
这样的搜索方式虽然简单易行,但是很容易出现错误匹配的情况,而且无法对用户的搜索需求进行深入的挖掘。
随着现代机器学习技术的不断发展,许多智能搜索引擎开始采用深度学习的技术,如自然语言处理(NLP)、机器翻译、语音识别等技术,以提高搜索引擎的准确性和个性化,针对用户输入的关键字、搜索历史、地理位置等信息,智能搜索引擎可以为用户推荐更加准确和有价值的搜索结果。
二、智能搜索引擎技术的基本原理智能搜索引擎技术的核心思想是利用人工智能技术提高搜索引擎的准确性和可信度。
智能搜索引擎的核心技术主要包括以下几个方面:1. 自然语言处理(NLP)智能搜索引擎可以根据用户的搜索关键字、语音识别技术解析用户的自然语言输入,并利用NLP技术分析用户的意图,通过语义理解将用户的搜索需求转化为机器可以理解的信息,从而提供更加准确和有价值的搜索结果。
2. 机器学习智能搜索引擎利用机器学习技术,通过对历史搜索数据的挖掘和分析,提高搜索引擎的个性化推荐能力。
例如,搜索引擎可以根据用户的浏览历史、搜索历史以及其他个人资料,预测用户的搜索需求,并以此为基础,提供更加个性化和准确的搜索结果。
3. 数据挖掘数据挖掘是智能搜索引擎技术的重要组成部分。
智能搜索引擎可以通过对用户的搜索历史、个人资料以及其他行为数据的挖掘和分析,发现用户的兴趣偏好、需求和行为模式等信息,从而提高用户的搜索体验,提供更加准确的搜索结果。
人工智能技术在搜索引擎中的应用研究

人工智能技术在搜索引擎中的应用研究随着信息化时代的发展,搜索引擎已经成为人们生活中不可或缺的一部分。
人们经常使用搜索引擎来查询各种信息,如新闻、视频、产品、服务等等。
而随着人工智能技术的不断发展,人工智能技术在搜索引擎中的应用也越来越广泛,这对提升搜索引擎用户体验、提高搜索引擎效率、改善搜索引擎质量等方面都起到了非常重要的作用。
一、人工智能技术在搜索引擎中的应用目前,人工智能技术在搜索引擎中的应用包括以下几个方面:1. 智能搜索推荐现在,很多搜索引擎都能够根据用户的搜索历史、搜索词语、语义等多方面信息,自动向用户推荐相关的搜索内容。
这些搜索内容可能来自于新闻、图片、视频、网页等多种各样的信息来源。
而这些推荐可能会涉及到人工智能技术,例如机器学习、深度学习等,从而更加准确地为用户推荐内容。
2. 自然语言处理自然语言处理(NLP)是一种人工智能技术,它可以帮助搜索引擎理解用户的搜索意图。
例如,当用户输入“我想看一部悬疑电影”时,搜索引擎可以通过自然语言处理技术帮助用户找到相关的悬疑电影。
这样一来,用户就不需要输入过多的搜索词语,而搜索引擎则可以更好地理解用户的搜索意图。
3. 语音识别技术语音识别技术是一种基于人工智能的技术,可以将人类的语音信息转换为计算机可读的文本信息。
目前,很多搜索引擎都可以通过语音识别技术实现语音搜索,用户只需要说出想要搜索的内容即可,这对于一些驾驶、运动、做饭等场景下无法使用手进行搜索的用户非常方便。
4. 图像识别技术图像识别技术是一种基于人工智能的技术,可以帮助计算机理解和识别图片中的内容。
目前,有些搜索引擎可以利用图像识别技术实现图像搜索,用户可以上传一张图片,搜索引擎便可以为用户搜索出与图片相关的内容。
例如,如果用户上传了一张猫的图片,那么搜索引擎就可以为用户推荐和猫相关的新闻、图片、视频等内容。
二、人工智能技术在搜索引擎中的优势1. 提高搜索引擎效率人工智能技术可以帮助搜索引擎更加高效地工作。
智能技术在搜索引擎中的应用

智能技术在搜索引擎中的应用当今网络信息技术日益发展,传统意义上的搜索引擎更加难以满足广大用户日益增长的信息检索需求。
在这种趋势下,智能技术在搜索引擎中的应用显得越来越重要,只有将智能技术引进搜索引擎,才能提高用户的工作效率,满足人们日益增长的客观需求。
文章主要介绍了如今搜索引擎的几大分类,传统搜索引擎需要改进的不足以及两大智能技术在搜索引擎中的应用。
在智能技术将会更加智能更加发达的未来,搜索引擎也将不断地更新和发展,为人们提供更加高效的搜索体验。
标签:智能技术;搜索引擎;应用分析搜索引擎是根据一定的策略、运用特定的计算机程序来搜索互联网上的信息,在对信息进行组织和处理后,将处理后的结果显示给用户,是为用户提供检索服务的系统。
而智能技术在搜索引擎中的实际应用也越来越广泛,不断有新兴的智能技术出现,搜索引擎也不断地结合这些智能技术来进行自身的变革和发展,这是一个渐进的过程。
文章将详细介绍两种智能技术在搜索引擎中的应用。
1 搜索引擎的分类全文搜索引擎是最标准的搜索引擎,国外的主要代表是Google,而国内的主要代表则是百度。
全文搜索引擎的主要原理是在互联网中检索与所查目标相匹配的内容,继而建立数据库,按序排列并且将其展示给用户。
目录搜索引擎较本质来说,其实不能算是真正的搜索引擎。
只是将网站链接目录分类,用户并不需要输入关键字,根据目录就完全可以找到想要的信息。
目录索引最具代表性的就是Yahoo和新浪索引。
元搜索引擎在接收用户的搜索请求后,可以在各个搜索引擎上同时搜索,随后将结果显示给用户。
这一种搜索引擎的国内代表是搜星搜索引擎。
2 相比网络信息检索传统搜索引擎的缺点传统搜索引擎作为用户在互联网进行信息检索的一个重要途径给广大用户提供了相当大的便利,随着互联网的迅速发展,用户对搜索引擎又提出了搜索速度更快,搜索效率更高等诸多的要求,正是用户的这些需求刺激着搜索引擎的快速发展。
传统搜索引擎越来越满足不了用户的需求,主要存在以下几点不足:(1)搜索引擎从互联网搜索的各种网页水准不一,存在着根本没用或者暂时性的网页,这严重加大了用户检索信息的困难程度并且严重影响了检索速度。
人工智能在互联网搜索中的应用研究

人工智能在互联网搜索中的应用研究随着互联网的快速发展,搜索引擎成为人们获取信息的主要途径。
然而,传统的搜索引擎已经无法满足用户对个性化、准确、高效搜索结果的需求。
为了解决这一问题,人工智能(Artificial Intelligence,简称AI)技术被广泛应用于互联网搜索中。
本文将探讨人工智能在互联网搜索中的应用,并分析其潜在的影响。
一、人工智能在搜索算法中的应用1. 机器学习技术机器学习是人工智能的核心技术之一,它能使搜索引擎不断学习用户的行为、兴趣和偏好,从而提供个性化的搜索结果。
通过分析用户的搜索历史、点击行为和社交媒体信息,机器学习算法可以为用户呈现更加准确、相关的搜索结果,提高搜索引擎的用户体验。
2. 自然语言处理自然语言处理(Natural Language Processing,简称NLP)技术被广泛应用于搜索引擎中,它能够帮助搜索引擎理解用户的查询意图,并将其转化为可理解的语义信息。
通过NLP技术,搜索引擎可以更好地识别用户的查询意图,为用户提供更加准确和相关的搜索结果。
3. 图像识别和视觉搜索随着图片和视频在互联网上的广泛应用,图像识别和视觉搜索成为搜索引擎的重要技术之一。
通过图像识别技术,搜索引擎可以根据用户上传或提供的图片,识别其中的物体、场景或者人物,并提供相关的搜索结果。
这种技术的应用使得搜索引擎更加直观和便捷,提高了用户的搜索体验。
二、人工智能在搜索结果排序中的应用1. 个性化排序传统的搜索引擎通常根据关键词的相关度来排序搜索结果,而个性化排序技术则更加关注用户的个性化需求和偏好。
个性化排序通过分析用户的搜索历史、点击行为和社交媒体信息,为用户提供更加个性化、符合其兴趣的搜索结果。
这种技术的应用使得搜索结果更加贴合用户需求,提高了用户对搜索引擎的满意度。
2. 实时排序传统的搜索引擎通常是基于静态的网页链接来构建索引和排序搜索结果,而实时排序技术则可以根据用户的实时行为和网络信息动态地调整搜索结果的排序。
计算机在智能智慧信息检索与搜索中的应用

计算机在智能智慧信息检索与搜索中的应用随着互联网的快速发展,信息爆炸的时代已经到来。
人们面临着海量的信息,而如何从中精准地检索到所需的信息成为一个重要的问题。
在这个下,计算机在智能智慧信息检索与搜索中的应用变得越来越重要。
1. 智能信息检索技术的发展智能信息检索是指利用计算机技术和人工智能算法,通过对多种信息资源的智能化处理和整合,为用户提供高效、精准的信息检索服务。
在过去的几十年中,智能信息检索技术经历了快速发展。
1.1 关键词检索最早的信息检索方式就是通过关键词查询。
用户通过输入一个或多个关键词,系统根据关键词在数据库中进行匹配,并返回相关的信息。
这种方式简单方便,但效果有限,尤其是当用户输入的关键词与待检索的信息并不完全匹配时,往往会导致检索结果的准确性下降。
1.2 自然语言处理为了更好地解决关键词检索的问题,自然语言处理的技术被引入到信息检索中。
自然语言处理技术可以将用户输入的自然语言转换为计算机可以理解和处理的形式,从而实现更精确的信息检索。
例如,用户可以输入一个问题,而不仅仅是关键词,系统会根据问题的语义进行分析,并返回相关的答案或信息。
1.3 机器学习与数据挖掘随着机器学习和数据挖掘技术的快速发展,它们也被广泛应用于智能信息检索。
机器学习可以通过分析大量的历史数据,学习和发现数据中的模式和规律,并根据这些模式和规律进行智能的信息检索。
数据挖掘则可以从海量的数据中挖掘出有用的信息和知识,为用户提供更准确的检索结果。
2. 智慧搜索引擎的应用除了智能信息检索技术,智慧搜索引擎也在智能智慧信息检索与搜索中起着重要的作用。
智慧搜索引擎是指利用人工智能和大数据技术,通过对用户的行为和兴趣进行分析和学习,从而提供个性化的搜索结果和推荐服务。
2.1 个性化搜索传统的搜索引擎往往只能提供相对通用的搜索结果,无法根据用户的个性化需求进行精确的匹配。
而智慧搜索引擎可以根据用户的兴趣和历史搜索行为,提供个性化的搜索结果。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
吉 林 大 学 硕 士 学 位 论 文 智能网络信息处理理论研究及其在搜索引擎中的应用 Research of Intelligent Network Information Process andApplication of Search Engine Technology作者姓名: 刘立萍专 业: 计算机软件与理论导师姓名 及 职 称:左万利 教授 论文起止年月:2000年7月至2002年5月论文分类号 TP31 单位代码 10183 密级 内部 研究生学号 19906024 总页数 58 是否有图表 有 本文所述工作是吉林省科委发展计划项目“第二代网络搜索引擎研制”(合同号:20000111)的组成部分。
提要本文介绍了“吉林省科技发展计划项目《第二代网络搜索引擎的研制》”中的部分关键技术和设计实现?重点解决了在以提高查准率为目标的第二代搜索引擎系统中,对Web文档进行快速准确自动分类的问题。
本文根据网络信息固有特点,提出了一种新Web文档分类结构模型—结合超链接和Web文档内容的自适应层次分类模型(Adaptive Hierarchical Link_Content Categorization Model For Web Pages)。
该模型的主要思想是∶从两个级别上利用多层次结构的特点,先进行按超链接的预分类处理,然后利用得到的部分分类知识指导内容信息进行文档的层次归类。
其中,在链接方面提出了一种确定文档预分类标识的算法,在内容方面引入了一个刻画文档自描述信息强弱的因子,并由此导出应用两种不同的按内容分类模式,同时给出了在研发项目中的实例测试结果。
另外文章还介绍了搜索引擎,Web挖掘等部分相关技术以及“第二代网络搜索引擎”项目系统的设计与实现。
关键词: Web文档自动分类 网络信息智能处理 Web挖掘 搜索引擎 KeyWords: Hypertext classification, Web mining, Intelligent network information proceeding, Search engine目录 第一章 引 言................................................1 1.1 课题研究背景.........................................1 1.2 相关工作.............................................1 1.3 本文结构.............................................2 第二章 搜索引擎及Web挖掘技术概况..............................3 2.1 搜索引擎—网络信息检索技术.............................3 2.2 Web Mining—第二代网络信息处理技术.....................6 第三章 AHLCCM分类模型系统特点.................................9 3.1 两级层次结构.........................................9 3.2 考虑概念层次的按结构预分类算法HPCA....................10 3.3 利用Prior-factor选择两种内容分类模式.................10 3.4 自适应性............................................11 第四章 AHLCCM分类模型系统....................................12 4.1 AHLCCM分类模型系统形式化描述.........................12 4.2 按结构预分类模式的建立...............................18 4.3 按内容两种分类模式的建立.............................23 4.4 AHLCCM系统测试......................................26 第五章 搜索引擎系统..........................................31 5.1 系统总统结构........................................31 5.2 部分主要模块PIO图...................................32 5.3 Spider的设计与实现..................................33 5.4 系统实现平台........................................43 第六章 结束语...............................................44 6.1 总结................................................44 6.2 进一步的工作........................................44 参考文献....................................................46 致 谢......................................................48 摘 要......................................................49 Abstract....................................................52第一章引言1.1 课题研究背景 我们现在正生活在一个数字化的时代,通信,计算机和网络技术正极大的影响着整个人类社会。
目前Internet上有超过20亿由超链接组织起来的Web页面,因此人们必须要借助于一些信息处理系统才能快速,准确找到所需信息。
由此搜索引擎技术和Web挖掘技术先后应运而生,并得到长足发展。
基于检索技术应用的搜索引擎是一种网络信息检索工具,它以一定的策略在因特网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的作用。
另一方面, 一些基于非检索技术应用的过虑服务也可达到同样的目的,如信息选径(Routing)、分类(Categorization)、类聚(Clustering)、抽取(Extraction)、文摘(Abstraction)等等。
实际上,信息处理系统也正是包含上面提到的两种不同的技术:网络信息检索技术与网络信息挖掘技术。
尽管有很多相似之处,但它们的本质是不同的。
前者是要帮助用户从大量的文档中找到满足需要的资源;而后者(KDW 或称Web挖掘)作为一种新的网络信息处理技术,它沿用了Robot,全文检索等信息检索中的优秀成果,同时综合运用人工智能、模式识别、神经网络领域的各种技术。
正是由于WWW信息的爆炸式增长,使人们对搜索引擎的关注点已经从如何找到更多信息转变为如何找到准确、有用的信息。
而这其中对搜集到的信息进行准确的分类和标引又是搜索引擎中最为重要的一步。
在以往的搜索引擎中,对信息的分类标引主要有两种方法:自动和人工。
自动分类标引的优点是速度快,但精确度不高;人工分类标引的优点是精确度高,但速度太慢,根本跟不上WWW信息的发展速度。
所以目前多数研究重点是在自动分类标引的过程中加入人工智能,利用专家的智能对信息进行分类标引,以提高信息的质量。
1.2 相关工作对于超文本文档的自动分类问题,有人考虑把多个或多种分类器组合成一个协调分类的方法以提高分类精度。
在[23]里,他们把Web文档内的普通内容和被一些重要HTML标识的内容分别对待,通过对典型文档的训练对每个类建立两套独立的分类器。
在假设这两个分类器不相关的前提下,利用Naïve Bayesian方法综合,形成协调超文本分类器。
可以看出这种方法与只用单种方法对超文本进行分类的方法相比,综合分类法提高了分类的正确率,但是它仅利用文档的内部信息描述,忽略了对于信息指示作用更强的外部信息。
Attardi, G 等人 [1]考虑仅用超链引入的信息对web 文档进行自动分类,构造了Theseus 分类器。
他们的主要思想是:为对每个指向待分类文档的链接建立一个上下文信息,以此作为该文档唯一的描述信息。
这种分类模式利用了web 文档更具有分类指示作用的外部信息;但我们认为它有两点明显的不足:首先,无学习的分类模式,使得分类质量完全依赖于邻词表。
其次,在建立待分类文档描述信息过程中,没有对链接所在页面进行选择,并且仅对有链接指向待分类文档的页面进行分析,这种局部性很强的分析,使得在文档描述信息中出现噪音和主题不集中的概率大大增加,影响了分类精度。
IBM Almaden 的Soumen Chakrakerti 等人在层次分类模型TAPER 中[13] [14]结合考虑了内部内容信息和外部的类别分配信息。
他们利用在训练集里得到Link/Class 和Term/Class 模板,由待分类文档周围的文档类别集合i N 和文档本身的内容i ?共同决定该文档i d 的类C 。
数学表达式为:??????????????i i i i i ci i i i c C P C P C N P C P C N P ||max arg |,max arg ???。
我们认为这种分类模型虽然较全面的利用了Web 文档的信息进行分类,但仍有以下问题:第一,因为文档间的链接被用来指示不同种类的目的连接,所以用从训练集得到Link/Class 模板对当前文档进行类别估计是不可靠的,Link/Class 模板可能会随着训练集的不同而变化,最终导致分类精度降低。
第二,待分类文档邻居的已标识类别集合i N 只考虑相应类别出现与否,忽略了它们的分布情况和预先定义的类概念层次,并且对所有的邻居页面进行分析,没有按照相关度或可信度进行链接的选择,使引入噪音链接的概率大大增加。
第三,对邻居页面的类别都不已知或部分已知情况,松弛标识(Relaxing Labeling )过程的系统时间消耗大。
1.3 本文结构第二章介绍与Web 文档自动分类相关的搜索引擎技术和Web 挖掘技术;第三章从整体上概要介绍AHLCCM 分类模型特点;第四章详细描述利用从搜索引擎系统中得到的Web 文档信息对待分类文档建立外部环境的过程;AHLCCM 分类系统中按结构预分类算法HPCA 及预分类过程;AHLCCM 分类系统中按内容两种分类模式的学习训练以及分类识别过程;第五章描述“第二代网络搜索引擎项目”的总统结构和主要模块设计与实现;第六章总结已做的工作,介绍下一步的工作。