微博搜索引擎需求分析

合集下载

微博数据分析报告

微博数据分析报告

微博数据分析报告近年来,随着互联网的高速发展,微博已经成为了人们生活中不可或缺的一部分。

作为中国最大的社交平台之一,微博每天都涌现出大量的信息和热点话题,这些数据蕴含着丰富的信息,具有极大的研究和分析价值。

本文将对微博数据进行深入分析,探讨微博在社交网络中的影响力以及用户行为。

通过这些数据,我们可以更好地了解微博的发展态势和用户需求,为进一步优化微博平台提供有价值的指导和建议。

一、用户统计据统计,截至目前,微博的用户数已经超过了5亿,其中活跃用户占比高达80%以上。

从年龄分布来看,20-30岁的年轻人是微博的主要用户群体,占据总用户数的50%以上。

这说明了微博在年轻人群体中的广泛影响力。

此外,微博还吸引了不少名人、大V等影响力较高的用户,他们的存在进一步推动了微博平台的发展。

二、用户行为通过对用户行为的分析,我们发现微博用户的行为具有一定的规律性。

首先,微博用户的活跃时间主要集中在下午和晚上,尤其是晚上的7点到9点之间。

这个时间段是大部分用户下班后的休闲时光,也是信息传播最为频繁的时段。

其次,微博用户的使用习惯多样,主要包括浏览、转发、评论、点赞等。

其中,转发数和评论数较多的微博往往关联着热点事件或话题,它们对用户的吸引力更大。

此外,微博用户还倾向于在创建原创内容时选择图片或视频的形式,这种多媒体内容更具吸引力,能够更好地吸引用户的注意力。

三、热门话题微博作为一个社交平台,每天都有大量的热门话题涌现出来。

通过对热门话题的分析,我们可以更好地了解用户关注的焦点和热点。

以最近的一次分析为例,我们发现疫情、明星娱乐、体育赛事等话题一直都是用户关注度较高的热点。

在疫情期间,用户关于疫情的讨论和关注度更是持续攀升。

此外,微博用户还喜欢讨论社会热点事件、科技进展以及时事政治等话题,这些话题吸引了大量的用户参与讨论和互动。

四、影响力分析通过对微博用户的社交网络进行分析,我们可以得出不同用户的影响力指数。

影响力指数主要考量用户的粉丝数量、转发数量以及评论数量等因素。

微博市场分析

微博市场分析

个性化
在人们越来越追求有个性的事物的现在,微博的出现恰好满足了人们 的媒体个性化的需求,它可以“随时表达自己的观点”、“与他人共 同讨论热点话题”和能提供“最新资讯”信息的个性化朋务,深深吸 引了微博用户纷纷来注册
自发传播
微博用户具有自发传播的特性,绝大多数用户表示会推荐给朋友使 用(占总体的89%); 有近半数的用户表示对在微博上面进行转发信息,他们转发的主要是 有价值、有趣的或是及时性较强的信息
个人用户
使用微博目的: 使用微博目的:1、随时随地表达自己观点 2、与他人共同讨论热点话题 3、了解最
新资讯 4、体验web2.0新产品 5、关注别人(熟人,朋友,陌生人,名人,明星,专 家)
使用微博行为: 使用微博行为 1、写微博,发表观点或发泄情绪 2、浏览关注人微博更新动态 3、
随便浏览,了解资讯 4、参与热点话题的讨论 常见博文类型: 常见博文类型:1、个人心情感受 2、生活工作琐事 3、对社会时事的评论 4、与他人交 流沟通讨论 4、转发精彩博文(内容上包括笑话,语典,哲理等,形式上包括文字,图 片和视频)
络公关(特指进行网络危机公关)4、进行在线调研 5、进行顾客网上服务(主要是指 答疑)
常见博文类型: 常见博文类型:1、企业新产品信息 2、企业优惠促销信息 3、回答客户提问 4、
行业相关新闻动态 5、互动话题,与用户交流 6、发起公益或娱乐活动 7、转发的博文
用户需求特点
平民化
追星或作秀,不是微博的主流。尽管在推广期间,借重名人的影响 力可提高微博的市场认知度,但微博的生命力应该是为普通人提供表 达、分享且沟通的平台; 微博的用户群中企业的普通员工和学生的比例就很高,分别达29%和 17%的用户比例; 这些普通的平民人人都在关注别人,人人也都被人关注着; 他们主要关注的是朋友、同学,被关注的也是同学和朋友。

微博搜索、网页搜索对用户信息需求满足能力的对比分析——以新浪微博搜索、百度搜索为例

微博搜索、网页搜索对用户信息需求满足能力的对比分析——以新浪微博搜索、百度搜索为例

微博搜索、网页搜索对用户信息需求满足能力的对比分析——以新浪微博搜索、百度搜索为例刘明珠;杨建林【摘要】文章通过对已有研究成果的分析总结,结合专家建议,将用户进行微博搜索时的信息需求归纳为七类:新闻信息、实时信息、明星公众人物信息、社交人际关系信息、公众舆论信息、机构公司信息、知识性信息,并基于这七类信息需求设计调查问卷,考察了微博搜索对用户信息需求的满足能力,同时与网页搜索进行对比研究,分析了两种搜索方式在满足用户不同信息需求方面的能力差异,以及产生差异的原因.【期刊名称】《图书与情报》【年(卷),期】2016(000)005【总页数】11页(P126-136)【关键词】微博搜索;网页搜索;信息需求;问卷调查【作者】刘明珠;杨建林【作者单位】南京大学信息管理学院江苏南京210023;江苏省数据工程与知识服务重点实验室江苏南京210023;南京大学信息管理学院江苏南京210023;江苏省数据工程与知识服务重点实验室江苏南京210023【正文语种】中文【中图分类】G254.97随着互联网技术的发展,互联网应用模式已经由传统的“人-机”交互模式变为“社会化”交互模式[1]。

在用户生成海量内容的Web2.0时代,如何对信息资源进行再组织,使得用户快速高效地搜索到所需信息或知识,已经成为业界学界广泛关注的话题和研究领域。

传统的网页搜索引擎利用爬虫软件采集资源,而爬虫软件抓取信息的滞后性会影响搜索结果的质量,此外,许多用户不再满足于旧式的“人-机”搜索体验,他们更期望利用在线社会网络(Online Social Networks,OSN)进行沟通协作来获得质量更高的智能化搜索结果[2]。

于是,“社会化搜索”的理念应运而生。

Teevan J等[3]认为传统搜索引擎建立了信息与信息之间的关系,在线社会网络建立了人与人之间的关系,而社会化搜索则将信息与人关联起来,重建了一种人与信息之间的映射。

当前,实现社会化搜索的平台与工具可以分为四类:一是专业的社会化搜索引擎,如谷歌的Social Searcher;二是在线问答社区,如知乎、百度知道;三是社会化标注系统,如CiteULike;第四类则是社会化媒体,包括Facebook、Twitter、人人网以及本文讨论的新浪微博等。

新浪微博用户需求分析和服务定位

新浪微博用户需求分析和服务定位

新浪微博用户需求分析和服务定位作者:马晓雪来源:《青年文学家》2012年第08期摘要:微博,是微博客的简称,是一个基于用户关系的分享、传播信息以及获取平台。

在新浪微博可以将您看到的、听到的、想到的事情写成一句话。

微博作为一种网络传媒新事物,发展还不是很完善。

有待于进一步的完善功能与机制。

因此,本文将以新浪微博为例进行分析。

关键词:微博用户需求分析;微博功能服务作者简介:马晓雪(1990.1.27-),女,汉族,北京房山人,四川大学信息资源管理08级本科。

[中图分类号]:TP393.4[文献标识码]:A[文章编号]:1002-2139(2012)-08-0245-01新浪可以把微博理解为“微型博客”或者“一句话博客”。

您可以将您看到的、听到的、想到的事情写成一句话,或发一张图片,通过电脑或者手机随时随地分享给朋友。

您的朋友可以第一时间看到你发表的信息,随时和您一起分享、讨论。

您还可以关注您的朋友,即时看到朋友们发布的信息。

一、用户需求分析由于新浪围脖用户群体的多样性和复杂性以及信息服务的自给性,对其的用户研究方向应包括:领域用户研究用户行为研究。

(一)明确用户个人媒体时代——信息时代,特征是由多数人生产,多数人消费,生产和消费界限模糊,传播模式为个人传播。

微博以自身4A(anylime、anywhere、anyone、anything)的特点降低了传播门槛,将社交与新闻有机地叠合在一起,构成社交与新闻传播的整合平台。

它的信息源即为用户自身,通过人际圈和即时信息的关注,形成信息影响力的不断扩大。

用户通过“关注”,成为某一用户的“粉丝”,从而接收到自己所需要的某一领域的信息。

1、个人用户:个人用户指非机构类,组织类的一般性普通微博用户。

又可以分为普通用户和社会名人。

(1)普通用户普通用户是微博用户中,人数最多的一个群体,同时在年龄上,职业上,消费需要,消费能力上呈现非常多层次化的特点。

新浪微博的草根性极强,任何人都可以成为一个信息的制造源,然后通过人际圈和受众关注传播出去。

微博舆情分析报告

微博舆情分析报告

微博舆情分析报告1. 引言近年来,随着社交媒体的快速发展,人们对于舆情分析的需求不断增加。

作为最大的中文社交媒体平台之一,微博扮演着重要的角色。

本文将对微博上的舆情进行分析,通过收集和分析用户在微博上的发言,揭示其中蕴含的信息和趋势,为决策者提供参考。

2. 数据收集为了进行舆情分析,我们首先需要收集微博上的相关数据。

可以通过以下步骤进行数据收集: 1. 确定分析的对象和关键词:根据研究目的,确定要分析的微博主题和相关关键词。

2. 使用微博开放平台API:通过微博开放平台提供的API,获取与关键词相关的微博数据。

3. 数据清洗和整理:对收集到的数据进行清洗和整理,去除重复和无关的内容,并按照时间和其他相关信息进行排序。

3. 文本分析在收集到微博数据后,我们需要对文本数据进行分析,以揭示其中的舆情信息。

以下是一些常用的文本分析方法: 1. 情感分析:通过使用自然语言处理技术,对微博文本进行情感分类,判断其中的情感倾向,例如正面、负面或中性。

2. 关键词提取:识别微博文本中的关键词和热点话题,帮助我们了解用户关注的焦点和讨论话题。

3. 主题模型:使用主题模型技术对微博文本进行聚类分析,找出其中的主题和相关性,以便更好地理解用户的观点和意见。

4. 可视化分析为了更好地呈现舆情分析的结果,将数据可视化是一种常见的方法。

以下是一些常用的可视化方法: 1. 情感分布图:通过绘制情感分布图,可以直观地展示微博文本中的情感倾向,帮助我们了解用户对于某一话题的整体情绪。

2. 关键词云图:将关键词绘制成词云图,可以显示用户关注的热点话题和关键词,帮助我们把握舆情中的重点词汇。

3. 时间趋势图:通过绘制时间趋势图,可以展示微博舆情随时间的变化,帮助我们观察到微博话题的发展和变化。

5. 结论通过对微博舆情的分析,我们可以得出以下结论: 1. 用户情感倾向:通过情感分析,我们可以了解用户对于某一话题的情感倾向,帮助我们更好地了解用户需求和态度。

微博项目需求分析报告

微博项目需求分析报告

微博项目需求分析报告一、项目概述微博项目是基于现有社交媒体的微博平台开发,旨在满足人们日常社交、信息传播、公众表达等需求。

该项目以用户为中心,通过简洁、便捷的方式让用户发布、浏览、转发、评论微博内容,实现用户间的互动交流。

二、项目目标1. 提供一个稳定、高效的微博平台,让用户在平台上快速实现信息传播并与其他用户进行互动交流。

2. 提供丰富的功能和个性化设置,满足用户的各种需求,提高用户粘性和活跃度。

3. 构建一个安全、友好的社交平台环境,有效管理用户行为,减少不良信息的传播。

三、核心功能需求1. 用户注册与登录:用户通过手机号、邮箱等方式注册账号,并通过账号登录微博平台。

2. 发布与浏览微博:用户可以发布文字、图片、视频等微博内容,并浏览其他用户发布的微博内容。

3. 转发与评论:用户可以转发其他用户的微博内容,并对微博进行评论。

4. 消息通知:用户可以接收到关注用户的最新微博动态通知,并及时查看与自己相关的评论、点赞等消息通知。

5. 关注与粉丝:用户可以关注其他用户,并查看自己的粉丝列表。

6. 用户搜索与推荐:用户可以通过搜索关键词查找其他用户,同时平台会根据用户的兴趣推荐相关用户和内容。

7. 私信功能:用户可以通过私信与其他用户进行一对一的聊天对话。

四、非功能性需求1. 性能要求:平台需要具备良好的性能和扩展性,能够支持大量用户同时在线浏览、发布微博。

2. 安全要求:平台需要采取相应的安全措施,防止用户隐私泄露、恶意攻击等事件发生。

3. 用户体验要求:平台应具备友好的用户界面设计,操作简单、响应快速、界面美观大方,以提升用户的使用体验。

4. 可靠性要求:平台需要具备高可靠性,保障用户信息和微博内容的安全存储和传输。

五、项目计划1. 需求收集与分析:分析用户需求,梳理核心功能和非功能性需求。

2. 需求设计与评审:详细设计平台的功能、界面、数据库等,进行需求评审,制定项目开发计划。

3. 开发与测试:根据需求设计,进行平台的开发与测试工作。

社交媒体依赖与媒介需求研究以大学生微博依赖为例

社交媒体依赖与媒介需求研究以大学生微博依赖为例

社交媒体依赖与媒介需求研究以大学生微博依赖为例一、本文概述随着科技的快速发展和互联网的普及,社交媒体已成为人们日常生活中不可或缺的一部分。

特别是在大学生群体中,社交媒体的使用率更是高达百分之九十以上。

微博,作为中国最具代表性的社交媒体平台之一,已经深入到大学生的日常生活中,并引发了一系列与社交媒体依赖和媒介需求相关的问题。

本研究旨在探讨大学生微博依赖现象的背后原因,以及这种依赖如何影响他们的媒介需求。

本文将首先对大学生微博依赖的现状进行描述,包括使用频率、使用时间、使用目的等,以便对这一现象有全面的了解。

接着,通过问卷调查和深度访谈的方式,收集大学生关于微博依赖和媒介需求的真实想法和体验,从而揭示他们为何会产生微博依赖,以及这种依赖如何影响他们的媒介需求。

本文还将从心理学、社会学和传播学等多学科视角出发,对大学生微博依赖的成因进行深入分析。

例如,从心理学的角度看,微博依赖可能与大学生的心理需求、情绪表达等方面有关;从社会学的角度看,微博依赖可能与大学生的社交需求、身份认同等方面有关;从传播学的角度看,微博依赖可能与大学生的信息获取、意见表达等方面有关。

本文将对大学生微博依赖的影响进行评估,并提出相应的建议。

例如,对于大学生自身,可以通过提高媒介素养、合理安排时间等方式来减少微博依赖;对于高校和社会,可以通过开展媒介教育、提供多元化媒介产品等方式来引导大学生健康使用社交媒体。

本文旨在通过深入研究和分析,揭示大学生微博依赖与媒介需求之间的内在联系,为理解和解决大学生社交媒体依赖问题提供新的视角和思路。

二、文献综述在数字媒体时代,社交媒体已成为人们获取信息、交流思想、构建社交网络的重要平台。

大学生作为社交媒体的主要用户群体之一,其社交媒体依赖现象引起了广泛关注。

本文以大学生微博依赖为例,对社交媒体依赖与媒介需求的相关研究进行综述。

关于社交媒体依赖的定义和测量,学者们提出了不同的观点。

一些研究者将社交媒体依赖定义为个体过度使用社交媒体而产生的一种心理依赖,而另一些研究者则强调社交媒体依赖是一种行为依赖,即个体无法控制自己的社交媒体使用行为。

微博系统的可行性分析

微博系统的可行性分析

微博系统的可行性分析引言随着社交媒体的迅猛发展,微博已经成为了人们交流、获取信息和发声的重要平台之一。

微博系统的可行性分析旨在评估开发一个微博系统的可行性和潜在风险,以帮助决策者明智地投入资金和资源,从而获得更好的回报。

市场需求分析在进行微博系统的可行性分析之前,必须先了解市场对于这一产品的需求。

当前,人们对于信息的快速获取和灵活分享的需求越来越高。

微博作为一种即时性的社交媒体形式,满足了人们这方面的需求。

通过发布短文、图片、视频等形式,用户可以迅速地与他人分享消息、观点和感受。

在全球范围内,微博系统已经广泛应用,并积累了大量的用户基础。

技术可行性分析开发微博系统依赖于先进的技术,因此技术可行性分析至关重要。

1. 网络基础设施微博系统需要安全稳定的网络基础设施来支撑用户之间的互相关注、消息传递等功能,因此需要有可靠的服务器和高带宽的网络支持。

2. 数据存储和处理微博系统需要处理大量的用户数据,包括用户信息、关注关系、微博内容等。

因此,对于数据的存储和处理能力有较高的要求。

诸如数据库管理系统(DBMS)和云计算等技术,可以提供高效可靠的存储和处理能力。

3. 安全性微博系统的安全性对于用户的个人信息和账号安全至关重要。

必须有相应的安全措施,如身份验证、加密传输等。

同时,还需要进行安全性测试和周期性的安全漏洞检查,以防止恶意攻击和数据泄露。

经济可行性分析开发微博系统需要投入大量的资金和资源,因此经济可行性分析是非常重要的。

1. 成本分析在开发微博系统时,需要考虑到硬件购买、软件开发、人员培训和运营维护等方面的成本。

此外,还需要考虑到运营期间的成本,如服务器维护费用、广告费用等。

2. 收益预测对于微博系统的收益预测是不可忽视的。

通过分析用户规模、用户活跃度和广告收入等指标,可以得出预计的收益。

同时,还需要考虑到竞争对手网站和其他社交媒体对微博系统的影响。

3. 可持续发展微博系统需要持续投入资源和精力进行维护和改进,以保持用户的活跃度和吸引力。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

微博搜索引擎需求分析摘要:自从微博这一事物走入我们的生活中,在短短几年的时间里迅速被人们接受,尤其是得到了年轻人的热捧。

人们通过微博可以建立密友圈进行互动,可以把握最新的热点新闻资讯,也可以看到一些轻松诙谐的小故事、图片,在学习工作的压力之余,极大的丰富了我们的精神生活。

不知不觉人们养成了在微博上搜索的习惯。

我知道这种不自觉养成的习惯必然与我们的需求和搜索意图密切相关,微博的特点是实时性强,支持多平台的用户体验,极为方便快捷,这刚好能满足人们的需求。

关键词:JSP MySQL Hibernate Struts1 AJAX javascript 微博搜索引擎网络蜘蛛1引言Java Web,是基于B / S模式(Brower/Server),用Java技术来解决相关web互联网领域的技术总和。

web包括:web服务器和web客户端两部分。

Java在web的应用框架很多,如JSP、 AJAX、 XML、 Struts1、 Struts12、 JQuery、 Hibernate、 Spring、Flex、 JPA 等。

本系统主要用到了JSP、 AJAX、 XML、 Struts11、Hibernate。

其中,JSP(Java Server Pages)是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准;AJAX是使用客户端脚本与Web服务器交换数据的Web应用开发方法;XML是可扩展标记语言(Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,可以用来标记数据、定义数据类型,是一种允许用户对自己的标记语言进行定义的源语言;Struts11 是Apache软件基金会(ASF)赞助的一个开放源代码的项目;Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了对象封装,使得Java程序员可以使用对象编程思维来操纵数据库。

Java技术对Web领域的发展注入了强大的动力。

微博搜索引擎通过抓取微博信息,获取微博相关参数值,分析并统计网网民们对于该条微博的评价、转播次数、阅读量等信息,通过一定的算法微博的综合素质,给出打分并排序,对于用户的搜索的指定种类的微博进行排序,返回结果。

此外,提供微博比较功能,用户可以在阅读完指定的微博后,浏览相关的微博,这将进一步的加强用户搜索到自己所需要的信息的速度和完整度。

2相关技术2.1 JSP技术JSP全名为java server page,其根本是一个简化的Servlet设计,他实现了Html语法中的java扩张(以<%, %>形式)。

JSP与Servlet一样,是在服务器端执行的,通常返回给客户端的就是一个HTML文本,因此客户端只要有浏览器就能浏览。

2.2 MySQL 数据库MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司。

MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

MySQL的SQL语言是用于访问数据库的最常用标准化语言。

MySQL软件采用了双授权政策(本词条“授权政策”),它分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择MySQL作为网站数据库。

由于其社区版的性能卓越,搭配PHP和Apache可组成良好的开发环境。

2.3AJAX技术Ajax是结合了XML、Java、以及JavaScript等编程技术,可以让开发人员开发可以通过页面动态的访问数据库而不用重载页面的技术。

Ajax使用客户端脚本与Web服务器交换数据,这样,Web页面不用进行重新加裁,就可以根据用户的请求动态地更新。

使用Ajax,用户可以创建接近C/S(Client/Server或客户/服务器模式)的直接、高可用、更丰富、更动态的Web用户界面。

2.4XML技术XML指可扩展标记语言(Extensible Markup Language, XML) ,是可以用于标记电子文件使其具有结构性、标记数据、定义数据类型的标记语言,是一种可以让用户对自己的标记语言进行定义的源语言。

XML属于标准通用标记语言(SGML),是它的子集,适合Web 传输。

XML 为描述和交换独立于应用程序或供应商的结构化数据提供统一的方法。

2.5struts1框架Struts1是Apache软件组织提供的一项开放源代码的项目,它给Java Web应用程序提供了模型-视图-控制器(Model-View-Controller,MVC)框架,适用于开发大型可扩展的Web 应用程序。

Struts1这个名字起源于在建筑和旧式飞机中使用的支持金属架。

Struts1给Web 应用程序提供了一个好用的框架,使得开发人员可以轻松地把精力集中在如何解决实际业务问题上而不用过分纠结于系统的实现。

另外,Struts1 框架提供了供扩展的地方,应用程序可以轻松的扩展,而不用大量修改系统,这样能更好的适应用户的实际需求。

2.6Hibernate框架Hibernate是一个开放源代码的对象关系映射框架,它对JDBC进行了非常轻量级的对象封装,使得Java程序员可以随心所欲的使用对象编程思维来操纵数据库。

Hibernate可以应用在任何使用JDBC的场合,既可以在Java的客户端程序使用,也可以在Servlet/JSP的Web 应用中使用,最具革命意义的是,Hibernate可以在应用EJB的J2EE架构中取代CMP,完成数据持久化的重任。

2.7设计系统My EclipseMyEclipse企业级工作系统(MyEclipse Enterprise Workbench,简称MyEclipse)是对Eclipse IDE的扩展,利用它我们可以在数据库和JavaEE的开发、发布,以及应用程序服务器的整合方面极大的提高工作效率。

它是功能丰富的JavaEE集成开发环境,包括了完备的编码、调试、测试和发布功能,完整支持HTML, Struts1, JSF, CSS, Javascript, SQL, Hibernate。

2.8 网络蜘蛛蜘蛛(即Web Spider),实际上是一个基于HTTP 协议的网络应用程序。

网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,并抽取出网页中的其它超链接地址,然后通过这些链接地址寻找下一个网页,这样直循环下去,直到把这个网站所有的网页都抓取完为止。

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先。

广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。

这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。

深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。

这个方法有个点是网络蜘蛛在设计的时候比较容易。

2.9 切词器众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。

例如,英文句子I am a student,用中文则为:“我是一个学生”。

计算机可以很简单通过空格知道student 是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。

把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。

我是一个学生,分词的结果是:我是一个学生。

2.10 索引器索引器是搜索引擎系统心须也是很关键的一个环节,它主要完成将切词形成的顺排档文档组织成倒排档索引数据。

(索引的合并用拉链)2.11 查询器查询器是搜索引擎系统中最后一个环节,是最终和用户打交道的用户搜索界面。

查询器是通过Web 页接受用户输入的搜索参数并切分用户输入的字串,访问倒排档索引文件检索出所有符合检索条件的文档,并对其进行并集运算和排序运算,最后得到最终的结果文档,再从各文档中提取摘要信息写入用户反馈网页中。

由于在检索过程中需要读取索引文件并进行系列的运算,因而查询器很难用ASP、PHP、JSP 等一些服务器脚本来实现,必须通过CGI 程序来完成。

采用ISAPI 来实现是一种很好的选择,它是运行在Windows 平台上并配合IIS 服务器,是以DLL 的形式发布,用户的查询只需要提交给此DLL 处理,处理完后会自动以HTML 的形式反馈给用户。

3 项目功能描述通过抓取微博信息,获取微博相关参数值,分析并统计网网民们对于该条微博的评价、转播次数、阅读量等信息,通过一定的算法微博的综合素质,给出打分并排序,对于用户的搜索的指定种类的微博进行排序,返回结果。

此外,提供微博比较功能,用户可以在阅读完指定的微博后,浏览相关的微博,这将进一步的加强用户搜索到自己所需要的信息的速度和完整度。

3.1 需求列表1. 用户可以通过本搜索引擎查询指定微博的阅读量,转发次数;(1)使用具体微博类型作为查询条件,如军事、社会、情感、动漫、电影、娱乐、美食等;(2)使用若干重要参数进行查询,如微博所属企业(新浪、腾讯、搜狐、雅虎等),微博转发量、微博阅读量等。

2. 在阅读指定的微博时,相关的微博都将按相关程度呈现于用户的面前。

4 模块说明图4.1微博搜索引擎框架图4.2微博搜索引擎的体系结构4.3 微博搜索引擎系统结构5 数据结构及数据类型分析(决定数据库表如何设计)索引数据库结构S p i de r程序搜索回来的信息要进行索引, 并建立索引表存储在索引数据库中。

数据库采用MySQL 。

建立索引项时采用单索引项,对其赋一个权值,这个权值按照词在文档中出现的位置决定。

在文档中的位置不同权值则不同, 在〈titl e 〉中出现的权值最高。

最后计算词相对整个网页的总权值, 本论文在总权值的计算方法上采用统计法。

取关键字的原则是英文单词按一个字符为一个单位, 中文按两个字符为一个单位。

总的权值= I N I TS C OR E ×W E I G H T + ( T O T AL 2T I M ES - 1 ) × W E I G H T × I NCR E M E N TI N I TS C ORE 为每一个单词的基准“分数”, T O 2T AL T I M ES为该单词在网页中出现的次数, W E I G H T是该单词在不同的内容段出现所具有的不同权值( 比如在KEY WORD 段,或者是标题段,或者是内容段等等) 。

I NCRE M E N T是该单词每多出现一次所增加的“分数”。

相关文档
最新文档