网页分类技术介绍
网页分类技术介绍
1. 技术背景
分类问题是人类所面临的一个非常重要且具有普遍意义的问题。将事物正确的分类,有助于人们认识世界,使杂乱无章的现实世界变得有条理。自动文本分类就是对大量的自然语言文本按照一定的主题类别进行自动分类,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类的一个关键问题是特征词的选择问题及其权重分配。
在搜索引擎中,文本分类主要有这些用途:相关性排序会根据不同的网页类型做相应的排序规则;根据网页是索引页面还是信息页面,下载调度时候会做不同的调度策略;在做页面信息抽取的时候,会根据页面分类的结果做不同的抽取策略;在做检索意图识别的时候,会根据用户所点击的url所属的类别来推断检索串的类别等等。
2. 自动分类的原理和步骤
在分类的时候首先会遇到文档形式化表示的问题,文档模型有3种:向量空间模型,布尔模型和概率模型,其中我们常用的是向量空间模型。向量空间模型的核心描述如下:
?文档(Document):文本或文本中的片断(句子或段落)。
?特征项(Term):文档内容用它所包含的基本语言单位来表示,基本语言单位包括字、词、词组、短语、句子、段落等,统称为特征项。
?特征项权重(Term Weight):不同的特征项对于文档D的重要程度不同,用特征项Tk附加权重Wk 来进行量化,文档D可表示为(T1,W1;T2,W2;…;Tn,Wn)
?向量空间模型(Vector Space Model):对文档进行简化表示,在忽略特征项之间的相关信息后,一个文本就可以用一个特征向量来表示,也就是特征项空间中的一
个点;而一个文本集可以表示成一个矩阵,也就是特征项空间中的一些点的集合。
?相似度(Similarity):相似度Sim(D1,D2)用于度量两个文档D1和D2之间的内容相关程度。当文档被表示为文档空间的向量,就可以利用欧氏距离、内积距离
或余弦距离等向量之间的距离计算公式来表示文档间的相似度。
其中特征选取是文本表示的关键,方法包括:文档频率法(DF)、信息增益法和互信息法等等。
在做特征选取之前,一般还要进行预处理的工作,要对先对网页降噪。另外在实际的分类中,除了利用文档的内容特征之外,可能还会用到实际应用中所特有的特征,比如在网页分类中,可能用到url的特征、html的结构特征和标签特征等信息。
分类的基本步骤是这样的:定义分类体系,将预先分类过的文档作为训练集,从训练集中得出分类模型,然后用训练获得出的分类模型对其它文档加以分类。
3. 常用的分类算法
文档自动分类是学术界研究多年,技术上比较成熟的一个领域。目前分类算法主要分下面这些:
其中比较常用的是:支持向量机(SVM)方法、朴素贝叶斯(NB)方法、神经网络(NN)方法、K近邻(KNN)方法、决策树(Decision Tree)方法等。
?支持向量机(Support Vector Machines, SVM)由Vapnik在1995年提出,用于解决二分类模式识别问题。它通过寻找支持向量来确定决策面,并使分类间隔最大。
SVM方法提供了解决“维数灾难”问题的方法。SVM方法较好的理论基础和它在一
些领域的应用中表现出来的优秀的泛化性能,尽管SVM算法的性能在许多实际问
题的应用中得到了验证,但是该算法在计算上存在着一些问题,包括训练算法速度
慢、算法复杂而难以实现以及检测阶段运算量大等等。
?朴素贝叶斯(Naive Bayes,NB) 概率分类器是机器学习中很常用的一种方法,其基本思想是利用单词和分类的联合概率来估计给定文档的分类概率。
贝叶斯公式:P(C|X)*P(X)=P(X|C)*P(C)
特征向量:X=(x1,x2,x3…)C={C1,C2,……}
其中P(C)是每个类别的先验概率,即,互联网上各个分类所占总页面的比例
P(X|C):条件概率,表示在类别为C的训练集合中,X的分布情况。
P(X):每个特征值的分布,由于特征值的分布是随机的,所以P(X)相等
?神经网络(Neural network,NN)技术是人工智能中的成熟技术。将神经网络用于文档分类时,需要为每个分类建立一个神经网络,通过学习得到从输入单词(或者
更复杂的特征词向量)到分类的非线性映射。其计算量和训练时间非常庞大。
?KNN是著名的模式识别统计学方法,已经有四十年历史,它是最好的文本分类算法之一。KNN算法相当简单:给定一个测试文档,系统在训练集中查找离它最近的k 个邻居,并根据这些邻居的分类来给该文档的候选分类评分。把邻居文档和测试文
档的相似度作为邻居文档所在分类的权重。如果这k个邻居中的部分文档属于同一
个分类,则该分类中的每个邻居的权重求和并作为该分类和测试文档的相似度。该
方法的特点是允许文档可以属于多个分类。KNN通过查询已知类似的例子的情况,来判断新例子与已知例子是否属于同一类。
通过我们对现实网页的分类测试情况看,这些方法中SVM方法的效果是比较好的,但是性能不高; 朴素贝叶斯的分类效果虽然略差于SVM,但是性能上要好很多。
4. 网页分类应用
4.1 分类算法
实际应用中, 除了分类效果外, 速度是一个需要重点考虑的因素。
4.2 分类类别
在搜索引擎中, 在不同的应用场景下, 会有不同的分类的标准, 比如在链接调度中需要信息页、索引页这样的分类,不同类型的页面更新调度的周期不一样;排序对分类的要求又不同, 比如按表现形式分图片、视频等;按网站类型分为论坛、博客等,不同类型的页面抽取策略也会不尽相同;再按内容主题分成小说、招聘和下载等类别。对网页从多个维度进行分类,能更好给用户提供更为贴切的检索结果。
4.3 特征选取
在学术研究中, 一般比较重视分类算法的研究,在特征选择上比较忽视。传统的特征选择一般是用TF*IDF等方法选择内容关键字等,这也是我们使用的一个重要因子,但是除内容特征之外,我们还会用到很多其它特征,比如:网站特征、html特征和url特征等,这些特征会明显的提高分类的准确率和召回率。
分类网站建设方案
分类网站建设方案 一、概述 分类网站的作用就是把客户(互联网的个人浏览用户或商家群体)所关心的热门求购信息分门别类的直观给客户展示出来。抓住客户在某种特定情况下所产生的供求心理,以最容易让客户接受的形式展示分类后的信息,展示信息全面而又精简,动态的更新供求信息,以照顾到每一位用户(包括注册用户和非注册用户),让他们能从分类网站找到实惠和盈利点,从而产生长期合作关系。 二、建站目标 1、有利于提高品牌知名度、树立品牌形象; 2.提供新型产品展示平台; 3.为客户提供便民服务,帮助客户实现足不出户解决各类产品的供求难题; 4.采集和了解客户的问题、建议、意见; 三、建站语言 依麦尔科技为您提供:简体中文网站语言(主流开发语言.net非其它同类公司的asp所能比拟,性能效率存在很大差异)。 四、网站规划 根据分类网站的特殊特点,规划建设相应网页表达方式,在设计和创意方面既体现出分类网站的服务特色。 1.设计风格 以主流分类网站为参考基调,设计适合客户,体现不同分格的分类站点平台; 网站属性:垂直型网站; 2.界面创意 确立UI规范: 网站CI设计、系统页面风格; 标准的图标风格设计,统一的构图布局,统一的色调、对比度、色阶; 图片风格; 导航/结构设计; 提示信息、帮助文档文字表达遵循的开发原则。 3.网站架设步骤 (1)因为考虑到是分类信息服务型网站(便民服务),网站正常运营的情况下大量用户在使用的同时会产生大量数据及图片信息。 虚拟主机不建议使用:(费用按所购买的空间大小决定3G含500M数据库空间和500M
邮件空间费用960元/年) 错误!未找到引用源。服务器不归自己所有,添加主件和服务都要提交工单非常不便。服务器异地联系不便。 错误!未找到引用源。大量的数据和图片必然要很大的空间来存放,虚拟主机所提供的空间有限。折合后的费用太高。 错误!未找到引用源。虚拟主机服务器大多存在不稳定现象,不能避免的数据堵塞和数据流丢包现象都会影响最低端的用户体验。最常出现的错误有:网站地址不存在和莫名的网站访问程序出错。 解决方案: 错误!未找到引用源。客户自行购买服务主机,然后到电信部门开通托管业务。本公司可以代理办理此项业务,前提请客户了解相关业务后再与我方沟通。(费用6000以上)错误!未找到引用源。可以我方共享本地主机。主机为我方主机放在电信托管。费用固定,双方各承当一半费用。(费用3000左右) (2)网站页面制作先进技术应用 这是一个成功网站所不可缺少的重要部分。网站的内容必须要生动活泼,网站的整体风格创意设计,才能吸引浏览者停留,我们采用现今网络上最流行的CSS,FLASH,Javascript等技术进行网站的静态和动态页面设计。追求形式简节、实用符合业行客户的浏览习惯,突出功能性和实用性。
技术领域分类及代码
技术领域分类及代码 01.信息技术:指研制计算机硬件、软件、外部设备、通信网络设备的活动,以及利用计算机硬件、软件及数字传递网对信息进行文字、图形、特征识别、信息采集、信息处理和传递的活动。 02.生物技术:包括基因工程、细胞工程、酶工程和发酵工程,指为了生物技术本身的发展,就有关原理、技术、特种工艺、测试、仪器而进行的活动,以及利用生物技术为农、林、牧、渔、医药卫生、化学、食品、轻工等部门提供生物技术新产品而开展的活动。无特定目标或虽有特定目标但不是为促进生物技术发展而开展的有关生命科学的研究不包括在此分类内。 03.新材料:指新近发展或正在研制的具有优异性能或特定功能的材料,如新型无机非金属材料、新型有机合成材料、新型金属和合金材料。包括为发展新材料就有关原理、技术、新产品、特种工艺、测试而进行的活动。 04.能源技术:包括能源问题一般理论,地区性能源综合开发与利用,石油、天然气、煤炭、可再生能源的开发与利用,新能源(太阳能、生物能、核能、海洋能等)的研制开发与利用,节能新技术、能源转换和储存新技术等活动。 05.激光技术:激光器和激光调制技术的研制,及为了激光在工业、农业、医学、国防等领域内的应用而进行的活动。 06.自动化技术:指在控制系统、自动化技术应用、自动化元件、仪表与装置、人工智能自动化、机器人等领域中的活动。 07.航天技术:有关运载火箭及人造卫星本体的研究及有关为了跟踪、通讯而使用的地面设备的研究而进行的活动。不包括天文学及气象观察。 08.海洋技术:包括有关维护海洋权益和公益服务技术研究、海洋生物资源的开发利用及产业化、海洋油气勘探开发技术、海洋环境要素监测技术等活动。 09.其它技术领域:属于技术领域,但不能归入上述八类领域的其它技术活动。 课题活动类型分类及代码 1.基础研究:为获得新知识而进行的独创性研究。其目的是揭示观察到的现象和事实的基本原理和规律,而不以任何特定的实际应用为目的。 2.应用研究:为获得新的科学技术知识而进行的独创性研究。它主要针对某一特定的实际应用目的。应用研究通常是为了确定基础研究成果或知识的可能的用途,或是为达到某一具体的、预定的实际目的确定新的方法(原理性)或途径。 *区分基础研究和应用研究的主要标志:具有特定的实际应用目的的研究属于后者。 3.试验发展:利用从研究或实际经验获得的知识,为生产新的材料、产品和装置,建立新的工艺和系统,以及对已生产或建立的上述各项进行实质性的改进,而进行的系统性工作。 *区分科学研究(基础研究和应用研究)与试验发展的主要标志:前者主要是为了增加科学技术知识、后者则是为了开辟新的应用(如新材料或新技术)。
网页布局类型
网页常见布局 网页布局大致可分为“国”字型、拐角型、标题正文型、左右框架型、上下框架型、综合框架型、封面型、Flash型、变化型,下面分别论述。 1、“国”字型: 也可以称为“同”字型,是一些大型网站所喜欢的类型,即最上面是网站的标题以及横幅广告条,接下来就是网站的主要内容,左右分列一些两小条内容,中间是主要部分,与左右一起罗列到底,最下面是网站的一些基本信息、联系方式、版权声明等。这种结构是我们在网上见到最多的一种结构类型。 2、拐角型: 这种结构与上一种其实只是形式上的区别,其实是很相近的,上面是标题及广告横幅,接下来的左侧是一窄列链接等,右列是很宽的正文,下
面也是一些网站的辅助信息。在这种类型中,一种很常见的类型是最上面是标题及广告,左侧是导航链接。 3、标题正文型: 这种类型即最上面是标题或类似的一些东西,下面是正文,比如一些文章页面或注册页面等就是这种类。 4、左右框架型: 这是一种左右为分别两页的框架结构,一般左面是导航链接,有时最上面会有一个小的标题或标致,右面是正文。我们见到的大部分的大型论坛都是这种结构的,有一些企业网站也喜欢采用。这种类型结构非常清晰,一目了然。 5、上下框架型: 与上面类似,区别仅仅在于是一种上下分为两页的框架。 6、综合框架型:
上页两种结构的结合,相对复杂的一种框架结构,较为常见的是类似于“拐角型”结构的,只是采用了框架结构。 7、封面型: 这种类型基本上是出现在一些网站的首页,大部分为一些精美的平面设计结合一些小的动画,放上几个简单的链接或者仅是一个“进入”的链接甚至直接在首页的图片上做链接而没有任何提示。这种类型大部分出现在企业网站和个人主页,如果说处理的好,会给人带来赏心悦目的感觉。 8、Flash型: 其实这与封面型结构是类似的,只是这种类型采用了目前非常游戏行的Flash,与封面型不同的是,由于Flash强大的功能,页面所表达的信息更丰富,其视觉效果及听觉效果如果处理得当,绝不差于传统的多媒体。
网页布局设计
网页布局设计: 用户的视觉路径一般是:从上到下,从左到右。 好的视觉设计路径应该是顺应这样的用户习惯,糟糕的设计会让用户无所适从,焦点到处都是。 对用户引导的关键就在于怎么处理主次关系。就是对比,从视觉的角度上看:形状的大小,颜色,摆放的位置都会影响信息的重要与否。 从大的区块来看,不要平均分割页面,三栏的设计应该让其中一栏明显短一些。 从局部来看,也要把握信息呈现的节奏,比如yahoo中间新闻栏的设计,大图带大标题是第一要点,小图带字是第二要点,纯文本第三,节奏感、主次关系非常强。 下面是几种常见的网页布局结构: <1>骨骼型结构。即类似于人体的骨骼结构。分为上中下,内容部分分为两、三栏的设计。
这就是一个web 2.0风格的页面,骨骼型结构,上面主要是logo,导航banner,内容部分三成两栏,页脚版权,典型的骨骼型结构。 <2>对称型结构,对称型结构就是网站有一个对称轴,称左右或者上下对称。这种网页在阅读上很明明确给出用户重要和次要区域的划分,根据于都习惯往往在比较大的位置上安排主要内容。 这个网页就是一个对称结构,左边是网站的一些导航和产品信息以及版权信息以及练习方式等等。右边是网站的主要信息。最大的特点是板我们骨骼型的top和foot放到了左边,body放到了右边,形成一个对称结构。 <3>满版型的结构。其实这种网页结构随着现在显示器尺寸的增大和分辨率的提高逐渐再做一个过度,即以前的整个图片满版到后面的背景满版,到现在的局部满版。这种版式给人的感受是内容紧凑,气氛表达充分,适合温馨和暖性思维的表达。 这个早期的满版多见于韩版网页。 <4>焦点型,这类网页多见于围绕一个中心点,真个页面围绕中心,多见于销售类网站或者品牌产品网站。其特点是中心明确,表达信息集中,传达信息清楚。 占据网页面积最大的图片吸引了大部分焦点,展现了个性。
网站的分类方法
网站的分类方法: 将网站按照主体性质不同分为政府网站、企业网站、商业网站、教育科研机构网站、个人网站、其它非盈利机构网站以及其它类型等。 按功能可以分成赢利性,非赢利性,政府,军事,教育等。。 专业网站的优缺点都在一个"专" 专: 可以把专注领域做大做强做深,使各种同类专家能汇集在一起,在特定领域影响力不断扩大,使各方面人才都能关注到或有可能激发争执而有所提升 专: 关注的人群有限,影响只在一定范围.限制人们的发散思维,不利于新生事物的萌芽(没有相互借鉴).专到只是一个工具,不利自身存活. 而相反的,个人网站注重自身特点的体现和发展。就像平常我们所说的博客,我们就可以认为是一个个人网站,里面体现的是网站拥有者个人的意志。 当相对的,当涉及到用个人的意志去盈利,去获得利益时,成本资金方面显得单薄,可能有时候会后继无力的情况。而且个人网站的技术成分一般会低点,安全性各方面跟专业网站是由很大差距的。 网站按照作用可以分为3种,分别为:内容型网站、服务型网站、电子商务型;这3种分类并不是绝对的,可以有交叉,一个网站可以即是内容型的也是服务型的。下面我来详细介绍 1. 内容型网站,以提供内容为主要业务,这种网站是主流网站,要比服务型的网站多很多。这些网站提供的内容多种多样,有新闻,有业界动态,有技术知识经验,有产品介绍,有电子书籍,有视频,有图片,有公司自家的产品介绍等等。像sina、新华网、sohu等等都提供新闻;像donews,itresearch,it168等都提供业界动态;像csdn,博客园等提供技术知识经验。这些网站为人们提供内容,供大家了解事物,学习知识;在大家使用他们提供的内容的同时,了解了他们推广的产品,就是说这些内容衍生出了广告价值,这些网站赚的是广告费;例外的是企业网站做公司自家的产品介绍(不是广告了),这些企业网站存在的意义是增加一个产品销售的渠道,通过企业网站让其产品消费者了解产品,进而转化为产品销售额。 靠广告生存的网站在内容型网站中又占了很大的比重,这些网站又可以分为大、小两种。 大小不同做广告的策略也不同,大网站自己有广告系统,每一条链接,每一个不同尺寸的广告位都有专门的销售人员在做。他们的广告费往往很贵,一个小90*30的小banner往往每天几千元上万元,大条幅和大的开屏广告更贵。不说大家也可以理解,sina,sohu,网易都是这种类型的。那么他们的广告为什么可以这么值钱,原因有两点1)在他们的页面上做广告,广告的受众多2)他们的网站积累了品牌价值,做广告企业的相信他们那一小块地方就值那么多钱。再说说他们的成本,大内容型网站的成本主要在3块:1)销售、市场、编辑、技术人员等人力成本;2)服务器硬件,网络带宽等运行维护成本;3)购买内容,他们的内容中有很多内容是从新华网,报纸等媒体购买的。 我们再说做内容的小网站,小网站由于没有那么多的受众,也没有品牌价值,所以只有靠组织,这儿的组织是指google adsense、百度联盟、alimama等广告联盟。而靠这些组织能带来一定的收益,但是收益很有限。那么该如何做,提高自身的收入呢?似乎没有捷径,必须做内容和品牌两方面的积累,并坚持不懈的做下去。也说说小网站的成本,小网站的成本往
网站开发基本流程
最基本的网站建设流程网站开发基本流程 1.需求分析:目标定位用户分析市场前景 2.2.平台规划:内容策划界面策划网站功能 3.3.项目开发:界面设计程序设计系统整合 4.4.测试验收:项目人员测试非项目人员测试公开测试 【需求分析】目标定位:做这个网站干什么?这个网站的主要职能是什么?网站的用户对象是谁?他们用网站干什么?用户分析:网站主要用户的特点是什么?他们需要什么?他们厌恶什么?如何针对他们的特点引导他们?如何做好用户服务?市场前景:网站如同一个企业,它需要能养活自己。这是前提,否则任何惊天动地的目标都是虚无的。网站的市场结合点在哪里? 【平台规划】内容策划:这个网站要经营那些内容?其中分重点、主要和辅助性内容,这些内容在网站中具有各自的体现形式.内容划分好以后,就进行文字策划(取名) ,把每个内容包装成栏目.界面策划:结合网站的主题进行风格策划.如色彩包括主色、辅色、突出色,版式设计包括全局、导航、核心区、内容区、广告区、版权区及板块设计。网站功能:主要是管理功能和用户功能。管理功能是我们通常说的后台管理,关键是做到管理方便、智能化。而用户功能就是用户可以进行的操作,这涉及交互设计,它是人和网站对话的接口,非常重要。
【项目开发】界面设计:根据界面策划的原则,对网站界面进行设计及完善。程序设计:根据网站功能规划进行数据库设计和代码编写。系统整合:将程序于界面结合,并实施功能性调试。 【测试验收】项目人员测试:项目经理,监察员及项目开发人员一同根据前期规划对项目进行测试和检验。非项目人员测试:邀请非项目参与人员作为不同的用户角色对平台进行使用性测试。公开测试:网站开通,并接受网友的使用测试,设立反馈信息平台。收集意见和建议信息,针对平台存在的不足进行思考和完善。
网站建设基础知识
网站建设基础知识 百脑汇威客网讯在百脑汇威客网上许多威客都上半路出家的,许多威客要 求我们介绍一下网站建设相关方面的知识。今天,为大家介绍一下一点基础知识。这样在制作网站时可以事半功倍,制作出令人满意的网站。首先将介绍网 页基本知识、网页的基本构成元素、如何设计网页,接着介绍网页设计的常用 软件Dreamweaver CS3、Flash CS3和Photoshop CS3,最后介绍动态网站技术,如网页标记语言HTML、网页脚本语言javascript和动态网页编程语言,为后 面设计和创建完整的网站打下良好的基础。 一.网页基本知识 1.什么是Internet Internet是一个全球墟履计算机互联网骆,中文名称为"国际互联网"或"因特网",它集现代通信技术和现代计算机技术于一体,是 计算机之间进行国际信息交流和实现资源共享的良好手段。Internet将各种各 样的物理网骆联接起来,构成一个整体,而不论这些网骆类型的异同、规模的 大小和地理位置的差异。Internet是全球最大的信息资源库,几乎包括了人们 生活的方方面面,如教育、科研、商业、工业、出版、文化艺术、通信、广播 电视、娱乐等。经过多年的发展,互联网已经在社会的各个方面为全人类提供 便利。电子邮件、即时消息、视频会议、网骆日志、网上购物等已经成为越来 越多人的一种生活方式。 2.什么是网站 网站是因特网上的一个信息集中点,可以通过域名进行访问。网站要存储 在独立服务器或者服务器的虚拟主机上才能按受访问。网站是有独立域名和独 立存放空间的内容集合,这些内容可能是网页,也可能是程序或其他文件。网 站不一定要有很多网页,只要有独立域名和空间,哪怕只有一个页面也叫网站。 3.什么是Web服务器 Web服务器就是在Web站点上运行的应用程序,用户只有把设计好的网页 放到Web服务器上才能被其他用户浏览。Web服务器主要负责处理浏览器的请
第1章 网页开发基础
第1章补充案例 案例1-1表格标记 一、案例描述 1、考核知识点 名称:表格标记 编号:028001005 2、练习目标 ?掌握实际开发中表格基本实现和使用。 3、需求分析 在制作网页时,为了使网页中的数据能够有条理地显示,可以使用表格对网页进行规划。在Word文档中,要创建表格只需要插入表格,而在HTML网页中要想创建表格,需要使用相关的表格标记才能创建表格。 4、设计思路(实现原理) 1)创建htmlDemo1.html页面, 2)在htmlDemo1.html中依照table表格的基本格式编写表格信息 3)通过浏览器直接打开htmlDemo1.html页面,展现页面编写的表格信息。 二、案例实现 编写htmlDemo1.html,其代码如下:
用户名 | 用户地址 | 联系电话 |
---|---|---|
张三 | 北京 | 137777777 |
李四 | 东京 | 157777777 |
王五 | 南京 | 177777777 |
单元格内的文字 |