北京大学学士学位论文
北大博士研究生学位论文模板

参考文献................................................................................................................................ - 6 附录 编写文档一般步骤......................................................................................................- 7 博士期间发表和完成的论文................................................................................................- 8 致 谢.................................................................................................................................... - 9 -
1.5
已发论文列表................................................................................................- 3 -
第二章 实例介绍.................................................................................................................. - 4 -
1.8 打印要求
目录(包含目录)之前都是单面打印 正文(包括致谢)都是双面打印,奇偶页页眉不同,单页页眉为北京大学博士学位论 文;双面页眉为章节编号及章节名称。 编写论文的步骤请详见附录。
北大论文格式要求

北大论文格式要求论文是研究生培养质量和学术水平的集中体现。
高质量、高水平的学位论文不仅要在内容上有创造性和创新性,而且在表达方式上应具有一定的规范性和严谨性。
这是店铺为大家整理的北大论文格式要求,仅供参考!北大论文格式要求一、学位论文版式、格式1、论文开本及版芯论文开本大小:210mm×297mm(A4纸)版芯要求:左边距:30mm,右边距:25mm,上边距:30mm,下边距:25mm,页眉边距:23mm,页脚边距:18mm2、论文用中文撰写3、标题:论文分三级标题一级标题:黑体,三号或16pt,段前、段后间距为1行二级标题:黑体,四号或14pt,段前、段后间距为1行三级标题:黑体,小四号或12pt,段前、段后间距为1行上述段前、段后间距可适当调节,以便于控制正文合适的换页位置;4、正文字体:正文采用小四号宋体,行间距为18磅;图、表标题采用五号黑体;表格中文字、图例说明采用小五号宋体;表注采用六号宋体;5、页眉、页脚文字均采用五号宋体,页眉左侧为“北京大学公共管理硕士学位论文”,右侧为一级标题名称;页眉下横线为“ ”(3磅);单面打印;页码采用阿拉伯数字五号宋体,排在页脚居中位置;页码从第一章开始按阿拉伯数字连续编排,第一章之前的页码用罗马数字单独编排。
6、文中表格均采用标准表格形式(如三线表,可参照正式出版物中的表格形式);7、文中所列图形应有所选择,照片不得直接粘贴,须经扫描后以图片形式插入;8、文中英文、罗马字符等一般采用Time New Roman正体,按规定应采用斜体的采用斜体。
二、学位论文各组成部分学位论文一般由封面、版权声明、中文摘要、英文摘要、目录、插图和附表目录、论文正文、参考文献、附录、致谢、原创性声明和使用授权说明等部分组成,并按前后顺序排列。
具体要求可参看第三部分书写要求。
1、封面:公共管理硕士学位论文封面(见附件1)、书脊(见附件3)要求如下:(1) 公共管理硕士学位论文题目应能概括论文的主要内容,切题、简洁,不超过26字,可分两行排列;题目采用小二号黑体;(2) 院系统一填写政府管理学院;(3) 专业为公共管理;(4) 日期:学位论文提交时间。
基于几何内容的三维模型比较与检索算法研究

基于几何内容的三维模型比较与检索算法研究Research on 3D Model Similarity Measure and Retrieval姓名:刘一指导教师:查红彬教授基于几何内容的三维模型比较与检索算法研究 Research on 3D Model Similarity Measure and Retrieval摘要随着三维建模技术的日益成熟和计算机软硬件技术的飞速发展,三维模型的数量在最近的十年中有了飞跃性的增长。
充分利用已有的三维模型数据资源,可以大大减轻设计新模型的工作量,同时也可以促进三维数据的流通和在各领域的应用。
这就需要提出有效的方法,根据几何内容对三维模型进行分类和检索。
基于内容检索的关键问题是如何将三维模型的特征进行量化,并在此基础上进行相似度的定义。
由于三维模型作相似变换后,仍被视为是同一个模型,因此抽取具有相似变换不变性的几何特征是十分必要的。
相似变换可以分解成三种基本的变换-平移变换,尺度变换和旋转变换。
对模型的位置和尺寸进行归一的方法相对简单,相对来讲旋转自由度的归一则具有较差的稳定性。
因此,人们期望定义的物体形状描述算子具有自身的旋转不变性。
为了不依赖坐标系的选择,我们利用快速球面调和变换,将三维几何信息分解到SO(3)变换下的一系列不变子空间中,从而获得所提取特征的旋转不变性。
作为和Fujitsu公司的横向合作项目,论文作者和普建涛博士后共同开发了基于几何内容进行三维模型检索的原型系统,在深入研究已有算法的基础上,提出了几个新算法,并验证了有效性。
本文共分五个章节。
第一章介绍三维网格模型的概念和基本应用。
第二章介绍三维模型检索系统的流程与用户界面设计框架。
第三章介绍基于随机过程的三维几何特征提取方法。
第四章介绍球面调和变换的概念和若干以检索为目的的快速球参数化方法,并对作者提出的新算法进行详细讨论。
第五章对实验结果进行总结并展望今后工作。
关键词:数字几何处理、三维模型检索、球面调和变换Key Words: Digital Geometry Processing, 3D Model Retrieval, Spherical Harmonic Transform第一章 三维模型和数字几何处理的概念与应用1.1三维网格模型的概念和应用我们生活在一个三维的世界中,传统的照相技术只能获得三维物体的二维影像,而无法精确的记录物体的三维几何特征。
北京大学硕士学位论文模板

[4] R. Hanson, L. Kouwenhoven, J. Petta, S. Tarucha and L. Vandersypen, Spins in few-electron quantum dots, Reviews of Modern Physics 79 (4), 1217 (2007).
Klimont, Z.; et al. 2009. Projections of SO2, NOx and carbonaceous aerosols emissions in Asia. Tellus, 61B, 602-617.
xx老师作为一名优秀的经验丰富的教师具有丰富的xx知识和xx经验在整个论文实验和论文写作过程中对我进行了耐心的指导和帮助提出严格要求引导我不断开阔思路为我答疑解惑鼓励我大胆创新使我在这一段宝贵的时光中既增长了知识开阔了视野锻炼了心态又培养了良好的实验习惯和科研精神
硕士研究生学位论文
题目:
标题
姓 名:
[5] D. Loss and D. P. DiVincenzo, Quantum computation with quantum dots,Physical Review A 57 (1), 120 (1998).
注:以上是“顺序编码制”索引文献时参考文献著录法(对应第1章示例)。各项著录信息未核准,仅为样式参考。“著者—出版年”制索引文献著录方法如下(对应第二章示例):
段凤魁,贺克斌,刘咸德,董树屏,杨复沫. 2007.含碳气溶胶研究进展:有机碳和元素碳.环境工程学报, 1: 1-8.
北京大学关于保存、使用学位论文的管理办法

北京大学关于保存、使用学位论文的管理办法随着网络技术的发展,学位论文电子版有比印刷版更方便更快捷的保存和使用方式,北京大学于2001年建立并实行了博士、硕士学位论文电子版与印刷本同时呈缴的制度。
为保护著作权人的合法权益以及其学位论文在学校范围内合理使用,更好地为教学和科研服务,北京大学图书馆作为北京大学委托保管学位论文并提供服务的主要部门,根据“中华人民共和国著作权法实施条例”和教育部“高等学校知识产权保护管理规定”,特制定学位论文的管理办法如下:一、印刷本学位论文(无密级)1. 印刷本学位论文保存在图书馆学位论文阅览室,不提供外借但提供室内阅览服务。
2.读者阅览任何一篇学位论文前,必须登记所查阅的论文篇目,若读者提出部分复印要求,应登记所复印的页码,图书馆负责保存登记档案。
3.为存在馆际合作关系的兄弟高校用户提供文献传递服务和交换服务,并保存交流档案。
“存在馆际合作关系的兄弟高校用户”是指同北京大学签署有正式馆际合作协议的各高校图书馆、国家图书馆等图书馆用户。
二、电子版学位论文(无密级)北京大学将根据国家著作权法的有关规定和作者许可对学位论文电子版进行合理使用,具体如下:1.为校内用户提供检索和阅览服务。
“校内用户”指北京大学校区内学生和教职员工;2.北京大学通过必要技术措施来实现用户控制,以保护著作权人的合法权益;3.制作者在浏览页面发布保护论文作者合法权益的声明。
三、保密学位论文1. 保密学位论文的印刷本将在图书馆另辟地点,严格遵守国家保密法规和北京大学保密委员会的有关规定保管,在保密期限内不提供读者服务。
2.论文解密后将存放学位论文阅览室提供服务,管理与服务方式同1。
3.论文电子版在其保密期限内不提供任何服务,解密后服务方式同2。
本办法经学校研究生院讨论通过,图书馆保证严格按照本办法执行学位论文的管理和服务。
如果国家和学校出台新的管理办法,图书馆将参照新的管理办法执行。
北京大学研究生院北京大学图书馆2002年7月2日。
北京大学2008年优秀博士学位论文一等奖(国优)名单(6篇)

专
业
作 者 姓 名
贺千山 张 泳 赵 清 李 明 刘长剑 王新益 司 锐 吕少峰 马 明 尹海清
性 获学位 别 时 间
男 男 女 男 男 男 男 男 女 男 200607 200607 200607 200507 200607 200607 200607 200607 200607 200607
论
文
类恶性肿瘤靶基因组筛选 15. 生理学 王瑾瑜 女 200607 血管内皮脂蛋白脂酶与动脉粥样硬化 刘国庆
北京大学 2008 年优秀博士学位论文三等奖名单(38 篇)
序 号
1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 植物学 12. 古 生 物 学 与 地 层学 13. 地质学 (材料及 环境矿物) 14. 环境科学 徐成冉 男 200601
28. 精 神 病 与 精 神 卫生学 29. 流 行 病 与 卫 生 统计学 30. 内科学(肾病) 31. 儿科学
32. 皮 肤 病 与 性 病 学 33. 34. 35. 内科学(肾病) 内科学(传染病) 内科学(血液病)
36. 妇产科学 37. 内科学(风湿病)
38. 口 腔 颌 面 外 科 学
无机化学 细胞生物学 固体力学 信号与信息处 理 微电子学与固 体电子学 中国现当代文 学 世界史 科技考古 英语语言文学 金融学 教育经济与管 理 国际政治 流行病与卫生 统计学 外科学(泌尿)
碳纳米管的填充: 物质在纳米空间的结构与性 质研究 转录因子 NF-κ B 和 IRF3 在固有免疫反映途 径中活化机制的研究 多场耦合矩形截面梁的精化理论和分解定理 人脸形状分析和视频驱动三维语音动画研究 集成电路超浅结工艺的动力学蒙特卡罗模拟 研究 清末民初的晚明想像 尘世中的人与权威: 奥古斯丁社会政治思想研 究 铅同位素考古与云南青铜器矿料产源研究 语境、 规约、 形式——晚清至 20 世纪 30 年代 英语小说汉译研究 中国的货币需求、 流通速度与通货膨胀动态特 征 教育与代际流动的关系研究——中国劳动力 市场分割的视角 徐光启对外观念研究 环氧合酶-2 基因多态与表达及与胃癌及癌 前病变 从膀胱癌新型尿液标记物 UCA1 的克隆到人
北京大学2008年优秀博士学位论文一等奖国优名单6篇
8.
有机化学
吕少峰
男
200607
C2对称二苯胺骨架的手性三齿双噁(噻)唑啉配体的合成与应用
杜大明王剑波
9.
有机化学
马明
女
200607
金属卡宾经由的不对称催化硫叶立德[2,3]σ迁移反应的研究
王剑波
10.
物理化学
尹海清
男
200607
阴阳离子表面活性剂混合体系中有序组合体的调控
黄建滨
11.
植物学
陆道培
36.
妇产科学
张虹
女
200607
子宫内膜异位症相关蛋白质研究
冯捷
37.
内科学(风湿病)
李霞
女
200506
流感病毒血凝素变构肽对HLA-DRB1特异性T细胞活化的抑制作用
栗占国
38.
口腔颌面外科学
黄湛
女
200601
移植颌下腺失神经支配后肾上腺素受体亚型的表达
俞国岩
北京大学2008年优秀博士学位论文一等奖(国优)名单(6篇)
序号
专业
作者
姓名
性别
获学位
时间
论文题目
导师姓名
1.
基础数学
安金鹏
男
200607
李群的扭共轭作用和非交换上同调
王正栋
2.
理论物理
吴俊宝
男
200607
量子场论与超弦理论中的微扰散射振幅
宋行长
3.
基础心理学
陈骐
女
200607
任务定势与位置和颜色返回抑制:两个fMRI实验
张秉新
女
200607
副肿瘤性天疱疮抗原表位研究
北京大学图书馆学位论文系统建设的新探索
服务、 用 户统 一 管理 、 结合 OP AC技 术等 方面 阐述 北京 大 学 图书馆 学位 论 文 系统 建 设 的新 探 索 ,
以期 为 国内外 同行 提供 借鉴 。 关键 词 学位 论 文 学位论 文 系统 知识 产权 保 护 开放 获取 创 新服 务 高校 图书馆
随着 网络 技术 的发 展 , 互 联 网 已经 成 为 人 们 获 取 知识 和交 流信 息 的重要 渠道 。学 位论 文 电子版 的 使 用 与保存 比印 刷 版更 方便 、 更 快 捷 。本 文 对 中 国 大陆高 校学 位论 文 工作 的现 状 进 行 了分 析 , 并 以北
的重点 之一 。
1 . 3 开 放 获 取 问题
1 . 1 电子 版 学位 论 文 的上 传 格 式 问 题
随着互 联 网在 各 个 领 域 的发 展 壮 大 , 已经 成 为 了一个 重要 发 展方 向 , 越 来越 多 的实 验 数据 、 灰 色 文 献 等非 正式 出版 的学术 资源 在 网上 公 开 。学位 论 文 作 为高 校 图书 馆 的重 要 资 源 , 具 有 较 高 学 术 性 和 传 承性 , 利用 网络 技 术 和 计 算 机 技 术 , 及时、 全 面 地 揭 示 学位 论 文 的学 术 价值 和贡 献 , 实现 开 放获 取 , 成 为 必 然 。涉及 到保 密 和 版 权 等 问题 , 学 位 论 文 的 全 文 获取仍 然 是 比较难 以 突破 的瓶 颈 , 实 现 学 位 论 文 的
大 学 图 书 馆 学 报
J o ur na l o f Ac a d e mi c Li b r a r y
北 京 大 学 图 书 馆 学 位 论 文 系 统 建 设 的 新 探 索
北京大学2006年优秀博士学位论文一等奖名单【模板】
4 国民经济学
张 晏 女 2004-06 分权体制下的财政政策与经济增长
邹恒甫
5 诉讼法学
冀祥德
论辩诉交易的引进与移植――建立中国
男 2004-06
汪建成
控辩协商制度研究
6 社会学
刘军
法村社会支持网络——一个整体研究的
男 2003-07
郭志刚
视角
7 中国古代史
8 宗教学 9 细胞生物学
马自力
朱东华 陆哲明
13 一般力学与力 王一晶 女 2004.06 几类复杂切换系统的能控性研究
韩茂莉 王龙
学基础
14
物理电子学
罗 骥 男 2003.12 用密度泛函理论研究单壁碳纳米管及相 吴锦雷
关体系的荷电特性 15 计算机软件与 王腾蛟 男 2002.01 Web 环境下半结构化数据内提取和信息集 唐世谓
理论
成研究
张岱
生学 11 外科学(骨外) 白金柱 男 2004-06 核素显像活体示踪脊髓内移植干细胞
刘忠军
北京大学 2006 年优秀博士学位论文三等奖名单(44 篇)
专
业 作 者 性 获学位
论文题 目
导师
序号 1
2
应用数学 计算数学
姓名 颜水成 卢脁
别时间
姓名
男 2004.06 人脸定位与识别若干问题的研究
32 中国近现代史 李永胜 男 2003.12 清末中外修订商约交涉研究
王晓秋
33 中国古代史 何朝晖 男 2004.06 明代县政研究
王天有
34 考古学及博物馆学 秦 岭 女 2003.07 环太湖地区史前社会结构的探索
严文明
35
外国哲学
朱刚
北京大学研究生学位论文的基本要求与书写格式 - 北京大学哲学系
北京大学研究生学位论文的基本要求与书写格式(2005年6月修订)一、学位论文的基本要求硕士学位论文,要求对所研究的课题有新见解或新成果,并对本学科发展或经济建设、社会进步有一定意义,表明作者掌握坚实的基础理论和系统的学科知识,具有从事学术研究或担负专门技术工作的能力。
学位论文应在导师指导下,由硕士研究生本人独立完成。
博士学位论文,要求对所研究的课题在材料、角度、观点、方法、理论等方面或某方面有创新性成果,并对学术发展、经济建设和社会进步有较重要的意义,表明作者掌握坚实宽广的基础理论和系统深入的学科知识,具有独立从事学术研究的能力。
学位论文应在导师指导下,由博士研究生本人独立完成。
学位论文应当用规范汉字进行撰写,除古汉语研究中涉及的古文字和参考文献中引用的外文文献之外,均采用简体中文撰写。
学位论文必须是一篇[或一组相关论文组成的一篇]系统完整的、有创造性的学术论文。
不符合上述要求的,一律不接受其学位论文答辩申请。
二、学位论文的一般格式学位论文一般应依次包括下述几部分:1. 封面(参见附件1)。
2. 版权声明。
3. 题目:应准确概括整个论文的核心内容,简明扼要,让人一目了然。
一般不宜超过20个字。
4. 中文摘要:内容摘要要求在3000字以内,应简要说明本论文的目的、内容、方法、成果和结论。
要突出论文的创新之处。
语言力求精炼、准确。
在本页的最下方另起一行,注明本文的关键词(3-5个)。
5. 英文摘要:英文摘要上方应有题目,内容与中文摘要相同。
在英文题目下面第一行写研究生姓名,专业名称用括弧括起置于姓名之后,研究生姓名下面一行写导师姓名,格式为Directed by...。
最下方一行为英文关键词(Keywords 3-5个)。
参见附件2。
6. 目录:既是论文的提纲,也是论文组成部分的小标题。
7. 序言(或序论、导论):内容应包括本课题对学术发展、经济建设、社会进步的理论意义和现实意义,国内外相关研究成果述评,本论文所要解决的问题,论文运用的主要理论和方法、基本思路和论文结构等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
论文摘要本文首先介绍了Internet及WWW的迅速发展状况,分析了Internet信息资源的特点。
在介绍已有的搜索引擎之后,分析了这些搜索引擎的特点。
随后,本文对“天网”搜索引擎系统进行了介绍,给出了该系统的总体结构、技术特征,并分析了该系统的性能。
然后,文章介绍了“天网”系统中的信息统计子系统。
信息统计子系统是为系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求而设计实现的。
本文给出了信息统计子系统的总体结构,并详细介绍了该子系统的两个重要部分,数据库信息处理和日志文件信息处理的设计目标和实现算法,并介绍了如何让机器自动学习新词。
关键词:搜索引擎、信息统计、机器学习新词目录目 录 (2)第一章 背景介绍 (3)§1.1 Internet 和 WWW 的发展与现状 (3)§1.2 搜索引擎技术的发展与现状 (5)第二章 系统概述 (6)§2.1 系统的总体结构 (6)§2.2系统技术特征 (6)§2.3总体性能 (8)第三章 信息统计子系统 (10)§3.1 系统的改进需求 (10)§3.2 信息统计子系统的总体结构 (10)§3.3 运行条件 (11)§3.4 使用界面 (11)第四章 数据库信息处理的实现 (14)§4.1 设计目标 (14)§4.2 数据库处理 (14)§4.3 引用次数排行表 (15)§4.4 HASH 表 (16)§4.5 统计各个域内的主机数目 (18)§4.6 主机情况查询 (19)第五章 日志文件信息处理的实现 (20)§5.1 设计目标 (20)§5.2 文件处理 (20)§5.3 新词学习 (22)致谢 (25)参考文献 (26)第一章背景介绍§1.1 Internet 和 WWW 的发展与现状Internet是一个规模巨大、自治性强、发展变化快,用户访问频繁的国际互联网络。
Internet的前身是60年代末,70年代初美国国防部高级研究计划署的实验性网络ARPANET。
组建ARPANET的最初原因是当时计算机的价格非常昂贵,所以科研工作者们想通过网络进行远程计算。
后来,人们才逐渐认识到它作为通讯手段的好处。
1983年后,ARPANET中有关军事的部分被隔离为MILNET。
其后,1986年诞生的美国国家科学基金会NSFNET对Internet的发展起了划时代的作用。
90年代初到现在,是Internet增长最迅速的时期。
1993年,Internet的增长速度是341%。
截止到1996年7月,Internet已连接了134336个网络,入网主机1228万台,以及数以亿计的用户。
Internet上的信息资源随着Internet 的发展也呈现出以下特点:z信息量大而且分散z自治性强z信息资源多种多样z信息变化快z不一致和不完整性这些特点对网络软件的性能提出了很高的要求。
World Wide Web(WWW)是全球性的网络信息系统。
一九八九年,位于瑞士的European Laboratory for Particle Physics(CERN)首先开始了WWW的研究工作。
随后,许多其它的研究机构、大学和公司也加入WWW研究者的行列,并相继开发出各自的WWW软件。
这些WWW软件的运行平台覆盖了目前主流的计算机硬件和操作系统。
在此过程中,WWW也不断完善和发展。
同时,为了保证不同WWW软件之间的互操作性,一系列WWW协议和标准也正在使用和完善之中。
WWW是基于超文本(Hypertext)和超媒体(Hypermedia)的分布式信息系统。
超文本和超媒体是信息的一种组织形式,如图1.1所示:在超文本文件中,包含有许多指针,这些指针被称为超文本链(Hyperlink)。
每一个超文本链都指向其它的超文本信息。
这些超文本信息可能存放在同一台计算机中,也可能存放在WWW信息系统的其它计算机中。
读者并不关心这些超文本信息存放在何处,如果他们想了解这些信息,他们就可以通过超文本链得到。
超媒体是对超文本的扩展。
在超媒体系统中,超媒体链可以指向任何媒体信息,包括图象、音频、视频等等。
超文本和超媒体为用户进行信息检索提供了极大的方便。
§1.2 搜索引擎技术的发展与现状随着WWW的迅速发展,Internet上出现了WWW信息查询服务,它们通常被称作搜索引擎。
这些搜索引擎一般是预先由程序自动地在网上递归地访问WWW 页面,将访问的信息存入数据库。
然后将数据库中的信息建立索引,并提供给用户WWW的查询界面。
搜索引擎根据用户的请求查询数据库,并将结果按相关程度排序后输出给用户。
目前的搜索引擎大致可分为三大类:分类编目搜索引擎(Directory Search Engine)、机器人搜索引擎(Robots Search Engine)和元搜索引擎(Meta Search Engine)。
分类编目搜索引擎以Yahoo公司的Yahoo!为代表,机器人搜索引擎以Digital的AltaVista、Inktomi公司的HotBot为代表, 元搜索引擎以go2net的MetaCrawler为代表。
国外搜索引擎起步较早,功能全面,性能良好,但是它们的共同缺点是都不能很好地支持中文信息的发现和查询。
虽然AltaVista、Yahoo等搜索引擎在1998年上半年宣布支持中文,但在对中文信息的处理上尚存在很多不足,如不能准确切词,不能在上下文环境中理解语义等等。
第二章系统概述§2.1 系统的总体结构“天网(WebGather)”中英文搜索引擎系统是为满足用户对中国教育科研计算机网(CERNET)及INTERNET上的信息资源的检索和查找需要而研制开发的。
本系统的研制列入CERNET应用系统课题项目,其目标是建立CERNET上能广泛应用的WWW资源索引与查找系统。
它符合相关的INTERNET标准,能够自动对WWW 信息进行定向搜集,同时建立WWW资源索引数据库,以满足远程WWW浏览器的交互式查询请求,并将查询的结果以HTML文件的形式返回给用户。
本系统主要由WWW信息存取和分析子系统、WWW信息收集控制子系统、NEWS 收集分析子系统、资源索引数据库、信息检索子系统、管理和监控子系统等几个部分组成。
其总体结构如图2.1所示。
§2.2系统技术特征本系统有以下技术特征:1.信息收集符合Internet的相关协议和标准。
因为本系统收集的主要是Internet上的信息,所以在设计开发时把对有关协议和标准的支持作为一个重要的目标。
这些协议和标准包括:HTTP协议、MIME、HTML语言、WWW Robots标准、NNTP协议。
2.实用、高效的信息分析方法。
本系统主要根据HTML中不同的Tag区分页面中各个部分信息内容在文章中的重要性和所处的位置,并结合使用中文分词、词频统计和一定的自然语言理解技术,智能化地提取该页面的关键词和摘要。
3.高度智能性和适应性的信息发现方法我们在本系统中主要使用程序方式自动收集WWW信息,即WWW机器人方式。
在该方式中,有一个能自动在WWW网中获取信息并进行漫游的程序根据HTML文档中的超链,自动收集和索引WWW信息.这种方式速度快、基本不需人工干预。
4.中文信息处理技术中文信息处理与英文存在很大不同,这是因为中文信息处理具有很多自己的特点,这使中文信息的词语切分(切词)成为汉语信息处理的第一道关口,也是建立中文信息发现和检索系统的关键性技术之一。
我们使用以带词类标记的词典为基础、以切词与标注相结合的方法处理中文信息,较好地解决了汉语的切词问题。
5.可伸缩的分布式结构本系统主要由信息收集子系统和信息检索子系统两部分组成。
这两个子系统之间既相互联系,又相互独立,可以分布在不同的主机上分别运行。
6.基于词的大型、高效的信息索引数据库和快速、准确的检索方法。
本系统主要采用基于词的索引,以达到较快的速度和较高的准确性,同时减少索引信息对磁盘空间的占用。
在索引库中采用分级的优化索引结构和多级索引技术,将较小的一级索引驻留内存,检索操作过程大部分在内存中进行,尽量减少对硬盘文件的访问。
因而大大提高了检索的响应速度。
索引库支持增量修改和索引。
以减少数据复制时产生的网络流量,提高索引速度。
7.智能化、多功能的用户检索接口。
用户可以通过浏览器直接访问本系统,还可以使用Email查询接口。
§2.3总体性能WebGather由于采用了可伸缩的分布式结构、内存Cache、索引数据库和检索数据库分开等先进、有效的技术,使得系统占用资源少、信息收集速度快、用户查询响应时间快(系统对96.7%以上的查询可在1秒钟之内作出响应)、查准率和查全率较高,基本达到了实用化程度。
系统在设计和实现过程中,充分考虑到了用户和管理员的使用习惯,提供了浏览器、电子邮件、中英文用户接口和方便易用、功能丰富的管理工具,因而有很好的可用性和易用性。
天网从1997年10月在CERNET上提供服务以来,得到了用户的欢迎和好评。
统计数字表明了系统的使用情况:时间 1998年 1999年3月 1999年4月平均每天访问人次 2200 10113 15333由于天网功能全面、性能突出,《软件世界》杂志1998年第7期将天网评价为国内最好的中英文搜索引擎。
第三章信息统计子系统§3.1 系统的改进需求经过测试和改进,到1998年,天网搜索引擎已经可以很好地为广大网络用户服务了。
在CERNET上,平均每天有几千人次访问天网搜索引擎。
许多研究人员、教师都把天网搜索引擎作为他们工作中的重要工具。
为数众多的大中院校学生每天通过天网搜索引擎查询专业信息,了解社会动态,和娱乐消遣。
随着系统的广泛使用,对索引数据库以及用户查询记录进行处理,从中提取出有用的信息,帮助系统管理人员评估系统性能、维护系统效率、更好满足用户的查询要求,成为一个急待解决的问题。
信息统计子系统就是为这个目的而设计的。
该子系统通过处理索引数据库产生关于网上页面、主机状况的信息,如页面的平均长度、页面的被引用情况、页面的编码类型、主机上的页面数等等;通过处理用户查询记录文件产生关于用户需求的信息,如用户的访问次数、访问类型、常查询的词语,并可以自动学习新词。
§3.2 信息统计子系统的总体结构信息统计子系统的总体结构如图3.1所示。
信息统计子系统主要分为三大模块。
第一部分是数据库信息处理程序,它启动运行后,从索引数据库中读取数据,统计出信息,写在结果文件中。
这部分内容又可分为统计页面信息和统计主机信息两部分。