SEWM 2010 文献检索评测报告
文献检索的实习报告

文献检索的实习报告在当今信息爆炸的时代,文献检索成为了获取知识和信息的重要手段。
为了更好地掌握这一技能,我进行了一次文献检索的实习。
通过这次实习,我不仅提高了自己的信息素养,还深刻体会到了文献检索在学术研究和实际工作中的重要性。
实习的目的主要是熟悉和掌握各种文献检索工具和数据库的使用方法,提高检索效率和准确性,能够快速、准确地获取所需的文献信息,并对检索结果进行有效的分析和利用。
在实习开始之前,我对文献检索的了解还比较有限,只知道一些常见的搜索引擎和图书馆的纸质书籍检索。
然而,随着实习的深入,我发现文献检索的世界远比我想象的要广阔和复杂。
首先,我学习了常见的文献检索工具和数据库,如中国知网、万方数据、维普网等国内数据库,以及 Web of Science、Scopus 等国际知名数据库。
这些数据库涵盖了各种学科领域的文献资源,包括学术期刊、学位论文、会议论文、专利文献等。
每个数据库都有其独特的检索界面和检索规则,需要我们认真学习和掌握。
以中国知网为例,它是国内最大的综合性学术数据库之一,提供了多种检索方式,如主题检索、篇名检索、作者检索、关键词检索等。
在进行检索时,我们需要根据自己的需求选择合适的检索方式,并合理运用布尔逻辑运算符(如“与”“或”“非”)来优化检索策略,以提高检索的准确性和全面性。
除了数据库的使用,我还学习了一些文献检索的技巧和方法。
比如,在确定检索词时,要尽量选择准确、具体的词汇,避免使用过于宽泛或模糊的词汇;在阅读检索结果时,要善于筛选和判断文献的质量和相关性,优先阅读权威期刊和核心论文;同时,要善于利用数据库提供的排序和筛选功能,如按被引次数、发表时间等进行排序,以便快速找到最有价值的文献。
在实习过程中,我还遇到了一些问题和困难。
例如,有时候检索出来的文献数量过多,难以筛选出真正有用的信息;有时候检索词选择不当,导致检索结果不准确或不全面。
针对这些问题,我通过不断地尝试和调整检索策略,以及向老师和同学请教,逐渐找到了解决问题的方法。
检索报告--2010年文献检索作业范例

文献检索综合报告3G时代的到来学生姓名:王彦腾班级:06电二学号:200600920176 完成时间:2009年5月22日目录1.课题分析 (3)2.检索策略 (3)2.1 选择检索工具 (3)2.2 选择检索词 (4)2.3 拟定检索式 (4)3.检索步骤及检索结果 (4)3.1 谷歌搜索引擎 (4)3.2 中国期刊全文数据库(CNKI) (6)4.检索效果评价 (13)5.文献综述 (14)1.课题分析1.1国外发展概况到2004年9月底,全球在3G核心频段发放120张许可证。
核心频段有FDD(频分双工)和TDD(时分双工)两种方式。
在120张许可证中,FDD+TDD组合方式有100张,大多数欧洲的运营商都采用这种形式。
从技术角度看,采用WCDMA技术的共116张许可证,其中有19个国家的38个网络已商用的,用户数为1060万;采用TDD技术的有101张,目前尚未有商用网络;采用cdma2000技术的有3张,目前尚未有商用网络,但在原有频段升级到cdma2000 1x和1x EV-DO/1x EV-DV的约有80个商用网络,cdma2000用户为1.13亿,EV-DO用户930万。
由统计数字看出,cdma2000 1x发展迅速,已经在全球大规模商用。
其原因得益于技术的成熟性以及能后向兼容,但目前运营商仍在2G网络的频段上运营,全球尚未有3G核心频段的网络运营。
随着竞争的加剧和移动增值业务的开展,支持更高数据吞吐量(2.4Mbps)的cdma2000 1x EV-DO的商用运营商由2003年底的5个增加到目前的10个,用户达到930万,90%以上的用户集中在韩国。
1.2我国3G进展概况到2004年9月底,我国移动用户数为3.2亿,占全球移动用户总数的20%以上。
2. 检索策略2.1 选择检索工具检索工具名称访问方式检索年代文献类型谷歌搜索引擎 -2009 网页中国期刊全文数据库(CNKI)202.115.54.22 2003-2009 期刊论文2.2 选择检索词从课题字面选从课题内涵选(同义词、近义词、上下位词)3G 移动通信 (上位词)技术技能 (同义词)发展趋势、走向(近义词)2.3 拟定检索式由于不同检索工具的字段不同,因此将检索式(亦称提问式)在“检索步骤及检索结果”的各个具体检索工具中给出。
自动化文献检索报告范文

自动化文献检索报告范文
自动化文献检索报告是指根据特定主题或研究领域,利用信息检索技术从各种学术数据库和文献资源中筛选、获取并整理相关文献资料的报告。
下面我将从几个方面来介绍自动化文献检索报告的范文。
首先,自动化文献检索报告的格式通常包括标题、摘要、关键词、引言、文献综述、结论等部分。
在标题部分,应简明扼要地概括研究主题或问题;摘要部分则对整篇报告进行概括性陈述,包括研究目的、方法、主要结果和结论;关键词部分列举出报告涉及的主题和关键词,有助于他人快速了解报告内容。
引言部分介绍研究主题的背景、意义和目的,引出文献检索的目的和方法;文献综述部分是报告的核心,对所检索到的相关文献进行综合分析和总结,展现研究领域的最新进展和研究热点;结论部分对文献综述进行总结和归纳,指出研究的不足之处和未来的研究方向。
其次,自动化文献检索报告的范文应当遵循学术规范,对所引用的文献进行准确的标注和引用。
在文献综述部分,应对每一篇引用的文献进行简要的介绍和评价,指出其在研究领域中的重要性和价值,同时标注出处和作者等信息,以示尊重和引用权益。
此外,自动化文献检索报告的范文应当具有逻辑性和条理性,内容要全面、准确、客观。
在文献综述部分,应对不同文献的观点和结论进行比较和分析,展现出研究领域的学术争议和发展趋势。
最后,自动化文献检索报告的范文应当具有一定的创新性和独立思考。
在结论部分,可以对所综述的文献进行总体评价,并提出自己的看法和建议,展现出独特的学术见解和研究思路。
总的来说,自动化文献检索报告的范文应当具有完整的结构、准确的引用、全面的内容和独立的思考,以展现出作者对所研究领域的深入理解和学术素养。
文献检索实训成果报告

一、引言随着信息时代的到来,文献检索能力已成为大学生必备的基本技能之一。
为了提高我们的文献检索能力,培养独立思考和创新意识,学校组织开展了文献检索实训。
通过本次实训,我们不仅掌握了文献检索的基本方法和技巧,而且提高了自身的学术素养和研究能力。
以下是对本次文献检索实训的成果总结。
二、实训目的与内容1. 实训目的本次文献检索实训旨在培养学生以下能力:(1)掌握文献检索的基本原理和方法;(2)提高文献检索效率,提高学术素养;(3)培养独立思考和创新意识,为后续学习和研究奠定基础。
2. 实训内容(1)文献检索基本原理与策略;(2)国内外学术数据库的使用方法;(3)文献阅读与评价;(4)论文写作规范与技巧。
三、实训过程1. 实训准备在实训开始前,我们首先学习了文献检索的基本原理和方法,了解了国内外主要学术数据库的概况。
同时,我们还学习了论文写作规范与技巧,为后续的文献检索和论文写作打下基础。
2. 实训实施(1)文献检索实践:我们根据所学知识,在国内外主要学术数据库中检索相关文献,如CNKI、WanFang Data、Web of Science等。
通过实践,我们掌握了文献检索的基本方法,提高了检索效率。
(2)文献阅读与评价:我们选取了具有代表性的文献进行阅读,了解文献的研究背景、研究方法、结论等。
通过对文献的评价,我们学会了如何筛选高质量文献,为后续研究提供有力支持。
(3)论文写作实践:我们根据所学知识,结合自身研究方向,撰写了一篇论文。
在写作过程中,我们遵循论文写作规范,注重论文结构、逻辑性和创新性。
3. 实训总结在实训过程中,我们遇到了各种问题,如检索技巧不熟练、文献阅读困难等。
通过查阅资料、请教老师和同学,我们逐步解决了这些问题。
以下是我们对本次实训的总结:(1)文献检索技巧:掌握了文献检索的基本方法,提高了检索效率;(2)文献阅读与评价:学会了如何筛选高质量文献,为后续研究提供有力支持;(3)论文写作规范:遵循论文写作规范,提高了论文质量。
文献检索实训课程总结报告

一、引言文献检索是学术研究、学习和工作中不可或缺的技能之一。
为了提高学生的文献检索能力,培养其独立思考和解决问题的能力,我国高校普遍开设了文献检索实训课程。
本课程旨在让学生掌握文献检索的基本方法、技巧和策略,为今后的学习和研究奠定基础。
以下是我对文献检索实训课程的总结报告。
二、实训目的与意义1. 提高学生的文献检索能力:通过学习文献检索的基本知识和技能,使学生能够迅速、准确地找到所需文献,提高学术研究和学习效率。
2. 培养学生的独立思考能力:文献检索过程中,学生需要根据自身需求进行筛选、分析和评价,从而培养学生的独立思考能力。
3. 增强学生的学术素养:文献检索课程使学生了解学术规范,学会正确引用文献,提高学术素养。
4. 为今后学习和研究奠定基础:文献检索能力是学术研究的基础,掌握文献检索技巧有助于学生在今后的学习和研究中取得更好的成果。
三、实训内容与方法1. 文献检索基础知识:介绍文献检索的基本概念、类型、检索方法和检索工具。
2. 检索工具使用:讲解常用的国内外数据库、搜索引擎、电子期刊等检索工具的使用方法和技巧。
3. 检索策略与技巧:教授如何根据研究需求,选择合适的检索词、检索式和检索途径,提高检索效果。
4. 文献筛选与评价:指导学生如何对检索到的文献进行筛选、评价和整理。
5. 实践操作:通过实际操作,让学生熟练掌握文献检索技巧,提高文献检索能力。
四、实训过程与收获1. 学习过程:在实训过程中,我们学习了文献检索的基本知识,掌握了常用的检索工具和技巧,提高了文献检索能力。
2. 实践操作:通过实际操作,我们学会了如何根据研究需求进行检索,提高了检索效率。
3. 独立思考:在检索过程中,我们需要独立思考,筛选出符合研究需求的文献,培养了独立思考能力。
4. 学术素养:通过文献检索课程,我们了解了学术规范,学会了正确引用文献,提高了学术素养。
五、不足与改进方向1. 检索技巧掌握不熟练:部分学生在检索过程中,对检索技巧掌握不熟练,影响了检索效果。
SEWM2010信息检索评测文献检索

Motivation (1/2)
• Social media
– Web 1.0 => Web 2.0
• e.g., twitter, blog.
• Multiple source data mining
– Multiple sources provides complementary information
存在问题
• 现在进行结果集构建可能还有些困难
– 不同的写作者可能对一个topic的说法不一样(尽管表达同样的意 思),
Motivation (2/2)
• /Evaluation/CWT.html • Web信息检索包容的文本信息越来越多,文献在其
中占很大比重,且对科研工作和教学有很大的帮助。 本任务希望在两个发展方 向有所贡献
– 相关论文查询任务 (task1)
• 提高检索的质量,与Web Search追求精度不同,此处更注重于 召回率.
• E.g., paper and conference, co-authorship, individual home page, metadata (download counts, citation numbers, …), slides, video.
文献检索的实践报告范文(2篇)
第1篇一、引言文献检索是科研工作的重要组成部分,对于提高科研效率和质量具有重要意义。
为了提高自己的文献检索能力,我于近期进行了一次文献检索实践,现将实践过程和结果报告如下。
二、实践目的1. 提高文献检索技能,掌握常用的文献检索方法。
2. 熟悉相关数据库的使用,了解数据库的特点和功能。
3. 提升信息素养,提高科研工作效率。
三、实践过程1. 选择检索主题本次文献检索的主题为“人工智能在医疗领域的应用”。
选择这个主题的原因是近年来人工智能技术在医疗领域的应用越来越广泛,具有很高的研究价值。
2. 选择检索数据库根据检索主题,我选择了以下数据库进行检索:(1)中国知网(CNKI):国内最大的学术文献数据库,涵盖各类学术期刊、学位论文、会议论文等。
(2)万方数据知识服务平台:提供学术论文、期刊、会议论文等文献资源。
(3)维普资讯网:涵盖科技期刊、学位论文、会议论文等文献资源。
3. 制定检索策略为了提高检索效率,我制定了以下检索策略:(1)使用关键词:人工智能、医疗、应用等。
(2)使用布尔逻辑运算符:将关键词进行组合,如“人工智能 AND 医疗 AND 应用”。
(3)使用字段限定:限定检索范围,如“题名”、“关键词”、“摘要”等。
4. 进行检索按照检索策略,我在各个数据库中进行了检索,共检索到相关文献100余篇。
5. 文献筛选与阅读对检索到的文献进行筛选,选取与主题相关性较高的文献进行阅读。
通过阅读文献,了解人工智能在医疗领域的应用现状、发展趋势和存在的问题。
四、实践结果1. 熟练掌握了文献检索方法,能够快速找到所需文献。
2. 了解了中国知网、万方数据知识服务平台、维普资讯网等数据库的特点和功能。
3. 提高了信息素养,对人工智能在医疗领域的应用有了更深入的了解。
4. 发现了人工智能在医疗领域应用中存在的问题,为后续研究提供了参考。
五、实践总结1. 文献检索是一项重要的技能,对于科研工作者来说至关重要。
通过本次实践,我深刻体会到文献检索的重要性。
文献检索实训成果报告范文
一、摘要随着信息时代的到来,文献检索能力已成为当代大学生必备的基本技能之一。
为了提高学生的信息素养,培养其独立思考和研究的能力,本学期开展了文献检索实训课程。
通过本次实训,学生们掌握了文献检索的基本方法和技巧,提高了文献检索效率,为今后的学术研究奠定了基础。
本文将从实训目的、实训内容、实训过程和实训成果等方面对本次文献检索实训进行总结。
二、实训目的1. 培养学生掌握文献检索的基本方法,提高文献检索能力。
2. 使学生了解学术研究的基本流程,提高学术素养。
3. 增强学生的信息素养,为今后的学术研究奠定基础。
三、实训内容1. 文献检索基础知识:介绍文献检索的基本概念、分类、检索方法和检索工具等。
2. 检索工具使用:讲解常用的文献检索工具,如CNKI、万方、维普等数据库的使用方法。
3. 文献检索策略:介绍文献检索策略的制定,包括主题词、关键词、布尔逻辑运算等。
4. 文献阅读与评价:指导学生如何阅读文献,评价文献的质量和适用性。
5. 文献管理:介绍文献管理软件的使用,如EndNote、NoteExpress等。
四、实训过程1. 讲解阶段:教师对文献检索基础知识进行讲解,介绍常用的文献检索工具和检索策略。
2. 实践阶段:学生根据教师提供的检索主题,利用检索工具进行文献检索,并撰写检索报告。
3. 交流阶段:学生之间互相交流检索心得,分享检索技巧,共同提高文献检索能力。
4. 总结阶段:教师对学生的检索报告进行点评,指出不足之处,并提出改进建议。
五、实训成果1. 学生掌握了文献检索的基本方法和技巧,提高了文献检索效率。
2. 学生了解了学术研究的基本流程,提高了学术素养。
3. 学生增强了信息素养,为今后的学术研究奠定了基础。
4. 学生撰写了高质量的检索报告,展现了良好的学术研究能力。
六、实训体会1. 文献检索能力是大学生必备的基本技能,通过本次实训,学生们的文献检索能力得到了显著提高。
2. 文献检索过程中,学生要学会利用检索工具,制定合理的检索策略,提高检索效率。
文献检索实验报告总结
文献检索实验报告总结一、引言文献检索是科学研究中不可或缺的一步,通过检索相关文献,我们可以获取到已有研究成果和相关信息,为我们的研究提供参考和支持。
本实验旨在探索文献检索的方法和技巧,并总结实验结果。
二、实验方法1. 确定研究主题:选择一个明确的研究主题,以便更好地指导文献检索的方向。
2. 确定检索数据库:根据研究主题的特点,选择合适的数据库进行检索,如PubMed、Web of Science等。
3. 关键词策略:根据研究主题,确定合适的关键词,包括主题词和相关词,以增加文献的检索范围和准确性。
4. 检索语句构建:根据关键词策略,构建符合数据库检索语法的检索语句,包括逻辑运算符和限定词。
5. 检索结果筛选:根据预定的筛选标准,对检索结果进行筛选,选择符合研究目的的文献进行详细阅读和分析。
三、实验结果1. 数据库选择:根据研究主题的特点,我们选择了PubMed数据库进行文献检索。
2. 关键词策略:根据研究主题,我们确定了以下关键词:文献检索、方法、技巧、研究主题。
3. 检索语句构建:根据关键词策略,我们构建了如下的检索语句:“文献检索” AND “方法” OR “技巧” AND “研究主题”。
4. 检索结果筛选:根据预定的筛选标准,我们筛选出了30篇符合研究目的的文献进行详细阅读和分析。
四、实验总结通过本次实验,我们掌握了文献检索的方法和技巧,并成功检索到了与研究主题相关的文献。
实验结果表明,合理选择数据库、精确确定关键词、构建合适的检索语句以及严格筛选检索结果,都是进行文献检索的关键步骤。
此外,我们还需要不断学习和掌握新的检索技术和工具,以提高文献检索的效率和准确性。
五、展望虽然本次实验取得了较好的结果,但仍存在一些改进的空间。
未来,我们可以进一步优化关键词策略,尝试不同的检索语句构建方式,以获得更全面和准确的文献检索结果。
此外,我们还可以尝试使用其他数据库进行文献检索,以获取更多的研究资源和信息。
文献检索实验报告
文献检索实验报告引言文献检索是科研工作中不可或缺的环节,通过查阅相关文献可以获取科研前沿动态、主要研究方向和方法等信息,从而为科研工作提供有力的支撑和参考。
本次实验旨在探索不同的文献检索方式,比较其优缺点以及运用范围,以提高我们在不同领域的科研能力和水平。
方法本次实验主要采用了三种文献检索方式,分别为关键词检索、主题词检索和篇名检索。
首先,在相关数据库中设置检索的关键字或主题,比如"人工智能"或"气候变化"等,并根据实验需求选择适当的检索词汇。
接着,分析检索结果的覆盖面是否广泛,检索的准确性和实用性是否高,以及检索时间的长短等因素。
最后,根据实验结果进行综合评价。
关键词检索关键词检索是最常用的文献检索方式之一。
通过在数据库中输入相关的关键词,系统会根据关键词快速筛选出相关文献。
这种方式检索速度较快,并且可以根据实际需求随时修改关键词,提高检索准确性。
然而,关键词检索往往存在关键词过于广泛、忽略了主题词的问题,导致检索结果的准确性有时不尽如人意。
主题词检索主题词检索是在关键词检索基础上的一个补充方式。
主题词是数据库为文献赋予的一种标签,用于准确描述文章的主题内容。
使用主题词检索可以避免关键词过于广泛的问题,提高检索结果的准确性。
主题词检索的劣势在于,需要对数据库中的主题词体系有一定的了解,并且在实际操作中需要花费较多的时间。
篇名检索篇名检索是根据文献的标题进行检索。
此种方式的优势在于,标题通常包含了文章的主要内容,通过篇名检索可以迅速找到相关的文献。
此外,篇名检索通常更加直观,利于初步了解一篇文献的内容。
然而,篇名检索的缺点在于篇名不能覆盖文章的全部内容,有时会忽略掉某些重要的关键词或主题。
结果与讨论根据实验结果分析,关键词检索、主题词检索和篇名检索三种方式各有优缺点,需要根据不同的实际需求来选择适合的方式。
对于需要快速获取大量文献信息的情况,关键词检索是首选。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
二: 系统流程
PDF文 件
解析PDF文件(PDFBox„) 对原始PDF文 件解析出的信 息
DBLP
DBLP XML信息
ACM Portal
<ee/> 其他
其他检 索库...
<Title/>
<Paper key=“fileAllPath”> <Title>题目</> <Author Institute=”所属单位”></> <Author>作者名</> ... <Abstract>摘要</> <Categories and Subject Descriptors></> <General Terms></> <Keywords>关键字</> <Text>正文</> <References>引文</> <CitedBy>被引文</> </Paper>
2018/8/1 8
索引模块
读取文献XML文档并转化为需索引的文档(合 并,设置不同部分权重等) 建立倒排索引: Lucene
提取文献间的引用关系 提取文献的其他权威度量
2018/8/1 9
搜索模块
查询构造: title,desc,title+desc,查询扩展
相关文献检索 领域文献检索 领域文献的后处理
score(author )
authorauthors ( di ) di Top
d score(di )
i
2018/8/1
15
五: 总结与展望
总结
文献预处理 建立索引 提取文献间引用关系 检索相关文献 通过引用关系计算文献权威性得分 通过加权累加权威文献得到权威学者
补充信息 (DBLP,ACM Portal,Goo 领域...) 检索
引用关系
用户
2018/8/1
4
三: 系统模块
文献内容解析 提取对应DBLP信息 提取对应ACMPortal信息 提取其他信息 整合信息 预处理(去噪,词干化,去停 用词等) 构造待索引文档 建立倒排文档 提取引用关系 构造查询
2018/8/1 6
文献数据DTD
<?xml version="1.0" encoding="utf-8" ?> <!DOCTYPE paper[ <!ELEMENT paper (mdate,key,author*,year,ee,url,oriSouce,downRecord_6,downRecord_12,indexTerm*, generalTerm*,keyword*,abstractInfo,introductionInfo,mainBody,conclusion,referenc e*,citeby*)> <!ELEMENT key (#PCDATA) > <!ELEMENT author (#PCDATA) > <!ATTLIST author organization CDATA #IMPLIED> <!ELEMENT ee (#PCDATA) > <!ELEMENT url (#PCDATA) > <!ELEMENT oriSource (#PCDATA) > <!ELEMENT downRecord_6 (#PCDATA) > <!ELEMENT downRecord_12 (#PCDATA) > <!ELEMENT indexTerm (#PCDATA) > <!ELEMENT generalTerm (#PCDATA) > <!ELEMENT keyword (#PCDATA) > <!ELEMENT abstractInfo (#PCDATA) > <!ELEMENT introductionInfo (#PCDATA) > <!ELEMENT mainBody (#PCDATA) > <!ELEMENT conclusion (#PCDATA) > <!ELEMENT reference (#PCDATA) > <!ELEMENT citeby (#PCDATA) >]>
使用领域词典
IR NLP …
统计:每个查询返回上千篇文献
2018/8/1 11
四:任务实现
任务(2):领域重要文献 步骤1: 搜索领域文献 提取前100,200 步骤2: 根据引用于被引用关系得到领域文献集 步骤3: 确定领域重要文献,如:通过引用数, 链接分析技术(如PageRank,HITS等) 使用外部被引数:Google Scholar
第八届全国搜索引擎和网上信息挖掘学术研讨 会
SEWM 2010 文献检索评测报告
江西师范大学 报告人: 何世柱
2018/8/1
1
内容提纲(Outline)
评测目标 系统流程 系统模块 任务实现 总结与展望
2018/8/1 2
一: 评测目标 文献检索
提高检索的质量,与Web Search追求 精度不同,此处更注重于召回率 找到相关领域的最主要论文,以及一 些较权威的作者,帮助读者了解相关 知识
2018/8/1
12
统计分析
文献集大小:10825 文献集内引用链接数:29947 平均入度(出度):2.767 大部分为0
2018/8/1
13
链接分析图示
初次检索 结果
引用结果 的文献集
结果内链 接关系 结果引用 的文献集
2018/8/1 14
四:任务实现
任务(2):权威学者 权威学者通过权威文献得到。我们认为 权威学者即权威文献的作者。
2018/8/1 7
一个例子
<paper> <mdate>2009-07-27</mdate> <key>conf/sigir/Hosseini09</key> <author organization=''></author> <author organization=''></author> <year></year> <ee>/10.1145/1571941.1572174</ee> <url>db/conf/sigir/sigir2009.html#Hosseini09</url> <oriSouce>SIGIR</oriSouce> <downRecord_6>5</downRecord_6> <downRecord_12>99</downRecord_12> <indexTerm>Information Systems</indexTerm> <indexTerm>Performance evaluation (efficiency and effectiveness)</indexTerm> <generalTerm>Measurement</generalTerm> <generalTerm>Performance</generalTerm> <keyword>prediction</keyword> <abstractInfo></abstractInfo> <introductionInfo></introductionInfo> <mainBody></mainBody> <conclusion></conclusion> <reference></reference> <citeby></citeby> </paper>
2018/8/1
16
五: 总结与展望
展望
提取更多的元数据 解析PDF文件 更好的利用链接关系,对不同引用关系利用 不同的处理方式(如根据期刊/会议影响因子 加权)而不是朴素的利用链接分析
2018/8/1
17
谢谢大家!欢迎交流!
2018/8/1
18
2018/8/1
10
四:任务实现
任务(1):相关论文查询任务
使用不同查询搜索: title,desc,title+desc 在不同域集合中搜索(各个域权值不同): title,abstract,body,general term,index term,keyword等
(5,4,1,0,0,0) (5,4,1,3,3,3) (1,1,1,1,1,1)
预处理模块
文 献 检 索 系 统
索引模块
搜索模块
普通检索 搜索权威文献及作者
2018/8/1
5
预处理模块
解析天网格式数据: TWReader PDF文件解析: xpdf,pdfBox等
读取DBLP数据: DOM,SAX等
读取acm Portal数据: htmlParser 预处理: 词干化,去停用词等