中文信息处理论文
中文学术论文的Altmetrics指标研究——以报纸论文为例

收稿日期:2020-07-17基金项目:国家社会科学基金项目 融合ALTMETRICS的科研影响力综合评价方法及实证研究 (项目编号:15BTQ060);南京农业大学中央高校基本科研业务费人文社会科学研究基金项目(项目编号:SKYC2020023);江苏高校哲学社会科学研究一般项目(项目编号:2020SJA0055)㊂作者简介:彭秋茹(1990-),女,助理研究员,博士,研究方向:信息计量与科研评价㊂通讯作者:阎素兰(1972-),女,副教授,硕士生导师,研究方向:信息计量㊂㊃信息计量与科学评价㊃中文学术论文的Altmetrics指标研究以报纸论文为例彭秋茹㊀阎素兰∗(南京农业大学信息管理学院,江苏南京210095)摘㊀要:[目的/意义]随着社交媒体等网络平台在科学研究㊁传播㊁交流中的普及应用,一种基于社会媒体平台和工具的影响力评价方法 Altmetrics应运而生并引起广泛关注,但面向中文学术论文的Altmetrics指标研究却比较缺乏㊂[方法/过程]本文以‘光明日报“理论版论文为研究对象,利用百度搜索引擎技术采集中文报纸论文的Altmetrics数据,构建Altmetrics指标体系,进而分析不同网络平台关注中文报纸论文的程度,举例探讨中文报纸论文在网络传播的过程,研究中文报纸论文在网络中受到关注的现象及特征㊂[结果/结论]研究结果表明利用搜索引擎技术可以有效解决Altmetrics本地化的问题,中文报纸论文在网络中受到各类新闻媒体的关注较多,且传播速度快,加工后的中文报纸论文可能会产生更为久远的影响㊂关键词:Altmetrics;中文学术论文;报纸论文;网络关注DOI:10.3969/j.issn.1008-0821.2021.04.014 中图分类号 G250 252㊀文献标识码 A㊀文章编号 1008-0821(2021)04-0146-08ResearchonAltmetricsIndicatorsforChineseAcademicArticlesTakingNewspaperArticlesforAnExamplePengQiuru㊀YanSulan∗(SchoolofInformationManagement,NanjingAgriculturalUniversity,Nanjing210095,China)Abstract:[Purpose/Significance]Withthepopularityandapplicationofsocialmediainscientificresearchandcom⁃munication,Altmetrics,animpactevaluationmethodbasedonsocialmediaplatformsandtools,cameintobeingandat⁃tractedwideattention.However,thereisalackofresearchonAltmetricsforChinesearticles.[Method/Process]Thispa⁃pertookthearticlespublishedonthetheoreticalpagesofGuangmingDailyastheresearchobjects,usedBaidusearchen⁃ginetechnologytocollecttheAltmetricsdata,constructedtheAltmetricsindicatorssystem,andstudiedthephenomenonandcharacteristicsofmentiontoChinesenewspaperarticlesonlinebasedonanalysisontheattentiondegreefromdifferentsourcesanddiscussionabouttheprocessoftransmission.[Result/Conclusion]TheresultsshowedthatthelocalizationofAltmetricscanbeeffectivelysolvedbyusingsearchenginetechnology.Chinesenewspaperarticlesattractedmoreattentionfromallkindsofnewsmediaonline,andthedisseminationspeedwasfast.TheprocessedChinesenewspaperarticlesmayhavealonger-termimpact.Keywords:Altmetrics;Chineseacademicarticles;newspaperarticles;onlineattention㊀㊀随着网络技术的飞速发展,学术论文通过网络媒体的传播可以被更广泛的社会公众所认识和利用,科学研究不再是象牙塔里的知识分子才能接触的世界㊂网络传播有利于科学技术的普及与科研成果的推广,进一步传播科学思想与弘扬科学精神㊂同时,科研人员之间也越来越喜欢通过网络平台对641 2021年4月第41卷第4期现代情报JournalofModernInformationApr.,2021Vol 41㊀No 4学术论文进行讨论和使用,学术论文在网络媒体上越来越受到关注和传播㊂通过考察学术论文在网络媒体中的受到关注的情况,使得社会公众阅读和使用学术论文的交流过程可被计量㊂基于学术引用的引文分析方法[1]不再是测量学术论文影响力的唯一手段,学术论文在网络社会中被传播和关注的程度可以反映学术论文的社会影响力㊂2010年PriemJ等[2]首次提出Altmetrics,它是基于社会传媒平台和工具的㊁评价影响力的一种可选方法[3]㊂Altmetrics的提出是旨在衡量由网络驱动的学术交互[4],利用Altmetrics可以跟踪和分析多种类型学术成果的网络活动,借助Altmetrics指标数据可以测量学术成果在网络中受到不同网络平台关注的程度㊂本文意图获取中文学术论文的Alt⁃metrics指标数据,分析中文学术论文在网络中受到关注的现象及特征,从而探讨中文学术论文的社会价值和意义㊂1㊀相关研究早期国内外针对学术论文的Altmetrics研究较多关注引文指标与Altmetrics指标之间的联系[5-7],后来越来越多的研究探讨学术论文在网络中受到关注的现象和特征㊂HausteinS等[8]调查了学科㊁文献类型㊁标题长度㊁页数和参考文献数等特征与5种不同Altmetrics指标之间的联系,研究发现社交媒体上提及学术论文的总体数量很少,社论和新闻这两种论文类型很少被引用,但在Twitter上却最受欢迎㊂HolmbergK等[9]则探讨了学术论文获得更多网络关注和更高Altmetrics评分的原因,研究发现不同的网络平台对论文的关注程度存在着差异,在Mendeley上受到极大关注的论文更多是学术界的读者所引起的,而在Twitter上引起关注的原因与更广泛的社会公众读者有关㊂邱均平等[10]分析了2016 2018年Altmetrics前100名的学术论文的来源机构㊁来源期刊㊁所属学科及传播途径等特征,研究发现大多数论文受到NewsStories㊁BlogPost㊁Twitter㊁Facebook㊁Reddit㊁Coogle+㊁Wiki⁃pediaCitations和Videos等网络平台的关注㊂除了研究学术论文受到网络关注的来源平台外,部分学者还从时间维度探讨了学术论文发表后在网络中受到关注的变化情况㊂WangXW等[11]利用110篇学术论文的90天的Altmetrics指标数据,考察了学术论文发表后在社交媒体上受到关注的变化情况,研究发现Twitter和Facebook是两种最重要的社交推荐方式,来自社交媒体的关注累积速度较快,但衰退速度也快㊂魏绪秋等[12]提出了学术论文阶段重要性指标和学术论文阶段持续性指标,对学术论文的Altmetrics数据特征进行了分析,研究发现大部分学术论文的社交活跃期相对较早且持续性较短㊂田玥等[13]利用Altmetrics数据分析了生物医学领域学术论文在网络中的关注度,探索了影响论文关注度的因素,研究发现论文发表后3天是关注的巅峰期㊂由于缺少数据和工具的支持,现有的针对学术论文的Altmetrics研究主要以英文论文为主,个别国内学者尝试基于使用习惯或模仿以英文学术论文为对象的研究来获取和分析中文学术论文的Alt⁃metrics数据㊂王艳波等[14]和易淑琼等[15]选择了豆丁网㊁道客巴巴㊁百度文库作为中文学术论文的Altmetrics数据来源㊂王萝娜等[16]设计的Altmetrics数据来源更为广泛,包括新闻媒体㊁文献管理㊁百科智库㊁社交媒体㊁学术社区5个大类,共搜集了科学网㊁百度文库㊁豆丁网㊁道客巴巴㊁360个人图书馆㊁MBA智库百科㊁新浪微博㊁新浪博客㊁微信公众号㊁知乎㊁丁香园㊁小木虫等12个平台㊂但与国外研究相比,在研究内容广度和深度上国内网络平台用于Altmetrics的适用性分析研究都处于落后的状态[17]㊂学者们主观设计的Altmetrics指标和数据来源也无法真实㊁客观㊁全面地反映中文学术论文在网络中受到关注的现象和特征㊂彭秋茹等[18]在构建报纸论文影响力评价方法时提到利用搜索引擎作为搜集中文报纸论文的Altmetrics数据的手段,但文章没有详细描述数据采集和预处理的过程,也缺少对中文报纸论文在网络中传播的范围和过程的分析和研究㊂因此,本文将设计中文学术论文的Altmetrics指标数据获取的方法,以中文报纸论文为例构建Altmetrics指标体系,分析关注中文报纸论文的网络平台分布范围,举例探讨中文报纸论文发表后的网络关注过程,研究中文报纸论文的网络关注现象及特征㊂2㊀数据采集与预处理Altmetrics考察的是学术成果在社会网络上发生交互的情况,也就是说,学术成果的Altmetrics评价结果测量的是学术成果在不同的网络平台(例7412021年4月第41卷第4期中文学术论文的Altmetrics指标研究www.xdqb.netApr.,2021Vol 41㊀No 4如社交媒体㊁主流新闻媒体和在线分享社区等)上的关注度㊂因此,Altmetric.com㊁ImpactStory㊁PlumX㊁PLOSALMs等国外常用的Altmetrics数据聚合工具都以寻找更多样㊁更全面的学术成果网络关注数据源为主要任务㊂在中文环境下对学术论文网络关注情况进行研究时,首先要考察学术论文在中文网络中受到哪些平台的关注,并且要尽量寻找全面和多样的学术论文网络关注数据源㊂2 1㊀数据采集方法国外各大Altmetrics数据聚合工具在统计学术成果的Altmetrics指标数据时,一般是基于学术成果的唯一标识符(例如DOI㊁PubMedID㊁arXivID等)来捕获提及学术成果的网页数据[19]㊂但经过调研发现,国内网络平台在关注中文学术论文时鲜有附带表示论文出处的唯一标识(例如URL),所以无法通过唯一标识符来追踪中文学术论文的网络传播痕迹㊂要想获得中文学术论文较为全面的Alt⁃metrics数据,搜索引擎是一个很好的技术支持手段㊂搜索引擎是一种在网络上对信息进行收集㊁提取㊁组织㊁处理并提供检索服务的工具,极大地改善了用户的网络信息获取的过程和效果[20],可以通过搜索引擎来简化获取网络信息的过程㊂通过搜索引擎的检索功能,可以较为全面和客观地获取中文学术论文在网络中受到关注的信息㊂由于搜索引擎Google不能在境内访问,并且Google过滤了大量PR值较低的页面,因此在网页数据采集方面可能存在严重误差㊂作为中国搜索引擎市场份额占比最大的中文搜索引擎[21],百度搜索索引了绝大多数较为权威的新闻网站㊁论坛㊁博客㊁政府㊁科技㊁教育和学术网站,可以最大程度上满足网络传播分析中的数据采集覆盖率要求㊂因此,本文将通过百度搜索来采集针对中文学术论文的Altmetrics数据并构建相应的指标体系㊂1)中文学术论文Altmetrics数据采集本文将中文学术论文的加双引号的 题名作为检索词,在百度搜索中进行检索,并记录每篇中文学术论文的相关结果数㊂由于题名不是表示特定中文学术论文身份的唯一标识,所以题名越简单越容易产生更多与目标中文学术论文不相关的检索结果㊂为了减少噪音数据的影响㊁提高数据清洗的可操作性,在检索中文学术论文时可以分两轮进行㊂第一轮检索先记录每篇中文学术论文的检索结果数,将1000条设为检索结果是否合理的标准㊂第二轮检索时,对第一轮检索结果合理范围内外的中文学术论文采取不同的检索策略,对第一轮检索结果合理的中文学术论文重新按照题名加双引号进行检索,对其余中文学术论文增加文献来源㊁发表年份㊁作者等检索词进行检索㊂然后利用爬虫程序采集百度搜索的检索结果数据,记录下每条中文学术论文检索结果的检索词㊁检索页面文本数据㊁检索结果百度链接㊁跳转后的原文链接等信息㊂2)中文学术论文Altmetrics数据清洗根据百度搜索检索结果可以获取中文学术论文在网络上受到关注的信息㊂汇总有关中文学术论文的检索结果后,再对检索结果中的原文链接数据进行处理㊂首先截取原文链接的二级域名(如baidu.com)及三级域名(如wenku.baidu.com)并保存㊂然后利用域名查询工具(whois.chianz.com)的备案查询功能对二级域名进行标准化处理,通过缓存数据更新等方法重复核查,并对域名数据进行去重,排除未备案或备案取消的域名,最终获得检索结果中的有效域名㊂由于百度搜索存在扩检现象,结合域名信息进一步通过人工校对的方式对检索出来的中文学术论文Altmetrics数据进行清洗㊂3)中文学术论文Altmetrics数据统计最后,通过对清洗过的中文学术论文检索结果中的有效域名及备案信息进行统计和分析,可以得到中文学术论文在网络中受到关注的来源平台情况㊂根据Altmetrics指标构建的思想,关注中文学术论文的网络平台决定了中文学术论文Altmetrics指标㊂借鉴国外常用的Altmetrics数据聚合工具的指标采集来源及分类方法[22-25],在网络中关注学术成果的行为可以分为浏览㊁保存㊁提及㊁讨论㊁推荐㊁引用等类型㊂针对中文学术论文的网络关注研究也可以根据上述类型构建相应的Altmetrics指标,从而对中文学术论文的Altmetrics数据进行统计和分析㊂与国外Altmetrics数据聚合工具的指标体系不一致的是,由于中文学术论文的引用研究更适合利用传统的引文数据库数据进行引文分析,本文关于中文学术论文的Altmetrics指标研究不讨论中文学术论文的引用特征㊂2 2㊀数据采集对象中文报纸论文,指的是发表在中文报纸上的学841 2021年4月第41卷第4期现代情报JournalofModernInformationApr.,2021Vol 41㊀No 4术论文,不包括新闻稿件等,最典型的是国内各大报纸的理论版所刊载的中文论文[18]㊂中文报纸论文有效地衔接了学术理论和大众常识,从而做到既以理性的视角展示了时代大局,又能切中普通大众的兴趣点[26]㊂中文报纸论文与期刊论文一样是读者利用文献获取知识的手段之一,是知识发现与传播的有效途径之一㊂除此之外,中文报纸论文依托报纸这类大众媒体广泛且不分层级的传播方式得到了超越期刊论文的阅读量和传播量,其社会影响力更为广泛㊂本文以中文报纸论文的典型代表 ‘光明日报“理论版论文为采集对象㊂‘光明日报“理论版论文较其它中文报纸论文具有一定的优势,其刊载的中文报纸论文学术性更强,文章结构更接近于一般学术论文;‘光明日报“理论版刊发数量较多,主题覆盖面相对较广;‘光明日报“理论版报纸论文受到学术界的引用相对较多,同时也受到网络媒体和用户的广泛关注㊂在采集样本的选择上,考虑到最新发表的论文有一部分还未进入大众视野,而年代过于久远的论文与当前时事存在脱节现象㊂本文选择2014年发表于‘光明日报“理论版的1363篇报纸论文作为采集对象,并利用百度搜索的搜索工具限定数据采集截止时间为2017年4月30日㊂通过采集这些中文报纸论文在百度搜索中的检索结果数据,可以进一步分析中文报纸论文在网络中受到关注的情况㊂3㊀数据分析和讨论经过两轮数据采集后得到中文报纸论文的检索结果共51862条,这51862条数据中有50605条数据的原始网址是有效链接,通过清洗后获得有域名信息的49932条数据㊂对这49932条数据中的网址信息进行域名标准化处理,去重后共获得4317个二级域名,其中3552个二级域名有注册备案信息,819个二级域名未备案或备案取消㊂将3552个有效二级域名通过网站名称㊁注册单位等信息来对中文报纸论文检索结果来源网站进行分类,分类结果如表1所示㊂表1㊀中文报纸论文百度搜索检索结果来源网站检索结果来源类型具㊀㊀体㊀㊀网㊀㊀站网站数量新闻媒体包括 中国青年网 中国网 中国新闻网 等36个国家层面的新闻媒体㊁ 石家庄新闻网 阳江新闻网 潍坊新闻网 等327个地方层面的新闻媒体㊁ 求是网 中国日报网 新华网 等97个社会层面的新闻媒体㊁ 商洛市党建网 共产党员网 宣讲家 等106个理论宣传媒体566政府机构网站包括 中央政府门户网站 中华人民共和国商务部 等国家政府机构和 山东省文化厅 大庆市人力资源和社会保障局 等地方政府机构的网站642教育机构网站包括 中国社会科学网 全国哲学社会科学规划办公室网站 等教育部门和 华中农业大学 武汉大学 等高校的网站518社会团体网站 中国作家网 中国民主促进会 中国政工网 等社会团体的网站84学术数据库 知网空间 维普网 万方数据知识服务平台 超星网 6综合门户网站 百度 凤凰网 新浪网 等综合门户网站10文档分享平台 360doc个人图书馆 豆丁 道客巴巴 等文档分享平台57社交媒体包括 新浪微博 等微博平台㊁ 乐乎博客 企业博客网 等博客平台㊁ 豆瓣网 天涯社区 等在线交流社区㊁ MBA智库百科 互动百科 等百科网站㊁ 作业帮 家长帮 等互动问答平台21电子商务网站 当当网 京东商城 孔夫子旧书网 等电子商务网站9音视频网站 土豆网 风行在线 优酷 等音视频网站7企业信息网 易房信息网 河北博才网 莱芜信息港 等企业网站1550个人网站张小飞的个人主页 家园网 荷露叮咚 等个人网站82941 2021年4月第41卷第4期中文学术论文的Altmetrics指标研究www.xdqb.netApr.,2021Vol 41㊀No 4㊀㊀由表1可知,中文报纸论文在百度搜索的检索结果来源网站有约半数(1550个)为企业信息网站,而这些企业信息网站的工作原理是通过爬取不同来源的网页进行单纯的网页信息集成,大部分企业信息网站存在着大量的广告信息,这些企业信息网站对报纸论文的传播作用较小,因此本文不把该类型网站视为中文报纸论文的网络关注来源㊂另外百度搜索检索结果中还存在其它一些问题:由于百度搜索具有扩检功能,根据题名信息检索得到的数据存在着大量与中文报纸论文实际内容不相关的结果;检索结果中含有中文报纸论文作为参考文献的网页内容;部分网站对中文报纸论文的总关注次数过少㊂因此,为了更加准确地考察中文报纸论文在网络中受到关注的现象和特征,进一步根据百度搜索检索结果的文本内容及相关网站信息进行人工清洗和整理㊂参考已有的Altmetrics指标体系,得到中文报纸论文Altmetrics指标如表2所示㊂表2㊀中文报纸论文Altmetrics指标指标分类指㊀㊀㊀标指㊀㊀标㊀㊀来㊀㊀源提㊀㊀及国家新闻媒体提及量中国青年网㊁中国网㊁中国新闻网等国家层面的新闻媒体地方新闻媒体提及量南方新闻网㊁中国江苏网㊁齐鲁网等地方层面的新闻媒体社会新闻媒体提及量凤凰新闻㊁和讯新闻㊁求是网等社会新闻媒体理论宣传媒体提及量宣传党的理论的媒体平台政府机构网站提及量国家和地方政府机构网站教育机构网站提及量科研单位或高等院校网站社会团体网站提及量中国作家协会等社会团体的网站保㊀㊀存文档分享平台保存量百度文库㊁360doc个人图书馆㊁豆丁网㊁道客巴巴㊁e书联盟㊁完美文库㊁三亿文库讨㊀㊀论微博讨论数新浪微博㊁腾讯微博博客讨论数新浪博客㊁网易博客㊁和讯博客在线交流社区讨论数豆瓣㊁百度贴吧㊀㊀表2罗列了中文报纸论文Altmetrics指标及来源,可以知道中文报纸论文在网络中受到国家新闻媒体㊁地方新闻媒体㊁社会新闻媒体㊁理论宣传媒体㊁政府机构㊁教育机构㊁社会团体㊁文档分享平台㊁微博㊁博客㊁在线交流社区等网络平台的关注㊂而根据国外常用的Altmetrics数据聚合工具的指标采集来源[22-25]来看,英文学术论文受到主流新闻媒体㊁政府或非政府组织㊁在线交流社区㊁博客㊁微博等社交媒体㊁百科网站㊁问答网站㊁数据或文档分享平台㊁在线参考文献管理工具等网络平台的关注㊂与英文学术论文不同的是,中文报纸论文的网络关注来源平台没有出现在线参考文献管理工具,可能的原因是国内参考文献管理工具以本地单机使用为主,而在线参考文献管理平台较少,所以百度搜索无法搜集参考文献管理工具单机用户的数据㊂关于百科和问答网站平台,研究对象受到百度百科㊁互动百科㊁搜狗百科等百科网站以及百度知道㊁新浪爱问㊁搜狗问问㊁作业帮等问答平台关注的总次数皆不大于10次,这两类平台对中文报纸论文的关注可以忽略不计㊂另外由于中文报纸论文具有新闻传播特性,尤其受到各种类型新闻媒体的关注和传播,关注数据也主要集中来源于各类型的新闻媒体网站,因此本文将新闻媒体提及量指标根据新闻媒体类型的不同进行了进一步地分类㊂与其他形式的学术成果相比,中文报纸论文作为国家政策和方针理论宣传的重要载体,成为理论宣传媒体重点参考的文献来源㊂然后对1363篇中文报纸论文的Altmetrics指标值进行汇总计算,得到统计信息如表3所示㊂表3㊀中文报纸论文Altmetrics指标值统计信息指㊀㊀标总和最大值最小值均值中值国家新闻媒体提及量427600 31330地方新闻媒体提及量12884000 94500051 2021年4月第41卷第4期现代情报JournalofModernInformationApr.,2021Vol 41㊀No 4表3(续)指㊀㊀标总和最大值最小值均值中值社会新闻媒体提及量55163704 04704理论宣传媒体提及量12601100 92440政府机构网站提及量6312600 46290教育机构网站提及量15441701 13281社会团体网站提及量114400 08360文档分享平台保存量20054401 47101微博讨论量68300 04990博客讨论量2371100 17390在线交流社区讨论量230600 16870由表3可以知道,1363篇中文报纸论文在不同类型的新闻媒体㊁理论宣传媒体㊁教育机构网站㊁文档分享平台中受到的关注较多,在政府机构网站㊁社会团体网站㊁微博㊁博客㊁在线交流社区中受到的关注较少㊂Altmetrics指标中社会新闻媒体提及量总和㊁均值和中值是所有指标中最大的,说明中文报纸论文在网络中最常被凤凰新闻㊁和讯新闻㊁求是网等社会新闻媒体所提及㊂而微博讨论量在所有指标中总和㊁最大值㊁最小值㊁均值和中值都为最小,说明中文报纸论文在微博中的受到关注的程度较其它类型网络平台要小,以娱乐为主的社交媒体用户对于具有学术性质的中文报纸论文的讨论热情较低,但也有可能是由于微博平台的限制导致百度搜索存在数据不全的现象㊂虽然中文报纸论文在文档分享平台保存量总和不足社会新闻媒体的一半,但最大值却是所有指标中的第一,高达44次,说明存在部分中文报纸论文被文档分享平台的用户多次保存和转发,在文档分享平台中的影响较大㊂将1363篇中文报纸论文按总关注次数降序排列,选取前10名网络关注度较高的中文报纸论文的Altmetrics指标数据作进一步分析,前10名的中文报纸论文Altmetrics指标数据如图1所示㊂图1㊀TOP10中文报纸论文Altmetrics指标数据㊀㊀㊀由图1可以知道,总关注次数排名前10的中文报纸论文有8篇受到的网络关注来源分布大体一致,源于地方新闻媒体和社会新闻媒体的关注占所有关注的较大部分㊂1363篇中文报纸论文中网络关注度最高的1号报纸论文,虽然在社会团体网站和在线交流社区没有产生影响,但是在地方新闻媒体和社会新闻媒体中皆受到较多的提及,说明该报纸论文常被新闻媒体所转载和引用,产生的影响力较大㊂而6号报纸论文和8号报纸论文受到网络关注来源平台的分布情况与其它报纸论文有所不同㊂6号报纸论文比其它报纸论文更受到政府机构网站的青睐㊂8号报纸论文则更为特别,较少受到常见的社会新闻媒体的关注,国家新闻媒体㊁地方新闻媒体㊁理论宣传媒体㊁政府机构网站㊁社会团体网站㊁微博㊁在线交流社区等平台更没有关注该报纸论文,但该报纸论文的文档分享平台保存量指标值却在所有报纸论文排名第一,可以看出该报纸论文相关内容被文档分享平台的用户保存了很多次㊂为了进一步发现中文报纸论文发表后网络关注变化过程,图2展示了随着发表天数增加,网络关注度最高的1号报纸论文以及与其它报纸论文差异较大的8号报纸论文的Altmetrics指标的变化情况㊂151 2021年4月第41卷第4期中文学术论文的Altmetrics指标研究www.xdqb.netApr.,2021Vol 41㊀No 4图2㊀1号和8号报纸论文Altmetrics指标随时间变化情况㊀㊀㊀由图2可以知道,国家新闻媒体㊁地方新闻媒体㊁社会新闻媒体㊁理论宣传媒体㊁政府机构网站㊁教育机构网站㊁社会团体网站等平台对中文报纸论文的关注主要集中在论文发表后的两天时间内,这与报纸论文的新闻传播特性相匹配,具有传播速度快的特征㊂中文报纸论文发表两年后仍有可能受到网络平台的关注,说明中文报纸论文在网络中不仅传播速度快,传播时间还较长㊂在传播后期中文报纸论文主要受到文档分享平台的关注,可以看出文档分享平台对于中文报纸论文的传播不受时间的限制㊂具体来看,1号报纸论文自发表当天就迅速受到地方新闻媒体㊁社会新闻媒体以及部分国家新闻媒体和教育机构网站的转载和提及,并且第3天开始该报纸论文受到关注的现象越来越小㊂到了4个月后该报纸论文的网络传播之路暂停了,10个月后偶尔引起零星关注㊂而8号报纸论文在发表当天除了受到几个社会新闻媒体㊁教育机构网站和博客的关注外,并没有受到其他网络平台的关注㊂但5个月后该报纸论文的相关内容突然受到文档分享平台用户的保存,并一直持续了两年以上㊂通过仔细观察数据可以知道,8号报纸论文在发表后被写进中学语文现代文阅读理解的试题中㊂不同中学在编制试题的过程中会在网络中搜集和参考其它学校的试题,8号报纸论文也跟随试题被文档分享平台的用户保存和转发,从而得到更广泛的传播㊂由此可见,中文报纸论文内容得到有效加工和转化可能会产生更大的价值和影响㊂4㊀结㊀语本文利用搜索引擎技术设计了中文学术论文Altmetrics指标构建的思路,以‘光明日报“2014年1363篇中文报纸论文为例,完成了中文报纸论文的Altmetrics数据获取和指标构建的过程,进而分析关注中文报纸论文的网站平台,揭示中文报纸论文受到网络关注的范围和过程㊂研究结果表明,百度搜索能很好地解决中文学术论文Altmetrics数据获取和指标构建的问题㊂中文报纸论文受到国家新闻媒体㊁地方新闻媒体㊁社会新闻媒体㊁理论宣传媒体㊁政府机构网站㊁教育机构网站㊁社会团体网站㊁文档分享平台㊁微博㊁博客㊁在线交流社区等网络平台的关注,其中各类新闻媒体对中文报纸论文的关注较多㊂在网络传播的过程中,不同的中文报纸论文呈现出不一致的发展趋势㊂较多中文报纸论文在发表后的两天时间迅速受到大量的关注,随后影响快速减弱㊂个别中文报纸论文刚开始在网251 2021年4月第41卷第4期现代情报JournalofModernInformationApr.,2021Vol 41㊀No 4。
语言文字论文现代教育技术论文:现代信息技术与语言文字规范化

1.发动全校师生员工对网络、广播、电视、幻灯、投影、录音、录像、电影等多媒体使用的不规范语言和不规范汉字进行挑错。
2.利用录像课对师生的语言和文字使用的规范程度进行比较和评估,并及时反馈给师生,以便加以纠正、改进。
3.提供影像情境,老师为学生设计影视方面的场景,让学生开展配音、影视评说、话剧表演等口语实践,让他们多种才艺得到展示,同时又普及了语言文字规范化的教育。
4.开展拼音和五笔字型输入法比赛,这样既提高了师生文字录入技术,又可使师生掌握语言文字拼音规范和笔画规范。
尽管我们在语言文字规范化教育同现代信息技术教育相结合方面进行了一些有益的探索,但仍有许多问题值得我们去进一步探索、解决。
1.语言文字规范化教育同现代信息技术教育相结合的有关理论问题,对我们来说还是一片空白,今后还需要加大力度进行这方面的探导。
三.充分利用广播、幻灯、录音等多媒体资源开展语言文字规范化工作,优化语言文字规范化训练环境。
1.学校红领巾广播站定时播放有关语言文字规范化方面的内容。
2.学校要求教师尽量使用幻灯、投影、录音等多媒体进行教学。教师必须使用标准的普通话,使用规范汉字。
3.微机课教师上课必须使用普通话和规范字。
4.语文教师进行字音教学要求尽量使用多媒体。制做课件,力求课堂教学生动、活泼。利用多媒体的有利条件,根据学生心理特点,充分利用多媒体技术的直观性、形象性、趣味性和交互性等进行字音教学。课文朗诵尽量使用教学录音。为学生提供规范的朗诵示例,让学生在潜移默化中受到薰陶。
语言文字论文现代教育技术论文
现代信息技术与语言文字规范化
为更好的开展示范校创建活动,我校在语言文字规范化教育与现代信息技术相结合方面,也进行了大量地卓有成效的探索和实践,形成了一些有特色的经验。
《谈如何提高学生的信息处理能力》信息技术论文

在学校教学中,如何有效的提高学生的信息处理能力,已成为学校计算机教学的一个重要内容。那么如何才能提高学生的信息处理能力呢?首先,我们要弄清楚,信息处理能力是信息技术的核心,它包括信息的获取、信息的分析、信息的加工。提高了学生的信息技术处理能力就培养了他们独立思考问题自主学习的态度和方法。下面我们谈谈我校在实际教学中的一些做法:
四、通过校本培训,提高教师的信息技术水平是提升学生信息处理能力的关键所在。
我校有一支优秀的教师队伍。通过全员培训,在各学科里都能找到一些信息技术应用娴熟的教师,为我校信息技术与学科整合打下了坚实的基础。学校要求教师掌握一定的计算机网络操作技能,学会使用常用的工具软件如Authorware、Powerpoint、Goldwave录音软件等等。更重要的教师必须要转变教育观念,培养和强化信息意识,开发和应用网上信息为教学服务,才能努力创设培养信息处理能力的学习环境,组织和引导学生应用多媒体手段,全方位地感知,认识学习对象,创造性地解决问题。
我校重点放在培养学生应用信息技术解决问题的能力,解决实际问题是提高学生应用信息技术和信息处理能力的重要途径。总结起来有以下有三种主要途径:一是通过解决日常生活中的实际问题,如指导学生用计算机编辑文本、用计算机建立自己的学习档案、制作班级及个人网页、写博客等。二是通过网络学习网站、课件等辅助教学发挥计算机的工具性优势,向学生提供更直观的感性知识和大量材料,以帮助学生理解和巩固教学知识。三是通过解决生活及学习上的实际问题,学以致用,培养学生应用信息技术解决问题的能力。
《谈如何提高学生的信息处理能力》信息技术论文
内容摘要:二十一世纪是信息化的时代,信息技术正在影响我们生活中的各个方面。联合国教科文组织作出了最新对文盲的定义,那些不能利用计算机学习、交流、管理的人也是文盲的人也包括其中。信息处理能力,是指应用计算机等现代信息工具获取信息,整理、加工信息能力。信息处理能力的提高,也会进一步提升学生的学习与工作效能。
最新有关人工智能的论文三篇

一、什么是人工智能人工智能也称机器智能,它是计算机科学、控制论,信息论、神经生理学心理学,语言学等多种学科互相渗透而发展起来的一门综合性学科,从计算机应用系统的角度出发,人工智能是研究如何制造出人造的智能机器或智能系统,来模拟人类智能活动的能力,以延伸人们智能的科学。
人工智能领域的研究是从1956年正式开始的这一年在达特茅斯大学召开的会议上,正式使用了人工智能这个术语,随后的几十年中,人们从问题求解,逻辑推理与定理证明,自然语言理解博弈、自动程序设计、专家系统、学习,以及机器人学等多个角度展开了研究,已经建立了一些具有不同程度人工智能的计算机系统,例如能够求解微分方程,设计分析集成电路,合成人类自然语言,而进行情报检索,提供语音识别,手写体识别的多模式接口,应用于疾病诊断的专家系统,以及控制太空飞行器和水下机器人,更加贴近我们的生活,我们熟知的IBM的“深蓝”在棋盘上击败了国际象棋大师,卡斯帕罗夫,就是比较突出的例子。
90年代以来,随着硬件和软件的发展,计算机的运算能力在以指数级增长,同时网络技术蓬勃兴起,确保计算机已经具备了足够条件来运行一些要求更高的人工智能软件,而且现在的人工智能具备了更多的现实应用基础,目前世界各国都在投入大量的人力物力资源,对人工智能进行研究,我国人工智能研究从国家的“863项目”开始,加大研究力度,缩短了我国人工智能技术与世界先进水平的差距,也为未来的发展奠定的技术和人才基础。
二.人工智能的应用人工智能集成了统计学、电子学、信息论、数据库等,经过多年的发展,取得了显著的应用成效。
接下来主要介绍人工智能在物流仓储、医疗诊断、装备制造、在线学习和旅游交通领域的应用。
人工智能在旅游交通中最重要的应用就是智能驾驶和智能推荐旅游线路。
智能驾驶可以利用安装在汽车四周的传感器感知车辆前后方以及两侧的人、车、障碍物等,将这些信息反馈给控制器,控制器可以利用这些知识规划出一条安全的行驶线路,智能驾驶利用人工智能技术,整合心理学、交通法规等,严格的执行安全第一的准则,驾驶安全性也会大大的提高。
科技期刊论文中英文信息的调查与分析

科 技 期 刊 论 文 中英 文 信 息 的 调 查 与 分 析
田 关娥 赵 甜 贺元 旦
( 1 . 西安石油大学学报 ( 自然科学版)编辑部 , 陕西 西安 7 1 0 0 6 5 ; 2 . 西安航空动力股份有 限公 司 翻译科 , 陕西 西安 7 1 0 0 2 1 ) 摘 要: 科技期刊论文 中的英文信息可分为 3类 : 英文题 名、 摘要 、 关键 词、 作者姓名 和单位 ; 文后 中文参
考文献的英文著录 ; 英文 图题及表题。分别 就科 技期刊 论文 中这 3类 英文信 息做 了调 查 , 并 阐述 了作 者的观 点: 对 于参 与国际学术 交流的科技期刊 , 有 必要提供每篇论 文的英文题名 、 摘要 、 关键词及 作者姓 名和单位 , 也 可增加论文的英文 图题 、 表题及 图表 中内容的英译 , 以及 文后 中文参考 文献 的英文著 录; 对 于读者群主要 为 中
依 据是 : 第一 , 期 刊报 道 的 内容是 否属 于数 据库 或
1 英文 题名 、 摘 要、 关 键 词及 作者姓 名 和 检 索系 统收 录的范 围 ; 第二 , 期 刊 的学术质 量及 影
单 位
G B / T 7 7 1 3—1 9 8 7 ( ( 科 学技 术 报 告 、 学 位论 文 响力 , 具 体 表 现 为影 响 因子 和 被 引频 次 ; 第三, 期 刊编 排 的标 准 化 和 规 范 化 ; 第 四, 期 刊 的 印 刷 质 量 _ 1 卜 。这 4条 中, 第 2条 是 最 为 关 键 的。 由 于期刊 的学术 质量是 由其 所载 的每一 篇论 文 的学 术 质量 决 定 的 , 因此 , 期 刊 能否 被 收 录 , 决 定 性 的 因素还 是期 刊所 载论 文 的学 术质 量 , 论 文 学 术 质 量 提高 了 , 期 刊 的影 响 因子 和 被 引频 次 也 就 提 高 了, 其 国际知 名度 自然会 提高 , 才有可 能被 国 际重 要 数据库 和检 索系统 收 录 。
计算机技术论文(5篇)

计算机技术论文(5篇)计算机技术论文(5篇)计算机技术论文范文第1篇(1)图书馆本身的社会地位受到了影响,图书馆是公共信息的供应者,为了提高学习,从事图书员的经济信息的讨论人员从这方面动身,建立了特地的数据库,承载了更多的网上信息,成立了许多数据库公司,因此图书已经不是唯一获得文献资料的方式。
其次,图书馆在讨论理论这方面,由于计算机技术的应用,导致投入到基础业务讨论的内容削减,他们认为既然有这样的技术,学习这些内容就没有用了,就不再进行系统的讨论,导致许多系统讨论的内容受到轻视。
影响了图书馆的长远性进展,同时也导致图书馆的消失严峻的技术化倾向。
(2)图书馆的服务方式也受到了严峻的冲击,作为图书的推举、指导方式,在网络环境下,图书馆消失力不从心的现象。
另外有些不良信息进入到图书馆中,导致一些青少年看到不良信息,同时,一些工作人员为了自身便利,在计算机中安装谈天工具等,影响了他们的工作效率,严峻违反了自动化建设的初衷。
图书馆在建设过程中,设置了许多岗位,许多岗位都是需要投入巨资才建设起来的,假如长时间得不到成果,便会影响图书馆的正常进展。
图书馆的许多数码相机等,都是采集加工的工具,计算机网络能够为读者供应远程下的检索服务,因此假如这些设备得不到良好的应用,严峻影响了图书馆的网站建设,对图书馆的进展也消失很大的影响。
2计算机技术在图书馆中的作用计算机的使用,加快了图书馆的进展,计算机作为图书馆的重要设备,能够简化图书馆的工作,使以往重复性的劳动变得简洁。
随机性的劳动模式适应了时代的进展。
在工作过程中配备计算机,对许多图书馆工作人员来说,能够有效提升工作效率。
有些读者在联机中遇到问题,可以通过计算机检索进行解决,实现了一对一的课堂形式。
图书馆作为重要的工具,本身在读者活动方式这方面,可以加强信息讨论,使图书馆向更深一层次进展,满意了读者的需求。
以往的工作模式都是采纳手动编制大量卡片的形式,利用计算机可以采纳输入资料的形式,大大提高了工作效率,也便利修改,实现了工作效率的有效提升。
汉语言文学论文-试论《国家通用语言文字法》颁行的意义及其特色

000汉语言文学论文-试论《国家通用语言文字法》颁行的意义及其特色2000年,在我国语言文字规范化工作的历史上是颇不寻常的一年。
这一年的10月31日,在第九届全国人大常委会第十八次会议上,《中华人民共和国国家通用语言文字法》以高得票率获得审议通过。
同日,国家主席江泽民签署颁布了这部法律,该法于新世纪的第一天开始施行。
《国家通用语言文字法》是根据宪法制定的,它体现了国家关于语言文字工作的方针和重要政策,科学地总结了清末以来前贤们在语文革新运动中的探索实践、特别是新中国成立50多年来开展语言文字工作的经验、教训,反映了人民的呼声、时代和现代化的呼唤以及几代语文工作者的夙愿。
《国家通用语言文字法》确立了普通话和规范汉字作为国家通用语言文字的法律地位,对国家通用语言文字在国家机关、学校、新闻出版、广播影视、公共服务行业以及公共场所和公共设施、信息技术产品、广告、招牌、企业事业组织名称和在境内销售的商品的包装、说明等方面的使用作出了规定。
这部法律的颁行,正像有学者所指出的,是中国人民献给21世纪的“一份不同寻常的世纪礼物”(江蓝生《简论语言文字立法的意义》,载《光明日报》2001年1月16日),标志着共和国语言文字法制建设取得突破性进展。
我们应该以此为契机,认真学习宣传和贯彻实施好这部重要的法律,为加速国家通用语言文字的规范化、标准化进程,尽自己一份绵薄之刂。
笔者参与了《国家通用语言文字法》的前期调研和起草工作,这里谨就颁行该法的意义以及该法的特色等,谈谈个人的学习体会和粗浅看法。
一、颁行《国家通用语言文字法》的意义《国家通用语言文字法》是我国历史上第一部关于语言文字方面的专门法律,它的颁行是我国社会语文生活中的一件大事,具有多方面的意义:(一)有利于巩固普通话和规范汉字事实上的“全国通用”地位,增进各民族、各地区间的交流与沟通,增强中华民族的凝聚刂。
语言是人类社会最重要的交际工具,文字是记录语言的书写符号,是使口语书面化的工具。
污水处理方法论文中文文献

已经开发了生物和化学处理方法来处理不同的案例。然而,这些应用往往局限于昂贵的费用,有毒化学品的不断增加,大量的安装所需空间所造成的二次污染等缺点和副作用。因此,基于物理,膜分离液体与固体方法日益普及,在过去的20年,成为21世纪的很有发展前景的技术。它是一种从废水和药品中提纯和过滤的技术。它也是一个压力驱动的过程,它依赖于膜的孔径大小(通常是薄的塑料薄膜或片材的微孔结构类似海绵)用以单独的过滤进入的废水,根据其孔径。膜的使用是人类常见的空气过滤器,水过滤器,遨游太空的宇航员回收饮用的水就是一个典型的应用
3.1先进的污水处理方法
先进的污水处理方法可分为三大类:
•三级处理
•物化处理
•结合生物物理处理
污水经过二级处理后,仍含有极细微的悬浮物、磷、氮和难以生物降解的有机物、矿物质、病原体等需进一步净化处理。在污水二级生化处理之后一般采用的三级处理方法有:凝聚沉淀法,砂滤法,活性炭、硅藻土过滤法,臭氧化法,离子交换,蒸发,冷冻,反渗透,电渗析等方法。污水经三级处理后可以回收重复利用于生活或生产,即可充分利用水资源,又可提高环境质量。
3.3 海水淡化技术
海水淡化是一个过程,消除海水中溶解的矿物质(包括但不限于盐),苦咸水,或经过处理的废水。有五个基本的技术,可以用来去除盐分和其他水溶解固体:蒸馏,反渗透(RO),电渗析(ED),离子交换(IX),和冷冻脱盐。蒸馏和冻结涉及从咸的盐水中提取纯净水,以冰或水蒸汽的形式,。RO和ED利用膜分离水中溶解的盐类及矿物质。IX利用其他的方法,更可以提取的溶解离子作为化学药品通过在水中溶解的矿物质离子交换。不同类型的脱盐工厂的相对百分数全世界都示于表2。
图2反渗透系统的流程图
3.3.3 离子交换(IX)
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
搜索引擎摘要:Internet 上日新月异的大量信息资源充斥,人们对信息的需求越来越多,各式各样的搜索引擎应世而生,然而随着大数据的到来,这对搜索引擎提出更高要求。
但是面对这么大量的数据,一般的搜索引擎有些吃不消,不能满足人们的需求,然而基于自然语言处理技术的智能搜索引擎出现了,本文将介绍搜索引擎用到自然语言处理技术去。
关键字:搜索引擎,自然语言处理,概念控制Search engine(*********************)Abstract: Changing a lot of information on the Internet is full of resources, people d emand more and more information, a variety of search engines shoul d the world was born, but with the arrival of big data, which is the search engine, higher demands. But the face of such a large amount of data, general search engines too much for some, can not meet people's needs, however, based on natural language processing technol ogy, smart search engines appeared, this article describes the search engine to use natural language processing technol ogy.Keyword: search engine,Natural Language Processing, Control Concepts1 搜索引擎1.1搜索引的擎定义搜索引擎,是指在Internet中主动搜索信息并能自动查询、提供查询服务的一类网站,这些网站通过网络搜索软件(又称为网络搜索机器人Web Robots)或网站登录等方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成数据库,当用户输入关键字(Keyword)查询时,该网站会告诉用户包含该关键字信息的所有网址,并提供通向该网站的链接。
1.2搜索引擎的分类在搜索引擎的发展过程中,出现了各式各样类型的搜索引擎。
根据索引方法来划分,可以分为基于概念(Concept Based)的搜索引擎:和基于关键字匹配(Keyword Based)的搜索引擎等。
根据搜索引擎索引、检索信息的方式来分,可以分为:基于目录的搜索引擎、基于机器人的搜索引擎、分布式搜索引擎、基于客户的搜索引擎、元搜索引擎和代理搜索引擎;根据搜索引擎索引信息的范围来划分,可以分为:综合式搜索引擎、专题式搜索引擎和特殊型搜索引擎;1.3搜索引擎的评价标准从功能上讲,搜索引擎实质上是一种网络信息检索工具,不同的搜索引擎所提供的服务在性能上差异很大,为了帮助用户有效的选择,也为了对搜索引擎的改进提供参考,非常有必要对各种搜索引擎进行比较和评价,传统的检索工具发展已经有百年历史,其评价标准已相当成熟,搜索引擎虽然与传统的检索工具有着很大的区别,其相应的评价标准也不尽相同,但仍可以借鉴传统检索工具的评价标准对网络检索工具进行评价。
这些评价标准包括:(1)搜索引擎收录信息的范围(2)反馈的信息量及内容的准确性(3)反馈的查询结果错误率(4)报道与内容更新速度(5)搜索引擎的检索性能(6)搜索引擎的响应时间(7)检索界面友好性(8)精品推荐(9)与其它搜索引擎的友情链接(10)搜索引擎的系统性能。
搜索引擎的功能在于将分散的网址集中起来,分类提供给用户,以便快速查找到所需的信息.常规搜索引擎一般都带有数据库资源,因此对搜索引擎的比较主要集中在数据库资源和搜索引擎的性能两个方面。
数据库资源方面的比较研究主要包括:数据库规模、索引方式、以及资源内容(如声音、图像、Usenet、FTP、Newsgroup、Gopher、Email等资源)。
检索性能的比较,主要有布尔检索、复杂布尔检索、相邻和相邻and/or检索(NEAR、ADJ、FAR、BEFORE、FOLLOWEDBY、<Sentenees>、<Paragraph>、截词检索、检索范围限定、出版日期限定、多语种检索、多种版本选择、大小写有别、概念检索、词语加权、词语限定、自然语言检索、特定字段检索、缺省值、检索结果显示方式、显示数量选择、相关排序、站点评价、相似性检索、结果过滤、用户界面、查准率、响应时间等方面的比较研究。
2 自然语言技术2.1自然语言处理引入现代科技的发展使人类进入了信息时代。
对于人类而言,最自然、最重要、效率最高的信息载体之一就是自然语言。
人类能够利用自然语言进行信息的传递和交流,这是人类与动物的本质区别之一。
语言是思维的载体,是人际交流的重要的工具。
在人类历史上以语言文字形式记载和流传的知识。
!知识总量的80%以上。
在信息化社会里,语言信息处理的技术水平和每年所处理的信息总量已成为衡最一个国家现代化水平的重要的标志之一。
语言是人类最重要的交际工具。
语言交际的模式主要是表达和理解,一方表达,另一方理解。
语言交际就是在一定的场合、依据一定的规则、表达和理解一定的意思,句法、谙义和语用在实际中是二位一体的。
从第一台电子计算机诞生到现在半个多世纪过去了,人类已经由发明工具延伸自己的四肢进化到延伸人脑。
计算机一开始只是科学家、l:程师的计算工具,现在已经逐步进入人众的日常生活。
因特网将世界各地的电脑连成一片,人们可以在网上查询或发布信息,可以在网上聊大、漫游、购物甚至在网上生存。
“电脑+网络”止在从延伸人的大脑发展为延伸人的生存空间,网络社会使人类的交际行为和方式发生重人变化,语言开始从单纯人类最重要的交际L具发展到可以进行人和机器之间的交流。
从表达方和理解方来石,现在交际行为至少有以卜四种模式:A人表达<-----一>人理解B机器表达<-----一>人理解C人表达<---------一>机器理解D机器表达<--------—>机器理解以电脑为发送信息的“一方”或接受信息的“另一方.,研究电脑如何表达人的语言(模式B)是“自然语言生成.,研究电脑如何理解人的语言(模式C)是“自然语言理解,.机器翻译(MT)需要电脑理解一种自然语言,然后转化生成为另一种语言,所以是既包含自然语言理解研究,也包含自然语言生成研究(属于模式D),还包含语言之间的转换研究.因此,研究“自然语言处理”,不可以不研究语言交际,不可以不研究人脑的语言机制和模拟人脑的语言机制。
2.2 自然语言研究的进程人工智能是以建立智能化的,自主的计算机为目标一门学科,它研究的课题包括:专家系统、问题求解、逻辑和不确定问题、自然语言处理、机器人学、学习机、视觉和模式识别等等。
其中自然语言处理是人工智能的核心课题,包括自然语言的分析理解和综合生成。
起初,自然语言处理强调立新主义,用人工智能的方法(如状态空间搜索、知识表示和机器学习等)来处理自然语言。
在这个阶段,人们集中力量建立各种规则系统,试图通过规则的演算来解决语言的分析和生成问题.但是不久人们发现,自然语言远不是一个精确定义的符号体系,梢心构造的规则只能在严格受限的领域内起作用,无法处理大规模真实文本中的种种复杂的语言现象.到了80年代后期,计算语言学开始注重对大规模真实文本的处理,出现了语料库语言学,其特点是以经验主义为旗帜,以对大规模真实文本的统计为主要方法。
语料库语言学认为,人类的一切语言知识都组含在大规模的语料之中,可以通过统计来发现这些知识。
以前人们凭主观内省而得到的语言知识是不完整的,甚至可能是错误的。
语料库语言学在真实文本的词性标注上大了一个打胜仗。
以前人们制定了各种语言学规则来标注词性,正确率并不高,而运用统计方法和训练语料(已标注过的语料)来标注词性,准确率高达95%左右。
然而,语料统计的方法也不是万能的,随着语言信息处理层次的提高,简单的统计模型越来越暴露出其缺点:难于处理长距离依赖的语言现象,难以获得高度概括的知识以顺利地处理训练语料之外的语料。
目前,在对大规模真实文本进行自动句法分析这一关键问题上,还没有取得突破性进展。
2.3自然语言理解研究理论、方法及应用范围计算机是1946年出现的,50年代初,人们就开始了用计算机处理自然语言研究,这首先是从机器翻译开始的,1954年,美国GeorgetOWn大学在IBM公司协助下研制的第一个俄英机器翻译系统。
该系统规模较小,只有6条语法规则,250左右各单词,但是它的研制成功极大地推动了机器翻译的开发.世界许多国家,包括我国,都开始了机器翻译的研究。
这个时期,理论上出现了许多有价值的思想,还设计了专门的机译程序设计语言.但是由于自然语言是极其复杂的,其处理涉及了许多知识和手段,而且它的研究水平离不开当代的语言学、计算机科学研究、特别是人工智能的研究实际水平。
因此,没有研制成功真正使用的机器翻译系统。
在经过了一段乐观时期后,人们开始对机器翻译、人工智能的研究产生了怀疑。
19“年,美国科学院发表了著名的ALPAC报告,这个报告对机器翻译墓本采取了否定的态度。
从此,机器翻译的发展进入了低潮期.许多学者的研究重心转向了自然语言理解的基本理论和方法,同时人工智能也在发展之中。
人工智能的前辈们提出了多种知识的表示、启发式搜索理论和各种推理方法,并且把对自然语言的理解作为人工智能的一个应用课题来研究.在后来的三十多年里,自然语言理论一直在发展着,涌现出了一大批新的理论和方法.这些新的理论和方法可以归纳为以下3个体系:(1) 基于语法的分析法1957年Chomsky提出了转换生成语法理论.1972年,W以川s以这个理论为基础,涉及了扩充转移网络(ATN),并完成了LUNAR系统.1997年MARCUS提出了语法分析的确定性算法.进入80年代,又有许多以复杂特性集为特征的语法出现,例如词汇功能语法(LFG)、广义短语结构语法(GpSG)、功能合一语法(FUG)等等。
(2) 基于语法加语义的分析法以FILLMORE在1968年提出的格语法为代表。
格语法一般分为语法格和语义格两个系统。
最早的语法格只有6个,目前英语中使用的有20多左右,日语中用到了70多个,汉语可分出20多个。
格语法是以动词驱动的,只要找到动词,就可以不关主、谓、宾的次序如何,都可以用语义框架将其愈思表达出来。