关于知网-中文信息结构库

合集下载

知网

知网
而不是逐一地、显性地标注在各个概好搜搜索引擎
谷歌搜索引擎
台,上面可以搜索阅览成千上万的文献图书和论 文,两者的使用方式是存在区别的,论搜索读秀比
知网作为一个知识系统,实副其名是一个网而不是树。它所
着力要反映的是概念的共性和个性。 知网还着力要反映概念之间和概念的属性之间的各种关系。
知网把下面的一种知识网络体系明确的教给了计算机进而使知
识对计算机而言是可操作的。 知网的一个重要特点是:类似于同义、反义、对义等种种关
系是借助于《同义、反义以及对义组的形成》由用户自行形成
读秀的技巧
超星发现的概念
超星发现以近十亿海量元数据为基础,利用数 据仓储、资源整合、知识挖掘、数据分析、文献计 量学模型等相关技术,较好地解决了复杂异构数据 库群的集成整合、完成高效、精准、统一的学术资
源搜索,进而通过分面聚类、引文分析、知识关联
分析等实现高价值学术文献发现、纵横结合的深度 知识挖掘、可视化的全方位知识关联。
致谢
谢谢观看
读秀的特点
无可比拟的海量数据 独一无二的深度搜索 一目了然的全文显示 全面快捷的参考咨询
读秀的技巧
如果找到的资料很多,或者不大准的时候 (1)要利用好左侧的那些聚合(类)功能,以便快速
筛选,缩小范围。
(2)利用在结果中检索或者高级检索,以便尽快找
准找到所需要的资料。
如果找到的资料的外文关键词、 同义词、页尾的相关词的提示,以便找到所需要 的更多资料。
超星发现的特点
“超星发现系统”是一个基于海量知识挖掘与数据分析的发现系
统,相对于目前国内外发现系统,具有以下特点:
1.全面地发现中文资源,每周更新两次元数据 2.精准地发现中文资源,由多个强大的专业级词表库支持

中国知网介绍

中国知网介绍

中国知⽹介绍中国知⽹介绍⼀、知⽹系列资源1.《中国学术期刊⽹络出版总库》收录规模:全球最⼤的中⽂知识资源数据库,国家重中之重项⽬,收录学术期刊7000多种。

收录完整率:期刊种数完整率、核⼼期刊完整率、⽂献收录完整率、⽂献收录册数完整率、全⽂信息完整率均不低于99.9%。

收录年限:最早收录从1915年起,4000种期刊从创刊到⾄今全部收录,其余期刊为1994年⾄今。

出版更新:⽹络出版时间不迟于印刷版1.5个⽉,⽇均更新6000余篇。

产品标准:具有⾏业内⾸个产品标准, 2006年10⽉通过国家验收。

2.《中国博⼠学位论⽂全⽂数据库》收录范围:收录1999年以来全国具有博⼠学位授予权的博⼠学位论⽂。

⽂献总量:截⽌⽬前收录博⼠论⽂10万余篇。

论⽂质量:收录范围严格把关,对具有博⼠学位授予权的学科点的博⼠论⽂全部收录。

数据新颖:近三年数据占全部数据量的72%合作院所:合作的单位已达482家,其中设有博⼠培养点的单位373家。

与211院校合作率达到100%3.《中国优秀硕⼠学位论⽂全⽂数据库》收录范围:收录1999年以来全国具有博⼠学位授予权的硕⼠学位论⽂及全国⽆博⼠学位授予权单位的优秀硕⼠学位论⽂。

⽂献总量:截⽌⽬前收录硕⼠论⽂近70多万篇。

论⽂质量:收录范围严格把关,对具有博⼠学位授予权的学科点的硕⼠论⽂全部收录;有学科和研究特⾊的硕⼠点的硕⼠论⽂全部收录。

数据新颖:近三年数据占全部数据量的72%合作院所:合作的单位已达482家,其中设有博⼠培养点的单位373家。

与211院校合作率达到100%4.《中国重要会议论⽂全⽂数据库》资源完备:收录2000年以来⼆级以上学会、协会、⾼校和在国内召开的国际会议主办单位会议论⽂⽐例达85%以上。

2008年收录会议论⽂将达到94万篇。

内容权威:与国内90%以上⼀级学会合作,与中国科协95%以上⼀级学会合作。

数据新颖:⽹络出版时间平均不迟于会议结束之后2个⽉。

收录全⾯:收录学科全,理⼯类与⼈⽂类数据均完整收录。

中国知网使用方法(CNKI)

中国知网使用方法(CNKI)

◆ 中国重要报纸全文数据库
简 介:收录2000年以来中国国内重要报纸刊载的学术性、资料性文献的 连续动态更新的数据库。至2012年10月,累积报纸全文文献1000多万篇。 文献来源:国内公开发行的500多种重要报纸。 专辑专题:产品分为六大专辑:文史哲、政治军事与法律、经济、教育与社 会、科学、恋爱婚姻家庭健康;43 个专题文献数据库。 收录年限:2000年至今
CNKI简介-3
◆ 中国重要会议论文全文数据库
简 介:重点收录1999年以来,中国科协系统及国家二级以上的学会、协 会,高校、科研院所,政府机关举办的重要会议以及在国内召开的国际会议 上发表的文献。其中,国际会议文献占全部文献的20%以上,全国性会议文 献超过总量的70%,部分重点会议文献回溯至1953年。 专辑专题:产品分为十大专辑:基础科学、工程科技Ⅰ辑、工程科技Ⅱ辑、 农业科技、医药卫生科技、哲学与人文科学、社会科学Ⅰ辑、社会科学Ⅱ辑 、信息科技、经济与管理科学。 收录年限:1999年至今( 部分回溯至1953年会议论文)
高级检索--句子检索
出版物检索(期刊导航)
出版物检索(期刊导航)
出版物检索(期刊导航)
目录页浏览
Cnki其他类型文献检索
利用CNKI导出参考文献
利用CNKI导出参考文献
利用CNKI导出参考文献
部分参考文献格式需要进行调整、修改。
三、CNKI的特点
二、 CNKI操作说明
第一步:登录
进入图书馆网站—中文数据库—中国知网(cnki)—远程站点
第二步:选择文献类型和专辑
第三步:分析课题,提取检索词,进行检索 检索示例:查找有关中药企业跨国经营的文献
检索词:
中药企业 跨国经营

CNKI中国知识资源总库

CNKI中国知识资源总库
匹配 ★ 精确:检索结果中包含与检索词完全相同的词语 ★ 模糊:检索结果包含检索词或检索词中的词素
词频 ★ 指检索词在相应检索项中出现的频次。词频为空, 表示至少出现1次,如果为数字,例如3,则表示至 少出现3次,以此类推。
CNKI重要检索途径
主题 篇名 关键词
或者篇名 、或者关键词、或 者摘要
检索实例1
如何查找本专业的学术期刊?
期刊导航
点击右上角 期刊导航
首字母导航
期刊检索
专辑导航
按学科浏览
找到本专业 所属类别
点击期刊封面或 者题名链接
本刊内容检索
年代索引
最新内容
期刊相关信息
CNKI高级检索
输入检索词
选择学科领域
检索词之间的 连接关系
作者和作者单 位检索
CNKI检索项说明
重要数据库使用方法之一
中国知识资源总库(CNKI)
中国知识资源总库(CNKI) CNKI全称是Chinese National Knowledge Infrastructure,即中国知识基础设施(中国知网) ,这个概念于1998年世界银行提出。 CNKI包括了中国期刊全文数据库、优秀博硕论文 数据库、科技会议论文数据库等。其中中国期刊全 文数据库收录内容共分为十大专辑:基础科学、工 程科技Ⅰ辑、工程科技Ⅰ辑、农业科技、医药卫生 科技、哲学与人文科学、社会科学Ⅰ辑、社会科学 Ⅱ辑、信息科技、经济与管理科学。
通过科研基金名称,查找科研基金资助的文献。对检索结果 进行分组筛选,还可全面了解科研基金资助学科范围,科研 主题领域等信息。
直接通过 基金名称检索
通过基金列表选择
科研基金检索
了解某基金在某个学科 领域资助发表的论文

基于《知网》的中文信息结构消歧研究

基于《知网》的中文信息结构消歧研究
相似度计算消歧法 ; 最后 针 对 不 同优 先 级 的 中文 信 息 结 构 集 设 计 了不 同消 歧 流 程 。 实验 结 果 证 明 消歧 正 确 率 达 到 了 9 % 以上 。 0 关 键 词 :知 网 ; 中文 信 息 结 构 ; 消歧 ; 图相 容度 ; 义 相 似 度 语
中 图分 类 号 :TP 9 31 , 文献 标 识 码 :A
Zhe ngz u, e an 45 011,Chi ho H n 0 na;
2 De a t n fM a h ma is h n z o a h rS Co lg . p rme t t e tc ,Z e g h u Te c e ’ o l e,Z e g h u He a 5 0 4,Ch n ) e h n z o , n n4 0 4 i a
Ab ta t src : PCh ne eM e s i s sageSt ucur r t eDat b e,a n i po t n o po n n owN e ,c n bet e t d a ul a as sa m r a tc m ne ti H t a r a e sa r e
第 2 6卷
第 4期
中文信息 学报
J OURNA L OF CHI NES I ORM ATI E NF ON PROCE S NG S I
V o1 26. No. 4 .
21 0 2年 7月
J 1,2 1 u. 0 2
文 章 编 号 : 0 30 7 ( 0 2 0 —0 30 1 0 -0 7 2 1 ) 40 4 —7
ba e it a tc la lc ton I h spa er he Chi e e m e s ges r t e r is l o m eie nd t n di de s n o pr c ia pp ia i . n t i p ,t n s s a t ucur s a e fr ty f r z d a he vi d l

CNKI

CNKI

1998年。

在党和国家领导以及教育部、中宣部、科技部、新闻出版广电总局、国以直接通过网络进行一次出版,出版形式多种多样,包括文本、图片、音频、视频、动画、软件、网络课程、科学数据等多种媒体方式。

目前,CNKI 已集结了7000 多种期刊、近1000 种报纸、18 万本博士/ 硕士论文、16 万册会议论文、30 万册图书以及国内外1100 多个专业数据库。

其中博士/ 硕士论文、会议论文及部分数据库为一次出版,期刊、图书、报纸等为二次出版。

如此大的网络出版规模在世界上也是绝无仅有的。

知识搜索编辑随着互联网的发展和网上信息量的增加,搜索引擎逐渐表现出自身的缺陷和不足。

一是搜索引擎对内容收录无法提出明确标准,信息质量良莠不齐,垃圾内容越来越多;二是搜索引擎主要是通过关键词匹配的简单方式查找网页,但是用户通常很难用几个孤立的关键词表达清楚自己的查询需求,而排序算法又主要基于网页的链接分析,因此,难以满足用户对内容准确检索的需求;三是用户更希望直接得到答案,而这只有深入理解文献内容后,才能实现。

针对用户的这些需求和搜索引擎的不足,CNKI 推出了知识搜索平台。

文献搜索基于对文献内容的详细标引,CNKI 文献搜索提供了对标题、作者、关键词、摘要、全文等数据项的搜索功能;文献搜索还提供了多种智能排序算法。

相关性排序考虑了文献引用关系、全文内容、文献来源等多种因素,使排序结果更合理。

被引频次排序是根据文献的被引频次进行排序;期望被引排序通过分析文献过去被引用的情况,预测未来可能受到关注的程度;作者指数排序则是根据作者发文数量、文献被引用、发文影响因子等评价作者的学术影响力,并据此对文献进行排序。

CNKI 文献搜索提供的知识聚类功能是一般搜索引擎没有的。

基于快速聚类算法,对返回结果的知识点进行聚类,并将主要知识点显示给用户,帮助用户改善搜索表达式,扩展搜索意图。

学术定义概念的定义是描述知识的一种基本单元,被称为定义型知识元。

CNKI系列数据库介绍.

• 全球拥有5000多家机构用户、3000万最终用户 • 日访问量2000万人次、年下载全文4.5亿篇
– 典型用户
• 大陆:98% 的高校和科研院所,2000多家政府、医院和企业 • 海外:美国白宫、国防部,法国国家图书馆,哈佛、麻省…
中国期刊全文数据库(CJFD)
全球最大的连续动态更新的期刊全文数据库;
功能齐全:可以在线浏览、全文下载、分章节下载,也可 以根据需要只保存单页或者片段文献。
中国重要会议论文全文数据库 (CPCD)
传播速度最快的会议资讯媒体。 收录我国2000年以来国家二级以上学会、协会、高等院校、 科研院所、学术机构等单位的论文集,年更新约10万篇论 文。至2006年12月31日,累积会议论文全文文献近58万 篇。
目前国内最完备、质量最高、更新最快的博硕士学位论文 全文数据库。 已收录:1999年至今420博士培养单位的博士学位论文和 652家硕士培养单位的优秀硕士学位论文 文献量:至 2006年12月31日,累积博士学位论文全文文 献5万多篇,累积硕士学位论文全文文献37万多篇 。 另外,除了CDMD,还有两个比较大的学位论文数据库
第二部分:如何使用CNKI?
选择数据库
单库检索 选择导航
跨库检索
输入检索词 选择检索条件
执行检索 检索结果浏览 检索结果下载
使用介绍
• • • • •
一 登陆 二 单库检索 三 跨库检索 四 CNKI搜索 五 数据库导航
一 登陆
• 三种方式 • 帐户登陆 • IP登陆 • 访客登陆 个人用户 机构用户 题录√ 全文 X
功能齐全:完全打破会议论文集的界限,可以按照主题进 行检索,应用非常方便。
中国重要报纸全文数据库(CCND)

中国知网


作者发文检索
导 航
检索史
结果处理
预览
全文阅读
全文下载


全文阅读:点击篇名
全文下载:点击下载箭头
检索字段的选择
检索项有多个检索字段供选择,
包括“全文、主题、篇名、关键词、 摘要、参考文献、中图分类号”等。
“+”:每次点击一下,增加一个检索框,最多可出现七个。 “- ”:每次点击一下,减少一个检索框。
检索控制条件:包括时间、文献来源、基金、 作者、作者单位等选项。
举 例
专业检索:输入复合检索式,可用检索途径代码
中心网站及数据库交换服务中心每日更新五千至 七千篇,各镜像站点可实现每日更新,专辑光盘每月 更新,专题光盘年度更新。
中国期刊全文数据库
☆分十大专辑,共168个专题文献数据库。 ☆内容覆盖理工A(数理科学)、理工B (化学化工能源与材料)、理工C(工业 交通建筑)、农业、医药卫生、文史哲、 政治军事与法律、教育据库 CNKI中国
学术期刊网络出版总库 链接入口(两
个,用户名:gdgdyxy,密码:gdyxy)




帐号:gdgdyxy 密码:gdyxy


检索方式
快速检索 高级检索 专业检索 作者发文检索 期刊导航
快速检索
高级检索
下载全文浏览器
CNKI系列数据库的全文以CAJ或PDF 格式存储,浏览时必须下载CAJViewer或 Acrobat Reader浏览器。CAJViewer 7.0 可以阅读所有CNKI产品,它除了支持在
线浏览、发邮件等功能外,还支持OCR在
线识别。
OCR在线识别

OCR(Optical Character Recognition)即光 学字符识别技术。是对文本资料进行扫描, 然后对图像文件进行分析处理,获取文字及 版面信息的过程。 OCR在线识别:指全文浏览器里把图象上的文 字识别成文本格式的功能。

三大中文数据库的文献类型

三大中文数据库的文献类型第一家中文数据库是知网(中国知网)知网是中国最大的综合科技文献数据库,收录了各个学科领域的学术论文、期刊、博士、硕士论文、会议论文、报纸、年鉴、专利等不同类型的文献资源。

知网涵盖了从1952年至今的全文文献,拥有超过4亿篇全文文献资源,每天新增的文献达到了数以万计。

1. 学术论文:知网收录了各个学科领域的学术论文,涵盖了自然科学、工程技术、农业科学、医药卫生、哲学社会科学等众多学科领域。

学术论文是研究者发表研究成果、交流学术观点的重要形式,对于推动学术界的发展具有重要作用。

2. 期刊文献:知网收录了国内外各个学科领域的学术期刊,包括自然科学期刊、社会科学期刊、医学期刊等,涵盖了大量的学术研究成果。

期刊文献作为学术交流的重要载体,为研究者提供了一个发布和分享研究成果的平台。

3. 硕博士论文:知网收录了国内外的博士、硕士学位论文,这些论文是研究生们选择课题进行研究的成果总结,也是学术界关注的焦点。

硕博士论文的发表体现了研究生在学术研究方面的能力和造诣。

第二家中文数据库是万方数据库万方数据库是综合性的学术文献数据库,索引和提供了各个学科领域的学术论文、期刊、硕博士论文、会议论文等大量的中文文献资源。

1. 期刊文献:万方数据库收录了大量中文期刊的文献资源,包括自然科学、社会科学、医学、工程技术等学科领域的学术期刊。

期刊文献是学术交流的重要渠道,可以了解到最新的研究成果和学术动态。

2. 学术论文:万方数据库收集了各个学科领域的学术论文,包括自然科学、医学、工程技术等。

学术论文是学术研究的重要成果,可以了解到研究领域的最新进展和研究方法。

3. 硕博士论文:万方数据库收录了国内外的硕士和博士学位论文,这些论文是研究生们在特定领域进行研究的成果总结,可以了解到不同领域的研究方向和成果。

第三家中文数据库是CBM数据库CBM数据库是中国生物医学文献数据库,涵盖了生物医学领域的文献资源。

CBM数据库收录了生物医学期刊、硕博士论文、会议论文等各种类型的文献资源。

CNKI


8)期刊导航
读者可直接浏览期刊基本信息,按期查找期刊文章。CNKI系统提供以 下主要导航:

(1)专辑导航:按、根据期刊知识内容分类,分为10个专辑,168个专

题; (2)数据库刊源导航:根据期刊被国内外其他数据库收录情况分类; (3)刊期导航:按期刊的发行周期分类; (4)出版地导航:按期刊的出版地分类; (5)期刊荣誉榜导航:按期刊评价的各种要求、标准、获奖情况分类; (6)核心期刊:按2004年“中文核心期刊要目总览”核心期刊表分类, 只包括被2004年“中文核心期刊要目总览”收录的期刊; (7)中国高校精品科技期刊:2006年获教育部“中国高校精品科技期 刊奖”荣誉的期刊。

产品特点
合法出版:取得编辑部及作者授权 资源完备:期刊种数全、文献齐、不缺刊不缺期。 学科全:综合性,理、工、农、医、人文社科、艺术、经济、政治、
法律
加工质量高:90%数字化,全文显示清晰
更新及时:日更新 权威性全文文献检索工具
中国优秀博硕士学位论文

如果想对某个主题的文章行进深入的研究,可查找博硕士 论文。 中国优秀博硕士学位论文
2.1.2 数据库的类型
书目数据库 包括索引、文摘等二次文献数据库。 数值数据库 主要包含数字数据,如统计数据、科学实验数据、科 学测量数据等。如:中国科学计量指标数据库。 事实数据库 收录人物、机构、事务等的事实性数据。 全文数据库 提供完整的原始文献数据。
2.1.3期刊的著录信息特征
•篇名:中文篇名、英文篇名。 •关键词:中文关键词、英文关键词。 •摘要:中文摘要、英文摘要。 •第一作者:是指文章发表时,多个作者中排列于首位的作者。
KI检索功能
单库检索 就是选择在CNKI系列数据库中的任一单独的 库内检索。
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于知网-中文信息结构库
董振东董强
《知网-中文信息结构库》的研究与建设,是《知网》这一知识系统向中文研究延伸的具体体现。

现在我们公布的中文信息结构库包含268种信息结构模式,附带着一万多实例,总字数六万余。

就其规模而言它还只能算是一个雏形,但就其所包含的模式而言应该说已趋于成熟。

中文信息结构库将是中文信息处理的重要的甚至是不可或缺的资源之一。

它也被我们称为袖珍型经典语料库,这是因为它的素材来源于实际语料,而另一方面又是经过人工精心筛选整理的,它覆盖面宽但又能避免统计价值不高的重复。

下面我们将对《知网-中文信息结构库》做出说明,
1.信息结构的描述对象
本库的基础是《知网》。

本库的信息结构的描述对象是:由中文词语所表述的、由《知网》所规定的最基本的运算单元,它们是:万物、部件、属性、属性值、事件、时间和空间等。

本库的信息结构的描述内容是:中文词语的各个组成部分之间的、由《知网》所规定的动态角色关系或属性。

通过对信息结构的揭示,我们可以认识到中文是如何描述诸如万物、部件、属性等等概念的,或如何由简及繁地表达意义的。

由此本库也将揭示中文的语言结构的规律。

2.本库现有规模
现在我们公布的中文信息结构库包含:
A. 信息结构模式:271个
B. 句法分布式:49个
C. 句法结构式:58个
D. 实例:11,000词语
E. 总字数:中文60,000字
3.说明
A. 本库可以认为是由两个文件组成的:(A)信息结构模式描述及例子;(B)信息结构模式的句法结构索引。

B.信息结构的获取
中文的信息结构将主要从大规模真实语料中抽取。

其方法简单地说其要点是:抽取虚词之间的语言片段,然后经人工选择,确定取舍。

我们的信息结构基本上是不可以包含虚词的,这有两点考虑:第一,汉语中的虚词与其他语言一样,由它们引导的短语,其自身多半可以表示相当明确的意义,如:各种介词,结构助词等。

第二,那将使结构模式的数量大大膨胀,以至难以控制,至少我们目前没有能力去建设那样大规模的语料库。

C. 术语解释
(a)信息结构
试以“走私集团”这样一个词语为例。

如果把其中的两个基本单元“走私”和“集团”,描述为定中结构,那么这是句法结构;如果把两个基本单元描述为“行为动作”和“施事”间的关系,那么这是语义关系结构;然而,如果不仅能反映“行为动作”和“施事”间的关系,
而且还能够反映出是“一个团体”“从事运送,这个运送且是一种罪行”,那么这就是我们所谓的信息结构(message structure)。

又如:“餐馆”--它的句法结构可以认为是由“餐”这一名词和“馆”这一名词构成的定中结构的词语;它的语义结构可以认为是“食物”这一概念对“场所”这一概念的限定;而信息结构不仅体现了上述语义结构表现的关系,更重要的是在这个结构中还隐性的包含一个行动的义元,并且这一行动的义元只能是“吃”,这样的结构将成为文本理解的基础。

由语言代表的信息结构是依赖于特定语言的。

(b) 句法分布式
由词性代表的词语基本单元的排列,如:“餐馆”这样的词语的排列为N1 + N2,而“走私集团”这样的词语的排列为V + N。

这里仅仅反映排列顺序,而不涉及管辖关系。

同一个句法分布式可能有多种不同的管辖关系,因此它可能是歧义的。

(c) 句法结构式
由词性代表的词语基本单元的排列以及它们之间的管辖关系。

如:“餐馆”这样的词语的句法结构式为N1 <-- N2,而“走私集团”这样的词语的句法结构式为V <-- N。

同一个句法结构式虽然只有同一的管辖关系,但由于可能会对应着不同的信息结构模式,因此它可能是歧义的。

例如,“餐馆”和“花园洋房”有着相同的句法结构式,即N1 <-- N2。

但它们的信息结构模式是不同的。

前者为:{(物质,食物) [受事] <-- <事件,行动,吃>} <-- [处所] (组织/场所),而后者为:(万物) [领属物] <-- (万物)。

(d) 信息结构模式
由义元代表的词语基本单元的排列以及它们之间的管辖关系。

如:“餐馆”这样的词语的信息结构模式为:{(物质,食物) [受事] <-- <事件,行动,吃>} <-- [处所] (组织/场所);又如“走私集团”这样的词语的信息结构模式为(事件,行动) <-- [施事] (人/拟人)。

信息结构模式跟句法分布式和句法结构式不一样,它们是没有歧义的。

不同的意义将由不同的信息结构模式来表达。

目前本库的基本状况也反映了这些特性,本库句法分布式有47个,句法结构式有57个,而信息结构模式有264个(应该还会多一些)。

D. 本库信息结构模式描述由下列部分构成:
(a) SYN_S= 表示相应的句法结构式
(b) SEM_S= 表示信息结构模式
(c) Query 和Answer:表示该信息结构模式传达的真正信息并由此可产生的问与答
(d)例子:给出符合该信息结构模式的真实语料的实例
E. 本库采用的标识
(a)词类标记:
N 名词 NUM 数词 CLAS 量词
V 动词 PREP 介词 CLASP 数量短语
A 形容词 PREFIX 前缀
ADV 副词 SUFFIX 后缀
(b)义元标记:
诸如“万物”、“事件”、“属性”、“属性值”等均来源于《知网》,这里不必赘述。

(c)动态角色和属性标记:
诸如“施事”、“经验者”、“时间”、“限定”、“发端”等均来源于《知网》,除此而
外,还有几个新增的,如:“合成”、“紧缩并列”等,它们意义明显,不必赘述。

(d)其他标识符:
(1)():其中放置义元标记如:(人,家) [修饰] <-- (人,专/专/姓);在Query中表示“或”。

(2){}:其中放置有多重套叠关系的词语或义元标记;
如:{N <-- V} <-- N
{(万物/属性) [受事/成品受事/范围/内容/对象/领属物] <-- (事件,行动)} <-- [施事] (人/组织/部件,%组织)
(3)[]:其中放置动态角色和属性标记;如:(人,家) [修饰] <-- (人,专/专/姓) (4)<>: 其中放置义元标记,这些义元标记仅出现于信息结构中,它们没有相对应的词语;如:{(事情) [受事]<-- <事件,行动,从事>}<-- [场所] (设施/组织) (5)<-- 和 -->:在句法结构和信息结构模式中应用,表示词语和义元之间的管辖关系。

标记的箭头端指向的是“受辖者(governed)”,后端指向的是“管辖
者(governor)”。

如:(人,家) [修饰] <-- (人,专/专/姓)
(6)/ :表示“或”,如:(人,专/专/姓);
(7), (英文逗号):表示“且”,如:(人,家);
(8),(中文逗号):用以间隔例子,如:夫-妇,母-女,母-子,
(9)-:用以间隔词语的各组成部分,如:猎-人,行-人,境外-毒品-走私-犯,
(10)“”:表示特定的词语而不是义元,如:(“嫌”/“员”/“局”/“队”/“处”);
在Answer中表示作答时要添加的词语,而不是可以从句法结构中直接得到
的。

(11)+:用于句法结构中或Answer中,表示“和”;
(12)词性N、V等后面的1、2、3等:表示句法结构中出现的多个N或V等的顺序;
鸣谢
知网-中文信息结构的理论研究开始于1996年。

1998年后曾得到国家语委97@YY001课题的支持,在词汇的内部结构方面进行较深入的探讨。

1999年开始得到香港大学教育资助委员会基金项目HKUST6149的支持,开展了中文信息结构库的全面建设。

在中文信息结构模式方面,有香港科技大学的颜国伟博士和汪炳蔚先生以及南洋理工大学的谭慧敏博士的积极参与。

他们的大规模真实语料的标注工作为信息结构库的检验、发现和补充做出了重要贡献。

加拿大学者Dekang Lin博士曾给我们寄来他从大规模真实语料中抽取的词语表,为信息结构库的建设提供了可贵的原始数据。

我们对上述各单位和学者表示由衷的感谢。

参考文献
(我们下面只列出在我们建设《知网-中文信息结构库》时,主要的、不可或缺的参考文献,而略去了在我们十余年研究过程中曾经参考和学习过的其他许多参考书。


[1] 现代汉语词典(修订本),中国社科院语言研究所词典编辑室,商务印书馆,1996
[2] 现代汉语通用字典,中国人民大学语言文字研究所,外语教学与研究出版社,1987
[3] 现代汉语语法信息词典详解,俞士汶等,清华大学出版社,1998
[4] 汉语常用词搭配词典,杨天戈等,外语教学与研究出版社,1990
[5] 汉语常用动词搭配词典,王砚农等,外语教学与研究出版社,1984
[6] 形容词用法词典,郑怀德等,湖南出版社,1991。

相关文档
最新文档