大数据环境下的文献分析与利用

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数字化、网络化 大数据时代来临
大数据
复杂
Linked Data
符 号
化 简化
《易经》思想给出的 “大数据”困境破解之道
©2013 叶艳鸣
©2013 叶艳鸣
Βιβλιοθήκη Baidu
三、基于知识挖掘的文献分析与利用 ——以基因组研究为例
1、纵观全局的动态调研
315,264条
研究概貌
研究概貌
研究概貌
2、研究关联性分析(热点追踪)
特定研究者追踪
特定文献分析—图书
5、特定文献分析
特定文献分析—最新成果
特定文献分析—早期研究
1966年就有了 基因组研究
特定文献分析—影响力最大的图书
特定文献分析—期刊论文
特定文献分析—最具影响的期刊论文
特定文献分析—CSCD期刊论文
特定文献分析—SCI期刊论文
特定文献分析—学位论文
苹果App Store应用商店每天下载4600万款应用 新浪微博用户每日发博量超过1亿条 百度每日处理的搜索量超过了50亿
©2013 叶艳鸣
国际数据公司(IDC)的研究结果表明: 2019年全球产生的数据量为0.49ZB 2009年的数据量为0.8ZB 2019年增长为1.2ZB 2019年的数量更是高达1.82ZB 相当于全球每人产生200GB以上的数据
《周易·系辞上》:
易无思也,无位也,寂然不动, 感而遂通天下之故
©2013 叶艳鸣
人类应对“大数据”之路径
岩刻、结绳记事、 文字起源
实体世界
符号化

复杂

化 简化
大 日出云端与“旦”字的产生 喂…有好“ ”一片树林呀
信息的标识:实物→图画→象形文字
©2013 叶艳鸣
符号的产生:
人与自然区分的分水岭 虚拟世界的起源
文本挖掘 利用智能算法,并结合文字处理技术,分析大量的非结构化文本源
数据仓库 在线分析处理(OLAP)、在线事务处理(OLTP)
分类技术 决策树、贝叶斯方法、神经网络、遗传算法、粗糙集和实例推理(CBR)等。
聚类技术 bookmark 根本原因分析
云模型
统计分析方法、模糊逻辑、最近邻技术、规则归纳 智能化网络信息服务系统 它是一种回溯性失误分析工具 解决数据挖掘中的知识表示问题
特定文献分析—学位论文
特定文献分析—学位论文
特定文献分析—标准
特定文献分析—专利
关键词:禽流感
不同文献敏感度
关键词:禽流感
不同文献敏感度
竞争态势分析
6、机构研究能力评价分析
学术产出评价—天津职业技术师范大学
学术产出评价—天津职业技术师范大学
学术产出评价—高产学者、高影响力成果
戴 怡(27) 周明星(23) 王仲民(22) 张学英(20) 张兴会(20) 赵 丽(15) 关志伟(15) 蓝 欣(15) 郑宏兴(15) 曹 晔(14)
读秀 云共享服务 数据库
六、文献利用行为分析
数据库使用量
学科使用量统计
图书馆是一个生长的有机体
——阮冈纳赞(印度)
每一次信息技术进步都极大地推动了 科学技术的飞跃发展
知识发现 为科技创新插上飞翔的翅膀
谢谢
知识发现 为科技创新插上飞翔的翅膀
周明星(65) 戴怡(46) 郑宏兴(42) 王仲民(39) 张兴会(35) 张学英(32) 蓝欣(30) 孟庆国(28) 关志伟(28) 刘晓(25)
主要研究领域(关键词分析)
研究相关性追踪
不同时期研究热点变化追踪
2019-2019年
2019-2019年
3、研究关联性分析(时间序列)
研究继承性追踪
研究继承性追踪(引用)
4、重要成果追踪(竞争情报)
特定研究者追踪(专家)
特定研究者追踪(主要成果)
特定研究者追踪
研究重点与方向
合作团队
大数据环境下的文献分析与利用
叶艳鸣
©2013 叶艳鸣
2019·10
一、几点认识
©2013 叶艳鸣
大数据的海啸——巨量信息
43,600,000条结果
©2013 叶艳鸣
大数据的海啸
©2013 叶艳鸣
大数据时代的四个特征
©2013 叶艳鸣
一组数据
Facebook每天处理的数据量(2019年): 处理27亿次Like按钮点击。 上传3亿张图片。 吸收逾500TB新数据。
资料来源:冷伏海《基于文献的知识发现的应 用进展研究》
大数据的开发路径
Mata
data Big data
©2013 叶艳鸣
Link data
知识发现进阶 ©2013 叶艳鸣
二、“大数据”困局的破解之道
由《易经》想到的:
《易经》道:“易”有三易: 简易 变易 不易
©2013 叶艳鸣
《易经》之简易
而到2019年为止 人类生产的所有印刷材料的数据量是200PB 全人类历史上说过的所有话的数据量大约是5EB
IBM的研究称,整个人类文明所获得的全部数据中,有90%是过 去两年内产生的。而到了2020年,全世界所产生的数据规模将达 到今天的44倍。
©2013 叶艳鸣
大数据时代的四个特征
©2013 叶艳鸣
©2013 叶艳鸣
人类应对“大数据”之路径
语言、书籍、通信 知识体系起源
信息世界
知识体系
复杂
符 号 简化 化
©2013 叶艳鸣
人类应对“大数据”之路径
书、报、刊、学位论文、 标准、专利…… 目录学起源
藏书体系
复杂
目录体系

号 化
简化
目录系统 OPAC系统
©2013 叶艳鸣
人类应对“大数据”之路径
深圳职业技术学院(9367) 金华职业技术学院(7180) 黄冈职业技术学院(5835) 无锡商业职业技术学院(5149) 商丘职业技术学院(4808) 石家庄职业技术学院(4434) 黄河水利职业技术学院(4267) 武汉职业技术学院(4229) 永州职业技术学院(4124) 天津职业技术师范大学(3,993)
可视化技术 几何投射技术、基于图标技术、面向像素的技术、层次技术、基于图表技术
©2013 叶艳鸣
基于文献的知识发现原理与技术
基于相关文献的

知识发现


献 的 知
基于非相关文献的 知识发现



基于全文献的
知识发现
共词分析理论与方法 共引分析理论与方法 Swanson理论与方法
文本挖掘理论与方法
©2013 叶艳鸣
简易:万事万物都是非常简单的,大道至简
《周易·系辞上》: 易有太极,是生两仪,两仪生四象,四象生八卦
现代计算机之“0、1”世界
©2013 叶艳鸣
《易经》之变易
变易:宇宙万物,时刻变化,人事皆是如此
《周易·系辞上》: 知变化之道者,其知神之所为乎?
©2013 叶艳鸣
《易经》之不易
不易:变的规律本身是相对不变的,是相对静 止和相对稳定的,是可以感知的
五、基于发现的自助文献服务
专题推送
云南财经大学发表的关于“云南或者昆明的区域经济”文献
此公式检索结果 58篇文献
检索:系统动力学
社会化服务
去我的收藏
收藏到学习空间 点击保存
分享 分享到新浪微博
无缝对接的 全文服务功能
发现系统
OPAC:本馆纸书
数据库: 书世界、CNKI、万方、超星书、方正… 读秀: 图书补缺 百链: 期刊等文献补缺
knowledge
多阶段流水处理模型:
模式评估
数据挖掘 任务相关数据
数据仓库 数据清理
数据集成
选择
©2013 叶艳鸣
14
主要的知识发现技术
主要技术 内容管理技术 文档管理技术 信息提取技术 信息过滤技术
说明 数据建模技术、版本控制技术、检索技术、文件路由技术等 分类归档、外部特征管理、关键词管理 人工智能技术、Bayesian 概率和词频统计分析、向量空间模型 固定文章集法、协作过滤技术
各种结构化与非结构化数据
©2013 叶艳鸣
大数据时代的四个特征
©2013 叶艳鸣
©2013 叶艳鸣
基因组数据 地理空间数据
人口数据 经济运行数据 卫星遥感数据
……
大数据时代的四个特征
©2013 叶艳鸣
气象数据 航天遥测遥控数据
交通流量数据 地震监测数据
……
©2013 叶艳鸣
大数据的阶梯处理过程模型
相关文档
最新文档