数据挖掘_PolBlogs Dataset(政治博客数据集)

数据挖掘_PolBlogs Dataset(政治博客数据集)
数据挖掘_PolBlogs Dataset(政治博客数据集)

PolBlogs Dataset(政治博客数据集)

数据摘要:

Links between blogs were automatically extracted from a crawl of the front page of the blog.

中文关键词:

政治博客,检索,博客首页,

英文关键词:

Political blogosphere,crawl,front page of the blog,

数据格式:

TEXT

数据用途:

Social Network Analysis

Information Processing

Classification

数据详细介绍:

PolBlogs

Dataset: PolBlogs - Political blogosphere Feb. 2005.

Political blogosphere Feb. 2005, compiled by Lada Adamic and Natalie Glance.

Links between blogs were automatically extracted from a crawl of the front page of the blog.

These data should be cited as

Lada A. Adamic and Natalie Glance, "The political blogosphere and the 2004 US Election", in Proceedings of the WWW-2005 Workshop on the Weblogging Ecosystem (2005).

GML version creator: Lada Adamic on Tue Aug 15 2006. Obtained from Mark Newman's data page.

Transformed into Pajek format by Vladimir Batagelj, March 1, 2007

File:

PolBlogs.paj - directed network with 1490 vertices and 19090 vertices.

数据预览:

点此下载完整数据集

进入博客时代

进入博客时代 近年以来“博客”一词甚嚣尘上,成为互联网,传媒界乃至大众生活中的热门词,百度搜索引擎里输入“博客”二字,用时0.001秒,搜索到相关文章100,000,000篇,Google 搜索引擎里输入“博客”一词是从英文单词Blog翻译而来。Blog是WebIog的简称,而Weblog则是由Web和Log两个英文单词组合而成。Weblog就是在网络上发布和阅读的流水记录,通常称为“网络日志”,简称为“网志”。 博客的诞生与互联网是紧密联系的,正是有了互联网,网民不再满足于仅仅作为读者浏览信息,同样希望能够在互联网上展示自己,于是,博客应运而生。 互联网自20世纪60年代诞生以来,发展迅猛。尤其是20世纪90年代以来,网络在全球的发展日益加速,据科学技术部网站显示,目前,“国际互联网已遍及180多个国家和地区,容纳了60多万个网络,连入互联网的主机已有2900多万台,上网人数已超过一亿五千万,有600多个大型互联网图书馆,900多种新闻报纸汇入因特网的信息洪流中。”博客作为表达自己的思想,展示自己的生活各态的交互式平台,在很短的时间内在世界各地获得很多的用户。 目前,截至2005年4月,在全球,博客数量已经超过

了5千万。据世界著名公关公司爱德曼公关公司调查统计发现,目前,亚洲地区的博客普及度和认知度高于欧洲地区,但在语言分布上,英语仍旧是博客们使用最多的语言。 博客的热度也烧到了中国,根据中国互联网络信息中心(CNNIC)2006年9月23日公布的最新博客调查报告显示,截至2006年8月底,中国博客规模已达1750万,其中活跃博客接近770万,同时,在总数超过12300万的中国网民中,超过60%的人浏览过博客,博客读者数量高达7556.5万人,其中5470.9万的活跃读者会经常阅读博客。 博客在世界范围内的热度,让人们开始探询其是否具有商业价值。目前,博客经营有如下模式: 博客广告――虽然学术界并没有关于博客广告的定义,但是,顾名思义就是在博客上发布广告。2005年11月底,和讯与国内著名IT写作社区Donews的总编辑洪波签署为期三个月的广告合同,在其博客上投放广告,这是国内在博客广告方面的首次尝试。之后,和讯博客广告联盟宣告成立,并牵手中信银行,博客网,一些IT、财经等行业知名人物的博客上也出现了瑞星、TCL集团、亚马逊卓越等著名企业的广告。 RSS广告――RSS的意思是“简易信息聚合”(Real Simple Syndication),通常在时效性比较强的内容上使用RSS 订阅能更快速获取信息,网站提供RSS输出,有利于让用户

kdd99数据集详解-数据挖掘

KDD是数据挖掘与知识发现(Data Mining and Knowledge Discovery)的简称,KDD CUP 是由ACM(Association for Computing Machiner)的SIGKDD (Special Interest Group on Knowledge Discovery and Data Mining)组织的年度竞赛。竞赛主页在这里。 下面是历届KDDCUP的题目: KDD-Cup 2008, Breast cancer KDD-Cup 2007, Consumer recommendations KDD-Cup 2006, Pulmonary embolisms detection from image data KDD-Cup 2005, Internet user search query categorization KDD-Cup 2004, Particle physics; plus Protein homology prediction KDD-Cup 2003, Network mining and usage log analysis KDD-Cup 2002, BioMed document; plus Gene role classification KDD-Cup 2001, Molecular bioactivity; plus Protein locale prediction. KDD-Cup 2000, Online retailer website clickstream analysis KDD-Cup 1999, Computer network intrusion detection KDD-Cup 1998, Direct marketing for profit optimization KDD-Cup 1997, Direct marketing for lift curve optimization ”KDD CUP 99 dataset ”就是KDD竞赛在1999年举行时采用的数据集。从这里下载KDD99数据集。 1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的一个网络环境,收集了9周时间的TCPdump(*) 网络连接和系统审计数据,仿真各种用户类型、各种不同的网络流量和攻击手段,使它就像一个真实的网络环境。这些TCPdump采集的原始数据被分为两个部分:7周时间的训练数据(**) 大概包含5,000,000多个网络连接记录,剩下的2周时间的测试数据大概包含2,000,000个网络连接记录。 一个网络连接定义为在某个时间内从开始到结束的TCP数据包序列,并且在这段时间内,数据在预定义的协议下(如TCP、UDP)从源IP地址到目的IP地址的传递。每个网络连接被标记为正常(normal)或异常(attack),异常类型被细分为4大类共39种攻击类型,其中22种攻击类型出现在训练集中,另有17种未知攻击类型出现在测试集中。

博客的发展及演变

博客的发展及 演变 学院:历史文化学院 专业:文化产业管理 班级:1201班 姓名:聂康康 学号:1205024107

摘要:无论是在国外还是国内,博客和博客文化正以“润物细无声”的方式深刻影响着人们的生活。博客是个人性和公共性的结合体。博客精神的核心并不是自娱自乐,也不仅是个人表达自由,准确地说,博客体现的是一种利他的共享精神,为他人提供帮助。个人日记和个人网站主要表现的还是“小我”,而博客表现的是“大我”。两者也许形式上很接近,但内在有着本质的差异。 关键词:博客、互联网 博客已经成为互联网文化不可分割的一部分。 如今网民几乎都会阅读博客,无论是传统新闻媒介的“官方”新闻博客、与自己爱好兴趣相关的话题性博客或是纯娱乐博客,几乎每一个人都会有一两个特别钟爱的博客。 但以前并不是这样。与互联网本身相比,博客的历史并不算长。博客真正兴起并成为互联网风景的重要组成,是在最近五到十年。 美国人工智能专家乔恩·巴杰(Jorn Barger)1997年12月在其网站上首次使用了weblog一词;2002年,博客开始引入中国,数量不足1万人;2002年7月,blog的中文“博客”由方兴东、王俊秀正式命名;2002年8月,方兴东、王俊秀开通博客中国(blogchina)

网站;2004年以来,博客主页(weblog或blog)——一种采用简便的软件生成个人主页、能够按照时间顺序不断更新、实现个人信息的历时积累和传播的互联网个人出版方式,在我国进入迅猛发展时期。 博客(blogger)概念解释为网络出版(Web Publishing)、发表和张贴(Post-这个字当名词用时就是指张贴的文章)文章,是个急速成长的网络活动,现在甚至出现了一个用来指称这种网络出版和发表文章的专有名词——Weblog或Blog。 Blogger即指撰写Blog的人。Blogger在很多时候也被翻译成为“博客”一词,而撰写Blog这种行为,有时候也被翻译成“博客”。因而,中文“博客”一词,既可作为名词,分别指代两种意思Blog (网志)和Blogger(撰写网志的人),也可作为动词,意思为撰写网志这种行为,只是在不同的场合分别表示不同的意思罢了。 Blog是一个网页,通常由简短且经常更新的帖子(Post,作为动词,表示张贴的意思,作为名字,指张贴的文章)构成,这些帖子一般是按照年份和日期倒序排列的。而作为Blog的内容,它可以是你纯粹个人的想法和心得,包括你对时事新闻、国家大事的个人看法,或者你对一日三餐、服饰打扮的精心料理等,也可以是在基于某一主题的情况下或是在某一共同领域内由一群人集体创作的内容。它并不等同于“网络日记”。作为网络日记是带有很明显的私人性质的,而Blog则是私人性和公共性的有效结合,它绝不仅仅是纯粹个人思想的表达和日常琐事的记录,它所提供的内容可以用来进行交流和为他人提供帮助,是可以包容整个互联网的,具有极高的共享精神和价值。

博客作用

1.过滤信息 在这个网络信息泛滥的时代,网上的信息太多、太杂、太乱,学习者无法判别哪些信息是有价值的,哪些是重要的。教师可以通过博客将经过过滤过的信息传递给学生,而学生也可以通过博客将信息传递给他的伙伴。通过浏览别人的博客日志,知识获取的效率将得到很大的提高。 2.提供学习的丰富情境 通常的教辅网站,只是提供一些参考资料的链接,而博客则提供更多的评价,更广泛的背景资料。有一些学者通过博客日志反映他们对某些问题的认识,开始对于这些问题的看法可能也是粗糙的,但是他们将这些思想表达出来,然后在博客上发表后续的看法。在这一过程中,专家可以将最近看了哪些书,读了哪些人的文章,听取了哪些意见都通过博客方式表达出来。这样,阅读者了解的不仅仅是专家静态的、目前的观点,而重要的是可以把握专家思想的流程。同样,这一方式对于学生来讲也是有效的,学生的博客日志可以反映出他们在学习过程中产生的问题、关于问题的想法与思路、问题的解决过程,使得教师可以更有效地了解学生的学习状况。 3.提高学生的媒体文化水平 博客(blog)的个人化使得博客们(blogger)在信息发布的过程中,要采用最适当的方式对信息进行过滤与说明,使得他的博客日志能够为更多的人接受,使得他的思想和资源为更多的人所了解。与传统BBS相比,博客日志具有更强的规范性,博客们具有更强的自律性。由于博客一般是由个人或小组拥有的,通常具有共同的主题,所谓敝帚自珍,所以在博客的世界中,很少出现在BBS中常见的不负责任的"胡说八道"。 4.鼓励参与者发表自己不同的观点 博客的模式是平等的,博客更看重的是参与的过程而不是结果。对于教师或书本上的观点,学生可以通过博客的方式发表他对于这些问题的理解,博客并不要求意见的统一,但要求意见的针对性和独立性。另外,在课程设置的过程中可以设置多个不同的议题,允许学生自由地选择他们感兴趣的议题。 5.提供对信息的评价 博客的重要特征就是对信息的过滤,使得信息可以转换成有用的知识。但是

2020新版用空间数据挖掘技术提升煤矿安全管理水平

( 安全技术 ) 单位:_________________________ 姓名:_________________________ 日期:_________________________ 精品文档 / Word文档 / 文字可改 2020新版用空间数据挖掘技术提升煤矿安全管理水平 Technical safety means that the pursuit of technology should also include ensuring that people make mistakes

2020新版用空间数据挖掘技术提升煤矿安 全管理水平 1前言 煤炭企业属于传统的资源开采型企业。煤矿安全对煤炭企业影响巨大,安全工作在煤矿生产中占有重要地位,其管理好坏直接关系到煤炭企业的生存和发展。煤炭企业的安全管理是一项系统工程,涉及从煤矿建设、煤炭开采、生产加工到煤炭产品销售的全过程。近几年来,我国煤矿瓦斯爆炸、井下透水等事故频频发生,给人民的生命和国家财产造成了巨大的损失,严重影响了煤炭企业生产能力的发挥和煤炭企业的形象。煤矿安全管理任务十分艰巨,是因为影响煤矿安全的因素非常复杂。研究表明,瓦斯、矿压与顶板、煤尘、水、火等自然灾害因素是影响煤矿安全生产的最主要和最难以控制的因素。因此,如何有效识别影响煤矿安全的自然灾害隐患,

提升煤矿安全管理水平是我国煤炭企业面临的重大课题。 近年来,信息技术有了突飞锰进地发展。随着数据库技术的成熟和数据应用的普及,数据库的数量、单个数据库的容量和数据类型的复杂性都大大地增加了。在这些庞大的数据库中蕴藏着极其丰富的信息源,因此,数据挖掘技术应运而生。作为数据挖掘的一个方向,空间数据挖掘可以用于对空间数据的理解、空间关系和空间与非空间数据关系的发现、空间知识库的构造、空间数据库的重组和空间查询的优化。空间数据挖掘在地理信息系统、地理市场、遥感、图像数据勘测、医学图像处理、导航、交通控制、环境研究等领域有着广泛的应用。 由于煤矿自然灾害影响因素具有空间分布不确定性特征,因此可以在建立大理自然灾害空间数据信息基础上,构建灾害隐患识别模型,进行煤矿自然灾害空间信息数据挖掘,识别灾害隐患,提高煤矿安全预警能力,减少自然灾害发生率。 2我国煤矿安全管理中存在的问题 通过对具体矿井的详细调查,发现我国煤矿安全管理工作存在

微博客时代的网民身份构建

万方数据

万方数据

万方数据

微博客时代的网民身份构建 作者:刘洋, 肖潇 作者单位:武汉大学新闻与传播学院,湖北,武汉,430072 刊名: 东南传播 英文刊名:SOUTHEAST COMMUNICATION 年,卷(期):2010,(6) 被引用次数:0次 参考文献(10条) 1.陆扬.王毅文化研究导论 2006 2.爱德华?泰勒文化的起源 1995 3.迈克·海姆.金吾伦.刘钢从界面到网络空间--虚拟实在的形而上学 2000 4.Stuart Hall The Question of Cultural Identity 5.王成兵.吴玉军虚拟社会与当代认同危机 2003(5) 6.Twitter's Tweet Smell of Success 2009 7.阿雷恩·鲍尔德温.布莱恩·朗赫斯特.斯考特·麦克拉肯.迈尔斯·奥格伯恩.格瑞葛·斯密斯 陶东风文化研究导论 2004 8.郭庆光传播学教程 2005 9.斯坦利·巴兰.丹尼斯·戴维斯.曹书乐大众传播理论:基础、争鸣与未来 2000 10.威廉·甘姆森集体行动的社会心理学 2002 相似文献(1条) 1.期刊论文唐大麟.邓煜.王文宏浅谈当前我国网络文化发展新热点-新闻知识2010(10) 随着国家科学技术的不断进步和我国公民参与网络建设意识的不断提高,当前我国的网络文化发展正开始逐步迈向一个新台阶.网民的积极参与使得网络文化的发展愈加开放和自由,我国的网络文化发展也开始随之步入一个由全体网民自主积极创造的新时代.本文将从"微博客"和"网络政治"两方面着手重点阐述这一新变化. 本文链接:https://www.360docs.net/doc/806346181.html,/Periodical_dncb201006013.aspx 授权使用:西北农林科技大学图书馆(wflsxbt),授权号:464f9efd-8537-4a11-8e57-9e91012bb8b4 下载时间:2011年2月21日

关于政治博客的几点思考

关于政治博客的几点思考 戚妍妍 赵露 (河北经贸大学,河北石家庄050061) [摘 要]作为社会公民表达自己的政治见解、影响公共政治生活的新载体,在舆论监督方面,政治博客具有极大发展潜力。本文对政治博客在未来中国如何更好的发挥舆论监督作用进行了探索性的论述;提出了关于如何把政治博客建设成为一个更好的舆论监督平台的几点思考,希望能对有关政治博客的研究有所贡献。 [关键词]政治博客;舆论监督;政治民主 [中图分类号]D616 [文献标识码]A [文章编号]1009-6981(2010)02-0090-03 一、何为政治博客 政治博客的概念,是一个舶来品。1998年,美国人德拉吉在自己的博客网站上第一个报道了克林顿和莱温斯基绯闻,被认为是最早的成功政治博客。2001年在 9!11突发事件中,在飞机撞上第一幢楼时,就有博客把自己所拍的照片迅速传到网上,事件发生后,政治博客成为报道 9!11事件的主要新闻来源渠道之一。 2004年美国总统大选期间,政治博客约翰逊对哥伦比亚广播公司著名主持人丹!拉瑟在节目里公布的关于布什当年服役时上司的备忘录文件提出质疑,最终导致丹!拉瑟辞职。日本首相小泉、英国前首相布莱尔、德国总理默克尔、美国总统布什、伊朗总统内贾德、柬埔寨的西哈努克亲王,都开始融入到虚拟的博客世界倾听民意,实现更直接的政治沟通和对话。 关于政治博客的定义,张雷、娄成武在其? 政治博客的发展现状及其未来趋势#一文中提出: 政治博客是指为表达个人政治见解、影响国家政治生活或者实现政治诉求,在网络上发表政治性网络日志的政治人物或关心政治的公民,是对国家政治生活的个人化网络表达方式。这个定义对我们理解何为政治博客具有一定的启发。 政治博客一般分为三种类型: 1、普通网民政治博客。这是政治博客最庞大的群体,他们关注政治生活,并在B l og上发表自己的政治见解,甚至影响到国家政治发展。在伊拉克战争期间,博客萨利姆!帕克斯从2002年9月开始一直撰写并张贴有关巴格达局势的文章,据传他的工作地点就在巴格达。每天都有成千上万的人登录互联网搜索他的网络日志,他从巴格达向世界发送的报道,比CNN、半岛电视台的报道更加鲜活有力,吸引各大媒体竞相引用。 2、政治领导人博客。为实现更直接的政治沟通,一些国家政治领导人也开通自己的政治博客,这种博客形式当然比普通网民的博客更具政治影响力。日本首相小泉和柬埔寨的西哈努克亲王都有自己的博客。2005年英国大选时,布莱尔每周都会在工党的网站上发表一篇竞选活动日志与英国选民进行直接的沟通。2006年1月,英国?太阳报#为首相布莱尔开通了播客节目,播客就是声音版的博客,布莱尔因此成为英国有史以来第一位播客首相。美国加州官方网站上施瓦辛格的播客首页,可以听到州长施瓦辛格的最新讲话,据称施瓦辛格加入播客阵营是要让加州人民更加接近他。伊朗前总统哈塔米也于2005年12月19日开通了名为 哈塔米在线的博客日志,在伊朗有很大的政治影响力。 3、群体性政治博客。群体性政治博客是具有共同政治诉求的一群人写一个博客,一个博客可以有多个管理员和作者。博客本身就是政治沟通的工 2010年4月 第2期 河北省社会主义学院学报 Journal of Soci alist College Apr.2010 N o.2

数据挖掘_Yeast Dataset(酵母数据集)

Yeast Dataset(酵母数据集) 数据摘要: Interaction detection methods have led to the discovery of thousands of interactions between proteins, and discerning relevance within large-scale data sets is important to present-day biology. The dataset consists of protein-protein interaction network described and analyzed in (1) and available as an example in the software package - PIN (2). 中文关键词: 酵母,交互检测,蛋白质,数据集, 英文关键词: Yeast,Interaction detection,proteins,dataset, 数据格式: TEXT 数据用途: Information Processing Classification

数据详细介绍: Yeast Description https://www.360docs.net/doc/806346181.html, network with 2361 vertices and 7182 edges (536 loops). https://www.360docs.net/doc/806346181.html, network with 2361 vertices and 7182 edges (536 loops). yeast.clu partition of vertices. yeast.paj Pajek project file with complete dataset. Download complete dataset (ZIP, 134K) Background Interaction detection methods have led to the discovery of thousands of interactions between proteins, and discerning relevance within large-scale data sets is important to present-day biology. The dataset consists of protein-protein interaction network described and analyzed in (1) and available as an example in the software package - PIN (2). PIN class encoding: 1 - T, 2 - M, 3 - U, 4 - C, 5 - F, 6 - P, 7 - G, 8 - D, 9 - O, 10 - E, 11 - R, 12 - B, 13 - A. https://www.360docs.net/doc/806346181.html, X interacts with Y relation, short names. https://www.360docs.net/doc/806346181.html, X interacts with Y relation, long labels. yeast.clu PIN class partition of vertices, see encoding. yeast.paj Pajek project file with complete dataset. References Shiwei Sun, Lunjiang Ling, Nan Zhang, Guojie Li and Runsheng Chen: Topological structure analysis of the protein-protein interaction network in budding yeast. Nucleic Acids Research, 2003, Vol. 31, No. 9 2443-2450 (PDF).

论博客时代下的辅导员“微网络思想政治教育”

论博客时代下的辅导员“微网络思想政治教育” 在新时代背景下,伴随着网络技术发展的日新月异,互联网已俨然成为一个开发和使用信息资源的全球性平台。近年来,微博以其操作便捷化、信息简洁化、传播速度快等优点,受到年轻人的追捧。高校辅导员应利用博客尤其是微博客在思想政治教育中的种种优势,开辟好、利用好新型网络教育渠道,不断积极完善,将现代信息技术与传统教育方法进行有机整合,大力开拓网络思想政治教育阵地。 标签:微博;思想政治教育;辅导员 建设微网络思想政治教育平台的最主要载体即微博,提起微博,不得不提Twitter。作为微博的鼻祖,Twitter是最早出现且最有名的微博网站,目前拥有包含普通民众、文体明星、政府机构、企业等2亿用户。用户利用微博平台开通账号与网民进行交流互动,进行实时的信息和文化的传播[1]。 近年来,辅导员微博作为现代化的教育资源,已成为新时代中崭新的网络文化现象,充满了时代气息,具有低技术、小成本、开放性、及时性、平等性等众多优势,符合信息社会的时代要求和自古以来道德教育的基本规律,能促进思想政治教育技术手段的不断进步,拓宽和发展辅导员队伍专业化发展的路径。因此,辅导员微博越来越受到高校的重视,并积极发展成为一种不可遏止的时代趋势,成为高校思想政治教育的新载体。 大学思想政治教育工作的生命力在于开拓创新和与时俱进,辅导员队伍必须顺应新形势,结合时代特点,探索新方法,勇于推陈出新,搭建新平台,完善教育机制,主动占领网络思想政治教育新阵地,这是当前加强和改进大学生思想政治教育面临的一个重要课题。利用好微博这个功能强大的平台,大学思想政治教育工作才能更加有效地行使其功能和职责,发挥更好更大的作用,所以,如何借助微博更好地开展“微思想政治教育工作”,就成为一项非常具有现实意义和理论意义的重要任务。 一、与传统的大学生政治思想教育方法比较,微网络思想政治教育的特点 (一)形式新颖化,迎合年轻人的需求 微博用户普遍具有年轻化、高学历化的特征。微博以交流方便快捷、内容和形式的丰富多样、进入门槛低、关系网相互交织等特征得到广大高学历年轻群体的青睐。利用微博可以发布文字、图片、音频、视频等多类型信息,同时利用关注功能,可以即时了解焦点的最新动态并增加了互动交流的便捷性。 (二)信息碎片化,建立平等对话平台 在传统思政教育模式中,由于信息和话语权不对称,大学生往往充当被动的

论微博在政治生活中的影响

试析“微博”在社会政治生活中的影响 内容摘要﹕微博是电子政务的一种,应积极得到推广。微博具备三大功 能﹕即信息发布平台、群众沟通渠道和了解民意途径。当前,微博在社会 和政治生活中影响日益明显,并且为政府和人民沟通提供了新的平台。同 时政务微博也开始呈现出前所未有的强大力量 关键词﹕微博政治电子政务双刃剑 互联网的普及发展,产生了很多新型的媒介交流平台。他们正在改变着人们的生活方式及政府的行政方式。微博作为当前最新的一种交流媒介,给我们的生活带来了很大的影响,同时也在政府公务方面发挥着越来越重要的作用。全球越来越多的政府机构和官员纷纷开通微博及时公布有关信息。应对各种突发事件,提升政府在民众中的形象。将其作为为民服务的平台,了解民意的方式和官民互动的空间。 一、微博在电子政务中初步显示的力量 (一)中国微博元年 2010年,曾被誉为中国微博元年。微博客异军突起成为备受追捧的舆论新阵地。南方人物周刊将2010年度人物奖颁给了“微博客”。一年一度的中国年度人物破天荒的颁给了一个新兴事物——微博。这是非常不可思议的,把它作为为人类的一分子授予奖项。可见它对我们生活的影响有多大。它是作为人的一分子而存在的,但它不是人类个体,我们却把这样一份重大的奖项给他,说不通。但是,当你看到他对我们生活的影响的时候,你就不会有疑问了 (二) 政府与人民沟通的新渠道 微博是人类智慧的结晶,是时代进步的产物。科技的发展总是在不断拓宽人们交流沟通的方式。这些方式无一不成为政府信息传输的工具。从古代八百里加急的驿站传书到近代日趋完善的书信邮递。从电报机的发明到语音传输的电话机,再到电视的风靡全球。电脑的逐渐普及以及与其相关的衍生品,例如﹕博客、msn.qq无时无刻的不在推动人类信息传输事业的不断进步。作为一个新的科技产物的微博不可避免责无旁贷的成为了政府进行官民沟通的一种新方式、新渠道。 政务微博,主要指代表政府机构和官员的、因公共事务而设的微博。伴随着政务微博平台的建立,一些机构和官员开始在信息发布、提供服务、了解民意和官民互动等领域发挥信息传播作用。例如,湖南桃源县2009年下半年开通了微博,

数据挖掘_Epinions datasets(Epinions数据集)

Epinions datasets(Epinions数据集) 数据摘要: it contains the ratings given by users to items and the trust statements issued by users. 中文关键词: Epinions,数据集,信息,信任度,等级, 英文关键词: Epinions,datasets,information,trust metrics,ratings, 数据格式: TEXT 数据用途: Social Network Analysis Information Processing Classification 数据详细介绍: Epinions datasets

The dataset was collected by Paolo Massa in a 5-week crawl (November/December 2003) from the https://www.360docs.net/doc/806346181.html, Web site. The dataset contains 49,290 users who rated a total of 139,738 different items at least once, writing 664,824 reviews. 487,181 issued trust statements. Users and Items are represented by anonimized numeric identifiers. The dataset consists of 2 files. Contents 1 Files 1.1 Ratings data 1.2 Trust data 1.3 Data collection procedure 2 Papers analyzing Epinions dataset Ratings data ratings_data.txt.bz2 (2.5 Megabytes): it contains the ratings given by users to items. Every line has the following format: user_id item_id rating_value For example, 23 387 5 represents the fact "user 23 has rated item 387 as 5" Ranges: user_id is in [1,49290] item_id is in [1,139738] rating_value is in [1,5] Trust data

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

中国网络未来的发展趋势 中国网络网令时代即将到来

中国网络未来的发展趋势 ————中国网络网令时代即将到来 自从上世纪末,互联网在我国传播开始,中国IT界就从未停止过快速发展的势头。各种网络形式层出不穷,并且由此诞生了几大世界级别的互联网公司。 进入二十一世纪,电子商务网站和社区交友网站蓬勃发展起来,并且逐步与原有的门户网站、博客网站、休闲娱乐网站整合起来,被好事之人冠名以“SNS”。随着SNS概念的广泛传播和SNS业务备受网民青睐,中国各大互联网公司纷纷开始向SNS转型。网易、百度、https://www.360docs.net/doc/806346181.html,等博客社区网站;阿里巴巴、淘宝、有啊、拍拍等电子商务网站;腾讯网游、网之易、巨人、盛大、摩尔庄园等网络游戏网站;迅雷、中国移动/飞信、中国电信,中国联通、酷6、优酷等网络服务型网站;乃至中国最大论坛——天涯论坛都已经开始了自身的SNS 平台打造计划。中国网络界,一场SNS飓风正在刮响。各方云动,烽烟再起! 这一次的网络博弈来的似乎比博客时代更为猛烈,毕竟各路英雄背景不同。单一博客时代的远去似乎昭示着SNS时代的到来,只是真的是这样的吗?中国网络界的下一个时代真的是“SNS时代”吗?那么首先我们得弄清楚我国IT界的现状。天地奇缘以一句话点评之,那便是:各路诸侯差异进军、全面参战。 由于前e-mail时代和前单一博客时代所带来的历史性因素,中国网络界几大巨头出现了以下特征:①网易;网易是前e-mail时代

起家的,公司成立较早,于1993由丁磊创办。它的重点放置在邮箱上面,以163、126(同时分为个人邮和企业邮)两类产品为导线,延伸出网易博客、网易门户、网易即时聊天等业务。作为中国SNS 网站的开山鼻祖,网易的全面参战意图十分明显。通过对博客、资讯、邮箱、即时聊天、网游等方面的整合,网易已经成功的完成了综合社区功能网站的转型,全面加入SNS几大重要业务的竞争上面来。②新浪;作为中国网络界的另一大巨头,新浪和网易一样拥有邮箱、门户资讯、博客、即时聊天等业务,只是新浪的重要业务导线是博客(包括新浪微博)。邮箱上面,新浪占不到网易的半点便宜,网易的网游更是容易拉拢粘性网客。对此,新浪在它们的IM也上面下工夫,支持新浪UC登陆MSN、谷歌Talke、雅虎通(2010年初,由于雅虎中国被阿里巴巴收购的原因,新浪UC已经不能登陆雅虎了),同时推出新浪聊天室和新浪商城,意图采取绝对差异化竞争。而新浪博客的活跃度虽然不及五一主页,业务收入也比不过腾讯,但是它们的博客们可以轻松的在自己的博客中将自己的博文推荐到新浪首页上面去,增加了新浪门户的原创性和独特性。同时新浪科技对新闻信息的快速收集,以及网客对其的快速反应几大的提高了新浪门户的时效性,体现了门户网站的基本价值。由此新浪门户建成了门户互动、网民评论、专题分类(新浪对于热门话题,比如“房价问题”进行专门子网互动)的特色资讯网站。另外,新浪在IM业注重UC群、UC团队建设,提高了整个新浪网络的社区交友功能,并且与博客、邮箱、聊天室等一同构成了新浪SNS体系。③百度;百度集团目前在世界

_政治博客_的发展现状及其未来趋势

3收稿日期:2006-05-15  基金项目:国家社会科学基金项目《网络社会政治动员问题研究》 (项目批准号06CZZ 005) 作者简介:张 雷(1968-),男,黑龙江海伦人,哲学博士,东北大学文法学院副教授。 娄成武(1949-),男,辽宁北镇人,东北大学文法学院教授、博士生导师。 2006年第4期中山大学学报(社会科学版) No .42006 第46卷 JOURNAL OF S UN Y ATSE N UN I V ERSI TY Vol .46 (总202期) (S OC I A L SC I E NCE E D I TI O N ) General No .202 “政治博客”的发展现状及其未来趋势 3 张 雷,娄成武 (东北大学文法学院,辽宁沈阳110004) 摘 要:文章对政治博客的产生与发展过程及其趋势进行了讨论,概括了政治博客的几个主要特征及其主要类型,以及政治博客影响政治生活的主要方式,并结合当前网络政治发展的现实状况,对政治博客的未来发展趋势进行了探索性的描述。随着网络技术的发展和博客的剧增,政治传播的“自媒体”时代已经来临,政治博客在充分表达自己的政治见解影响社会民主政治进程的同时,也需要承担相应的社会政治责任。 关键词:政治博客;自媒体;政治责任;民主;政治公共领域 中图分类号:D669.9 文献标识码:A 文章编号:1000-9639(2006)04-0099-04 历史上每一次技术革命几乎都成为政治进步的触发点。正在发生的数字技术革命已经改变了世界政治的生态,“博客”尤其成为非常值得关注的网络政治现象。“博客”是B l og 或W ebl og 的音译,源于“W eb Log (网络日志)”的缩写,指在网络上发表、张贴个人“网络日志”的人,是继E -mail 、BBS 、QQ 之后的第4种交流方式,指人时对应的英文是“B l ogger ”。本文认为,作为博客的一个重要类型———政治博客是指为表达个人政治见解、影响国家政治生活或者实现政治诉求,在网络上发表政治性网络日志的政治人物或关心政治的公民,是对国家政治生活的个人化网络表达方式。据统计,2005年美国有1100万人创建博客、5000万人访问博客,约占美国互联网用户的30%,总人口的1/6;法国227万人创建博客,占法国互联网用户的 9.3%,600~700万用户访问博客,占互联网用户的28%; 德国428万人创建博客,714万访问博客 [1] ;中国博客数 量也已超过1600万人。根据Technorati 公司2006年2月的统计,全球博客正在以每5个半月就增长一倍的爆炸性速度发展。2005年8月,《美国博客研究报告》通过观测 400个访问量最大的博客发现,在美国,政治博客最流行, 其次是生活博客、科技博客和女性博客。 一、政治博客的产生与特征 (一)政治博客的产生。1998年,美国人德拉吉在自 己的博客网站上第一个报道了克林顿和莱温斯基绯闻,被认为是最早的成功政治博客,在大约整整半年时间内,引领美国的政治舆论导向,在新闻史上创下了一个个人网站长时间设定社会焦点话题的先例。在美国2004年大选期间,围绕伊拉克战争问题的争执,大量的政治博客涌现。美国的政治博客有左派、右派之分,但保守派在博客领域中最引人瞩目。著名保守派政治评论家沙利文指出,在 2000年大选时,他的博客总访问量只有4000次,到了2004年访问量曾一度在24小时内达到10万次。2001年 在“9?11”突发事件中,在飞机撞上第一幢楼时,就有博客把自己所拍的照片迅速传到网上,事件发生后,政治博客成为报道“9?11”事件的主要新闻来源渠道之一。一个重要的博客门类———战争博客(W ar B l og )因此繁荣起来,有人甚至认为“9?11”事件最真实最生动的描述在那些幸存者的博客日志中。 (二)政治博客的主要特征。第一,具有强烈的政治 9 9

数据挖掘报告

哈尔滨工业大学 数据挖掘理论与算法实验报告(2016年度秋季学期) 课程编码S1300019C 授课教师邹兆年 学生姓名汪瑞 学号 16S003011 学院计算机学院

一、实验内容 决策树算法是一种有监督学习的分类算法;kmeans是一种无监督的聚类算法。 本次实验实现了以上两种算法。在决策树算法中采用了不同的样本划分方式、不同的分支属性的选择标准。在kmeans算法中,比较了不同初始质心产生的差异。 本实验主要使用python语言实现,使用了sklearn包作为实验工具。 二、实验设计 1.决策树算法 1.1读取数据集 本次实验主要使用的数据集是汽车价值数据。有6个属性,命名和属性值分别如下: buying: vhigh, high, med, low. maint: vhigh, high, med, low. doors: 2, 3, 4, 5more. persons: 2, 4, more. lug_boot: small, med, big. safety: low, med, high. 分类属性是汽车价值,共4类,如下: class values:unacc, acc, good, vgood 该数据集不存在空缺值。

由于sklearn.tree只能使用数值数据,因此需要对数据进行预处理,将所有标签类属性值转换为整形。 1.2数据集划分 数据集预处理完毕后,对该数据进行数据集划分。数据集划分方法有hold-out法、k-fold交叉验证法以及有放回抽样法(boottrap)。 Hold—out法在pthon中的实现是使用如下语句: 其中,cv是sklearn中cross_validation包,train_test_split 方法的参数分别是数据集、数据集大小、测试集所占比、随机生成方法的可

相关文档
最新文档