大数据技术

大数据技术
大数据技术

大数据

(big data,mega data),或称巨量,指的是需要新处理模式才能具有更强的决策资料大数据力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

第一,数据体量巨大。从TB级别,跃升到PB级别。

第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等。

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、、移动、、手机、、PC以及遍布地球各个角落的各种各平板电脑车联网互联网云计算样的,无一不是数据来源或者承载的方式。传感器大数据最核心的价值就是在于对于海量数据进行存储和分析。

大数据(Big data)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一关系型数据库起,因为

实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。

大的数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式,分布式数据库,文件系统云计算

平台,互联网,和可扩展的存储系统,但不是所有的MPP的的PB的数据关系数据库存储和管理的能力。隐含的负载,监控,备份和优化大型数据表的使用在RDBMS的。

SOA管理大数据SOA的三个数据中心模型分别是数据即服务(DaaS)模型、物理层次结构模型和架构组件模型。DaaS数据存取的模型描述了数据是如何提供给SOA组件的。物理模型描

述了数据是如何存储的以及存储的层次图是如何传送到SOA数据存储器上的。最后,架构模型描述了数据、数据管理服务和SOA组件之间的关系。

从大数据的价值链条来分析,存在三种模式:

1- 手握大数据,但是没有利用好;比较典型的是金融机构,电信行业,政府机构等。

2- 没有数据,但是知道如何帮助有数据的人利用它;比较典型的是IT咨询和服务企业,比如,埃森哲,IBM,Oracle等。

3- 既有数据,又有大数据思维;比较典型的是Google,Amazon,Mastercard等。

未来在大数据领域最具有价值的是两种事物:1-拥有大数据思维的人,这种人可以将大数据的潜在价值转化为实际利益;2-还未有被大数据触及过的业务领域。这些是还未被挖掘的油井,金矿,是所谓的蓝海。

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。如今,在Google、Amazon、Facebook等一批互联网企业引领下,一种行之有效的模式出现了:云计算提供基础架构平台,大数据应用运行在这个平台上。.

分布式处理那么大数据到底需要哪些云计算技术呢?这里暂且列举一些,比如虚拟化技术,NoSQL、实时流数据处理、智能分析技术(类似模式识技术,海量数据的存储和管理技术,别以及自然语言理解)等。

云计算和大数据之间的关系可以用下面的一张图来说明,两者之间结合后会产生如下效应:可以提供更多基于海量业务数据的创新型服务;通过云计算技术的不断发展降低大数据业务的创新成本。

分布式处理技术

分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络

连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务—这就是分布式处理系统的定义。

以Hadoop(Yahoo)为例进行说明,Hadoop是一个实现了MapReduce模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。而MapReduce是Google 提出的一种云计算的核心计算模式,是一种分布式运算技术,也是简化的分布式编程模式,MapReduce模式的主要思想是将自动分割要执行的问题(例如程序)拆解成map(映射)和reduce (化简)的方式,在数据被分割后通过Map 函数的程序将数据映射成不同的区块,分配给计算机机群处理达到分布式运算的效果,在通过Reduce 函数的程序将结果汇整,从而输出开发者需要的结果。

你也可以这么理解Hadoop的构成,Hadoop=HDFS(文件系统,数据存储技术相关)+HBase(数据库)+MapReduce(数据处理)+……Others

Hadoop用到的一些技术有:HDFS: Hadoop分布式文件系统(Distributed File System)

- HDFS (HadoopDistributed File System);MapReduce:并行计算框架;HBase: 类似Google BigTable的分布式NoSQL列数据库;Hive:数据仓库工具,由Facebook贡献;Zookeeper:分

布式锁设施,提供类似Google Chubby的功能,由Facebook贡献;Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制;Pig:大数据分析平台,为用户提供多种接口;Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群;Sqoop:用于在Hadoop与传统

的数据库间进行数据的传递。

云计算

云计算是世界各大搜索引擎及浏览器数据收集、处理的核心计算方式。云计算(cloud computing)是商业化的超大规模分布式计算技术。即:用户可以通过已有的网络将所需要的庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的更庞大的系统,经搜寻、计算、分析之后将处理的结果回传给用户。

云存储是在云计算(cloud computing)概念上延伸和发展出来的一个新的概念,是指通过集群应用、云存储网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用

软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理的核心是大量数据的存储和管理.

时,云计算系统中就需要配置大量的存储设备,那么云计算系统就转变成为一个云存储系统,所以云存储是一个以数据存储和管理为核心的云计算系统。

从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。.

大数据分析的六大工具介绍

大数据分析的六大工具介绍 2016年12月 一、概述 来自传感器、购买交易记录、网络日志等的大量数据,通常是万亿或EB的大小,如此庞大的数据,寻找一个合适处理工具非常必要,今天我们为大家分学在大数据处理分析过程中六大最好用的工具。 我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设il?的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式, 相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。 二.第一种工具:Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是 以一种可黑、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地 在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下儿个优点: ,高可黑性。Hadoop按位存储和处理数据的能力值得人们信赖。,高扩展性。Hadoop是 在可用的计?算机集簇间分配数据并完成讣算任务 的,这些集簇可以方便地扩展到数以千计的节点中。 ,高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动 态平衡,因此处理速度非常快。 ,高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败 的任务重新分配。 ,Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非 常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。 第二种工具:HPCC HPCC, High Performance Computing and Communications(高性能计?算与通信)的缩写° 1993年,山美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项 U:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项U ,其U的是通过加强研究与开发解决一批重要的科学与技术挑战 问题。HPCC是美国实施信息高速公路而上实施的计?划,该计划的实施将耗资百亿 美元,其主要U标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络 传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。

数据库新技术及其发展趋势

数据库新技术及其发展趋势 内容摘要:由于数据库技术在特殊领域的应用和其他相关学科技术的发展,促使数据库技术不断创新、发展。本文阐述了一些新的数据库技术及新一代数据库技术的发展方向。 关键词:数据库信息集成网格数据管理移动数据库数据加密技术发展趋势 一、引言[1] 数据库技术是计算机科学的重要分支,主要研究如何安全高效地管理大量、持久、共享的数据。数据库的研究始于20世纪60年代中期,从诞生到现在,在不到半个世纪的时间里,形成了坚实的理论基础、成熟的商业产品和广泛的应用领域,目前数据库成为一个研究者众多且被广泛关注的研究领域。随着信息管理内容的不断扩展和新技术的层出不穷,数据库技术面临着前所未有的挑战。面对新的数据形式,人们提出了丰富多样的数据模型(层次模型、网状模型、关系模型、面向对象模型、半结构化模型等),同时也提出了众多新的数据库技术(XML 数据管理、数据流管理、Web 数据集成、数据挖掘等)。在Web 大背景下的各种数据管理问题成为人们关注的热点。本文讨论目前数据库研究领域中最热门的几个研究方向的发展现状、面临的问题和未来趋势。 二、数据库发展动力[2] 目前Internet 是主要的驱动力。现在,大部分企业感兴趣的是如何与供应商和客户进行更密切的交流,以便提供更好的客户支持。在这方面的应用从根本上说是跨企业的,需要安全和信息集成的有力工具。 另一个重要应的用领域是自然科学,特别是物理科学、生物科学、保健科学和工程领域,这些领域产生了大量复杂的数据集,需要信息集成机制的支持。除此之外,它们也需要对数据分析器产生的数据管道进行管理,需要对有序数据进行存储和查询(如时间序列、图像分析、网格计算和地理信息),需要世界范围内数据网格的集成。 此外,还有一个推动数据库研究发展的动力是相关技术的成熟。

大数据分析应用的九大领域

大数据分析应用的九大领域 2014/6/26 11:13 随着大数据的应用越来越广泛,应用的行业也越来越低,我们每天都可以看到大数据的一些新奇的应用,从而帮助人们从中获取到真正有用的价值。很多组织或者个人都会受到大数据的分析影响,但是大数据是如何帮助人们挖掘出有价值的信息呢?下面就让我们一起来看看九个价值非常高的大数据的应用,这些都是大数据在分析应用上的关键领域: 1.理解客户、满足客户服务需求 大数据的应用目前在这领域是最广为人知的。重点是如何应用大数据更好的了解客户以及他们的爱好和行为。企业非常喜欢搜集社交方面的数据、浏览器的日志、分析出文本和传感器的数据,为了更加全面的了解客户。在一般情况下,建立出数据模型进行预测。比如美国的着名零售商Target就是通过大数据的分析,得到有价值的信息,精准得预测到客户在什么时候想要小孩。另外,通过大数据的应用,电信公司可以更好预测出流失的客户,沃尔玛则更加精准的预测哪个产品会大卖,汽车保险行业会了解客户的需求和驾驶水平,政府也能了解到选民的偏好。 2.业务流程优化 大数据也更多的帮助业务流程的优化。可以通过利用社交媒体数据、网络搜索以及天气预报挖掘出有价值的数据,其中大数据的应用最广泛的就是供应链以及配送路线的优化。在这2个方面,地理定位和无线电频率的识别追踪货物和送货车,利用实时交通路线数据制定更加优化的路线。人力资源业务也通过大数据的分析来进行改进,这其中就包括了人才招聘的优化。 3.大数据正在改善我们的生活 大数据不单单只是应用于企业和政府,同样也适用我们生活当中的每个人。我们可以利用穿戴的装备(如智能手表或者智能手环)生成最新的数据,这让我们可以根据我们热量的消耗以及睡眠模式来进行追踪。而且还利用利用大数据分析来寻找属于我们的爱情,大多数时候交友网站就是大数据应用工具来帮助需要的人匹配合适的对象。

入门大数据,需要学习哪些基础知识

大数据的发展历程总体上可以划分为三个重要阶段,萌芽期、成熟期和大规模应用期,20世纪90年至21世纪初,为萌芽期,随着,一批商业智能工具和知识管理技术的开始和应用,度过了数据萌芽。21世纪前十年则为成熟期,主要标志为,大数据解决方案逐渐走向成熟,形成了并行计算与分布式系统两大核心技,谷歌的GFS和MapReduce等大数据技术受到追捧,Hadoop平台开始大行期道,2010年以后,为大规模应用期,标志为,数据应用渗透各行各业,数据驱动决策,信息社会智能化程度快速提高。 数据时代的到来,也推动了数据行业的发展,包括企业使用数据获取价值,促使了大量人员从事于数据的学习,学习大数据需要掌握基础知识,接下从我的角度,为大家做个简要的阐述。 学习大数据需要掌握的知识,初期了解概念,后期就要学习数据技术,主要包括: 1.大数据概念 2.大数据的影响

3.大数据的影响 4.大数据的应用 5.大数据的产业 6.大数据处理架构Hadoop 7.大数据关键技术 8.大数据的计算模式 后三个牵涉的数据技技术,就复杂一点了,可以细说一下: 1.大数据处理架构Hadoop:Hadoop的特性、Hadoop生态系统、Hadoop 的安装与使用; 2.大数据关键技术技术:数据采集、数据存储与管理、数据处理与分析、数据隐私与安全; 3.大数据处理计算模式:批处理计算、流计算、图计算、查询分析计算

数据的核心技术就是获取数据价值,获取数据前提是,先要有数据,这就牵涉数据挖掘了。 本文内容由北大青鸟佳音校区老师于网络整理,学计算机技术就选北大青鸟佳音校区!了解校区详情可进入https://www.360docs.net/doc/663614927.html,网站,学校地址位于北京市西城区北礼士路100号!

智慧树知到大数据工具应用章节测试答案

第一章 1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和()能力的数据集。 A:计算 B:访问 C:应用 D:分析 答案: 分析 2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和()。 A:Variety B:Vainly C:Vagary D:Valley 答案: Variety 3、大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。 A:数据统计 B:数据计算 C:数据聚类 D:数据清洗 答案: 数据聚类 4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。 A:对

B:错 答案: 错 5、目前的大数据处理技术只能处理结构化数据。 A:对 B:错 答案: 错 第二章 1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。A:mdf B:mdb C:dbf D:xls : mdb 答案 、大多数日志文件的后缀名是(。)2 A:txt B:csv C:xml D:log : log 答案 。 weka3、本课程重点介绍的软件的专有文件格式是() A:MongoDB B:ARFF C:value D:key map

4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。 A:专业性 B:排他性 C:一致性 D:共享性 答案: 一致性 5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。A:电话号码 B:关键词 C:网页地址 D:用户名 答案: 网页地址 6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。A:otd B:jpg C:png D:gif 答案: otd 可以通过“数据有效性”按钮操作来规范数据输入的范围。Excel、7. A:对 B:错

云计算和大数据基础知识培训课件

云计算与大数据基础知识 一、云计算是什么? 云计算就是统一部署的程序、统一存储并由相关程序统一管理着的数据! 云计算cloud computing是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此,云计算甚至可以让你体验每秒超过10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据 中心,按自己的需求进行运算。 云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。 通俗的理解是,云计算的“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源(服务器、存储器、CPU等)和软件资源(如应用软件、集成开发环境等),所有的处理都在云计算提供商所提供的计算机群来完成。 用户可以动态申请部分资源,支持各种应用程序的运转,无需为繁琐的细节而烦恼,能够更加专注于自己的业务,有利于提高效率、降低成本和技术创新。 云计算的核心理念是资源池。 二、云计算的基本原理 云计算的基本原理是,在大量的分布式计算机集群上,对这些硬件基础设施通过虚拟化技术构建不同的资源池。如存储资源池、网络资源池、计算机资源池、数据资源池和软件资源池,对这些资源实现自动管理,部署不同的服务供用户应用,这使得企业能够将资源切换成所需要的应用,根据需求访问计算机和存储系统。 打个比方,这就好比是从古老的单台发电机模式转向了电厂集中供电的模式。它意味着计算能力也可以作为一种商品进行流通,就像煤气、水电一样,取用方便,费用低廉。最大的不同在于,它是通过互联网进 行传输的。 三、云计算的特点 1、支持异构基础资源 云计算可以构建在不同的基础平台之上,即可以有效兼容各种不同种类的硬件和软件基础资源。硬件基础资源,主要包括网络环境下的三大类设备,即:计算(服务器)、存储(存储设备)和网络(交换机、路由器等设备);软件基础资源,则包括单机操作系统、中间件、数据库等。 2、支持资源动态扩展 支持资源动态伸缩,实现基础资源的网络冗余,意味着添加、删除、修改云计算环境的任一资源节点,或者任一资源节点异常宕机,都不会导致云环境中的各类业务的中断,也不会导致用户数据的丢失。这里的

大数据应用技术课程介绍

大数据应用技术网络课程 1课程目标 通过讲解几种主流大数据产品和技术的特性、实现原理和应用方向,并组织实习项目,使学员了解并初步掌握目前流行的大数据主流技术(采集、存储、挖掘等),了解其特点以及使用的场景,具备一定的大数据系统架构能力,并能自行开展简单的大数据应用开发。 2课程内容 本次课程讲解的大数据产品和技术包括:hadoop、storm、flume等,其中以hadoop为主要培训内容。 3培训课程列表 1.hadoop生态系统 (1)HDFS (2课时) (2)MapReduce2 (2课时) (3)Hive (1课时) (4)HBase (2课时) (5)Sqoop (1课时) (6)Impala (1课时) (7)Spark (4课时) 2.Storm流计算(2课时) 3.Flume分布式数据处理(2课时) 4.Redis内存数据库(1课时) 5.ZooKeeper (1课时) 4培训方式 学员以观看录像、视频会议等方式进行学习,搭建集中环境供大家实习,并设置作业和答疑环节。每周视频课程约2个课时,作业和实习时间约需2-3小时,课程持续10周左右。

5课程内容简介 大数据技术在近两年发展迅速,从之前的格网计算、MPP逐步发展到现在,大数据技术发展为3个主要技术领域:大数据存储、离线大数据分析、在线大数据处理,在各自领域内,涌现出很多流行的产品和框架。 大数据存储 HDFS、HBase 离线大数据分析 MapReduce、Hive 在线大数据处理 Impala、Storm(流处理)、Spark、Redis(内存数据库)、HBase 数据采集 Flume等 辅助工具 Zookeeper等 5.1Hadoop 1)HDFS 介绍: Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同 时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的 系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大 规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统 数据的目的。HDFS是Apache Hadoop Core项目的一部分。 培训内容: HDFS设计的思路 HDFS的模块组成(NameNode、DataNode) HADOOP Core的安装 HDFS参数含义及配置 HDFS文件访问方式 培训目标: 使学员掌握HDFS这个HADOOP基础套件的原理、安装方式、配置方法等2)MAPREDUCE 介绍: MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",和它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会

数据库技术的发展现状及趋势

第24卷第1期长春师范学院学报(自然科学版)2005年3月V o l.24 N o.1Journal of Chang Chun T eachers Co llege(N atural Science)M ar 2005 数据库技术的发展现状及趋势 赵玉萍,廖运文 (西华师范大学计算机学院,四川南充 637002) [摘 要]数据库技术已发展成为信息科学里一项十分重要的技术,其应用领域之宽引人瞩目。本文介 绍了数据库技术发展的现状及最新研究动态。 [关键词]数据库技术;数据仓库;实时数据库;W eb数据库 [中图分类号]T P311.13 [文献标识码]A [文章编号]1008-178X(2005)01-0107-03 1.引言 数据库技术从20世纪70年代流行的层次、网状数据库系统到80年代的关系数据库,在很多领域都取得了巨大的成功;随着应用领域的不断扩展,关系数据库的限制和不足日益显现出来,随着面向对象技术的出现,面向对象数据库系统成为数据库系统领域研究和发展的新方向。数据库技术与网络技术、人工智能技术、面向对象技术、并行计算技术、多媒体技术等的相互融合,为数据库技术的应用开拓了更广阔的空间。 2.数据库技术发展现状 数据库技术与多学科技术的有机结合是当前数据库技术发展的重要特征。计算机领域中,其它新兴技术的发展对数据库技术产生了重大的影响。传统的数据库技术和其他计算机技术的相互结合、相互渗透,使数据库中新的技术内容层出不穷。数据库的许多概念、技术内容、应用领域,甚至某些原理都有了重大的发展和变化。建立和实现了一系列新型数据库系统,如分布式数据库系统、面向对象数据库系统、演绎数据库系统、知识库系统、多媒体数据库系统等,它们共同构成了数据库系统的大家族。传统的数据库系统仅是数据库大家族的一员,当然,它也是最成熟的和应用最广泛的一员。它的核心理论、应用经验、设计方法等仍然是整个数据库技术发展和应用开发的先导和基础。 2.1 面向对象方法和技术正逐步融入数据库 传统数据库主要适于商务或事务型这类传统应用,而对于CAD、CAM、C I M S、CA SE、过程控制与实时应用、地理信息管理及各种工程应用等,传统数据库系统已不能适应其要求。在这些领域,不仅数据本身的结构和存储形式各异,而且不同领域对数据的处理技术的要求也比一般事务管理环境复杂得多,而这些并不是传统数据库技术所能解决的,因而人们将面向对象的方法引入数据库领域,形成了面向对象数据库管理系统(OODBM S)。它实际上是数据库技术(DB)和面向对象技术(OO)结合的产物。OODBM S首先是一个数据库系统,即系统具备数据库系统的处理能力,其次又是一个面向对象的系统,即包含对象的概念、方法和技术。与传统的数据库相比,OODBM S在复杂系统的模拟、表达和处理能力等方面具有优势,不足之处是理论技术还相当不成熟、不够完善。但随着数据库技术和面向对象技术的不断发展和完善,OODBM S必将得到广泛应用。 2.2 网络技术与数据库技术的融合 分布式数据库系统是数据库技术与计算机网络技术相结合的产物。传统的集中式数据库将数据存储于单个计算机上,但随着数据库应用的不断发展,规模的不断扩大,逐渐感觉到集中式数据库系统 [收稿日期]2004—10—23 [作者简介]赵玉萍(1975- ),女,湖北荆门人,西华师范大学计算机学院讲师,从事数据库理论与应用的研究。 ? ? 1 7

云计算和大数据基础知识12296

精心整理 云计算与大数据基础知识 一、云计算是什么? 云计算就是统一部署的程序、统一存储并由相关程序统一管理着的数据! 云计算cloudcomputing是一种基于因特网的超级计算模式,在远程的数据中心里,成千上万台电脑和服务器连接成一片电脑云。因此,云计算甚至可以让你体验每秒超过10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。 二、 三、 1 );软件2 任一资源节点异常宕机,都不会导致云环境中的各类业务的中断,也不会导致用户数据的丢失。这里的资源节点可以是计算节点、存储节点和网络节点。而资源动态流转,则意味着在云计算平台下实现资源调度机制,资源可以流转到需要的地方。如在系统业务整体升高情况下,可以启动闲置资源,纳入系统中,提高整个云平台的承载能力。而在整个系统业务负载低的情况下,则可以将业务集中起来,而将其他闲置的资源转入节能模式,从而在提高部分资源利用率的情况下,达到其他资源绿色、低碳的应用效果。 3、支持异构多业务体系 在云计算平台上,可以同时运行多个不同类型的业务。异构,表示该业务不是同一的,不是已有的或事先定义好的,而应该是用户可以自己创建并定义的服务。这也是云计算与网格计算的一个重要差异。 4、支持海量信息处理 云计算,在底层,需要面对各类众多的基础软硬件资源;在上层,需要能够同时支持各类众多的异构的业务;

而具体到某一业务,往往也需要面对大量的用户。由此,云计算必然需要面对海量信息交互,需要有高效、稳定的海量数据通信/存储系统作支撑。 5、按需分配,按量计费 按需分配,是云计算平台支持资源动态流转的外部特征表现。云计算平台通过虚拟分拆技术,可以实现计算资源的同构化和可度量化,可以提供小到一台计算机,多到千台计算机的计算能力。按量计费起源于效用计算,在云计算平台实现按需分配后,按量计费也成为云计算平台向外提供服务时的有效收费形式。 四、云计算按运营模式分类 1、公有云 公有云通常指第三方提供商为用户提供的能够使用的云,公有云一般可通过Internet使用,可能是免费或成本低廉的。 烦。B 2 3 五、 六、 1、传统的IT部署架构是“烟囱式”的,或者叫做“专机专用”系统。 图2传统IT基础架构 这种部署模式主要存在的问题有以下两点: 硬件高配低用。考虑到应用系统未来3~5年的业务发展,以及业务突发的需求,为满足应用系统的性能、容量承载需求,往往在选择计算、存储和网络等硬件设备的配置时会留有一定比例的余量。但硬件资源上线后,应用系统在一定时间内的负载并不会太高,使得较高配置的硬件设备利用率不高。 整合困难。用户在实际使用中也注意到了资源利用率不高的情形,当需要上线新的应用系统时,会优先考虑部署在既有的基础架构上。但因为不同的应用系统所需的运行环境、对资源的抢占会有很大的差异,更重要的是考虑到可靠性、稳定性、运维管理问题,将新、旧应用系统整合在一套基础架构上的难度非常大,更多的用户往往选择新增与应用系统配套的计算、存储和网络等硬件设备。

云计算和大数据基础知识

* 1: 100. 云计算 (一)大数据(BigData) 1. 定义:海量数据或巨量数据,其规模巨大到无法用当前主流的计算机系统在合理时间内获取、存储、管理、处理并提取以帮助使用者决策。 2. 特点:1)数据量大(Volume)----- PB 级以上 2)快速(Velocity)----- 数据增长快 3)多样(Variety)----- 数据来源及格式多样 4)价值密度低(Value )----- 从大量、多样数据中提取价值的体系结构 5)复杂度(Complexity)-----对数据处理和分析的难度大 3.大数据与云计算的关系: 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式计算架构。 它的特色在于对海量数据的挖掘,但它必须依托云计算的分布式处理、分布式数据库、云存储和虚拟化技术。 (二)云计算(Cloud Computing) 1.定义:1)云计算是一种商业计算模型。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。 //分布式计算 2)云计算是通过网络按需提供可动态伸缩的廉价计算服务。 2. 特点:1)超大规模 2)虚拟化 3)高可靠性 4)通用性 5)高可伸缩性 6)按需服务 7)极其廉价 3. 服务类型分类: 1)SaaS (软件即服务::Software as a Service) //针对性更强,它将某些特定应用软件功能封装成服务如:Salesforce online CRM

2)PaaS (平台即服务:Platform as a Service)//对资源的抽象层次更进一步,提供用户应用程序运行环境如:Google App Engine ,Microsoft Windows Azure 3)IaaS (基础设施作为服务:Infrastructure as a Service)//将硬件设备等基础资源封装成服务供用户使用,如:Amazon EC2/S3 4. 云计算的实现机制(体系结构) 1)SOA (面向服务的体系结构):它将应用程序的不同功能单元(称为服务)通过这些服务之间定义良好的接口和契约联系起来。使得其服务能以一种统一的、通用的方式进行交互。 SOA可以看作是B/S模型、XML/Web Service技术之后的自然延伸。 2)管理中间件:(关键部分) 3)资源池层:将大量相同类型的资源构成同构或接近同构的资源池。 4)物理资源层:计算机、存储器、网络设施、数据库和软件等 5. 云计算与网格计算 1)网格是基于SOA、使用互操作、按需集成等技术,将分散在不同地理位置的资源虚拟化为一个整体。 2)关系类似于TCP/IP 协议之于OSI 模型 6. 云计算与物联网 1)物联网有全面感知,可靠传递、智能处理三个特征。云计算提供对智能处理所需要的海量信息的分析和处理支持。 2)云计算架构与互联网之上,而物联网依赖于互联网来提供有效延伸。因而,云计算模式是物理网的后端支撑关键。 * 1.1: 1. Google 云计算原理 (一)文件系统GFS 1)系统架构 2)实现机制:

大数据处理分析的六大最好工具

大数据处理分析的六大最好工具 来自传感器、购买交易记录、网络日志等的大量数据,通常是万亿或EB的大小,如此庞大的数据,寻找一个合适处理工具非常必要,今天我们为大家分享在大数据处理分析过程中六大最好用的工具。 【编者按】我们的数据来自各个方面,在面对庞大而复杂的大数据,选择一个合适的处理工具显得很有必要,工欲善其事,必须利其器,一个好的工具不仅可以使我们的工作事半功倍,也可以让我们在竞争日益激烈的云计算时代,挖掘大数据价值,及时调整战略方向。本文转载自中国大数据网。 CSDN推荐:欢迎免费订阅《Hadoop与大数据周刊》获取更多Hadoop技术文献、大数据技术分析、企业实战经验,生态圈发展趋势。 以下为原文: 大数据是一个含义广泛的术语,是指数据集,如此庞大而复杂的,他们需要专门设计的硬件和软件工具进行处理。该数据集通常是万亿或EB的大小。这些数据集收集自各种各样的来源:传感器、气候信息、公开的信息、如杂志、报纸、文章。大数据产生的其他例子包括购买交易记录、网络日志、病历、事监控、视频和图像档案、及大型电子商务。大数据分析是在研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。 Hadoop Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop 还是可伸缩的,能够处理PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

数据库新技术

数据库新技术综述 摘要:综述数据库新技术,指出数据库技术目前的研究状态和发展趋势,介绍一些数据库新技术的最新动态,并指出数据库应用所面临的挑战,指出数据库技术当今的研究热点和未来的发展趋势。 关键词:数据库;面向对象数据库;分布式数据库;数据仓库;数据挖掘;联机分析处理;发展 一、引言: 自从计算机问世以来,就有了处理数据、管理数据的需求,由此,计算机技术新的研究分支——数据库技术应运而生。随着计算机应用领域的不断扩展和多媒体技术的发展,数据库已经是计算机科学技术中发展最快、应用最广泛的重要分支之一。目前,数据库技术已经相当成熟,被广泛应用于各行各业中,成为现代信息技术的主要组成部分,是现代计算机信息系统和计算机应用的基础和核心。 另外,各种学科与数据库技术的有机结合,从而使数据库领域中新内容、新应用、新技术层出不穷,形成了各种各样的数据库系统:面向对象数据库系统、分布式数据库系统、知识数据库系统、模糊数据库系统、并行数据库系统、多媒体数据库系统等;数据库系统被应用到特定的领域后,又出现了工程数据库、演绎数据库、时态数据库、统计数据库、空间数据库、科学数据库、文献数据库等;他们继承了传统数据库的成果和技术,加以发展优化,从而形成的新的数据库,视为“进化”的数据库。可以说新一代数据库技术的研究与发展呈现了百花齐放的局面。 首先我们来了解一下数据库新技术有哪些:面向对象数据库;分布式数据库;数据仓库;数据挖掘;联机分析处理等。 二、概述新技术 (一).面向对象数据库技术 面向对象是一种认识方法学,也是一种新的程序设计方法学。把面向对象的方法和数据库技术结合起来可以使数据库系统的分析、设计最大程度地与人们对客观世界的认识相一致。面向对象数据库系统是为了满足新的数据库应用需要而产生的新一代数据库系统。 其优点为: (1).易维护:可读性高且方便低成本; (2).质量高:在设计时,可重用现有的,在以前的项目的领域中已被测试过的类使系统满足业务需求并具有较高的质量; (3).效率高:在软件开发时,根据设计的需要对现实世界的事物进行抽象,产生类。使用这样的方法解决问题,接近于日常生活和自然的思考方式,势必提高软件开发的效率和质量。

2015 Bossie评选:最佳开源大数据工具

2015 Bossie评选:最佳开源大数据工具 大数据分布式计算数据存储数据分析开源 摘要:Bossie奖是知名英文IT网站InfoWorld针对开源软件颁发的年度奖项,根据这些软件对开源界的贡献,以及在业界的影响力评判获奖对象。本次InfoWorld评选出了22款最佳的开源大数据工具,像Spark、Storm都名列榜单之上。 InfoWorld在分布式数据处理、流式数据分析、机器学习以及大规模数据分析领域精选出了2015年的开源工具获奖者,下面我们来简单介绍下这些获奖的技术工具。 1. Spark

在Apache的大数据项目中,Spark是最火的一个,特别是像IBM这样的重量级贡献者的深入参与,使得Spark的发展和进步速度飞快。 与Spark产生最甜蜜的火花点仍然是在机器学习领域。去年以来DataFrames API取代SchemaRDD API,类似于R和Pandas的发现,使数据访问比原始RDD接口更简单。 Spark的新发展中也有新的为建立可重复的机器学习的工作流程,可扩展和可优化的支持各种存储格式,更简单的接口来访问机器学习算法,改进的集群资源的监控和任务跟踪。 在Spark1.5的默认情况下,TungSten内存管理器通过微调在内存中的数据结构布局提供了更快速的处理能力。最后,新的https://www.360docs.net/doc/663614927.html,网站上有超过100个第三方贡献的链接库扩展,增加了许多有用的功能。 2. Storm

Storm是Apache项目中的一个分布式计算框架项目,主要应用于流式数据实时处理领域。他基于低延时交互模式理念,以应对复杂的事件处理需求。和Spark不同,Storm可以进行单点随机处理,而不仅仅是微批量任务,并且对内存的需求更低。在我的经验中,他对于流式数据处理更有优势,特别是当两个数据源之间的数据快速传输过程中,需要对数据进行快速处理的场景。 Spark掩盖了很多Storm的光芒,但其实Spark在很多流失数据处理的应用场景中并不适合。Storm经常和Apache Kafka一起配合使用。 3. H2O

大数据技术及应用题库

大数据技术及应用题库单选题: 1 从大量数据中提取知识的过程通常称为(A)。 a. . 数据挖掘 b. . 人工智能 c. . 数据清洗 d. . 数据仓库 2 下列论据中,能够支撑“大数据无所不能”的观点的是( A )。 A、互联网金融打破了传统的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧 3 数据仓库的最终目的是(D)。 a. . 收集业务需求 b. . 建立数据仓库逻辑模型 c. . 开发数据仓库的应用分析 d. . 为用户和业务部门提供决策支持 4 大数据处理技术和传统的数据挖掘技术最大的区别是(A)。 a. . 处理速度快(秒级定律)

b. . 算法种类更多 c. . 精度更高 d. . 更加智能化 5 大数据的起源是( C )。 a. . 金融 b. . 电信 c. . 互联网 d. . 公共管理 6 大数据不是要教机器像人一样思考。相反,它是( A )。 a. . 把数学算法运用到海量的数据上来预测事情发生的可能性 b. . 被视为人工智能的一部 c. . 被视为一种机器学习 d. . 预测与惩罚 7 人与人之间沟通信息、传递信息的技术,这指的是(D)。 a. . 感测技术 b. . 微电子技术 c. . 计算机技术 d. . 通信技术

8 数据清洗的方法不包括(D)。 a. . 缺失值处理 b. . 噪声数据清除 c. . 一致性检查 d. . 重复数据记录处理 9. 下列关于舍恩伯格对大数据特点的说法中,错误的是(D) A. 数据规模大 B. 数据类型多样 C. 数据处理速度快 D. 数据价值密度高 10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指 的是(D)。 a. . 富数据 b. . 贫数据 c. . 繁数据 d. . 大数据 1大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分 析,从中发现新知识、创造新价值、提升新能力的(D)。 a. . 新一代信息技术 b. . 新一代服务业态 c. . 新一代技术平台 d. . 新一代信息技术和服务业态

50个大数据可视化分析工具

50个大数据可视化分析工具 在大数据时代,数据可视化工具必须具有以下特性: (1)实时性:数据可视化工具必须适应大数据时代数据量的爆炸式增长需求,必须快速的收集分析数据、并对数据信息进行实时更新; (2)简单操作:数据可视化工具满足快速开发、易于操作的特性,能满足互联网时代信息多变的特点; (3)更丰富的展现:数据可视化工具需具有更丰富的展现方式,能充分满足数据展现的多维度要求; (4)多种数据集成支持方式:数据的来源不仅仅局限于数据库,数据可视化工具将支持团队协作数据、数据仓库、文本等多种方式,并能够通过互联网进行展现。 Excel 是快速分析数据的理想工具,也能创建供内部使用的数据图,但在颜色、线条和样式上可选择的范围有限。 Google Charts 提供了大量现成的图表类型,从简单的线图表到复杂的分层树地图等,还内置了动画和用户交互控制。 D3 能够提供大量线性图和条形图之外的复杂图表样式,例如V oronoi图、树形图、圆形集群和单词云等。 R语言 是主要用于统计分析、绘图的语言和操作环境。 Visual.ly 如果你需要制作信息图而不仅仅是数据可视化,Visual.ly是最流行的一个选择。

Processing 是数据可视化的招牌工具,只需要编写一些简单的代码,然后编译成Java,可在几乎所有平台上运行。 Leaflet 用来开发移动友好地交互地图。 OpenLayers 对于一些特定的任务来说,能够提供一些其他地图库都没有的特殊工具。 Polymaps 是一个地图库,主要面向数据可视化用户。可以将符号字体与字体整合,创建出漂亮的矢量化图标。 Gephi 是一个可视化的网络探索平台,用于构建动态的、分层的数据图表。 可以用CartoDB很轻易就把表格数据和地图关联起来。 Weka是数据分析的强大工具,还能生成一些简单的图表。 NodeBox是OS X上创建二维图形和可视化的应用程序。 Kartograph不需要任何地图提供者像Google Maps,用来建立互动式地图。 Modest Maps在一些扩展库的配合下,例如Wax,Modest Maps立刻会变成一个强大的地图工具。 Tangle是个用来探索、Play和查看文档更新的交互式库。既是图表,又是互动图形用户界面的小程序。当你调整一个图表中的输入范围时,其他关联图表的数据也会随之改变。 Rapha憀与其他库最大的不同是输出格式仅限SVG和VML。 jsDraw2DX用来创建任意类型的SVG交互式图形,可生成包括线、举行、多边形、椭圆、弧线等等图形。 Pizza Pie Charts是个响应式饼图图表。 FusionCharts XT是一款跨平台、跨浏览器的JavaScript图表组件,可提供令人愉悦的JavaScript图表体验。 iCharts有交互元素,可以从Google Doc、Excel 表单和其他来源中获取数据。

数据库新技术及其发展趋势

数据库新技术及其发展 趋势 公司内部编号:(GOOD-TMMT-MMUT-UUPTY-UUYY-DTTI-

数据库新技术及其发展趋势 数据库技术是计算机科学的重要分支,主要研究如何安全高效地管理大量、 持久、共享的数据。数据库的研究始于20世纪60年代中期,它的发展有着三大 标志性事件。第一件大事, 1969年IBM公司研制开发了基于层次模型的数据库管理系统的商品化软件InformationManagement System,即IMS系统,是首例成功的数据库管理系统软件。第二件大事,美国数据系统语言协会CODASYL (Conference On DataSystem Language)下属的数据库任务组DBTG(Data Base TaskGroup)对数据库方法进行系统的研究和讨论后,于20世纪60年代末到70年代初提出了若干报告。DBTG报告确定并建立了数据库系统的许多概念、方法和技术。DBTG所提议的方法是基于网状结构的,它是数据库网状模型的基础和典型代表。第三件大事, 1970年IBM公司San Jose研究实验室的研究员E. F. Codd博士发表了题为“大型共享数据库数据的关系模型”的论文,提出数据库的关系模型,从而开创了数据库关系方法和关系数据理论的研究领域,为关系数据库技术奠定了理论基础, E. F. Codd因此在1981年获得ACM图录奖。20世纪80年代几乎所有新开发的 系统都是关系系统。随着计算机系统硬件、Internet和Web技术的发展,数据库系统所管理的数据格式、数据处理方法以及应用环境不断变化,同时人工智能、 多媒体技术和其他学科技术的发展,数据库技术面临着前所未有的挑战。 当前数据库技术发展的现状,关系数据库技术仍然是主流 国内数据库的发展趋势也是飞速的,在数据库技术的当前及未来发展里程中, 数据仓库以及基于此技术的商业智能无疑将是大势所趋。IBM的实验室在这方面进行了10 多年的研究, 并将研究成果发展成为商用产品。除了用于

成电求实专技网2019年度公需科目大数据应用技术答案

大数据起源于() A、金融 B、电信 C、互联网 D、医疗 第一个提出大数据概念的公司是() A、微软 B、谷歌 C、麦肯锡 D、亚马逊 ()规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。 A、贫数据 B、大数据 C、富数据 D、繁数据 大数据的本质是() A、数据收集 B、数据挖掘 C、数据关联 D、洞察价值 大数据的最显著特征() A、数据规模大 B、数据类型多 C、数据处理速度快 D、数据价值密度高 海军人员通过对前人航海日志的分析,绘制了新的航海路线图,标明大风与洋流可能发生的地点。这一操作体现大数据思维中的() A、在数据基础上倾向与全体数据而不是抽样数据 B、在数据规模上强调相对数据而不是绝对数据 C、在分析效果上更讲究效率而不是绝对精确 D、在分析方法上更注重相关分析而不是因果分析

下列对大数据特点的说法中,错误的是() A、数据规模大 B、数据价值密度高 C、数据类型多样 D、数据处理速度快 当前社会中,最为突出的大数据环境是() A、互联网 B、物联网 C、综合国力 D、自然资源 下列关于大数据中计算机存储容量单位的说法中,错误的是() A、1KB<1MB<1TB B、基本单位是字节(Byte) C、一个汉字需要2个字节的存储空间 D、容纳一个英文字符需要2个字节 计算机存储容量单位换算中,错误的是() A、1KB=1024Byte B、1MB=1024KB C、1TB=1024MB D、1PB=1024TB 大数据时代,数据使用的关键是() A、数据收集 B、数据存储 C、数据分析 D、数据再利用 下列论据中,能够支撑“大数据无所不能”的观点是() A、“互联网+医疗”打破传通的观念和行为 B、大数据存在泡沫 C、大数据具有非常高的成本 D、个人隐私泄露与信息安全担忧

数据库新技术的发展综述

数据库新技术的发展综述

数据库技术的现状 及发展趋势 院系:数学科学学院 学号:20121014401 姓名:徐高扬 班级:统计122

数据库技术的现状与发展趋势 关键词:数据库;面向对象数据库;演绎面向对象数据库;数据仓库; 数据挖掘;发展;主流数据库新技术 1、引言 自从计算机问世以后,就有了处理数据、管理数据的需求,由此,计算机技术新的研究分支数据库技术应运而生。随着计算机应用领域的不断拓展和多媒体技术的发展,数据库已是计算机科学技术中发展最快、应用最广泛的重要分支之一。从20世纪60年代末开始,数据库系统已从第一代层次数据库、网状数据库,第二代的关系数据库系统,发展到第三代以面向对象模型为主要特征的数据库系统。关系数据库理论和技术在70~80年代得到长足的发展和广泛而有效地应用,80年代,关系数据库成为应用的主流,几乎所有新推出的数据库管理系统(DataBaseManagementSystem,DBMS)产品都是关系型的,他在计算机数据管理的发展史上是一个重要的里程碑,这种数据库具有数据结构化、最低冗余度、较高的程序与数据独立性、易于扩充、

易于编制应用程序等优点,目前较大的信息系统都是建立在关系数据库系统理论设计之上的。但是,这些数据库系统包括层次数据库、网状数据库和关系数据库,不论其模型和技术上有何差别,却主要是面向和支持商业和事务处理应用领域 的数据管理。然而,随着用户应用需求的提高、硬件技术的发展和InternetIntranet提供的丰 富多彩的多媒体交流方式,促进了数据库技术与网络通信技术、人工智能技术、面向对象程序设计技术、并行计算技术等相互渗透,互相结合, 成为当前数据库技术发展的主要特征,形成了数据库新技术。目前,数据库技术已相当成熟,被广泛应用于各行各业中,成为现代信息技术的重要组成部分,是现代计算机信息系统和计算机应用系统的基础和核心。 2、数据库技术的现状及发展趋势 1980年以前,数据库技术的发展,主要体现在数据库的模型设计上。进入90年代后,计算机领域中其它新兴技术的发展对数据库技术产生 了重大影响。数据库技术与网络通信技术、人工智能技术、多媒体技术等相互渗透,相互结合,使数据库技术的新内容层出不穷。数据库的许多

相关文档
最新文档