数据仓库(最终)

合集下载

人工智能基础(试卷编号1291)

人工智能基础(试卷编号1291)

人工智能基础(试卷编号1291)1.[单选题]人工智能处在感知智能阶段的表现是什么?A)机器开始像人类一样能理解、思考与决策B)机器开始像人类一样会计算,传递信息C)机器开始看懂和听懂,做出判断,采取一些简单行动答案:C解析:2.[单选题]随机生成的卷积核,个别一些卷积核A特征提取几乎无贡献,但不影响运算。

A、正确A)错误B)正确C)错误答案:A解析:3.[单选题]长短时记忆神经网络被设计用来解决的问题是()。

A)传统RNN存在的梯度消失/爆炸问题B)传统RNN计算量大的问题C)传统RNN速度较,漫的问题D)传统RNN容易过过拟合的问题答案:A解析:长短时记忆神经网络增加一个用来保存长期状态的单元来解决梯度消失问题。

4.[单选题]( )是知识图谱的一种通用表示方法。

A)图B)树C)三元组D)栈答案:C解析:5.[单选题]'5'*2的结果是A)55B)10C)'5'*2D)ture答案:A解析:A)硬间隔,最大化非线性支持向量机B)软间隔,最大化线性支持向量机C)硬间隔,最大化线性支持向量机D)软间隔,最大化非线性支持向量机答案:B解析:7.[单选题]知识图谱的应用有哪些()A)企业查B)智能搜索C)电商推荐D)以上都是答案:D解析:8.[单选题]下列关于国网业务自动化场景的特征错误的是()。

A)业务规则明确B)业务量大、消耗人力多C)经常出现异常情况D)已稳定运行的规范化流程答案:C解析:9.[单选题]图的节点表示问题的( )。

A)状态B)操作C)目的D)结果答案:A解析:10.[单选题]人工智能通过输入的图片,解析出图片的内容,这种技术叫什么?( )A)图片识别B)语音识别C)自动驾驶D)消费金融答案:A解析:11.[单选题]语言模型的参数估计经常使用MLE(最大似然估计)。

面临的一个问题是没有出现的项C)随机插值D)增加白噪音答案:A解析:12.[单选题]为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()A)探索性数据分析B)建模描述C)预测建模D)寻找模式和规则答案:B解析:13.[单选题]独热编码的缺点是:①.过于稀疏②.词与词的相关性比较小③.易于编码④.容易存储A)③④B)①②C)①③D)②④答案:B解析:独热编码的缺点是:①.过于稀疏②.词与词的相关性比较小14.[单选题]无监督的建模技术有()、关联分析、预报三类A)聚合B)离散C)相关性分析D)聚类答案:D解析:15.[单选题]下列代码执行结果是什么?x=1defchange(a): x+=1 printxchange(x)A)1B)2C)3D)报错答案:D解析:16.[单选题]C5.0和QUEST决策树只能处理()目标值的问题。

大数据技术及应用试题库

大数据技术及应用试题库

大数据技术及应用试题库.大数据技术及应用题库单选题:1从大量数据中提取知识的过程通常称为(A)。

a. .数据挖掘b. .人工智能c. .数据清洗d. .数据仓库2下列论据中,能够支撑“大数据无所不能”的观点的是(A)。

A、互联网金融打破了传统的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧3数据仓库的最终目的是(D)。

a. .收集业务需求b. .建立数据仓库逻辑模型c. .开发数据仓库的应用分析d. .为用户和业务部门提供决策支持4大数据处理技术和传统的数据挖掘技术最大的区别是(A)。

a. .处理速度快(秒级定律)b. .算法种类更多c. .精度更高d. .更加智能化5大数据的起源是(C)。

a. .金融b. .电信c. .互联网d. .公共管理6大数据不是要教机器像人一样思考。

相反,它是(A)。

a. .把数学算法运用到海量的数据上来预测事情发生的可能性b. .被视为人工智能的一部c. .被视为一种机器进修d. .预测与赏罚7人与人之间沟通信息、传递信息的技术,这指的是(D)。

a. .感测技术b. .微电子技术c. .计算机技术d. .通信技术教育资料.8数据清洗的方法不包括(D)。

a. .缺失值处理b. .噪声数据清除c. .一致性检查d. .重复数据记录处理9.下列关于XXX对大数据特点的说法中,错误的是(D)A.数据规模大B.数据类型多样C.数据处理速度快D.数据价值密度高10规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是(D)。

a. .富数据b. .贫数据c. .繁数据d. .大数据a. .新一代信息技术b. .新一代服务业态c. .新一代技术平台d. .新一代信息技术和服务业态12万维网之父是(C)A.XXXC.XXX—XXX.XXX13下列演示方式中,不属于传统统计图方式的是(D)。

A、柱形图B、饼状图C、曲线图D、网络图14当前社会中,最为突出的大数据环境是(A)。

数据仓库

数据仓库

23
数据仓库的数据模型
面向用户的需求
概念模型
细 化层 次
信息包图 逻辑模型
星型图模型
物理数据模型 更详细的 技术细节
物理模型
24
概念模型

由于大多数商务数据是多维的, 但传统的数据模型表示三维以 上的数据有一定困难。概念模 型简化了这个过程并且允许用 户与开发者和其他用户建立联 系:




源数据 数据准备区
数据仓库
18
数据净化

当数据从源数据库中提取到数据准备区后,必须先进行数 据净化才可以装载到数据仓库中去。数据净化主要指对数 据字段的有效值检验。有效值的检验通常包括:范围检验、 枚举字段取值和相关检验。范围检验要求数据保证落在预 期的范围之内,通常对数据范围和日期范围进行检验,如 对任何在指定范围之外的日期的发票都应删除。枚举字段 取值指对一个记录在该字段的取值,若不在指定的值中, 则应该删除。相关检验要求将一个字段中的值与另外一个 字段中的值进行相关检验,即在数据库中某个字段应与另 一个字段形成外键约束。
3
事务型处理数据和分析型处理数据的区别
特性 OLTP 计 数据 汇总 视图 工作单位 存取 关注 操作 访问记录数 用户数 DB规模 优先 度量
操作处理 事务 办事员、DBA、数据库专业人员 日常操作 基于E-R,面向应用 当前的;确保最新 原始的,高度详细 详细,一般关系 短的、简单事务 读/写 数据进入 主关键字上索引/散列 数十个 数千 100MB到GB 高性能,高可用性 事务吞吐量
数据仓库
Data Warehouse
1
事务型处理


事务型处理:即操作型处理,是指对数据库的联机操作 处理OLTP。事务型处理是用来协助企业对响应事件或 事务的日常商务活动进行处理。它是事件驱动、面向应 用的,通常是对一个或一组记录的增、删、改以及简单 查询等(大量、简单、重复和例行性)。 在事务型处理环境中,数据库要求能支持日常事务中的 大量事务,用户对数据的存取操作频率高而每次操作处 理的时间短。

数据仓库技术的名词解释

数据仓库技术的名词解释

数据仓库技术的名词解释随着数据的快速增长和业务需求的不断变化,数据仓库技术在企业管理和决策中变得愈发重要。

本文将对数据仓库技术中涉及的一些关键名词进行解释,帮助读者更好地理解和应用这一技术。

一、数据仓库数据仓库(Data Warehouse)是指将企业内部各个业务系统产生的数据进行抽取、转换和加载,经过集成、整理和归档后存放在一个统一的数据存储系统中。

通过对数据的汇总和整合,数据仓库提供了一个面向决策和分析的统一数据源,为企业提供战略决策和业务分析等方面的支持。

二、ETLETL(Extraction, Transformation and Loading)是指数据仓库中的数据抽取、转换和加载过程。

数据仓库需要从各个业务系统中抽取数据,进行清洗、转换和整理,然后加载到数据仓库中。

这一过程确保了数据的一致性和可靠性,使得数据可以被有效地用于决策分析和报表生成等业务场景中。

三、维度建模维度建模(Dimensional Modeling)是一种对数据进行建模的方法论,用于构建数据仓库中的维度模型(Dimensional Model)。

维度模型基于维度表和事实表的关系,通过定义维度和度量,将事实数据与上下文信息进行关联,提供了一种直观和灵活的数据分析方式。

维度建模常用的方法有星型模型和雪花模型。

四、星型模型星型模型(Star Schema)是一种常用的维度模型,以一个中心的事实表和多个维度表构成。

中心的事实表记录了业务过程中的事实,如销售额、订购数量等,而维度表则提供了和事实表相关的上下文信息,如产品、时间、地域等。

星型模型的简单结构和高性能查询使得其在数据仓库中被广泛采用。

五、雪花模型雪花模型(Snowflake Schema)是星型模型的一种扩展,通过将维度表进一步细化为多个层级的表,实现了对维度关系的更精细管理。

雪花模型的优势在于可以减少数据的冗余性和提升查询性能,但同时也增加了表的数量和复杂度。

在实际应用中,根据业务需求和系统性能,选择适合的维度模型是至关重要的。

数据仓库 的名词解释

数据仓库 的名词解释

数据仓库的名词解释数据仓库的名词解释数据仓库(Data Warehouse)是指一个用于存储、整合和管理企业各个部门产生的大规模数据的集中式数据库系统。

它主要用于支持企业决策制定、战略规划以及业务分析。

数据仓库的设计和构建需要考虑数据的采集、转换、加载以及存储等多个方面,以确保数据的准确性和可用性。

一、数据仓库的基本概念数据仓库是一个面向主题的、集成的、时间一致的、非易失的数据集合,用于支持企业决策制定和业务分析。

它将来自不同数据源的数据进行抽取、转换和加载,形成一个统一的、易于查询和分析的数据源。

数据仓库的特点:1. 面向主题:数据仓库以主题为中心,将数据按照主题进行组织和存储,以满足不同部门和用户的信息需求。

2. 集成:数据仓库将来自不同数据源的数据进行整合,消除了数据冗余和不一致性。

3. 时间一致性:数据仓库中的数据是按照一致的时间标准进行存储和管理的,以支持历史数据分析和趋势预测。

4. 非易失性:数据仓库中的数据一旦存储,不会轻易被删除或修改,以确保数据的可追溯性和可靠性。

二、数据仓库的架构和组成部分数据仓库的架构通常包括数据采集、数据转换、数据加载、数据存储和数据查询等几个关键组成部分。

1. 数据采集:数据仓库的数据采集涉及到从各个数据源中提取和抽取数据的过程。

这些数据源可以是企业内部的关系型数据库、操作型数据源,也可以是外部的数据源,如Web数据、日志数据等。

数据采集可以通过ETL(Extract、Transform、Load)工具进行,在此过程中可以对数据进行清洗、转换和加工。

2. 数据转换:数据采集后,需要进行数据转换的操作,将采集到的数据进行整合和规范化。

这包括数据清洗、数据集成、数据变换等一系列处理,以确保数据的一致性和质量。

3. 数据加载:数据加载是将经过转换的数据加载到数据仓库中的过程。

数据加载可以是全量加载,也可以是增量加载。

在加载过程中,还可以对数据进行校验和验证,以确保数据的准确性和完整性。

大数据技术形成性考核二

大数据技术形成性考核二

大数据技术形成性考核二题目1数据仓库的最终目的是()。

选择一项:A. 收集业务需求B. 为用户和业务部门提供决策支持C. 建立数据仓库逻辑模型D. 开发数据仓库的应用分析反馈正确答案是:为用户和业务部门提供决策支持题目2大数据要求企业设置的岗位是()。

选择一项:A. 首席分析师和首席工程师B. 首席信息官和首席工程师C. 首席信息官和首席数据官D. 首席分析师和首席数据官反馈正确答案是:首席信息官和首席数据官题目3智慧城市的构建,不包含()。

选择一项:A. 数字城市B. 联网监控C. 物联网D. 云计算反馈正确答案是:联网监控题目4规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理的数据,这指的是()。

选择一项:A. 富数据B. 繁数据C. 贫数据D. 大数据反馈正确答案是:大数据题目5一个网络信息系统最重要的资源是()选择一项:A. 网络设备B. 数据库C. 数据库管理系统D. 计算机硬件反馈正确答案是:数据库题目6大数据的最显著特征是()。

选择一项:A. 数据价值密度高B. 数据处理速度快C. 数据规模大D. 数据类型多样反馈正确答案是:数据规模大题目7梅特卡尔夫定律主要是描述信息网络,指出网络的价值在于网络的互联,联网的接点数与其价值呈现()的方式,联网越多,系统的价值越大。

选择一项:A. 对数B. 正比C. 指数D. 反比反馈正确答案是:指数题目8Mac OS系统的开发者是()。

选择一项:A. 惠普公司B. IBM公司C. 微软公司D. 苹果公司反馈正确答案是:苹果公司题目9与大数据密切相关的技术是()选择一项:A. 蓝牙B. 博弈论C. wifiD. 云计算反馈正确答案是:云计算题目10高德2014年被()全资收购了。

选择一项:A. 百度B. 阿里巴巴C. 腾讯D. 搜狐反馈正确答案是:阿里巴巴题目11下列关于聚类挖掘技术的说法中,错误的是()。

选择一项:A.B. 不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别C. 要求同类数据的内容相似度尽可能小D. 要求不同类数据的内容相似度尽可能小反馈正确答案是:要求同类数据的内容相似度尽可能小题目12下列关于计算机存储容量单位的说法中,错误的是()。

精选最新2020年最新公需科目《大数据》模拟题库(含标准答案)

精选最新2020年最新公需科目《大数据》模拟题库(含标准答案)

2020年最新公需科目《大数据》考试题(含答案)一、单选题1.数据仓库的最终目的是(D )。

(单选题)A.收集业务需求建立数据仓库逻辑模型C.开发数据仓库的应用分析D.为用户和业务部门提供决策支持2.Mac S系统的开发者是(C )。

(单选题)A.微软公司B.惠普公司C.苹果公司D.IBM公司二、多选题3.在网络爬虫的爬行策略中,应用最为基础的是(AB )。

A.深度优先遍历策略B.广度优先遍历策略C.高度优先遍历策略D.反向链接策略E.大站优先策略4.信息技术的发展非常快,表现在()。

得分.0分A.集成电路的规模每18到24个月翻一倍B.信息的存储能力每9个月翻一番C.信息的存储能力每9个月翻一番D.光通讯的速率和容量每年翻一番5.宁家骏委员指出,()主导了21世纪。

A.移动支付B.大数据C.物联网D.云计算6.阿兰·图灵在哪一年提出图灵测试的概念?CA.1952年B.1954年C.1950年D.1955年7.大数据系统体系建设规划包括以下哪些内容?ABCD分A.采数据B.搭平台C.编代码D.建模型8.大数据的主要特征表现为()。

ABCD分A.数据类型多B.处理速度快C.数据容量大D.商业价值高9.根据周琦老师所讲,以下哪些属于数据挖掘的内容?ABC分A.补充与完善路网属性B.建立道路拥堵概率与拥堵趋势变化模型C.多维分析统计用户出行规律D.高德地图导航有躲避拥堵功能10.大数据能帮助教师改进教学。

利用大数据方法,教师通过学生反馈回来的作业,就可以发现到底是哪些学生并没有真正听懂,进而有针对性地加以辅导。

对11.大数据的思维会把原来销售的概念变成服务的概念。

对12.“最为成功的商业运作模式是价格最低的资源将会被尽可能的消耗,以此来保存最昂贵的资源”,这是下列哪个定律的内涵?A.牛顿定律B.麦特卡尔夫定律C.摩尔定律■D.吉尔德定律13.根据涂子沛先生所讲,以下说法正确的有哪些?A.数据垃圾对商业公司是一个挑战B.个人要把数据当做自己的遗产C.国家要制定合适的法律来规范数据遗产继承的问题D.中国社会迟早要面临数据遗产问题14.建立大数据需要设计一个什么样的大型系统?ABCDA.能够把应用放到合适的平台上B.能够开发出相应应用C.能够处理数据D.能够存储数据15.信息技术(IT)主要包括()。

最新精编2020年最新公需科目大数据模拟考试题库(含标准答案)

最新精编2020年最新公需科目大数据模拟考试题库(含标准答案)

2020年最新公需科目《大数据》考试题(含答案)一、单选题1.数据仓库的最终目的是(D )。

(单选题)A.收集业务需求建立数据仓库逻辑模型C.开发数据仓库的应用分析D.为用户和业务部门提供决策支持2.大数据时代,数据使用的关键是( D )。

(单选题) A.数据收集B.数据存储C.数据分析D.数据再利用二、多选题3.根据涂子沛先生所讲,现在非结构化数据已经占人类数据总量的25%。

正确错误4.统筹城乡发展,就是要求公共财政向农村倾斜.公共服务向农村覆盖.公共设施向农村延伸。

对5.《中共中央关于全面深化改革若干重大问题的决定》提出,要推进国家()和()现代化。

BD分A.治理文化B.治理能力C.治理制度D.治理体系6.以下说法错误的是哪项?DA.大数据是一种思维方式B.大数据不仅仅是讲数据的体量大C.大数据会带来机器智能D.大数据的英文名称是large data7.2012 年,我国农村居民家庭每百户拥有移动电话 197.8 部。

(判断题 1 分)分■正确错误 46.当今世界四大趋势指的是经济全球化.全球城市化.全球信息化.信息智慧化。

(判断题 1 分)■正确错误 47.根据涂子沛先生所讲,数据就是简单的数字。

(判断题 1 分)正确■错误8.网球比赛,与其他体育项目一样,涉及大量数据。

正确错误9.大数据的本质是A.联系B.挖掘C.洞察D.搜集10.20世纪中后期至今的媒介革命,以()的出现为标志。

ACDA.互联网B.自动化C.计算机D.数字化11.在保护个人隐私方面,吴军博士并没有提到以下哪种方法?CA.法律的方法B.技术的方法C.文化的方法D.双向监督的方法12.“大数据”一词,最早出现于20世纪90年代,当时的数据仓库之父比尔·恩门经常提及Big Data。

对13.医疗领域如何利用大数据?ABCDA.临床决策支持B.个性化医疗C.社保资金安全D.用户行为分析14.2009年,甲型H1N1流感在全球爆发,谷歌(5000万条历史记录,做了4.5亿个不同的数学模型)测算出的数据与官方最后的数据相关性非常接近,达到了()。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

数据仓库(最终)
一、数据仓库定义
数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。

“面向主题的”: 指数据仓库中的数据是按照一定的主题域进行组织,主题是指用户使用数据仓库进行决策时所关心的重点方面。

“集成的”:数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出数据仓库的核心工具数据仓库的核心工具来,进行加工与集成,统一与综合之后才能进入数据仓库。

“相对稳定的”: 数据进入数据仓库以后只需要定期的加载、刷新。

数据仓库反映的是历史信息,并不是很多数据库处理的那种日常事务数据(有的数据库例如电信计费数据库甚至处理实时信息)。

因此,数据仓库中的数据是极少或根本不修改的;当然,向数据仓库添加数据是允许的。

“反映历史变化的”: 指通过这些信息,对企业的发展历程和未来趋势做出定量分析预测。

数据库保存信息的时候,并不强调一定有时间信息。

数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。

决策中,时间属性很重要。

同样都是累计购买过九车产品的顾客,一位是最近三个月购买九车,一位是最近一年从未买过,这对于决策者意义是不同的。

=======
二、数据库和数据仓库的区别,联系
联系:据仓库建设是一个系统工程,是一个系统过程,而不是单一的产品。

企业数据处理方式是以联机事务处理形式信息,并利用信息进行决策。

数据仓库的出现,并不是要取代数据库。

数据仓库是由许多的数据库组成。

区别:
1. 传统数据库主要是为应用程序进行数据处理,未必按照同一主题存储数据;数据仓库侧重于数据分析工作,是按照主题存储的。

2. 数据库一般存储的是日常事务性数据(甚至是实时数据,比如在线计费数据,银行数据),数据库的信息经常进行修改。

数据仓库存储的一般是历史数据,只是定期加载,极少或者不修改。

3. 数据库在设计之中,是尽量避免冗余的。

数据仓库在设计是有意引入冗余。

4.数据库主要来用存储数据的。

数据仓库主要是分析数据给出决策性管理支持。

=======
三、数据仓库的结构是什么(数据仓库有哪几部分组成)?
数据仓库系统通常包含数据源、数据存储与管理、OLAP(Online Analytical Processing,联机分析处理)服务器以及前端工具与应用四个部分。

1. 数据源:是数据仓库系统的基础,是整个系统的数据源泉。

通常包括企业内部信息和外部信息。

内部信息包括存放业务数据文档数据。

外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据等;
2. 数据存储与管理:在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的存储结构。

数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。

这些功能与目前的DBMS基本一致。

3. OLAP(Online Analytical Processing,联机分析处理)服务器:对分析所需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。

4.前段工具与应用:包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种
基于数据仓库或数据集市的应用开发工具。

======
四、数据仓库模型
数据仓库模型分为:概念模型、逻辑模型和物理模型。

1.概念模型:从客观世界到主观认识的的映射。

2.逻辑模型:一般建立在关系模型的基础之上,即主题与主题之间用关系来表示
3.物理模型:逻辑模型的物化实现,具体是将数据存储、分析等策略实际通过这个模型来实现出来。

======
五、数据仓库的构建步骤(大体上是这个步骤,主线就是:概念模型-逻辑模型-物理模型-生成-运行与维护,类似于MIS的构建步骤)
概念模型设计;
技术准备工作;
逻辑模型设计;
物理模型设计;
数据仓库生成;
数据仓库运行与维护。

相关文档
最新文档