大数据相关题库

合集下载

大数据考试题

大数据考试题一、选择题1.大数据是指（）。

A.海量数据存储B.海量数据处理C.海量数据分析D.以上皆是2.以下哪个行业中不适合应用大数据技术（）。

A.金融B.教育C.医疗D.制造3.大数据技术的主要特点包括（）。

A.高速B.大容量C.多样性D.以上皆是4.数据挖掘是大数据技术中的一种（）。

A.数据收集方法B.数据处理方法C.数据分析方法D.数据存储方法5.以下哪种技术不属于大数据技术中的数据存储方法（）。

A.关系数据库B.分布式文件系统C.非关系型数据库D.数据仓库二、填空题1.大数据技术的核心是（）。

答：数据分析2.大数据处理能力的衡量指标是（）。

答：吞吐量3.数据清洗是大数据处理过程中的（）。

答：第一步4.大数据技术广泛应用于（）行业。

答：金融、电商、物流等5.数据挖掘的目标是（）。

答：发现隐藏在大数据中的有价值信息三、简答题1.请简述大数据的三个V特点。

答：大数据的三个V特点是：高速（Velocity）、大容量（Volume）和多样性（Variety）。

高速指的是数据的快速产生和传输速度，要求系统能够实时处理大量的数据；大容量意味着大数据处理系统需要具备海量数据存储和处理的能力；多样性指的是大数据来源的多样性，包括结构化数据和非结构化数据等。

2.数据挖掘是什么？简要介绍其在大数据领域的应用。

答：数据挖掘是通过自动或半自动的方式，在大数据中发现模式、关联、异常等有价值的信息的过程。

在大数据领域，数据挖掘技术被广泛应用于市场分析、用户画像、推荐系统等方面。

通过数据挖掘，企业可以挖掘出用户的偏好、需求，从而优化产品设计和营销策略，提升竞争力。

3.请简述大数据技术在金融行业中的应用。

答：大数据技术在金融行业中的应用广泛，包括风险管理、反欺诈、营销分析等方面。

在风险管理方面，大数据技术可以通过对大量的交易数据进行实时监控和分析，及时发现异常交易和风险事件，并采取相应措施预防风险。

在反欺诈方面，大数据技术可以对用户的行为数据进行分析，建立起用户画像，准确识别风险，防止欺诈行为的发生。

大数据考试题库和答案

大数据考试题库和答案一、单项选择题1. 大数据的4V特征不包括以下哪一项？A. Volume（体量大）B. Velocity（速度快）C. Variety（种类多）D. Validity（有效性）答案：D2. 以下哪一项不是Hadoop生态系统中的组件？A. HDFSB. MapReduceC. SparkD. Cassandra答案：D3. 在大数据中，以下哪个术语指的是数据的存储格式？A. ETLB. OLAPC. NoSQLD. Hadoop答案：C4. 以下哪个不是大数据技术的优势？A. 处理速度快B. 成本低C. 存储容量小D. 可扩展性高答案：C5. 大数据技术可以应用于以下哪个领域？A. 金融B. 医疗C. 教育D. 所有以上选项答案：D二、多项选择题1. 大数据技术可以解决以下哪些问题？A. 数据挖掘B. 数据存储C. 数据分析D. 数据可视化答案：ABCD2. 以下哪些是大数据技术的关键组成部分？A. 分布式存储B. 分布式计算C. 数据库D. 机器学习答案：ABCD3. 在大数据领域，以下哪些是常见的数据源？A. 社交媒体B. 传感器数据C. 交易记录D. 网络日志答案：ABCD三、判断题1. 大数据技术只能处理结构化数据。

（错误）2. 机器学习是大数据技术的一个重要应用领域。

（正确）3. Hadoop是一个开源的大数据存储和处理框架。

（正确）4. NoSQL数据库不支持事务处理。

（错误）5. 大数据技术可以完全替代传统的数据库技术。

（错误）四、简答题1. 请简述大数据的4V特征。

答案：大数据的4V特征包括：- Volume（体量大）：数据量巨大，通常以TB或PB为单位。

- Velocity（速度快）：数据生成和处理的速度非常快。

- Variety（种类多）：数据类型多样化，包括结构化、半结构化和非结构化数据。

- Veracity（真实性）：数据的质量和准确性。

2. 请解释什么是ETL过程。

大数据考试题目及答案

大数据考试题目及答案一、单项选择题（每题2分，共10题）1. 大数据的4V特征中，不包括以下哪一项？A. Volume（体量大）B. Velocity（速度快）C. Variety（种类多）D. Validity（准确性）答案：D2. Hadoop的核心组件包括以下哪些？A. HDFSB. MapReduceC. YARND. 以上都是答案：D3. 下列哪个不是大数据的存储技术？A. NoSQL数据库B. 分布式文件系统C. 传统关系型数据库D. 内存数据库答案：C4. 在大数据技术中，用于实时处理数据流的框架是？A. HadoopB. SparkC. HiveD. Pig答案：B5. 大数据环境下，数据挖掘的主要目标是什么？A. 数据清洗B. 数据存储C. 数据分析D. 数据可视化答案：C二、多项选择题（每题3分，共5题）1. 大数据技术可以应用于以下哪些领域？A. 金融分析B. 医疗健康C. 交通规划D. 教育研究答案：ABCD2. 以下哪些是大数据技术的优势？A. 处理速度快B. 存储成本低C. 可扩展性强D. 数据安全性高答案：ABC3. 在大数据技术中，以下哪些是数据预处理的步骤？A. 数据清洗B. 数据转换C. 数据聚合D. 数据压缩答案：ABCD4. 大数据技术中，以下哪些是数据挖掘的常用算法？A. 决策树B. 聚类分析C. 神经网络D. 关联规则答案：ABCD5. 大数据技术中，以下哪些是数据可视化的工具？A. TableauB. Power BIC. D3.jsD. QlikView答案：ABCD三、简答题（每题5分，共2题）1. 请简述大数据技术在商业智能中的应用。

答：大数据技术在商业智能中的应用主要体现在通过分析和挖掘大量数据，帮助企业发现潜在的市场趋势、顾客行为模式以及业务流程中的效率问题，从而优化决策过程，提高运营效率，增强竞争力。

2. 描述一下大数据技术在医疗健康领域的应用。

大数据考试题目及答案

大数据考试题目及答案一、单项选择题（每题2分，共20分）1. 大数据技术的核心目标是处理哪种类型的数据？A. 结构化数据B. 半结构化数据B. 非结构化数据D. 所有上述数据类型答案：D2. 在大数据分析中，以下哪个算法主要用于聚类分析？A. 决策树B. 神经网络C. K-meansD. 线性回归答案：C3. Hadoop的核心组件包括以下哪个？A. SparkB. HiveC. HBaseD. MapReduce答案：D4. 数据挖掘中的“关联规则”通常与哪位学者的名字联系在一起？A. 马斯洛B. 纳维斯C. 阿普拉姆D. 汉斯答案：B5. 大数据的“4V”特性不包括以下哪一项？A. 体量大B. 速度快C. 价值高D. 成本高答案：D6. 在大数据架构中，数据湖主要用于存储什么类型的数据？A. 仅结构化数据B. 仅非结构化数据C. 结构化和非结构化数据D. 仅半结构化数据答案：C7. 下列哪项不是大数据分析的常见应用场景？A. 市场分析B. 风险管理C. 客户细分D. 纸质文档打印答案：D8. 大数据技术可以有效地处理“数据孤岛”问题，这主要是指：A. 数据的物理隔离B. 数据的逻辑隔离C. 数据的格式不统一D. 数据的存储位置分散答案：B9. 在大数据环境下，以下哪个数据库更适合处理非关系型数据？A. MySQLB. OracleC. MongoDBD. SQL Server答案：C10. 大数据的实时分析通常依赖于哪种技术？A. 数据仓库B. 批处理C. 流处理D. 数据挖掘答案：C二、多项选择题（每题3分，共15分）11. 大数据的存储技术包括以下哪些选项？（多选）A. 云存储B. 分布式文件系统C. 关系型数据库D. NoSQL数据库答案：A B D12. 在大数据的生态系统中，以下哪些组件是常见的？（多选）A. HadoopB. SparkC. MongoDBD. Excel答案：A B C13. 大数据的分析过程通常包括哪些步骤？（多选）A. 数据采集B. 数据清洗C. 数据可视化D. 数据丢弃答案：A B C14. 以下哪些因素会影响大数据的性能？（多选）A. 数据的规模B. 数据的处理速度C. 数据的存储格式D. 数据的来源答案：A B C15. 在大数据安全领域，以下哪些措施是重要的？（多选）A. 数据加密B. 访问控制C. 数据备份D. 系统防火墙答案：A B C D三、简答题（每题10分，共20分）16. 请简述大数据的“4V”特性是什么？答案：大数据的“4V”特性指的是体量大（Volume）、速度快（Velocity）、类型多（Variety）、价值高（Value）。

大数据考试题目及答案

大数据考试题目及答案一、单选题（每题2分，共10分）1. 大数据的“4V”特征不包括以下哪一项？A. Volume（体量）B. Velocity（速度）C. Variety（多样性）D. Visualization（可视化）答案：D2. Hadoop生态系统中，用于数据存储的是以下哪个组件？A. HBaseB. HiveC. MapReduceD. YARN答案：A3. 以下哪个不是大数据技术？A. SparkB. HadoopC. MongoDBD. MySQL答案：D4. 大数据的分析处理通常不包括以下哪个阶段？A. 数据收集B. 数据清洗C. 数据存储D. 数据展示答案：D5. 下列哪个选项不是大数据应用的领域？A. 金融B. 医疗C. 教育D. 农业答案：C二、多选题（每题4分，共20分）1. 大数据技术可以应用于以下哪些行业？A. 电子商务B. 物流C. 制造业D. 教育答案：A、B、C、D2. 以下哪些是Hadoop生态系统的组成部分？A. HDFSB. MapReduceC. SparkD. HBase答案：A、B、C、D3. 大数据的分析方法包括哪些？A. 描述性分析B. 诊断性分析C. 预测性分析D. 规范性分析答案：A、B、C、D4. 大数据的挑战包括哪些？A. 数据安全B. 数据隐私C. 数据存储D. 数据处理答案：A、B、C、D5. 以下哪些是大数据分析工具？A. RB. PythonC. SASD. Excel答案：A、B、C三、判断题（每题2分，共10分）1. 大数据技术只能用于处理非结构化数据。

（）答案：错误2. Hadoop可以处理PB级别的数据。

（）答案：正确3. 大数据技术不需要考虑数据的实时性。

（）答案：错误4. 大数据技术可以提高决策的效率和准确性。

（）答案：正确5. 大数据技术无法应用于个人隐私保护。

（）答案：错误四、简答题（每题10分，共20分）1. 简述大数据的“4V”特征。

大数据题库(225道)

大数据1、SQL Server 2008是一个( )的数据库系统。

——[单选题]A 网状型B 层次型C 关系型D 以上都不是正确答案：C2、DBMS是什么()——[单选题]A 操作系统B 数据库管理系统C 数据库D 数据库管理员正确答案：B3、SQL Server中的系统级信息存储于哪个数据库( )。

——[单选题]A masterB modelC tempdbD msdb正确答案：A4、数据库系统由哪（）部分组成。

——[单选题]A 计算机硬件、软件、数据库和数据B 计算机硬件、软件、数据库和数据用户C 计算机硬件、软件和数据D 计算机硬件、软件、数据库正确答案：B5、关系数据模型 ()。

——[单选题]A 只能表示实体间的 1 : 1 联系B 只能表示实体间的 1 : n 联系C 只能表示实体间的 m : n 联系D 只能表示实体间的上述 3 种联系正确答案：D6、假如有两个表的连接是这样的: table_a inner join table_b 其中table_a和table_b是两个具有公共属性的表,这种连接会生成哪种结果集?——[单选题]A 包括table_a中的所有行,不包括table_b的不匹配行B 包括table_b中的所有行,不包括table_a的不匹配行C 包括和两个表的所有行D 只包括table_a和table_b满足条件的行正确答案：D7、要查询book表中所有书名中包含“计算机”的书籍情况,可用( )语句。

——[单选题]A SELECT * FROM book WHERE book_name LIKE ‘计算机*’B SELECT * FROM book WHERE book_name LIKE ‘计算机%’C SELECT * FROM book WHERE book_name = ‘计算机*’D SELECT * FROM book WHERE book_name = ‘计算机%’正确答案：B8、以下运算符中优先级最低的是:——[单选题]A +(加)B =(等于)C likeD =(赋值)正确答案：D9、下面字符串能与通配符表达式 [ABC]%a 进行匹配的是:——[单选题]A BCDEFB A_BCDC ABC_aD A%a正确答案：C10、在SELECT语句中,用于去除重复行的关键字是 :——[单选题]A TOPB DISTINCTC PERCENTD HAVING正确答案：B11、若想查询出所有姓张的、且出生日期为空的学生信息,则WHERE条件应为 ( )——[单选题]A 姓名LIKE ‘张%’ AND 出生日期 = NULLB 姓名LIKE ‘张*’ AND 出生日期 = NULLC 姓名LIKE ‘张%’ AND 出生日期 IS NULLD 姓名LIKE ‘张_’ AND 出生日期 IS NULL正确答案：C12、SELECT查询中,要把结果中的行按照某一列的值进行排序,所用到的子句是:——[单选题]A ORDER BYB WHEREC GROUP BYD HAVING正确答案：A13、下列运算符中可以实现模糊查询的是( )。

大数据试题及答案

大数据试题及答案一、单选题1. 大数据的4V特性不包括以下哪一项？A. Volume（体量）B. Velocity（速度）C. Variety（多样性）D. Validity（有效性）答案：D2. 在大数据分析中，以下哪项技术主要用于数据的存储和管理？A. HadoopB. SparkC. R语言D. SQL答案：A3. 大数据的实时分析通常指的是什么？A. 批量处理数据B. 流式处理数据C. 离线分析数据D. 数据挖掘答案：B4. 下列哪个是大数据分析的典型应用场景？A. 财务报告编制B. 客户行为分析C. 产品成本核算D. 员工绩效评估答案：B5. 在大数据架构中，MapReduce通常用于什么？A. 数据存储B. 数据查询C. 数据处理D. 数据可视化答案：C二、多选题6. 下列哪些是大数据技术生态系统中常见的组件？（多选）A. HadoopB. MongoDBC. HiveD. Cassandra答案：A, C, D7. 在大数据的背景下，以下哪些因素可能对数据隐私和安全构成威胁？（多选）A. 数据泄露B. 不当的数据共享C. 黑客攻击D. 法律监管不足答案：A, B, C, D8. 大数据技术可以帮助企业实现哪些目标？（多选）A. 提高运营效率B. 增强市场竞争力C. 降低成本D. 提升客户满意度答案：A, B, C, D三、判断题9. 所有大数据问题都可以通过单一的大数据技术解决。

（对/错）答案：错10. 大数据技术的发展完全依赖于开源社区。

（对/错）答案：错四、简答题11. 简述大数据技术在医疗健康领域的应用。

答案：大数据技术在医疗健康领域的应用包括疾病预测、个性化医疗、医疗影像分析、临床决策支持、药物研发、患者健康管理等。

通过分析大量的医疗记录和健康数据，可以帮助医生做出更准确的诊断，为患者提供个性化的治疗方案，同时优化医疗资源的分配和使用。

12. 描述一下什么是数据湖以及它在大数据分析中的作用。

大数据试题及答案

大数据试题及答案一、选择题1. 以下哪项技术不是大数据处理的核心技术？A. 分布式存储B. 分布式计算C. 数据挖掘D. 关系型数据库答案：D2. 以下哪个大数据处理框架是Apache软件基金会开发的？A. HadoopB. SparkC. FlinkD. All of the above答案：D3. 在大数据技术中，以下哪个技术用于实现数据的分布式存储？A. HDFSB. HBaseC. RedisD. Kafka答案：A4. 以下哪个大数据技术用于实现数据的分布式计算？A. MapReduceB. StormC. SparkD. Hive答案：A5. 以下哪个大数据技术用于实现实时数据处理？A. HadoopB. Spark StreamingC. FlinkD. Kafka答案：C二、填空题1. 大数据处理技术主要包括________、________、________和________。

答案：分布式存储、分布式计算、数据挖掘、数据可视化2. Hadoop框架中的________用于分布式存储，________用于分布式计算。

答案：HDFS、MapReduce3. 在大数据技术中，________是用于实现实时数据流处理的技术，________是用于实现实时计算的技术。

答案：Kafka、Flink4. 以下属于大数据应用场景的有：________、________、________。

答案：金融风控、智能推荐、物联网三、判断题1. 大数据技术仅适用于处理大规模数据集。

（）答案：错误。

大数据技术不仅可以处理大规模数据集，还可以应用于中小数据集，提高数据处理和分析的效率。

2. Hadoop是一个开源的大数据处理框架，可以用于分布式存储和分布式计算。

（）答案：正确。

3. Spark比Hadoop更适用于实时数据处理。

（）答案：正确。

Spark具有更高的数据处理速度，可以满足实时数据处理的需求。

四、简答题1. 简述大数据技术的特点和挑战。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

大数据相关题库1、当前大数据技术的基础是由（ C）首先提出的。

（单选题，本题2分）A：微软 B：百度 C：谷歌 D：阿里巴巴2、大数据的起源是（C ）。

（单选题，本题2分）A：金融 B：电信 C：互联网 D：公共管理3、根据不同的业务需求来建立数据模型，抽取最有意义的向量，决定选取哪种方法的数据分析角色人员是（ C）。

（单选题，本题2分）A：数据管理人员 B：数据分析员 C：研究科学家 D：软件开发工程师4、（D ）反映数据的精细化程度，越细化的数据，价值越高。

（单选题，本题2分）A：规模 B：活性 C：关联度 D：颗粒度5、数据清洗的方法不包括（ D）。

（单选题，本题2分）A：缺失值处理 B：噪声数据清除 C：一致性检查 D：重复数据记录处理6、智能健康手环的应用开发，体现了（ D）的数据采集技术的应用。

（单选题，本题2分）A：统计报表 B：网络爬虫 C：API接口 D：传感器7、下列关于数据重组的说法中，错误的是（ A）。

（单选题，本题2分）A：数据重组是数据的重新生产和重新采集 B：数据重组能够使数据焕发新的光芒C：数据重组实现的关键在于多源数据融合和数据集成 D：数据重组有利于实现新颖的数据模式创新8、智慧城市的构建，不包含（ C）。

（单选题，本题2分）A：数字城市 B：物联网 C：联网监控 D：云计算9、大数据的最显着特征是（ A）。

（单选题，本题2分）A：数据规模大 B：数据类型多样 C：数据处理速度快 D：数据价值密度高10、美国海军军官莫里通过对前人航海日志的分析，绘制了新的航海路线图，标明了大风与洋流可能发生的地点。

这体现了大数据分析理念中的（B ）。

（单选题，本题2分）A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析效果上更追究效率而不是绝对精确D：在数据规模上强调相对数据而不是绝对数据11、下列关于舍恩伯格对大数据特点的说法中，错误的是（D ）。

（单选题，本题2分） A：数据规模大 B：数据类型多样 C：数据处理速度快 D：数据价值密度高12、当前社会中，最为突出的大数据环境是（A ）。

（单选题，本题2分）A：互联网 B：物联网 C：综合国力 D：自然资源13、在数据生命周期管理实践中，（ B）是执行方法。

（单选题，本题2分）A：数据存储和备份规范 B：数据管理和维护C：数据价值发觉和利用 D：数据应用开发和管理14、下列关于网络用户行为的说法中，错误的是（ C）。

（单选题，本题2分）A：网络公司能够捕捉到用户在其网站上的所有行为B：用户离散的交互痕迹能够为企业提升服务质量提供参考C：数字轨迹用完即自动删除D：用户的隐私安全很难得以规范保护15、下列关于计算机存储容量单位的说法中，错误的是（ C）。

（单选题，本题2分） A：1KB＜1MB＜1GB B：基本单位是字节（Byte）C：一个汉字需要一个字节的存储空间 D：一个字节能够容纳一个英文字符，16、下列关于聚类挖掘技术的说法中，错误的是（B ）。

（单选题，本题2分）A：不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别B：要求同类数据的内容相似度尽可能小C：要求不同类数据的内容相似度尽可能小D：与分类挖掘技术相似的是，都是要对数据进行分类处理17、下列国家的大数据发展行动中，集中体现“重视基础、首都先行”的国家是（ D）。

（单选题，本题2分）A：美国 B：日本 C：中国 D：韩国18、下列关于大数据的分析理念的说法中，错误的是（D ）。

（单选题，本题2分）A：在数据基础上倾向于全体数据而不是抽样数据B：在分析方法上更注重相关分析而不是因果分析C：在分析效果上更追究效率而不是绝对精确D：在数据规模上强调相对数据而不是绝对数据19、万维网之父是（ C）。

（单选题，本题2分）A：彼得·德鲁克 B：舍恩伯格 C：蒂姆·伯纳斯－李 D：斯科特·布朗20、 Mac OS系统的开发者是（C ）。

（单选题，本题2分）A：微软公司 B：惠普公司 C：苹果公司 D：IBM公司21、大数据时代，数据使用的关键是（ D）。

（单选题，本题2分）A：数据收集 B：数据存储 C：数据分析 D：数据再利用22、下列关于数据交易市场的说法中，错误的是（ C）。

（单选题，本题2分）A：数据交易市场是大数据产业发展到一定程度的产物B：商业化的数据交易活动催生了多方参与的第三方数据交易市场C：数据交易市场通过生产数据、研发和分析数据，为数据交易提供帮助D：数据交易市场是大数据资源化的必然产物23、下列论据中，能够支撑“大数据无所不能”的观点的是（ A）。

（单选题，本题2分）A：互联网金融打破了传统的观念和行为 B：大数据存在泡沫C：大数据具有非常高的成本 D：个人隐私泄露与信息安全担忧24、数据仓库的最终目的是（D ）。

（单选题，本题2分）A：收集业务需求 B：建立数据仓库逻辑模型C：开发数据仓库的应用分析 D：为用户和业务部门提供决策支持25、支撑大数据业务的基础是（ B）。

（单选题，本题2分）A：数据科学 B：数据应用 C：数据硬件 D：数据人才26、在网络爬虫的爬行策略中，应用最为基础的是（AB ）。

（多选题，本题3分）A：深度优先遍历策略 B：广度优先遍历策略C：高度优先遍历策略 D：反向链接策略 E：大站优先策略27、当前，大数据产业发展的特点是（ACE ）。

（多选题，本题3分）A：规模较大 B：规模较小 C：增速很快 D：增速缓慢 E：多产业交叉融合28、下列关于数据生命周期管理的核心认识中，正确的是（ABC ）。

（多选题，本题3分）A：数据从产生到被删除销毁的过程中，具有多个不同的数据存在阶段B：在不同的数据存在阶段，数据的价值是不同的C：根据数据价值的不同应该对数据采取不同的管理策略D：数据生命周期管理旨在产生效益的同时，降低生产成本E：数据生命周期管理最终关注的是社会效益29、下列关于基于大数据的营销模式和传统营销模式的说法中，错误的是（ AB）。

答案选C更正（多选题，本题3分）A：传统营销模式比基于大数据的营销模式投入更小B：传统营销模式比基于大数据的营销模式针对性更强C：传统营销模式比基于大数据的营销模式转化率低D：基于大数据的营销模式比传统营销模式实时性更强E：基于大数据的营销模式比传统营销模式精准性更强30、下列关于脏数据的说法中，正确的是（ ABCDE）。

（多选题，本题3分）A：格式不规范 B：编码不统一 C：意义不明确 D：与实际业务关系不大E：数据不完整31、数据再利用的意义在于（ ABC）。

（多选题，本题3分）A：挖掘数据的潜在价值 B：实现数据重组的创新价值C：利用数据可扩展性拓宽业务领域 D：优化存储设备，降低设备成本E：提高社会效益，优化社会管理32、按照涉及自变量的多少，可以将回归分析分为（CD ）。

（多选题，本题3分）A：线性回归分析 B：非线性回归分析 C：一元回归分析D：多元回归分析 E：综合回归分析33、传统数据密集型行业积极探索和布局大数据应用的表现是（ BCE）。

（多选题，本题3分）A：投资入股互联网电商行业 B：打通多源跨域数据C：提高分析挖掘能力 D：自行开发数据产品E：实现科学决策与运营34、大数据人才整体上需要具备（ABE ）等核心知识。

（多选题，本题3分）A：数学与统计知识 B：计算机相关知识C：马克思主义哲学知识 D：市场运营管理知识E：在特定业务领域的知识35、下列关于大数据的说法中，错误的是（AD ）。

（多选题，本题3分）A：大数据具有体量大、结构单一、时效性强的特征B：处理大数据需采用新型计算架构和智能算法等新技术C：大数据的应用注重相关分析而不是因果分析D：大数据的应用注重因果分析而不是相关分析E：大数据的目的在于发现新的知识与洞察并进行科学决策36、在噪声数据中，波动数据比离群点数据偏离整体水平更大。

（ F）（判断题，本题2分）是否37、对于大数据而言，最基本、最重要的要求就是减少错误、保证质量。

因此，大数据收集的信息量要尽量精确。

（ F）（判断题，本题2分）是否38、一般而言，分布式数据库是指物理上分散在不同地点，但在逻辑上是统一的数据库。

因此分布式数据库具有物理上的独立性、逻辑上的一体性、性能上的可扩展性等特点。

（T ）（判断题，本题2分）是否39、具备很强的报告撰写能力，可以把分析结果通过文字、图表、可视化等多种方式清晰地展现出来，能够清楚地论述分析结果及可能产生的影响，从而说服决策者信服并采纳其建议，是数据分析能力对大数据人才的基本要求。

（F ）（判断题，本题2分）是否40、谷歌流感趋势充分体现了数据重组和扩展对数据价值的重要意义。

（ F）（判断题，本题2分）是否41、决策树是一种基于树形结构的预测模型，每一个树形分叉代表一个分类条件，叶子节点代表最终的分类结果，其优点在于易于实现，决策时间短，并且适合处理非数值型数据。

（ T）（判断题，本题2分）是否42、信息生命周期管理是据生命周期管理的来源，最早由英国企业提出。

（ F）（判断题，本题2分）是否43、简单随机抽样，是从总体N个对象中任意抽取n个对象作为样本，最终以这些样本作为调查对象。

在抽取样本时，总体中每个对象被抽中为调查样本的概率可能会有差异。

（ F）（判断题，本题2分）是否44、啤酒与尿布的经典案例，充分体现了实验思维在大数据分析理念中的重要性。

（F ）（判断题，本题2分）是否45、对于企业来说，给用户进行各种促销或者实施运营策略的时机也比较重要，而且对不同兴趣偏好的用户最好集中处理。

（ F）（判断题，本题2分）是否46.下列关于舍恩伯格对大数据特点的说法中，错误的是（D）A。

数据规模大 B。

数据类型多样 C。

数据处理速度快D。

数据价值密度高47.下列关于大数据的分析理念的说法中，错误的是（D）A.在数据基础上倾向于全体数据而不是抽样数据B。

在分析方法上更注重相关分析而不是因果分析C。

在分析效果上更追求效率而不是绝对精确D。

在数据规模上强调相对数据而不是绝对数据49.下列关于普查的缺点的说法中，正确的是（A）A.工作量较大，容易导致调查内容有限、产生重复和遗漏现象B。

误差不易被控制C。

对样本的依赖比较强D。

评测结果不够稳定50.下列关于聚类挖掘技术的说法中，错误的是（B）A.不预先设定数据归类类目，完全根据数据本身性质将数据聚合成不同类别B。

要求同类数据的内容相似度尽可能小C。

要求不同类数据的内容相似度尽可能小D。

与分类挖掘技术相似的是，都是要对数据进行分类处理51.智慧城市的构建，不包含（C）A.数字城市B。

物联网C。

联网监控D。

云计算52.大数据的起源是（C）A.金融B。