大数据分析工程师(基础级)考试大纲
数据库工程师考试大纲

数据库工程师考试大纲1. 前言1.1 考试目的1.2 考试范围1.3 参考教材2. 数据库基础概念2.1 数据库的定义2.2 数据库管理系统(DBMS)2.3 数据库模型2.4 数据库语言3. 关系数据库3.1 关系数据库的基本概念3.2 关系数据模型3.3 关系数据操作3.4 数据库设计范式4. SQL语言4.1 SQL基础4.2 DDL命令4.3 DML命令4.4 数据查询与排序4.5 数据修改与删除4.6 触发器与存储过程5. 数据库管理与优化5.1 数据库安装与配置 5.2 数据库备份与恢复 5.3 数据库性能优化5.4 索引与查询优化6. 数据库安全与权限管理6.1 用户与角色管理6.2 数据库权限管理6.3 数据库访问控制6.4 数据加密与脱敏7. 数据库监控与故障处理 7.1 监控数据库性能7.2 数据库故障与恢复 7.3 数据库容灾与备份7.4 安全和业务风险管理8. 数据仓库与数据挖掘 8.1 数据仓库的概念8.2 数据仓库架构8.3 数据清洗与预处理 8.4 数据挖掘与分析9. NoSQL数据库9.1 NoSQL数据库的概念9.2 NoSQL数据库的类型9.3 NoSQL数据库的应用场景10. 大数据与分布式数据库10.1 大数据概念与特点10.2 分布式数据库架构10.3 大数据存储与处理技术10.4 分布式数据库管理11. 数据库项目实践11.1 数据库项目规划与需求分析 11.2 数据库设计与实施11.3 数据库测试与优化11.4 数据库部署与维护12. 考试模拟题与答案解析本考试大纲旨在评估考生在数据库工程师领域的专业知识和技能。
通过考试,考生将能够深入了解数据库的概念和基础知识,熟悉使用SQL语言进行数据库的操作和管理,掌握数据库安全与权限管理的方法,学习数据库的监控和故障处理技术,了解数据仓库、NoSQL数据库、大数据和分布式数据库等相关领域的知识。
参加考试的考生应具备一定的计算机和数据库基础知识,并具备一定的数据库项目实践经验。
cda一级考试大纲

cda一级考试大纲一、考试简介CDA一级考试是数据分析师认证考试中的初级级别,主要考察考生对数据分析基本概念、技能和工具的掌握程度。
该考试旨在评估考生在数据处理、数据分析、数据可视化等方面的能力,以及解决实际问题的能力。
二、考试目标通过CDA一级考试,考生应掌握以下技能和能力:1、了解数据分析的基本概念和方法;2、掌握数据处理的基本技能,包括数据清洗、数据转换等;3、掌握基本的数据分析方法,如描述性统计、可视化展示等;4、了解常见的数据可视化工具和技术;5、能够解决基本的实际问题,运用数据分析思维解决工作生活中的问题。
三、考试内容1、数据分析基础知识(1)数据的概念、类型、特点(2)数据分析的目的、过程和方法(3)数据科学的基本概念、工具和技术2、数据处理技能(1)数据预处理:缺失值处理、异常值处理、数据标准化等(2)数据清洗:数据整理、数据格式转换等(3)数据转换:数据分组、数据汇总、数据聚合等3、数据分析方法(1)描述性统计:均值、中位数、标准差等指标的计算和分析方法(2)推理性统计:假设检验、方差分析、回归分析等方法的基本原理和应用场景(3)可视化展示:图表类型选择与设计,如何通过可视化手段展示数据和分析结果4、数据可视化工具与技术(1)数据可视化工具:Excel图表、Python的可视化库(如matplotlib, seaborn)等的使用方法(2)数据可视化技术:基本的数据可视化方法和技术,如折线图、柱状图、散点图等的特点和使用场景5、实际应用问题解决(1)分析实际案例,运用数据分析思维解决问题,展示分析结果;综合案例分析报告的撰写和陈述技巧;针对给定的问题进行合理的假设,并设计出具体的实验和分析方案。
四、考试形式与时间安排考试形式为线上考试,时间为180分钟,其中包含10分钟的阅读考试须知和系统测试时间。
考试结束后,系统会自动提交试卷并显示成绩。
试卷满分为100分,成绩达到60分为合格。
大数据开发工程师(基础级)考试大纲

大数据开发工程师(基础级)考试大纲Big Data Development Engineer Level I Examination OutlineBDDE考试大纲是CBDA国际认证培训中心基于大数据开发工程师等级认证标准而设定的一套科学、详细、系统的考试纲要。
考纲规定并明确了BDDE大数据开发工程师认证考试的具体范围、内容和知识点,考生可按照BDDE考试大纲进行相关知识的复习。
1.大数据概念(占比2%)2.大数据特点。
(占比3%)3.大数据处理流程(占比5%)1.Hadoop基础(占比5%)2.Hadoop安装配置(占比10%)3.分布式文件系统HDFS(占比15%)4.分布式计算框架MapReduce编程(占比40%)1.Hive概述(占比2%)2.Hive客户端访问(占比2%)3.Hive数据类型(占比1%)4.Hive DDL、DML、Select语法(占比15%)大数据开发工程师(基础级)考试大纲解析Big Data Development Engineer Level I Examination Note根据BDDE大数据开发工程师认证考试大纲,泰迪智能研究院给出了详细解析,以“领会”,“熟知”,“应用”三个不同的级别将每一个知识点进行分解,建议考生应该按照不同的知识掌握程度有目的性的进行复习。
1. 领会:要求应考者能够记忆规定的有关知识点的主要内容,并能够了解规定的有关知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能根据考核的不同要求,做出正确的解释、说明和阐述。
2. 熟知:要求应考者必须熟悉的理论知识,并能够正确理解和记忆相关的理论方法,根据考核的不同要求,做出逻辑严密的解释、说明和阐述。
3.应用:要求应考者必须掌握知识点的主要内容,并能够结合工具进行商业应用,根据考核的具体要求,做出问题的具体实施流程和策略。
Part 1:大数据基础➢大数据概念1.领会:大数据基本概念、起源、目标及发展历程。
CDA L1业务数据分析师大纲解析

(3) 数据分析级别包括以下哪几种()
CDA 数据分析研究院
A.即席查询. B.多维分析(又称为钻取或者 OLAP). C.统计分析与警报. D.与业务人员协商知识点
答案:ABC 分析:考察数据分析的八个层次,需要在理解的基础上加以记忆。
( 4) 统计模型主要用于解决哪几类问题() A.预测分类问题 B.OLAP 分析问题 C.相关分析 D.市场细分问题
1.1.2 解析
明确数据分析目标的意义和过程、传统数据分析和数据挖掘的概念、数据分析的 8 个层 次、大数据对传统小数据分析的拓展、传统数据分析方法与数据挖掘方法的区别和联系:
数据分析的目的是为业务发展答疑解惑及分析层次。他描述了“过去发生了什么”、“现 在正在发生什么”和“未来可能发生什么”。根据分析的级别,分为常规报表、即席查询、 多维分析(又称为钻取或者 OLAP)、警报、统计分析、预报(或者时间序列预测)、预测型 建模(预测性(predictive)模型)和优化。
数据挖掘是一种发现知识的手段,数据挖掘要求数据分析师通过合理的方法,从数据中 获取与数据挖掘项目相关的知识。
大数据对传统小数据分析的拓展及其区别和联系:两种的间关系实际上可以理解为数据 挖掘是对数据分析的扩展,主要体现在如下几个方面——数据量、数据精度、算法、关注点。 数据挖掘特征:海量数据通常带来的问题是数据精确度下降,这是普遍的规律,所以同时具 有量大和精确度低的特征,则需要特殊的算法来解决这个问题,而神经网络、决策树、svm 等算法就具有相应特点,此外由于以上不同点使得分析时关注的侧重点不同,如数据预分析 的时间远远大于建模时间,关注时间、效率和知识发现,而不是正态分布、异方差、显著性, 关注相关分析,而不是因果分析等。
大数据开发工程师招聘笔试题与参考答案(某世界500强集团)2025年

2025年招聘大数据开发工程师笔试题与参考答案(某世界500强集团)(答案在后面)一、单项选择题(本大题有10小题,每小题2分,共20分)1、以下哪项不是大数据开发工程师常用的编程语言?A. JavaB. PythonC. C++D. SQL2、在Hadoop生态系统中,以下哪个组件用于数据存储?A. Hadoop MapReduceB. Hadoop YARNC. Hadoop HDFSD. Hadoop Hive3、题干:以下哪种技术不是大数据处理中常用的分布式存储技术?A、Hadoop HDFSB、CassandraC、MySQLD、HBase4、题干:在Hadoop生态系统中,以下哪个组件主要用于实现流式计算?A、Hadoop MapReduceB、HiveC、Spark StreamingD、HBase5、以下哪种技术不属于大数据处理框架?A. HadoopB. SparkC. MongoDBD. Kafka6、以下哪种算法不适合用于大数据处理?A. MapReduceB. K-meansC. 决策树D. 回归分析7、在大数据处理中,以下哪个技术通常用于数据的实时处理?A. Hadoop MapReduceB. Spark StreamingC. ElasticsearchD. Hive8、以下哪种数据库管理系统适合用于大数据应用场景?A. MySQLB. PostgreSQLC. MongoDBD. Oracle9、在以下关于Hadoop生态系统组件的描述中,哪一个是负责处理海量数据的分布式存储系统?A. Hadoop MapReduceB. Hadoop HDFSC. Hadoop YARND. Hadoop Hive 10、在数据分析中,以下哪个工具主要用于数据清洗和预处理?A. PandasB. Scikit-learnC. TensorFlowD. Keras二、多项选择题(本大题有10小题,每小题4分,共40分)1、以下哪些技术栈是大数据开发工程师在项目中可能会使用的?()A、Hadoop生态圈(HDFS、MapReduce、Hive等)B、Spark生态圈(Spark SQL、Spark Streaming等)C、JavaD、PythonE、SQL2、以下哪些是大数据处理中常见的算法?()A、数据清洗算法B、数据挖掘算法C、机器学习算法D、分布式算法E、优化算法3、以下哪些技术是大数据处理中常用的分布式计算框架?()A、HadoopB、SparkC、FlinkD、MapReduceE、Drools4、以下哪些是大数据开发工程师需要掌握的编程语言?()A、JavaB、PythonC、ScalaD、SQLE、Shell5、以下哪些技术是大数据开发工程师在数据仓库设计中需要熟悉的?()A. ETL(Extract, Transform, Load)B. SQLC. NoSQLD. Hadoop6、大数据开发工程师在进行数据清洗时,以下哪些步骤是必要的?()A. 去除重复数据B. 处理缺失值C. 数据标准化D. 数据转换E. 数据校验7、以下哪些技术或工具通常用于大数据开发?()A. HadoopB. SparkC. MySQLD. KafkaE. Python8、大数据开发中,以下哪些是数据挖掘和分析常用的算法?()A. 决策树B. 聚类算法C. 支持向量机D. 主成分分析E. 时间序列分析9、以下哪些技术栈是大数据开发工程师在项目中常用的?()A. Hadoop生态圈(HDFS, MapReduce, YARN等)B. Spark生态圈(Spark Core, Spark SQL, Spark Streaming等)D. ElasticsearchE. Docker 10、以下关于大数据开发工程师的职责描述,正确的是?()A. 负责大数据平台的设计、开发和优化B. 负责数据采集、存储、处理和分析C. 负责数据挖掘和机器学习算法的应用D. 负责编写和维护数据可视化工具E. 负责大数据项目的前期规划和后期评估三、判断题(本大题有10小题,每小题2分,共20分)1、大数据开发工程师在数据处理时,通常使用Hadoop作为分布式存储和处理平台,而Hadoop的MapReduce编程模型是最核心的计算模型。
cda-level-考试大纲 (1)

cda level 考试大纲一、知识要求针对不同知识,掌握程度的要求分为【领会】、【熟知】、【应用】三个级别,考生应按照不同知识要求进行学习。
1、领会:考生能够领会了解规定的知识点,并能够了解规定知识点的内涵与外延,了解其内容要点和它们之间的区别与联系,并能做出正确的阐述、解释和说明。
2、熟知:考生须掌握知识的要点,并能够正确理解和记忆相关理论方法,能够根据不同要求,做出逻辑严密的解释、说明和阐述。
此部分为考试的重点部分。
3、应用:考生须学会将知识点落地实践,并能够结合相关工具进行商业应用,能够根据具体要求,给出问题的具体实施流程和策略。
二、考试范围1、大数据基础理论占比(8%)a.大数据分析基础(1%)b.Python 基础(5%)c.Linux & Ubuntu 操作系统基础(2%)2、Hadoop 理论占比(12%)a.Hadoop 安装配置及运行机制解析(2%)b.HDFS 分布式文件系统(2%)c.MapReduce 理论及实战(2%)d.Hadoop 生态其他常用组件(6%)3、大数据分析之数据库理论及工具占比(16% )a.数据库导论(2%)b.MySQL 理论及实战(3%)c.HBase 安装及使用(3%)d.Hive 安装及使用(5%)e.Sqoop 安装及使用(3%)4、大数据分析之数据挖掘理论基础占比(10%)a.数据挖掘的基本思想(2%)b.数据挖掘基本方法介绍(2%)c.有监督学习算法(4%)d.无监督学习算法(2%)5、大数据分析之 Spark 工具及实战占比(35%)a.Spark 基础理论(2%)b.Spark RDD 基本概念及常用操作(3%)c.Spark 流式计算框架 Spark Streaming 、Structured Streaming(5%)d.Spark 交互式数据查询框架 Spark SQL(5%)e.Spark 机器学习算法库 Spark MLlib 基本使用方法(15%)f.Spark 图计算框架 GraphX(5%)6、大数据分析之数据可视化方法占比(4%)a.数据可视化入门基础(1%)b.Python 数据可视化入门(2%)c.Python 高级数据可视化方法(1%)7、大数据分析实战占比(15%)a.利用 HDFS Shell 操作 HDFS 文件系统(1%)b.利用 Hive SQL 进行数据清洗(2%)c.利用 Sqoop 进行数据传输(1%)d.利用 Spark SQL 进行数据读取(2%)e.利用 Spark MLlib 进行机器学习建模(8%)f.利用 Python 进行建模结果数据可视化(1%)二、考试内容PART 1 大数据基础理论1 、大数据分析基础【领会】大数据技术诞生技术背景大数据技术实际应用分布式处理技术概念数据分析和数据挖掘的概念【熟知】明确数据分析的目标和意义明确分布式技术在进行海量数据处理时起到的关键作用数据分析方法与数据挖掘方法的区别和联系明确数据分析流程中不同软件工具的作用常用描述性统计方法常用数据挖掘方法2、Python 基础【领会】Python 语言的特点、语法、应用场景【熟知】Python 基础语法,包括基本数据类型、运算符、条件控制语句、循环语句等;Python 函数式编程,常用高阶函数,包括 map 函数、reduce 函数、filter 函数及模块相关功能Python 面向对象编程特性,包括类和实例、继承、多态利用 Python 链接数据库Python 可视化常用包及其基本使用方法3、Linux 与 Ubuntu 基础【领会】Linux 入门Linux 与 Ubuntu 的关系Ubuntu 的安装及配置Ubuntu 文件组织形式Ubuntu 操作系统的常用命令SSH 理论基础了解其他常用 Linux 系统,如 CentOS ,RedHat ,SUSE 等【熟知】Ubuntu 操作系统命令及使用命令编辑文件IP 地址的基础理论SSH 命令使用方法利用 SSH 基于密匙的安全验证进行多个节点间的无密码登陆【应用】安装配置 Linux 操作系统利用 SSH 基于密匙的安全验证进行多个节点间的无密码登陆掌握部分 shell 命令进行 Linux 操作,如 awk 、grep 、sed 典型的文本处理工具PART 2 Had oop 理论1、Had oop 安装配置及运行机制解析【领会】分布式系统设计的基本思想Hadoop 概念、版本、历史Hadoop 单机、伪分布及集群模式的安装配置步骤如何通过命令行和浏览器观察 Hadoop 的运行状态【熟知】Hadoop 单机、伪分布及集群模式的安装配置过程和内容Hadoop 参数格式Hadoop 参数的修改与优化Hadoop 的安全模式【应用】进行 Hadoop 集群的配置查看和管理 Hadoop 集群Hadoop 运行的日志信息查看与分析2、HDFS 分布式文件系统【领会】HDFS 的概念及设计HDFS 体系结构及运行机制,NameNode 、DataNode 、SecondaryNameNode 的作用及运行机制HDFS 的备份机制和文件管理机制【熟知】HDFS 的运行机制NameNode 、DataNode 、SecondaryNameNode 的配置文件HDFS 文件系统的常用命令【应用】使用命令及 Java语句操作 HDFS 中的文件使用 JPS 查看 NameNode 、DataNode 、SecondaryNameNode 的运行状态3、MapReduce 理论及实战【领会】MapReduce 的概念及设计MapReduce 运行过程中类的调用过程Mapper 类和 Reducer 类的继承机制job 的生命周期MapReduce 中 block 的调度及作业分配机制【熟知】MapReduce 程序编写的主要内容MapReduce 程序提交的执行过程MapReduce 程序在浏览器的查看【应用】Mapper 类和 Reducer 类的主要编写内容和模式job 的实现和编写编写基于 MapReduce 模型的 wordcount 程序相应jar 包的打包和集群运行4、Had oop 生态其他常用组件【领会】HBase 基本功能、Hive 基本功能、Sqoop 基本功能、ZooKeeper 的基本功能、Flink 基本功能【熟知】HBase 的安装配置及常用命令、Hive 的安装配置及常用命令、Sqoop 的安装配置及常用命令、ZooKeeper 的安装配置及常用命令、Flink 安装配置及常用命令【应用】HBase 、Hive 、Sqoop 、Flink 及 ZooKeeper 的安装与运行PART 3 大数据分析之数据库理论及工具1、数据库导论【领会】数据、数据库、数据库管理系统、数据库系统、数据仓库的概念数据管理发展的三个阶段,不同阶段数据管理的特点,特别是数据库系统的特点数据依赖及数据规范化理论、数据模型理论及方法【熟知】SQL 的基本概念和特点SQL 的数据定义功能SQL 的数据查询功能CRUD 操作SQL 的数据更新功能不同 NoSQL 数据库的特点及使用场合2、MySQL 理论及实战【领会】数据库、表、索引和视图的相关概念数据库完整性约束的概念、定义及使用方法数据库、表、索引和视图的维护方法【熟知】MySQL 中 SELECT 命令的基本格式掌握单表查询的方法和技巧掌握多表连接查询的方法和技巧掌握嵌套查询、集合查询的方法和技巧【应用】MySQL 平台下的 SQL 交互操作3、Hive 数据仓库基础【领会】Hive 数据仓库在 Hadoop 生态系统中的地位【熟知】Hive 与 HBase 的区别【应用】使用 Hive 进行频率统计4、Hive 的基本命令【领会】Hive 中的数据库概念、修改数据库【熟知】创建表、管理表、外部表、分区表、删除表【应用】向表中增加数据通过查询语句向表中插入数据单个查询语句中创建表并加载数据导出数据5、Hive 中检索数据【领会】Hive 中的命令语句是类 SQL 语句【熟知】SELECT …FROM 语句【应用】使用列值进行计算、算术运算符、使用函数、列别名、嵌套 SELECT 语句、WHERE 语句、group by 语句、集合运算、多表连接、内连接、外连接、笛卡尔积连接、order by 语句、抽样查询、视图。
cda一级考纲解析

cda一级考纲解析CDA一级考纲解析CDA(Certified Data Analyst,数据分析师认证)是一种全球通用的数据分析师认证考试,由Data Analysis Association(数据分析协会)主办。
CDA一级考纲是该考试的基础阶段,主要针对数据分析的基本概念、数据收集和清洗、数据可视化、统计分析等方面进行测试。
下面将对CDA一级考纲进行详细解析。
一、数据分析基本概念在CDA一级考纲中,对数据分析的基本概念进行了全面的阐述。
数据分析是指通过对数据进行收集、整理、分析、解释和应用,从中获得有价值的信息以支持决策。
数据分析师需要了解数据分析的基本概念,包括数据类型、数据质量、数据可视化、数据挖掘等。
二、数据收集和清洗数据分析师需要具备数据收集和清洗的技能。
数据收集包括有效的数据采集方法、数据存储和管理等;数据清洗则是指对数据进行去重、缺失值处理、异常值处理等操作,以确保数据的准确性和完整性。
三、数据可视化数据可视化是数据分析中非常重要的一环。
通过图表、图形等视觉化的方式展示数据,能够更直观地理解数据的分布、趋势和关联性。
CDA一级考纲要求数据分析师熟悉常见的数据可视化工具和技术,能够根据需求选择合适的可视化方式,并具备设计和制作高质量可视化图表的能力。
四、统计分析统计分析是数据分析的核心内容之一。
CDA一级考纲要求数据分析师熟悉常用的统计分析方法,包括描述性统计、推断统计、假设检验等。
数据分析师需要能够根据具体问题选择合适的统计方法,并能够运用统计软件进行数据分析和结果解释。
五、数据应用和报告数据分析的最终目的是为了支持决策和解决实际问题。
CDA一级考纲要求数据分析师具备将分析结果应用到实际问题中的能力,并能够撰写清晰、准确的分析报告。
报告应包括问题陈述、数据分析方法、结果解释和建议等内容,以便决策者理解和采纳。
六、案例分析CDA一级考纲还要求考生能够通过案例分析的方式应用数据分析技能。
大数据管理与分析技术考试大纲

大数据管理与分析技术考试大纲一、考试目标本考试旨在考查学生对大数据管理与分析技术的基本概念、原理、方法和工具的掌握程度,以及运用这些知识解决实际问题的能力。
通过考试,学生应能够理解大数据的特点和挑战,掌握大数据的采集、存储、处理、分析和可视化技术,具备设计和实施大数据解决方案的能力。
二、考试内容(一)大数据概述1、大数据的定义、特点和价值理解大数据的 4V 特征(Volume、Velocity、Variety、Value)认识大数据在不同领域的应用和价值2、大数据处理架构了解 Hadoop 生态系统的主要组件(HDFS、MapReduce、YARN 等)熟悉 Spark 架构及其在大数据处理中的优势(二)数据采集与预处理1、数据采集方法掌握网络爬虫技术的原理和应用了解传感器数据采集的方式2、数据清洗处理缺失值、异常值和重复值的方法数据标准化和归一化的技术3、数据转换数据格式转换(如 CSV 到 JSON)数据编码和解码(三)数据存储与管理1、分布式文件系统HDFS 的原理和架构HDFS 的读写操作和数据块管理2、数据库管理系统关系型数据库在大数据场景下的应用和限制NoSQL 数据库(如 MongoDB、Cassandra)的特点和使用3、数据仓库数据仓库的概念和架构ETL(Extract, Transform, Load)过程(四)数据分析方法1、统计分析描述性统计分析(均值、中位数、标准差等)相关性分析和回归分析2、数据挖掘分类算法(决策树、朴素贝叶斯、支持向量机等)聚类算法(KMeans、层次聚类等)3、机器学习监督学习和无监督学习的区别深度学习框架(TensorFlow、PyTorch)的基本使用(五)数据可视化1、可视化原则和方法理解数据可视化的目的和原则选择合适的可视化图表类型(柱状图、折线图、饼图、箱线图等)2、可视化工具掌握常用的数据可视化工具(Tableau、PowerBI、matplotlib 等)能够使用工具进行数据可视化展示和分析(六)大数据处理性能优化1、资源管理和调度YARN 的资源分配策略Spark 任务的性能调优2、数据分区和索引合理进行数据分区的方法建立索引提高数据查询效率(七)大数据安全与隐私保护1、大数据安全威胁和防范措施了解数据泄露、恶意攻击等安全威胁掌握数据加密、访问控制等安全技术2、隐私保护技术匿名化、差分隐私等隐私保护方法(八)大数据项目实践1、大数据项目的规划和设计确定项目目标和需求设计大数据处理流程和架构2、项目实施和评估运用所学技术实现大数据项目对项目结果进行评估和优化三、考试形式(一)考试方式闭卷笔试(二)考试时间180 分钟(三)试卷结构1、选择题(40 分)考查对大数据基本概念、原理和方法的理解2、简答题(40 分)要求回答大数据相关技术的特点、流程和应用等问题3、综合应用题(20 分)给定实际场景,要求设计大数据解决方案或进行数据分析和处理四、参考教材1、《大数据技术原理与应用》,林子雨著2、《Hadoop 权威指南》,Tom White 著3、《Spark 快速大数据分析》,Holden Karau 等著以上是大数据管理与分析技术考试大纲的主要内容,考生应根据大纲进行系统的学习和复习,以取得良好的成绩。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
大数据分析工程师(基础级)考试大纲CBDA大数据分析工程师考试大纲是CBDA命题组基于CBDA大数据分析工程师等级认证标准而设定的一套科学、详细、系统的考试纲要。
考纲规定并明确了CBDA大数据分析工程师认证考试的具体范围、内容和知识点,考生可按照CBDA大数据分析工程师考试大纲进行相关知识的复习。
1 微积分基础
2 概率论与数理统计
3 线性代数
4 数值计算基础
5 多元统计分析
1 数据分析的基本流程
2 数据的描述分析
3 数据的推断分析
4 数据的相关分析
5 数据的回归分析
6 数据的可视化分析
1 Excel函数及使用
2 Excel数据管理
3 Excel数据透视表
4 Excel数据可视化图表分析
1 数据采集方法
2 数据取样方法
3 市场调研
4 数据预处理方法
5 数据存储方法
1 主成分分析法(占比3%)、因子分析法(占比2%)
2 系统聚类法(占比3%)、K-Means 聚类法(占比3%)
3 对应分析(占比2%)、多维尺度分析(占比2%)
4 预测性分析法(多元线性回归(占比5%),逻辑回归(占比5%))
5 时间序列(占比5%)
1 大数据数学基础,,人民邮电出版社,2017
2 实用多元统计分析(第6 版),[美]约翰逊,[美]威克恩著;陆璇,叶俊译,清华大学出版社
3 经济计量学,[美]斯托克(Stock J.H.)著;王庆石译,东北财经大学出版社,2005
4 数据库系统及应用(第3版),崔巍,高等教育出版社,2012
大数据分析工程师(专业级)考试大纲CBDA大数据分析工程师考试大纲是CBDA命题组基于CBDA大数据分析工程师等级认证标准而设定的一套科学、详细、系统的考试纲要。
考纲规定并明确了CBDA大数据分析工程师认证考试的具体范围、内容和知识点,考生可按照CBDA大数据分析工程师考试大纲进行相关知识的复习。
1 数据挖掘的基本概念
2 数据挖掘任务
3 数据挖掘流程
4 数据挖掘的方法
5 数据挖掘的评估方法
1 数据清理
2 数据集成
3 数据变换
4 数据归约
5 异常检测
1 数据框概论
2 关系数据库基础
3 设计、创建与管理数据库
4 SQL 及关系型数据库基本概念
5 SQL 数据类型、运算符、函数
6 使用SQL 语句操作数据库
1 实验设计
2 参数检验
3 多元回归分析
4 主成份分析/因子分析
5 K-means聚类
6 随机森林(Random Forest)
7 最近邻方法KNN
8 朴素贝叶斯分类(Naive Bayesian)
9 时间序列
10 常用的数据挖掘方法和思想
R语言基础
1 R语言概述
2 数据对象与数据读写
3 数据集基本处理
4 函数与控制流
5 初级绘图函数
6 高级绘图函数(lattice、ggplot2、交互绘图)
7 Rattle可视化数据挖掘工具
Python基础
1 Python基础知识
2 Python数据结构
3 程序流程控制语句
4 函数
5 文件基础
6 NumPy数值计算基础
7 Matplotlib数据可视化基础
8 Pandas统计分析基础
9 使用scikit-learn构建模型
1 R语言编程基础,林智章张良均,人民邮电出版社,2017
2 Python编程基础,张健张良均,人民邮电出版社,2017
3 Python编程:从入门到实践,[美]埃里克·马瑟斯,人民邮电出版社,2016
4 数据挖掘导论,[美]Pang-Ning Tan,Michael Steinbach,Vipin Kumar著,译者:范明范宏建,人民邮电出版社。
5 Data Mining: A Tutorial Based Primer,作者:Roiger, Richard, Geatz, Michael,Addison-Wesley
6 统计学习方法,李航,清华大学出版社,2012
大数据分析工程师(专家级)考试大纲CBDA大数据分析工程师考试大纲是CBDA命题组基于CBDA大数据分析工程师等级认证标准而设定的一套科学、详细、系统的考试纲要。
考纲规定并明确了CBDA大数据分析工程师认证考试的具体范围、内容和知识点,考生可按照CBDA大数据分析工程师考试大纲进行相关知识的复习。
1 MySQL理论及实战
2 R/Python基础(二选一)
3 Linux & Ubuntu基础
1 大数据项目管理概述
2 基本职业素养
3 大数据技术基础
4 业务理解与沟通
5 建设项目团队
6 项目流程及拆解
7 项目时间管理
8 项目资源管理
9 项目质量管理
10 项目风险管理
11 项目沟通管理
1 大数据概论
2 大数据采集及预处理
3 大数据分析
4 大数据可视化
5 Hadoop概论
6 HDFS和Common概论
7 MapReduce概论
8 NoSQL技术介绍
9 Spark概论
10 深度学习概论
11 云计算与大数据
1 回归分析(Regression Analysis)
2 决策树(Decision Tree)
3 集成学习提升方法
4 随机森林(Random Forest)
5 最近邻方法KNN
6 朴素贝叶斯分类(Naive Bayesian)
7 支持向量机(Support Vector Machine)
8 人工神经网络(Artificial Neural Network)
9 极大似然估计和EM算法
10 聚类分析(Cluster Analysis)
11 关联规则(Apriori)
12 PCA降维
13 智能推荐算法(协同过滤)
14 特征工程与算法
15 模型的评估与选择
1 R语言商务数据分析实战,韩宝国张良均,人民邮电出版社,2017
2 Python数据分析与应用,黄红梅张良均,人民邮电出版社,2017
3 利用python进行数据分析,麦金尼(Wes McKinney),机械工业出版社,2014
4 Hadoop大数据开发基础,余明辉张良均,人民邮电出版社,2017
5 Spark大数据技术与应用,肖芳张良均,人民邮电出版社,2017
6 机器学习,周志华,清华大学出版社,2016
7 元数据-用数据的数据管理你的世界,[美] 杰弗里•波梅兰茨(Jeffrey Pomerantz)著;李梁译,中信出版集团,2017
8 架构之美Till Adam 著;王海鹏/ 蔡黄辉/ 徐锋译;机械工业出版社,2009。