《数据科学导论》20春期末考核
数据科学期末考试试题和答案

数据科学期末考试试题和答案本文档提供了一份数据科学期末考试的试题和答案。
试题
1. 什么是数据科学?
2. 数据科学的主要应用领域有哪些?
3. 数据科学的主要技术工具有哪些?
4. 请解释数据清洗的概念和重要性。
5. 请解释数据可视化的概念和重要性。
答案
1. 数据科学是通过收集、分析和解释数据来研究和理解现实世界的科学领域。
它结合了统计学、计算机科学和领域知识,旨在发现数据中隐藏的模式、趋势和见解。
2. 数据科学的主要应用领域包括金融、医疗、营销、社交媒体分析等。
它在各个领域都能提供决策支持和洞察力。
3. 数据科学的主要技术工具包括编程语言(如Python和R)、数据存储和处理工具(如SQL和Hadoop)、机器研究和统计分析
工具(如Scikit-Learn和TensorFlow)等。
4. 数据清洗是将原始数据转化为可靠、一致且易于分析的格式
的过程。
它包括处理缺失值、异常值、重复值以及数据格式转换等。
数据清洗的重要性在于确保数据质量、准确性和可靠性,以便后续
的数据分析和建模。
5. 数据可视化是将数据以可视化形式呈现的过程,通过图表、
图形和可视化工具展示数据的特征、关系和趋势。
数据可视化的重
要性在于提供直观的数据理解和传达,帮助决策者快速洞察数据,
发现模式和趋势,支持数据驱动的决策和沟通。
以上是试题和答案的简要内容,希望对您的期末考试有所帮助。
祝您顺利通过考试!。
[南开]-《大数据导论》20春期末考核-辅导资料答案
![[南开]-《大数据导论》20春期末考核-辅导资料答案](https://img.taocdn.com/s3/m/dbab5daae87101f69f319599.png)
南开大学《大数据导论》20春期末考核注:请认真核对以下题目,确定是您需要的科目在下载!!!
一、单选题 (共 10 道试题,共 20 分)
1.大数据的特点不包含
/A/.数据体量大
/B/.价值密度高
/C/.处理速度快
/D/.数据不统一
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:D
2.PaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:B
3.IaaS是()的简称
/A/.软件即服务
/B/.平台即服务
/C/.基础设施即服务
/D/.硬件即服务
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:C
4.购物篮问题是##的典型案例
/A/.数据变换
/B/.关联规则挖掘
/C/.数据分类
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:B
5.基础设施即服务的英文简称是
/A/.IaaS
/B/.PaaS
/C/.SaaS
[解析]本题为必答题,请参考课本资料,分析作答
【参考答案是】:A。
奥鹏南开大学《计算机科学导论》20春期末考核课程复习资料答案

南开大学《计算机科学导论》20春期末考核注:请认真核对以下题目,确定是您需要的科目在下载!!!一、单选题 (共 15 道试题,共 30 分)1.E中的任一实体可以通过R与F中的至多一个实体联系则R叫做E到F的() [选项]一对一联系[选项]多对一联系[选项]多对多联系[选项]非法联系提示:认真阅读本道试题,并完成作答正确答案是:B2.数据库中的元祖是指[选项]关系中除含有属性名所在行以外的其他行[选项]关系中包含属性名所在行在内的所有行[选项]关系中的任意一列[选项]关系中的所有列提示:认真阅读本道试题,并完成作答正确答案是:A3.打印机属于哪一种计算机硬件设备[选项]输入设备[选项]输出设备[选项]存储设备[选项]系统接口提示:认真阅读本道试题,并完成作答正确答案是:B4.哪种关系操作不要求参与运算的两个关系具有相同的属性集合[选项]并[选项]交[选项]差[选项]笛卡尔积提示:认真阅读本道试题,并完成作答正确答案是:D5.法国人Blaise Pascal建造了()[选项]齿轮驱动机械[选项]四则运算器[选项]织布机[选项]计算机提示:认真阅读本道试题,并完成作答正确答案是:A6.3度布尔函数共有多少个[选项]3[选项]8[选项]27[选项]256提示:认真阅读本道试题,并完成作答正确答案是:D7.下列哪种语言是面向对象的编程语言[选项]Pascal[选项]BASIC[选项]C[选项]C++提示:认真阅读本道试题,并完成作答正确答案是:D8.以下哪个选项用于实现SQL语言的查询功能[选项]selece[选项]insert[选项]delete[选项]update提示:认真阅读本道试题,并完成作答正确答案是:A9.以下哪项不属于冯诺依曼体系结构的核心部件[选项]运算器[选项]存储器[选项]输入输出设备[选项]控制器提示:认真阅读本道试题,并完成作答正确答案是:C10.RGB表示法中某种颜色的份额通常在以下哪对数字之间[选项]0-255[选项]0-256[选项]128-255[选项]128-1024提示:认真阅读本道试题,并完成作答正确答案是:A11.下列哪种存储器的读取速度最快?。
___《数据科学导论》20春期末考核

___《数据科学导论》20春期末考核.doc合:{ABC。
ABD。
ACD。
BCD}。
ri算法从中产生频繁4-项集,则需要进行()A.自连接B.剪枝C.排序D.分组参考答案】: A2.BFR聚类算法适用于___空间中的数据聚类。
3.聚类是一种无监督研究方法。
4.当数据库中相关联的两张表存储了用户的个人信息,但只更新了其中一张表的数据时,就会导致两张表中的数据不一致。
这种情况属于数据不一致的值。
5.产量每增加一台,单位成本平均减少1.2元。
6.在k近邻法中,选择较小的k值时,研究的“近似误差”会减小,“估计误差”会增大。
7.在回归分析中,自变量为连续型变量,因变量为连续型变量。
8.手肘法的核心指标是SSE。
9.特征选择的四个步骤包括子集产生、子集评估、子集搜索和子集验证。
10.在一元线性回归中,真实值与预测值的差称为样本的残差。
11.K-means聚类适用于数值型数据。
12.缺失值会导致数据建模丢失大量有用信息,增加不确定性,以及可能使建模过程陷入混乱,导致异常的输出。
13.正方形的面积和边长之间是函数关系。
14.ri算法从频繁3-项集的集合中产生频繁4-项集,需要进行自连接。
T.对 F.错参考答案】: F1.采用合并策略,由候选产生过程得到4-项集不包含(1,2,4)、(1,2,5)、(1,3,4)、(1,3,5)。
假定数据集中只有5个项。
2.单层感知机模型属于二分类的线性分类模型。
3.系统日志收集的基本特征有高可用性、高可靠性和可扩展性。
4.距离度量中的距离可以是欧式距离、曼哈顿距离、Lp距离和Minkowski距离。
5.K-means聚类中K值选取的方法是密度分类法和手肘法。
6.多层感知机的研究过程包含信号的正向传播和误差的反向传播。
7.一元回归参数估计的参数求解方法有最大似然法、距估计法和最小二乘法。
8.Jaccard系数只关心个体间共同具有的特征是否一致这个问题,所以是对的。
9.标准BP算法是在读取全部数据集后,对参数进行统一更新的算法,所以是错的。
2020年奥鹏南开大学《数据科学导论》19秋期末考核-参考答案资料

2020年南开大学《数据科学导论》19秋期末考核参考答案
1. 某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
【选项】:
A 产量每增加一台,单位成本增加100元
B 产量每增加一台,单位成本减少1.2元
C 产量每增加一台,单位成本平均减少1.2元
D 产量每增加一台,单位平均增加100元
【答案】:C 产量每增加一台,单位成本平均减少1.2元|
2. 变量之间的关系一般可以分为确定性关系与()。
【选项】:
A 非确定性关系
B 线性关系
C 函数关系
D 相关关系
【答案】:A 非确定性关系|
3. 根据映射关系的不同可以分为线性回归和()。
【选项】:
A 对数回归
B 非线性回归
C 逻辑回归。
南开《数据科学导论》20春期末考核-00001参考答案

B.1,2,3,5
C.1,2,4,5
D.1,3,4,5
答案:C
15.单层感知机模型属于()模型。
A.二分类的线性分类模型
B.二分类的非线性分类模型
C.多分类的线性分类模型
D.多分类的非线性分类模型
答案:A
二、多选题(共5道试题,共10分)
16.系统日志收集的基本特征有()
A.高可用性
C.对整体总是不产生什么作用
D.包含空值的数据可能会使建模过程陷入混乱,导致异常的输出
答案:C
13.下列两个变量之间的关系中,哪个是函数关系()。
A.人的性别和他的身高
B.人的工资与年龄
C.正方形的面积和边长
D.温度与湿度
答案:C
14.考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用合并策略,由候选产生过程得到4-项集不包含()
C.子集搜索
D.子集验证
答案:C
10.一元线性回归中,真实值与预测值的差称为样本的()。
A.误差
B.方差
C.测差
D.残差
答案:D
11.K-means聚类适用的数据类型是()。
A.数值型数据
B.字符型数据
C.语音数据
D.所有数据
答案:A
12.以下哪些不是缺失值的影响()
A.数据建模将丢失大量有用信息
B.数据建模的不确定性更加显著
B.无监督学习
C.强化学习
D.半监督学习
答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
南开大学《计算机科学导论》20春期末考核答卷

南开⼤学《计算机科学导论》20春期末考核答卷南开⼤学《计算机科学导论》20春期末考核注:请认真核对以下题⽬,确定是您需要的科⽬在下载⼀、单选题 (共 15 道试题,共 30 分)1.E中的任⼀实体可以通过R与F中的⾄多⼀个实体联系则R叫做E到F的()A.⼀对⼀联系B.多对⼀联系C.多对多联系D.⾮法联系解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:B2.数据库中的元祖是指A.关系中除含有属性名所在⾏以外的其他⾏B.关系中包含属性名所在⾏在内的所有⾏C.关系中的任意⼀列D.关系中的所有列解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:A3.打印机属于哪⼀种计算机硬件设备A.输⼊设备B.输出设备C.存储设备D.系统接⼝解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:B4.哪种关系操作不要求参与运算的两个关系具有相同的属性集合A.并B.交C.差D.笛卡尔积解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D5.法国⼈Blaise Pascal建造了()A.齿轮驱动机械B.四则运算器C.织布机6.3度布尔函数共有多少个A.3B.8C.27D.256解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D7.下列哪种语⾔是⾯向对象的编程语⾔A.PascalB.BASICC.CD.C++解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:D8.以下哪个选项⽤于实现SQL语⾔的查询功能A.seleceB.insertC.deleteD.update解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:A9.以下哪项不属于冯诺依曼体系结构的核⼼部件A.运算器B.存储器C.输⼊输出设备D.控制器解析:参看教材183,并认真复习,完成以上题⽬参考标准答案:C10.RGB表⽰法中某种颜⾊的份额通常在以下哪对数字之间A.0-255B.0-256C.128-25511.下列哪种存储器的读取速度最快?A.主存储器B.CPU寄存器。
《数据科学导论》20春期末考核答卷

《数据科学导论》20春期末考核-00001
试卷总分:100 得分:70
一、单选题(共15 道试题,共30 分)
1.下面不是分类的常用方法的有()
A.K近邻法
B.朴素贝叶斯
C.决策树
D.条件随机场
标准答案:D
2.BFR聚类用于在()欧氏空间中对数据进行聚类
A.高维
B.中维
C.低维
D.中高维
标准答案:A
3.聚类是一种()。
A.有监督学习
B.无监督学习
C.强化学习
D.半监督学习
标准答案:B
4.数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
A.异常值
B.缺失值
C.不一致的值
D.重复值
标准答案:C
5.某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A.产量每增加一台,单位成本增加100元
B.产量每增加一台,单位成本减少1.2元
C.产量每增加一台,单位成本平均减少1.2元
D.产量每增加一台,单位平均增加100元
标准答案:C
6.在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A.减小,减小
B.减小,增大
C.增大,减小
D.增大,增大。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
总分:100分时间:0秒
《数据科学导论》20春期末考核一、单选题共15题,30分
1 2分下面不是分类的常用方法的有() A K近邻法
B朴素贝叶斯
C决策树
D条件随机场
2 2分BFR聚类用于在()欧氏空间中对数据进行聚类A高维
B中维
C低维
D中高维
3 2分聚类是一种()。
A有监督学习B无监督学习C强化学习D半监督学习
4 2分数据库中相关联的两张表都存储了用户的个人信息,但在用户的个人信息发生改变时只更新了一张表中的数据,这时两张表中就有了不一致的数据,这属于()
C不一致的值D重复值
5 2分某商品的产量(X,件)与单位成本(Y,元/件)之间的回归方程为^Y=100-1.2X,这说明()。
A产量每增加一台,单位成本增加100元
B产量每增加一台,单位成本减少1.2元
C产量每增加一台,单位成本平均减少1.2元
D产量每增加一台,单位平均增加100元
6 2分在k近邻法中,选择较小的k值时,学习的“近似误差”会(),“估计误差”会()。
A减小,减小
B减小,增大
C增大,减小
D增大,增大
7 2分在回归分析中,自变量为(),因变量为()。
A离散型变量,离散型变量
B连续型变量,离散型变量
C离散型变量,连续型变量
D连续型变量,连续型变量
8 2分手肘法的核心指标是()。
A SES
D MSE
9 2分特征选择的四个步骤中不包括() A子集产生
B子集评估
C子集搜索
D子集验证
10 2分一元线性回归中,真实值与预测值的差称为样本的()。
A误差
B方差
C测差
D残差
11 2分K-means聚类适用的数据类型是()。
A数值型数据
B字符型数据
C语音数据
D所有数据
12 2分以下哪些不是缺失值的影响()
A数据建模将丢失大量有用信息B数据建模的不确定性更加显著C对整体总是不产生什么作用
二、多选题共5题,10分D 包含空值的数据可能会使建模过程陷入混乱,导致异常的输出132分下列两个变量之间的关系中,哪个是函数关系()。
A 人的性别和他的身高B 人的工资与年龄C 正方形的面积和边长D 温度与湿度142分考虑下面的频繁3-项集的集合:{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定数据集中只有5个项,采用 合并策略,由候选产生过程得到4-项集不包含()A 1,2,3,4B 1,2,3,5C 1,2,4,5D 1,3,4,5152分单层感知机模型属于()模型。
A 二分类的线性分类模型B 二分类的非线性分类模型C 多分类的线性分类模型D 多分类的非线性分类模型12分系统日志收集的基本特征有()A 高可用性B 高可靠性
C可扩展性D高效率
2 2分距离度量中的距离可以是() A欧式距离
B曼哈顿距离
C Lp距离
D Minkowski距离
3 2分K-means聚类中K值选取的方法是()。
A密度分类法
B手肘法
C大腿法
D随机选取
4 2分多层感知机的学习过程包含()。
A信号的正向传播
B信号的反向传播
C误差的正向传播
D误差的反向传播
5 2分一元回归参数估计的参数求解方法有()。
A最大似然法
B距估计法
C最小二乘法
D欧式距离法
三、判断题共15题,30分
1 2分Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
A对
B错
2 2分标准BP算法是在读取全部数据集后,对参数进行统一更新的算法。
A对
B错
3 2分使用SVD方法进行图像压缩不可以保留图像的重要特征。
A对
B错
4 2分特征选择和降维都是用于减少特征数量,进而降低模型复杂度、防止过度拟合。
A对
B错
5 2分一个人的身高与体重之间具有函数关系。
A对
B错
6 2分K均值(K-Means)算法是密度聚类。
A对
B错
7 2分数据科学可以回答复杂的问题,发现世界中隐藏的联系并预测和指导未来。
A对
B错
8 2分选择较小的k值,相当于用较小的邻域中的训练实例进行预测,学习的“近似误差”会减小,“估计误差”会增大,预测结果会对近邻的点实例点非常敏感。
A对
B错
9 2分利用K近邻法进行分类时,使用不同的距离度量所确定的最近邻点都是相同的。
A对
B错
10 2分对于项集来说,置信度没有意义。
A对
B错
11 2分每个类的先验概率可以通过属于该类的训练记录所占的比例来估计。
A对
B错
12 2分当维度增加时,特征空间的体积增加得很快,使得可用的数据变得稠密。
A对
B错
四、主观填空题共5题,10分132分利用K近邻法进行分类时,k值过小容易发生过拟合现象。
A 对B 错142分聚合方法是自底向上的方法。
A 对B 错152分平均减少的不纯度越大,则特征重要度越高。
A 对B 错12分1、学生作答:双隐层1感知机足以解决任何复杂的分类问题。
22分1、学生作答:-1判定系数取值范围为[0,1],判定系数越接近1,表明变量之间的相关性越强。
32分1、学生作答:多元线性回归在线性回归分析中,当输入特征的维度从一维增加到d 维(d>1),则该问题为1问题。
42分
五、简答题共2题,20分1、学生作答:越大多元线性回归中,在有统计学意义的前提下,标准化偏回归系数的绝对值越大,说明相应的自变量对y的作用1。
52分1、学生作答:交叉验证法 在k近邻法中,通常采用1来选取最优的k值。
110分单层感知机和多层感知机分别解决的是哪类问题?210分为什么某些属性可能会降低朴素贝叶斯分类器的性能?当前已输入31个字符, 您还可以输入1969个字符。
单层感知机可以处理线性可分的问题,多层感知机解决非线性可分问题当前已输入89个字符, 您还可以输入1911个字符。
因为假设不成立,连乘不成立。
在已知类的前提下,犯I 类错误的概率,在多个类的交界处,其总误差率为贝叶斯误差率,在这其中作的决定都有可能是错误的,但是是可以被计算的也是可以被接受的。