Problems-Data-Quantiles_ANSWERS
机器学习:模型与算法智慧树知到课后章节答案2023年下浙江大学

机器学习:模型与算法智慧树知到课后章节答案2023年下浙江大学浙江大学第一章测试1.sigmoid函数的值域为?()。
答案:(0,1)2.哪些属于监督学习重要元素?()。
答案:标注数据;学习模型;损失函数3.分析不同变量之间存在关系的研究叫回归分析。
()答案:对4.强可学习和弱可学习是等价的。
()答案:对5.下面的说法正确的是()。
答案:逻辑回归只能处理二分类问题第二章测试1.下面的说法正确的是()。
答案:K均值聚类算法实质上是最小化每个类簇的方差。
2.哪一项是皮尔逊相关系数的性质?()。
答案:X与Y协方差的绝对值小于等于13.下面的说法正确的有()。
答案:EM算法分为求取期望和期望最大化两个步骤。
;在K均值聚类算法中,欧式距离与方差量纲相同。
4.K均值聚类属于监督学习。
()答案:错5.特征人脸方法的本质是用称为“特征人脸”的特征向量按照线性组合形式表达每一张原始人脸图像。
()答案:对第三章测试1.下列哪一项不是运用半监督学习的原因()。
答案:为获得更高的机器学习性能2.在半监督学习中下列哪种说法是错误的()。
答案:“聚类假设的推广,对输出值没有限制”属于聚类假设的范畴。
3.半监督学习方法有:()。
答案:基于图表的半监督学习;半监督SVM;生成方法4.在有标记数据极少的情形下往往比其他方法性能更好是半监督学习生成式方法流程的优点。
()答案:对5.基于图表的半监督学习不用占有太大内存。
()答案:错第四章测试1.下列说法正确的是()。
答案:感知机网络只有输入层/输出层,无隐藏层。
2.一元变量所构成函数f在x处的梯度为()答案:3.常用的池化操作有::()。
答案:最大池化;平均池化4.One-hot向量可以刻画词与词之间的相似性()答案:错5.前馈神经网络中存在反馈。
()答案:错第五章测试1.下列说法错误的是()。
答案:循环神经网络不能处理任意长度的序列2.下列说法正确的是()。
答案:如果一个完全连接的RNN有足够数量的sigmoid型隐藏神经元,它可以以任意的准确率去近似任何一个非线性动力系统个。
spss期末试题及答案

spss期末试题及答案一、选择题(每题2分,共20分)1. SPSS中,用于描述数据集中的变量分布情况的统计量是()。
A. 平均值B. 中位数C. 众数D. 标准差答案:ABC2. 在SPSS中,进行数据录入时,如果需要输入缺失值,应该使用以下哪个符号表示?()A. 0B. 9C. -D. *答案:C3. 以下哪个选项不是SPSS中的数据类型?()A. 数值型B. 字符串C. 逻辑型D. 图像型答案:D4. 在SPSS中,进行相关性分析时,通常使用哪种统计方法?()A. t检验B. 方差分析C. 卡方检验D. 皮尔逊相关系数答案:D5. SPSS中,用于创建数据文件的命令是()。
A. GET FILEB. SAVEC. OPEN DATAD. NEW DATA答案:A6. 在SPSS中,如果要对数据进行分组处理,应该使用以下哪个功能?()A. 分类汇总B. 数据筛选C. 数据排序D. 数据转换答案:A7. SPSS中,用于绘制数据分布直方图的命令是()。
A. GRAPHB. CHARTC. PLOTD. HISTOGRAM答案:B8. 在SPSS中,如果要进行回归分析,应该使用以下哪个菜单选项?()A. 分析B. 描述统计C. 预测D. 回归答案:D9. SPSS中,用于计算数据集中变量的方差的命令是()。
A. DESCRIPTIVESB. FREQUENCIESC. MEANSD. CORRELATIONS答案:A10. 在SPSS中,如果要对数据进行因子分析,应该使用以下哪个菜单选项?()A. 因子B. 聚类C. 多变量D. 描述统计答案:A二、填空题(每题3分,共15分)1. 在SPSS中,数据视图的窗口分为三个部分:________、变量视图和数据视图。
答案:数据结构视图2. SPSS中,用于计算数据集中变量的均值的命令是________。
答案:MEANS3. 在SPSS中,进行独立样本t检验的命令是________。
机器学习与深度学习框架考核试卷

C. RMSprop
D.学习率衰减
8.以下哪些技术可以用于改善神经网络训练过程?()
A.梯度消失
B.梯度爆炸
C. Batch Normalization
D.参数共享
9.以下哪些框架支持GPU加速计算?()
A. TensorFlow
B. PyTorch
C. Caffe
D. Theano
10.以下哪些方法可以用于处理不平衡数据集?()
B. LSTM
C. CNN
D. Transformer
17.以下哪些技术可以用于提升神经网络的可解释性?()
A.可视化技术
B. attention机制
C. LIME
D. SHAP
18.以下哪些是深度学习中的预训练方法?()
A.零样本学习
B.迁移学习
C.对抗性学习
D.自监督学习
19.以下哪些是强化学习的主要组成部分?()
7.词嵌入(或词向量)
8.泛化
9.数据增强
10. ROC
四、判断题
1. ×
2. √
3. ×
4. ×
5. √
6. ×
7. ×
8. √
9. ×
10. √
五、主观题(参考)
1.机器学习是利用算法让计算机从数据中学习,深度学习是机器学习的一个分支,使用多层神经网络进行学习。深度学习在实际应用中的例子有:自动驾驶汽车中的图像识别系统。
()
9.在深度学习中,为了防止过拟合,我们可以在训练过程中对输入数据进行______。
()
10.在模型评估中,______曲线可以用来评估分类模型的性能,尤其是对于不平衡数据集。
()
机器学习期末试题及答案

机器学习期末试题及答案一、选择题1. 机器学习是一种:A. 人工智能子领域B. 数据分析工具C. 算法库D. 编程语言答案:A. 人工智能子领域2. 以下哪种算法是无监督学习算法?A. 决策树B. 支持向量机C. K均值聚类D. 朴素贝叶斯答案:C. K均值聚类3. 在机器学习中,过拟合是指:A. 模型无法适应新数据B. 模型过于简单C. 模型过于复杂D. 模型的精度较低答案:C. 模型过于复杂4. 机器学习任务中的训练集通常包括:A. 特征和标签B. 标签和模型参数C. 特征和模型参数D. 特征、标签和模型参数答案:A. 特征和标签5. 在机器学习中,用于评估模型性能的常见指标是:A. 准确率B. 回归系数C. 损失函数D. 梯度下降答案:A. 准确率二、填空题1. 监督学习中,分类问题的输出是离散值,而回归问题的输出是________________。
答案:连续值/实数值2. 机器学习中的特征工程是指对原始数据进行________________。
答案:预处理3. ________________是一种常见的集成学习算法,通过构建多个弱分类器来提高整体模型的性能。
答案:随机森林4. K折交叉验证是一种常用的评估模型性能和调参的方法,其中K 代表______________。
答案:折数/交叉验证的次数5. 在机器学习中,优化算法的目标是最小化或最大化一个称为______________的函数。
答案:目标函数/损失函数三、简答题1. 请简要解释什么是过拟合,并提出至少三种防止过拟合的方法。
答:过拟合是指在训练数据上表现很好,但在新数据上表现较差的现象。
防止过拟合的方法包括:- 数据集扩充:增加更多的训练样本,从而减少模型对特定数据的过度拟合。
- 正则化:通过在损失函数中引入正则化项,约束模型的复杂度,防止模型过分拟合训练数据。
- 交叉验证:使用交叉验证方法对模型进行评估,通过评估模型在不同数据集上的性能,选择性能较好的模型。
机器学习练习题

机器学习练习题考试练习题单项选择题1.在中创建⼀个元素均为0的数组可以使⽤( )函数。
[A]A.zeros( )B.arange( )C.linspace( )D.logspace( )2.通常( )误差作为误差的近似。
[A]A.测试B.训练C.经验D.以上都可以3.梯度为( )的点,就是的最⼩值点,⼀般认为此时模型达到了收敛。
[B]A.-1B.0C.1D.4.创建⼀个3*3的,下列代码中错误的是( )。
[C]A.np.arange(0,9).reshape(3,3)B.np.eye(3)C.np.random.random([3,3,3])D.np.mat(“1,2,3;4,5,6;7,8,9”)5.关于数据集的标准化,正确的描述是:( )。
[A]A.标准化有助于加快模型的收敛速度B.标准化⼀定是归⼀化,即数据集的取值分布在[0,1]区间上C.数据集的标准化⼀定是让标准差变为1D.所有的模型建模之前,必须进⾏数据集标准化6.Python安装第三⽅库的命令是( )。
[C]A.pip –hB.pyinstaller <拟安装库名>C.pip install <拟安装库名>D.pip download <拟安装库名>7.如果发现模型在验证集上的准确性整体⾼于训练集,在验证集上的损失整体低于训练集,则最可能的情况是:( )。
[B]A.验证集的数据样本与训练集相⽐,数量过少和过于简单B.模型没有采⽤正则化⽅法C.以上都对8.DL是下⾯哪个术语的简称( )。
[D]A.⼈⼯智能B.机器学习C.神经⽹络D.深度学习9.验证集和测试集,应该:( )。
[A]A.样本来⾃同⼀分布B.样本来⾃不同分布C.样本之间有⼀⼀对应关系D.拥有相同数量的样本10.⼀般使⽤以下哪种⽅法求解线性回归问题:( )。
[A]A.最⼩⼆乘法B.最⼤似然估计C.对数变换D.A和B11.以下哪个函数可以实现画布的创建?( )。
数据挖掘 填空题

1.知识发现是一个完整的数据分析过程,主要包括以下几个步骤:确定知识发现的目标、数据采集、数据探索、数据预处理、__数据挖掘_、模式评估。
2._特征性描述_是指从某类对象关联的数据中提取这类对象的共同特征(属性)。
3.回归与分类的区别在于:___回归__可用于预测连续的目标变量,___分类__可用于预测离散的目标变量。
4.__数据仓库_是面向主题的、集成的、相对稳定的、随时间不断变化的数据集合,与传统数据库面向应用相对应。
5.Pandas的两种核心数据结构是:__Series__和__DataFrame__。
6.我们可以将机器学习处理的问题分为两大类:监督学习和_无监督学习__。
7.通常,在训练有监督的学习的机器学习模型的时候,会将数据划分为__训练集__和__测试集__,划分比例一般为0.75:0.25。
1.分类问题的基本流程可以分为__训练__和__预测_两个阶段。
2.构建一个机器学习框架的基本步骤:数据的加载、选择模型、模型的训练、__模型的预测_、模型的评测、模型的保存。
3.__回归分析_是确定两种或两种以上变量间相互依赖关系的一种统计分析方法是应用及其广泛的数据分析方法之一。
4.在机器学习的过程中,我们将原始数据划分为训练集、验证集、测试集之后,可用的数据将会大大地减少。
为了解决这个问题,我们提出了__交叉验证_这样的解决办法。
5.当机器学习把训练样本学得“太好”的时候,可能已经把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质,这样会导致泛化性能下降。
这种现象在机器学习中称为__过拟合__。
6.常用的降维算法有__主成分分析__、___因子分析__和独立成分分析。
7.关联规则的挖掘过程主要包含两个阶段__发现频繁项集_和__产生关联规则__1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种7、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)8、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等9、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)10、OLAP的中文意思是指(在线分析处理)1、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种2、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)5、OLAP的中文意思是指(在线分析处理)6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])7、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)9、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等2、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)3、OLAP的中文意思是指(在线分析处理4、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])5、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)6、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)7、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、如果df1=pd.DataFrame([[1,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[8,8,NaN]]),则df1.fillna(100)=?([[1,2,3],[100,100,2],[100,100,100],[8,8,100]])3、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类4、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]}),则df.groupby('key').sum()=?(A:15,B:30,C:45)5、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,l]),ser*2=([&6,4,2])7、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)9、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)10、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类3、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法4、Pandas最核心的三种数据结构,分别是(Series)、(DataFrame)和(Panel)5、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])7、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1如果dfl二pd.DataFrame([[l,2,3],[NaN,NaN,2],[NaN,NaN,NaN],[&&NaN]]), 则dfl.fillna(100)=?([[l,2,3],[100,100,2],[100,100,100],[8,8,100]])2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10 ,15,20]})则df.groupby('key').sum()=?(A:15,B:30,C:45)3、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、OLAP的中文意思是指(在线分析处理)6、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)7、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据挖掘模型一般分为(有监督学习)和(无监督学习)两大类2、聚类算法根据产生簇的机制不同,主要分成(划分聚类)、(层次聚类)和(密度聚类)三种算法3、常见的数据仓库体系结构包括(两层架构)、(独立型数据集市)、(依赖型数据集市和操作型数据存储)、(逻辑型数据集市和实时数据仓库)等四种4、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等5、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,l]),ser*2=([8,6,4,2])6、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)7、Python字符串str='HelloWorld!',print(str[-2])的结果是?(d)8、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)9、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤10、假如Li二[1,2,3,4,5,6],则Li[::-1]的执行结果是([6,5,4,3,2,1])1、数据仓库是一个(面向主题的)、(集成的)、(相对稳定的)、(反映历史变化)的数据集合,通常用于(决策支持的)目的2、如果df=pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],'data':[0,5,10,5,10,15,10,15,20]})则df.groupby('key').sum()=?(A:15,B:30,C:45)3、数据挖掘中计算向量之间相关性时一般会用到哪些距离?(欧氏距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、杰卡德距离、余弦夹角、相关距离、汉明距离(答对3个即可))等4、在决策树算法中用什么指标来选择分裂属性非常关键,其中ID3算法使用(信息增益),C4.5算法使用(信息增益率),CART算法使用(基尼系数)5、OLAP的中文意思是指(在线分析处理)6、如果ser=pd.Series(np.arange(4,0,-1),index=["a","b","c","d"]),则ser.values二?([4,3,2,1]),ser*2=([&6,4,2])7、线性回归最常见的两种求解方法,一种是(最小二乘法),另一种是(梯度下降法)8、对于回归分析中常见的过拟合现象,一般通过引入(正则化)项来改善,最有名的改进算法包括(Ridge岭回归)和(Lasso套索回归)9、数据抽取工具ETL主要包括(抽取)、(清洗)、(转换)、(装载)10、CF是协同过滤的简称,一般分为基于(用户)的协同过滤和基于(商品)的协同过滤。
《机器学习》期末考试试卷附答案

《机器学习》期末考试试卷附答案一、选择题(每题5分,共25分)1. 机器学习的主要目的是让计算机从数据中____,以实现某些任务或预测未知数据。
A. 抽取特征B. 生成模型C. 进行推理D. 分类标签答案:B. 生成模型2. K-近邻算法(K-NN)是一种____算法。
A. 监督学习B. 无监督学习C. 半监督学习D. 强化学习答案:A. 监督学习3. 在决策树算法中,节点的分裂是基于____进行的。
A. 信息增益B. 基尼不纯度C. 均方误差D. 交叉验证答案:A. 信息增益4. 支持向量机(SVM)的主要目的是找到一个超平面,将不同类别的数据点____。
A. 完全分开B. 尽量分开C. 部分分开D. 不分开答案:B. 尽量分开5. 哪种优化算法通常用于训练深度学习模型?A. 梯度下降B. 牛顿法C. 拟牛顿法D. 以上都对答案:D. 以上都对二、填空题(每题5分,共25分)1. 机器学习可以分为监督学习、无监督学习和____学习。
A. 半监督B. 强化C. 主动学习D. 深度答案:A. 半监督2. 线性回归模型是一种____模型。
A. 线性B. 非线性C. 混合型D. 不确定型答案:A. 线性3. 在进行特征选择时,常用的评估指标有____、____和____。
A. 准确率B. 召回率C. F1 分数D. AUC 值答案:B. 召回率C. F1 分数D. AUC 值4. 神经网络中的激活函数通常用于引入____。
A. 非线性B. 线性C. 噪声D. 约束答案:A. 非线性5. 当我们说一个模型具有很好的泛化能力时,意味着该模型在____上表现良好。
A. 训练集B. 验证集C. 测试集D. 所有集答案:C. 测试集三、简答题(每题10分,共30分)1. 请简要解释什么是过拟合和欠拟合,并给出解决方法。
2. 请解释什么是交叉验证,并说明它的作用。
答案:交叉验证是一种评估模型泛化能力的方法,通过将数据集分成若干个互斥的子集,轮流用其中若干个子集作为训练集,其余子集作为验证集,对模型进行评估。
数据科学家面试30题

数据科学家面试30题1. 什么是数据科学家的角色?2. 请解释什么是数据清洗(data cleaning)。
3. 数据清洗的步骤有哪些?4. 为什么特征选择是数据预处理的重要步骤?5. 请解释什么是正态分布(normal distribution)。
6. 什么是回归分析(regression analysis)?有哪些常用的回归方法?7. 请解释什么是决策树(decision tree)。
8. 什么是朴素贝叶斯(Naive Bayes)算法?它在什么场景下适用?9. 请解释什么是支持向量机(Support Vector Machine,SVM)。
10. 请解释什么是聚类分析(cluster analysis)。
11. 什么是神经网络(neural network)?它的应用领域有哪些?12. 请解释什么是深度研究(deep learning)。
13. 什么是异常检测(anomaly detection)?有哪些常见的异常检测方法?15. 请解释什么是自然语言处理(natural language processing,NLP)。
16. 什么是大数据(big data)技术?有哪些常见的大数据处理框架?18. 什么是机器研究(machine learning)?它是如何工作的?19. 请解释什么是监督研究(supervised learning)和无监督研究(unsupervised learning)。
20. 什么是交叉验证(cross-validation)?21. 请解释什么是特征工程(feature engineering)。
22. 什么是模型评估(model evaluation)和模型选择(model selection)?23. 请解释过拟合(overfitting)和欠拟合(underfitting)。
24. 什么是数据挖掘(data mining)?它与数据科学有何区别?25. 请解释什么是时间序列分析(time series analysis)。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Data:Asymmetry&Quantiles
1.Make a stem-and-leaf display of the following data.
4652464042464037464052
323732524032524052464652
2.Below are the values of20loans,in thousands of dollars.
59.259.561.665.566.672.974.877.379.283.7
85.685.886.687.087.190.293.398.6100.2100.7
(i)Calculate the median.
The median is about84.65
(ii)Calculate thefirst and third quartiles.
Thefirst and third quartiles are about71.3and87.9. (iii)Calculate the26th and83rd percentiles.
The26th and83rd percentiles are about75.4and92.6. (iv)Draw a box plot of the data.
Dr Toche —Selected Problems
3
3.Walter Gogel Company is an industrial supplier of fasteners,tools,and springs.The amounts
of its invoices vary widely,from less than $20.00
to more than $400.00.Below is a box plot of 80invoices sent during the month of January.Write a brief report summarizing the invoice amounts.Report the values of the first and third quartiles,the median,and whether there is any skewness.If there are any outliers,approximate the value of these invoices.
20406080
Walter Gogel Company is an industrial supplier of fasteners, tools, and springs.
amounts of its invoices vary widely, from less than $20.00 to more than $400.00. Du
he month of January the company sent out 80
invoices. Here is a box plot of thes voices. Write a brief report summarizing the invoice amounts. Be sure to include i mation on the values of the first and third quartiles, the median, and whether there i
skewness. If there are any outliers, approximate the value of these invoices.*
050100150200250
4.McGivern Jewelers reported the shape,size,price,and cut grade for33of its diamonds.
(Dataset from the publisher.)
(i)Draw a box plot of the variable‘price’and comment on the result.Are there any outliers?
What is the median price?What are the values of thefirst and the third quartiles?
(ii)Draw a box plot of the variable‘size’and comment on the result.Are there any outliers?
What is the median price?What are the values of thefirst and the third quartiles?
(iii)Draw a scatter diagram of‘price’(on the vertical axis)and‘size’(on the horizontal axis).
Are the variables correlated?Does any point seem to be different from the others?
(iv)Draw a contingency table for the variables‘shape’and‘cut grade’.What is the most common cut grade?What is the most common shape?What is the most common combination of cut grade and shape?
5.Refer to the North Valley real estate data recorded on houses sold during the last year.Prepare
a report on the selling prices of the houses based on the answers to the following questions.
(i)Compute the minimum,maximum,median,and thefirst and the third quartiles of price.
Create a box ment on the distribution of house prices.
The boxplot shows that the distribution is positively skewed with about7outliers
on the right(the‘positive’side).This is confirmed by thefinding that mean>
median.A comparison of Bowley and Fisher-Pearson coefficients of skewness
shows that the positive skew is caused mainly by the presence of outliers.
(ii)Inspect a scatter diagram with price on the vertical axis and the size of the house on the horizontal.Is there a relationship between these variables?
The scatter diagram shows that price and size are positively correlated.
(iii)For houses without a pool,draw a scatter diagram with price on the vertical axis and the size of the house on the horizontal.Do the same for houses with a pool.How do the relationships between price and size for houses without a pool and houses with a pool compare?
The scatter diagrams for houses with a pool and without a pool show that the
correlation between price and size is roughly the same for houses with or without
a pool.The data for houses without a pool has one clear outlier,which does not
however affect the relationship much.The data for houses with a pool has more
observations at the high size-price end.However,plotting a regression line on top
of the scatter reveals that the size-price relation is stronger for houses with a pool.
Running a robust regression—instead of ordinary least squares—or running
a trimmed ols(outliers removed)—reveals that,for houses without a pool,the
positive association is weaker without the outlier.。