21个必知数据科学面试题和答案

合集下载

数据分析面试题目及答案

数据分析面试题目及答案

数据分析面试题目及答案1. 数据分析的基本概念与流程数据分析是指通过收集、清洗、转化和处理数据,以获取有关特定问题或主题的见解和结论的过程。

数据分析的基本流程包括确定问题、收集数据、数据清洗、数据探索、数据建模与分析、结果解释和报告。

2. 数据清洗的常见步骤数据清洗是指对原始数据进行验证、校正、修复和完善的过程,以确保数据的质量和准确性。

常见的数据清洗步骤包括:- 缺失值处理:填充缺失值或删除包含缺失值的数据。

- 异常值处理:检测并纠正或删除异常值。

- 重复值处理:检测并删除数据中的重复值。

- 数据类型转换:将数据转换为正确的数据类型。

- 数据格式规范化:统一数据的格式和单位。

3. 数据探索分析的方法和技巧数据探索分析是指通过可视化和描述性统计等方法,深入了解数据的特征、关联性和分布。

常用的数据探索分析方法和技巧包括: - 描述性统计:计算数据的基本统计量,如均值、中位数、众数等。

- 数据可视化:使用图表和图形展示数据的分布、趋势和关联性。

- 相关性分析:计算和探索数据之间的相关性,如Pearson相关系数、Spearman秩相关系数等。

- 群组分析:基于数据的特征将数据进行分类和分组。

- 时间序列分析:探索数据随时间的变化趋势和周期性。

4. 常用的数据分析工具和编程语言在数据分析中,常用的工具和编程语言有:- Microsoft Excel:适用于简单的数据分析和可视化。

- SQL:用于处理和查询结构化数据。

- Python:强大的编程语言,提供丰富的数据分析和可视化库,如NumPy、Pandas和Matplotlib。

- R语言:专门用于统计分析和数据可视化的编程语言和环境。

- Tableau:交互式数据可视化工具,可创建富有洞察力的仪表板和报告。

5. 面试常见的数据分析题目和答案示例(以下仅为示例,实际面试题目因公司和职位而异,需灵活掌握) - 请说明你对A/B测试的理解以及在数据分析中的应用。

数据科学家常问的40道面试题_深圳光环大数据人工智能培训

数据科学家常问的40道面试题_深圳光环大数据人工智能培训

数据科学家常问的40道面试题_深圳光环大数据人工智能培训想去机器学习初创公司做数据科学家?这些问题值得你三思!机器学习和数据科学被看作是下一次工业革命的驱动器。

这也意味着有许许多多令人激动的初创公司正在起步成长、寻找专业人士和数据科学家。

它们可能是未来的特斯拉、谷歌。

对于有职业抱负的你来说,看好一家好的创业公司团队后,如何能够脱颖而出,进入一家靠谱的创业团队呢?想得到这样的工作并不容易。

首先你要强烈认同那个公司的理念、团队和愿景。

同时你可能会遇到一些很难的技术问题。

而这些问题则取决于公司的业务。

他们是咨询公司?他们是做机器学习产品的?在准备面试之前就要了解清楚这些方面的问题。

为了帮你为今后的面试做准备,我准备了40道面试时可能碰到的棘手问题。

如果你能回答和理解这些问题,那么放心吧,你能顽强抵抗住面试。

注意:要回答这些问题的关键是对机器学习和相关统计概念有具体的实际理解。

机器学习面试题问1:给你一个有1000列和1百万行的训练数据集。

这个数据集是基于分类问题的。

经理要求你来降低该数据集的维度以减少模型计算时间。

你的机器内存有限。

你会怎么做?(你可以自由做各种实际操作假设。

)答:你的面试官应该非常了解很难在有限的内存上处理高维的数据。

以下是你可以使用的处理方法:1.由于我们的RAM很小,首先要关闭机器上正在运行的其他程序,包括网页浏览器,以确保大部分内存可以使用。

2.我们可以随机采样数据集。

这意味着,我们可以创建一个较小的数据集,比如有1000个变量和30万行,然后做计算。

3.为了降低维度,我们可以把数值变量和分类变量分开,同时删掉相关联的变量。

对于数值变量,我们将使用相关性分析。

对于分类变量,我们可以用卡方检验。

4.另外,我们还可以使用PCA(主成分分析),并挑选可以解释在数据集中有最大偏差的成分。

5.利用在线学习算法,如VowpalWabbit(在Python中可用)是一个可能的选择。

6.利用Stochastic GradientDescent(随机梯度下降)法建立线性模型也很有帮助。

数据分析面试题目

数据分析面试题目

数据分析面试题目在数据分析领域,面试是获取工作机会的重要环节。

面试过程中,面试官往往会提出一些有挑战性的数据分析问题,以评估应聘者对数据分析的理解和应用能力。

下面是一些常见的数据分析面试题目,希望能够对你进行准备和复习提供一些帮助。

1. 请解释什么是数据清洗(data cleansing)?数据清洗是指从原始数据集中去除无效、重复、不准确或不完整的数据,以确保数据集的整洁和准确性。

数据清洗通常包括对缺失值、异常值和噪声数据进行处理,同时还可以进行数据格式转换和数据标准化等操作。

2. 如何处理缺失值(missing values)?处理缺失值的常用方法包括删除含有缺失值的记录、使用全局常数填充缺失值、使用平均值或中位数填充缺失值、使用相似记录的值填充缺失值等。

具体的方法选择要根据数据集的特点和具体的分析目标进行决策。

3. 请解释什么是数据可视化(data visualization)?数据可视化是通过图表、图形和其他可视化工具将数据转化成易于理解和分析的形式。

数据可视化可以帮助我们发现数据中的模式、趋势和关联性,提供对数据更全面、直观的认识,从而支持数据驱动的决策和洞察。

4. 你如何选择合适的可视化图表?选择合适的可视化图表需要考虑数据类型、分析目标和受众等因素。

例如,对于数值型数据的比较,可以选择柱状图或折线图;对于离散型数据的分布,可以选择饼图或条形图;对于时间序列数据的趋势,可以选择折线图或面积图等。

选择合适的可视化图表可以更好地展现数据的特征和模式。

5. 请说明你在数据分析项目中如何进行特征选择(feature selection)?特征选择是从原始数据中选择对分析目标有重要影响的特征。

常见的特征选择方法包括过滤法、包装法和嵌入法。

过滤法通过统计指标和相关性等方法对特征进行排序和筛选;包装法通过训练模型进行特征选择,并进行交叉验证来评估特征的重要性;嵌入法则是在模型训练过程中自动选择特征。

数据科学家常见面试题

数据科学家常见面试题

数据科学家常见面试题在当今数字化的时代,数据科学家成为了备受追捧的职业。

当你准备踏入这个充满挑战和机遇的领域时,面试是你必须要跨越的一道关卡。

在面试中,你可能会遇到各种各样的问题,这些问题旨在考察你的技术能力、解决问题的思维方式、团队合作能力以及对行业的理解。

下面,让我们来一起探讨一些数据科学家常见的面试题。

一、基础知识类问题1、什么是数据归一化?为什么要进行数据归一化?数据归一化是将数据按照一定的比例进行缩放,使其落入一个特定的区间,比如0, 1或-1, 1。

这样做的主要目的是消除不同特征之间的量纲差异,使得在后续的数据分析和模型训练中,各个特征能够平等地参与计算,避免某些特征因为数值过大或过小而主导了结果。

2、解释一下过拟合和欠拟合,并说明如何避免它们?过拟合是指模型在训练数据上表现得非常好,但在新的、未见过的数据上表现很差。

这通常是因为模型过于复杂,学习到了训练数据中的噪声和无关特征。

欠拟合则是模型在训练数据和新数据上的表现都不佳,说明模型没有充分学习到数据中的模式。

为了避免过拟合,可以采用正则化技术(如 L1 和 L2 正则化)、增加训练数据量、早停法(Early Stopping)等。

而避免欠拟合则可以尝试增加模型的复杂度,比如使用更多的特征、更深的神经网络等。

3、简单介绍一下常见的机器学习算法,如决策树、随机森林、支持向量机等,并比较它们的优缺点。

决策树是一种基于树结构的算法,易于理解和解释,但容易出现过拟合。

随机森林是由多个决策树组成的集成学习算法,具有较好的泛化能力和抗噪能力。

支持向量机在处理小样本、非线性问题上有优势,但计算复杂度较高。

二、编程和工具类问题1、你熟悉哪些编程语言用于数据科学?比如 Python、R 等,并谈谈你在项目中如何使用它们。

Python 在数据科学领域应用广泛,具有丰富的库,如 NumPy、Pandas、Scikitlearn 等。

在项目中,使用 Python 进行数据清洗、特征工程、模型训练和评估。

数据分析面试题及答案

数据分析面试题及答案

数据分析面试题及答案在数据分析领域,面试是一个重要的环节,能够检验面试者的技术能力和解决问题的能力。

本文将介绍一些常见的数据分析面试题,并提供相应的答案,帮助读者更好地准备数据分析类面试。

一、统计学基础1. 请解释什么是均值、中位数、标准差,以及它们的应用场景是什么?均值是一组数值的平均值,用来衡量集合中的中心位置;中位数是一组数值的中间值,用来忽略极端值的影响;标准差是一组数值的离散程度,用来衡量数据分散的程度。

在数据分析中,均值用于衡量数据集的平均水平,中位数用于代表数据集的典型值,标准差用于评估数据的稳定性和一致性。

2. 什么是假设检验?如何进行假设检验?假设检验是用来判断某个假设在统计学意义下是否成立的方法。

常见的假设检验有t检验、F检验、卡方检验等。

进行假设检验的一般步骤包括:确定原假设和对立假设,选择适当的统计量,计算统计量的观测值,根据观测值和临界值进行判断,得出结论。

二、数据清洗和数据预处理1. 数据清洗的步骤是什么?为什么要进行数据清洗?数据清洗的步骤包括:处理缺失值、处理异常值、处理重复值、处理错误值。

数据清洗的目的是确保数据的质量和准确性,排除影响分析结果的干扰,保证后续分析的可靠性和准确性。

2. 数据预处理的方法有哪些?请解释一个你常用的数据预处理方法。

数据预处理的方法包括:数据平滑、数据集成、数据变换、数据规约等。

其中,数据平滑是通过插补或平滑算法处理数据中的噪声或异常值,使得数据更加可靠和准确。

我常用的数据平滑方法是移动平均法,通过计算数据序列中相邻若干项的平均值来平滑数据,减少噪声对数据的影响。

三、数据可视化1. 数据可视化有哪些常用的图表类型?请简要描述它们的应用场景。

常用的数据可视化图表类型包括:条形图、折线图、散点图、饼图、箱线图等。

条形图适用于比较不同组别或类别之间的数据差异;折线图适用于展示数据的趋势和变化;散点图适用于展示两个变量之间的相关性;饼图适用于展示数据的相对比例;箱线图适用于展示数据的分布和异常值。

数据分析面试题及答案

数据分析面试题及答案

数据分析面试题及答案简介:数据分析是当今社会中一个非常重要的职业。

在现代信息化的背景下,大量的数据被产生并储存下来。

数据分析师通过收集、处理和解释这些数据,为企业提供决策支持和业务优化的建议。

而数据分析面试作为入职数据分析领域的重要环节,通常需要应聘者具备扎实的数据分析知识和解题能力。

本文将介绍一些常见的数据分析面试题目,并提供相应的答案。

一、数据清洗和数据准备1. 什么是数据清洗?为什么在数据分析过程中需要进行数据清洗?数据清洗是指通过删除、更正、转换数据中的错误、不完整或不准确的部分,以保证数据的质量和可靠性。

在数据分析过程中,原始数据常常会存在一些问题,如数据缺失、重复、异常值等。

进行数据清洗可以排除这些问题,确保数据可以准确地反映现实情况,并为后续分析提供可靠的基础。

2. 数据清洗的步骤有哪些?请简要描述。

数据清洗通常包括以下步骤:- 缺失值处理:对于存在缺失值的数据,可以选择删除缺失值、填补缺失值或使用插值等方法进行处理。

- 重复值处理:对于重复值,可以选择保留一个或全部删除,具体取决于数据分析的需求。

- 异常值处理:对于异常值,可以通过排查数据采集过程中的错误或异常,或者通过统计学方法鉴定并处理。

- 数据类型转换:将数据转换为合适的类型,如将文本转换为数字、日期转换为特定的格式等。

- 无关变量删除:排除对分析结果没有影响或没有统计学意义的变量。

二、数据分析方法与工具1. 请简述线性回归分析的原理和应用场景。

线性回归分析是一种用于探索自变量与因变量之间线性关系的统计方法。

它基于最小二乘法确定一条直线,拟合出最佳的线性模型。

线性回归广泛应用于预测和预测建模,例如市场营销分析、销售预测、经济预测等。

2. 解释一下决策树算法的原理及其在数据分析中的应用。

决策树算法通过构建一个树形结构模型,基于特征的不同取值进行决策。

它将一个问题不断分割为更小的子问题,直到最终达到一个决策。

决策树算法在数据分析中应用广泛,如分类问题和预测问题。

数据科学家面试题及答案

数据科学家面试题及答案

数据科学家面试题及答案在当今数字化的时代,数据科学家成为了炙手可热的职业。

为了选拔出优秀的数据科学家,面试环节至关重要。

以下是一些常见的数据科学家面试题以及相应的参考答案。

一、数据预处理方面的问题问题:请描述在处理缺失值时,你会采用哪些方法?答案:处理缺失值的方法有多种。

首先,如果缺失值的比例较小,我可能会直接删除包含缺失值的行或列,但这需要谨慎操作,以免丢失过多有用信息。

其次,如果数据具有一定的规律性,我会考虑使用均值、中位数或众数来填充缺失值。

例如,对于数值型数据,均值或中位数可能比较合适;对于分类数据,众数是个不错的选择。

另外,还可以使用更复杂的方法,如基于机器学习的方法,比如随机森林来预测缺失值。

或者通过建立多个模型,对比不同填充方法对模型效果的影响,选择最优的填充策略。

二、统计学知识相关的问题问题:解释一下什么是 p 值,并说明它在假设检验中的作用。

答案:P 值是在假设检验中用来衡量观察到的样本数据与原假设之间不一致程度的一个指标。

简单来说,如果原假设为真,P 值表示得到至少与实际观测样本相同极端结果的概率。

P 值越小,说明在原假设成立的前提下,观察到这样的样本结果越不可能,从而越有理由拒绝原假设。

一般来说,如果 P 值小于预先设定的显著性水平(如 005),我们就拒绝原假设,认为存在显著的差异或关系;反之,如果 P 值大于显著性水平,我们就没有足够的证据拒绝原假设。

三、机器学习算法的问题问题:简要介绍一下随机森林算法,并说明其优点和适用场景。

答案:随机森林是一种集成学习算法,它通过构建多个决策树,并综合这些决策树的结果来进行预测。

随机森林的优点有很多。

它对于噪声和异常值具有较好的容忍度,不容易出现过拟合。

而且它能够处理高维数据,对特征的选择不那么敏感。

在适用场景方面,随机森林适用于分类和回归问题。

比如在预测客户是否会购买某个产品(分类问题),或者预测房价(回归问题)等场景中都能发挥很好的作用。

常见的数据科学家面试77个问题

常见的数据科学家面试77个问题

常见的数据科学家面试77个问题1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。

2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2、8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的信息以及更好总结数据从而得到一干净的数据库?6、如何设计一个解决抄袭的方案?7、如何检验一个人支付账户都多个人使用?8、点击流数据应该是实时处理?为什么?哪部分应该实时处理?9、你认为哪个更好:是好的数据还是好模型?同时你是如何定义“好”?存在所有情况下通用的模型吗?有你没有知道一些模型的定义并不是那么好?10、什么是概率合并(AKA模糊融合)?使用SQL处理还是其它语言方便?对于处理半结构化的数据你会选择使用哪种语言?11、你是如何处理缺少数据的?你推荐使用什么样的处理技术?12、你最喜欢的编程语言是什么?为什么?13、对于你喜欢的统计软件告诉你喜欢的与不喜欢的3个理由。

14、SAS, R, Python, Perl语言的区别是?15、什么是大数据的诅咒?16、你参与过数据库与数据模型的设计吗?17、你是否参与过仪表盘的设计及指标选择?你对于商业智能和报表工具有什么想法?18、你喜欢TD数据库的什么特征?19、如何你打算发100万的营销活动邮件。

你怎么去优化发送?你怎么优化反应率?能把这二个优化份开吗?20、如果有几个客户查询ORACLE数据库的效率很低。

为什么?你做什么可以提高速度10倍以上,同时可以更好处理大数量输出?21、如何把非结构化的数据转换成结构化的数据?这是否真的有必要做这样的转换?把数据存成平面文本文件是否比存成关系数据库更好?22、什么是哈希表碰撞攻击?怎么避免?发生的频率是多少?23、如何判别mapreduce过程有好的负载均衡?什么是负载均衡?24、请举例说明mapreduce是如何工作的?在什么应用场景下工作的很好?云的安全问题有哪些?25、(在内存满足的情况下)你认为是100个小的哈希表好还是一个大的哈希表,对于内在或者运行速度来说?对于数据库分析的评价?26、为什么朴素贝叶斯差?你如何使用朴素贝叶斯来改进爬虫检验算法?27、你处理过白名单吗?主要的规则?(在欺诈或者爬行检验的情况下)28、什么是星型模型?什么是查询表?29、你可以使用excel建立逻辑回归模型吗?如何可以,说明一下建立过程?30、在SQL, Perl, C++, Python等编程过程上,待为了提升速度优化过相关代码或者算法吗?如何及提升多少?31、使用5天完成90%的精度的解决方案还是花10天完成100%的精度的解决方案?取决于什么内容?32、定义:QA(质量保障)、六西格玛、实验设计。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

21个必知数据科学题和答案2016-03-10分类:其他最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。

但是这些问题并没有提供答案,所以KDnuggets的小编们聚在一起写出了这些问题的答案。

我还加了一个特别提问——第21问,是20个问题里没有的。

下面是答案。

Q1.解释什么是正则化,以及它为什么有用。

回答者:Matthew Mayo正则化是添加一个调优参数的过程模型来引导平滑以防止过拟合。

(参加KDnuggets文章《过拟合》)这通常是通过添加一个常数到现有的权向量。

这个常数通常要么是L1(Lasso)要么是L2(ridge),但实际上可以是任何标准。

该模型的测算结果的下一步应该是将正则化训练集计算的损失函数的均值最小化。

Xavier Amatriain在这里向那些感兴趣的人清楚的展示了L1和L2正则化之间的比较。

图1.Lp球:p的值减少,相应的L-p空间的大小也会减少。

Q2.你最崇拜哪些数据科学家和创业公司?回答者:Gregory Piatetsky这个问题没有标准答案,下面是我个人最崇拜的12名数据科学家,排名不分先后。

Geoff Hinton, Yann LeCun, 和 Yoshua Bengio-因他们对神经网络的坚持不懈的研究,和开启了当前深度学习的革命。

Demis Hassabis,因他在DeepMind的杰出表现——在Atari游戏中实现了人或超人的表现和最近Go的表现。

来自datakind的Jake Porway和芝加哥大学DSSG的Rayid Ghani因他们让数据科学对社会产生贡献。

DJ Patil,美国第一首席数据科学家,利用数据科学使美国政府工作效率更高。

Kirk D. Borne,因其在大众传媒中的影响力和领导力。

Claudia Perlich,因其在广告生态系统的贡献,和作为kdd-2014的领头人。

Hilary Mason在Bitly杰出的工作,和作为一个大数据的明星激发他人。

Usama Fayyad,展示了其领导力,为KDD和数据科学设立了高目标,这帮助我和成千上万的人不断激励自己做到最好。

Hadley Wickham,因他在数据科学和数据可视化方面的出色的成果,包括dplyr,ggplot2,和RStudio。

数据科学领域里有太多优秀的创业公司,但我不会在这里列出它们,以避免利益冲突。

Q3.如何验证一个用多元回归生成的对定量结果变量的预测模型。

回答者:Matthew Mayo模型验证方法:如果模型预测的值远远超出响应变量范围,这将立即显示较差的估计或模型不准确。

如果值看似是合理的,检查参数;下列情况表示较差估计或多重共线性:预期相反的迹象,不寻常的或大或小的值,或添加新数据时观察到不一致。

利用该模型预测新的数据,并使用计算的系数(平方)作为模型的有效性措施。

使用数据拆分,以形成一个单独的数据集,用于估计模型参数,另一个用于验证预测。

如果数据集包含一个实例的较小数字,用对折重新采样,测量效度与R平方和均方误差(MSE)。

Q4.解释准确率和召回率。

它们和ROC曲线有什么关系?回答者:Gregory Piatetsky这是kdnuggets常见问题的答案:精度和召回计算精度和召回其实相当容易。

想象一下10000例中有100例负数。

你想预测哪一个是积极的,你选择200个以更好的机会来捕捉100个积极的案例。

你记录下你预测的ID,当你得到实际结果时,你总结你是对的或错的。

以下是正确或错误的四种可能:TN/真阴性:例阴性且预测阴性TP/真阳性:例阳性且预测阳性FN/假阴性:例阳性而预测阴性FP/假阳性:例阴性而预测阳性意义何在?现在你要计算10000个例子中有多少进入了每一个bucket:现在,你的雇主会问你三个问题:1.你的预测正确率有几成?你回答:确切值是(9760+60)除以10000=98.2%2.你获得阳性的例子占多少比例?你回答:召回比例为60除以100=60%3.正值预测的百分比多少?你回答:精确值是60除以200=30%看一个维基上的精度和召回的优秀范例。

图4.精度和召回ROC曲线代表了灵敏度(召回)与特异性(不准确)之间的关系,常用来衡量二元分类的性能。

然而,在处理高倾斜度的数据集的时候,精度-召回(PR)曲线给出一个更具代表性的表现。

见Quora回答:ROC曲线和精度-召回曲线之间的区别是什么?。

Q5.如何证明你对一个算法的改进确实比什么都不做更好?回答者:Anmol Rajpurohit我们会在追求快速创新中(又名“快速成名”)经常看到,违反科学方法的原则导致误导性的创新,即有吸引力的观点却没有经过严格的验证。

一个这样的场景是,对于一个给定的任务:提高算法,产生更好的结果,你可能会有几个关于潜在的改善想法。

人们通常会产生的一个明显冲动是尽快公布这些想法,并要求尽快实施它们。

当被问及支持数据,往往是共享的是有限的结果,这是很有可能受到选择偏差的影响(已知或未知)或一个误导性的全局最小值(由于缺乏各种合适的测试数据)。

数据科学家不让自己的情绪操控自己的逻辑推理。

但是确切的方法来证明你对一个算法的改进确实比什么都不做更好将取决于实际情况,有几个共同的指导方针:确保性能比较的测试数据没有选择偏差确保测试数据足够,以成为各种真实性的数据的代表(有助于避免过拟合)确保“受控实验”的原则,即在比较运行的原始算法和新算法的表现的时候,性能、测试环境(硬件等)方面必须是完全相同的。

确保结果是可重复的,当接近类似的结果出现的时候检查结果是否反映局部极大值/极小值或全局极大值/最小值来实现上述方针的一种常见的方式是通过A/B测试,这里面两个版本的算法是,在随机分割的两者之间不停地运行在类似的环境中的相当长的时间和输入数据。

这种方法是特别常见的网络分析方法。

Q6.什么是根本原因分析?回答者:Gregory Piatetsky根据维基百科:根本原因分析(RCA)是一种用于识别错误或问题的根源的解决方法。

一个因素如果从problem-fault-sequence的循环中删除后,阻止了最终的不良事件重复出现,则被认为是其根源;而一个因果因素则影响一个事件的结果,但不其是根本原因。

根本原因分析最初用于分析工业事故,但现在广泛应用于其他领域,如医疗、项目管理、软件测试。

这是一个来自明尼苏达州的实用根本原因分析工具包。

本质上,你可以找到问题的根源和原因的关系反复问“为什么”,直到找到问题的根源。

这种技术通常被称为“5个为什么”,当时涉及到的问题可能比5个更少或更多。

图 “5个为什么”分析实例,来自《根本原因分析的艺术》Q7.你是否熟悉价格优化、价格弹性、库存管理、竞争情报?举例说明。

回答者:Gregory Piatetsky这些问题属于经济学范畴,不会经常用于数据科学家面试,但是值得了解。

价格优化是使用数学工具来确定客户会如何应对不同渠道产品和服务的不同价格。

大数据和数据挖掘使得个性化的价格优化成为可能。

现在像亚马逊这样的公司甚至可以进一步优化,对不同的游客根据他们的购买历史显示不同的价格,尽管有强烈的争论这否公平。

通常所说的价格弹性是指需求的价格弹性,是对价格敏感性的衡量。

它的计算方法是:需求的价格弹性=需求量变动%÷价格变动%。

同样,供应的价格弹性是一个经济衡量标准,显示了产品或服务的变化如何响应价格变化。

库存管理是一个企业在生产过程中使用的产品的订购、储存和使用的监督和控制,它将销售的产品和销售的成品数量进行监督和控制。

维基百科定义:竞争情报:定义、收集、分析和分发有关产品、客户、竞争对手和所需环境的任何方面的情报,以支持管理人员和管理者为组织做出战略决策的环境。

像Google Trends, Alexa, Compete这样的工具可以用来确定趋势和分析你的竞争对手的网站。

下面是一些有用的资源:竞争情报的报告指标by Avinash Kaushik37款监视你的竞争对手的最好的营销工具from KISSmetrics来自10位专家的10款最佳竞争情报工具Q8.什么是统计检定力?回答者:Gregory Piatetsky维基百科定义二元假设检验的统计检定力或灵敏度为测试正确率拒绝零假设的概率(H0)在备择假设(H1)是真的。

换句话说,统计检定力是一种可能性研究,研究将检测到的效果时效果为本。

统计能力越高,你就越不可能犯第二类错误(结论是没有效果的,然而事实上有)。

这里有一些工具来计算统计检定力。

Q9.解释什么是重抽样方法和它们为什么有用。

并说明它们的局限。

回答者:Gregory Piatetsky经典的统计参数检验比较理论抽样分布。

重采样的数据驱动的,而不是理论驱动的方法,这是基于相同的样本内重复采样。

重采样指的是这样做的方法之一估计样本统计精度(中位数、方差、百分位数)利用可用数据的子集(折叠)或随机抽取的一组数据点置换(引导)在进行意义测试时,在数据点上交换标签(置换测试),也叫做精确测试,随机测试,或是再随机测试)利用随机子集验证模型(引导,交叉验证)维基百科里关于bootstrapping, jackknifing。

见How to Check Hypotheses with Bootstrap and Apache Spark这里是一个很好重采样统计的概述。

Q10.有太多假阳性或太多假阴性哪个相比之下更好?说明原因。

回答者:Devendra Desale这取决于问题本身以及我们正在试图解决的问题领域。

在医学检验中,假阴性可能会给病人和医生提供一个虚假的安慰,表面上看它不存在的时候,它实际上是存在的。

这有时会导致不恰当的或不充分的治疗病人和他们的疾病。

因此,人们会希望有很多假阳性。

对于垃圾邮件过滤,当垃圾邮件过滤或垃圾邮件拦截技术错误地将一个合法的电子邮件信息归类为垃圾邮件,并影响其投递结果时,会出现假阳性。

虽然大多数反垃圾邮件策略阻止和过滤垃圾邮件的比例很高,排除没有意义假阳性结果是一个更艰巨的任务。

所以,我们更倾向于假阴性而不是假阳性。

Q11.什么是选择偏差,为什么它是重要的,你如何避免它?回答者:Matthew Mayo选择偏差,一般而言,是由于一个非随机群体样本造成的问题。

例如,如果一个给定的样本的100个测试案例是一个60 / 20/ 15/ 5的4个类,实际上发生在在群体中相对相等的数字,那么一个给定的模型可能会造成错误的假设,概率可能取决于预测因素。

避免非随机样本是处理选择偏差最好的方式,但是这是不切实际的。

可以引入技术,如重新采样,和提高权重的策略,以帮助解决问题。

Q12. 举例说明如何使用实验设计回答有关用户行为的问题。

回答者:Bhavya Geethika.步骤1.制定研究问题页面加载时间对用户满意度评级的影响有哪些?步骤2.确定变量我们确定原因和结果。

相关文档
最新文档