5 个统计学基本概念

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

统计学基本概念

在数据科学的世界里,如果数据科学家是魔法师,那统计学就是他们的魔杖。

总的来说,统计,就是利用数学对数据进行技术性分析。当然,像条形图这样的简单可视化图像也能给你提供一些高等级的信息,但利用统计学,我们将能以一种更有针对性,更”信息驱动“的方式来处理数据。这其中涉及的数学知识能帮助我们形成关于数据的具体结论,而不仅仅是猜测。

使用统计数据,我们可以获得更深入、更细微的洞察能力,可以了解我们的数据是如何构建的。在了解结构的基础上,我们将能发现应用其他数据科学技术的最佳方式,并以此获取更多信息。

今天,我们将一起了解数据科学家必学必会的5个基本统计概念,以及如何最有效地应用它们!

1. 统计特征

统计特征可能是数据科学中最常用的统计概念之一。它通常是你在探索数据集时使用的第一种统计技术。常见的统计特征包括偏差、方差、均值、中位数、百分位数等等。它们其实非常容易理解,也很容易在代码中实现!

让我们看看下面这个图吧:

一个简单的箱形图

中间的这条横线是数据的中位数。相对于平均数,中位数在数据中有异常值的时候能更加忠实地反应数据的特征。下四分位数基本上是数据的25% 点,也就是数据中25%的点低于该值。上四分位数是数据的75% 点,也就是数据中75%的点低于该值。最小值和最大值表示数据范围的上端和下端。

箱形图能很好地表现出基本统计特征的用途:

•如果箱形图很短,就意味着你的大部分数据点都很相似,因为很多数据都集中在很小的范围内

•如果箱形图很长,就意味着你的大部分数据点都差异很大,因为这些值分布在很宽的范围内

•如果中位数接近底部,那么我们就能知道大多数数据具有较低的值。如果中位数接近顶部,那么我们就能知道大多数数据具有更高的值。基本上,如果中位数不在框的中间,则表明数据存在偏斜。

•图中方框上下的“胡须”会不会很长?这意味着数据具有较高的标准差和方差,也就是说数值分散且变化很大。如果方框的一侧有“胡须”,而另一侧没有,那么数据可能只在一个方向上变化很大。

上面这些信息,都来自这几个易于计算的简单统计特征!如果你需要对数据进行快速又翔实的分析,请务必先试着分析一下统计特征。

2. 概率分布

我们可以将概率定义为某个事件发生的几率。在数据科学中,这个几率通常被量化成在0 到 1 之间的数字。其中0 表示我们确定它不会发生,1 表示我们确定它肯定发生。那么,概率分布就是表示实验中所有可能值的概率的函数。让我们看看下面这三张图:

常见概率分布:均匀分布(上)、正态分布(中)、泊松分布(下)

均匀分布是上面 3 张图中最简单的。它有一个值,而且只出现在一定范围内,超出该范围的都是0。这是一种“开关”分布——每个点要么有数据,要么是0。我们还可以将其视为只有0 和某个数值的分类变量。同样,如果某个分类变量具有除0 以外的多个值,我们也可以将其视为多个均匀分布组成的分段函数。

正态分布,通常也称为高斯分布,是由其平均值和标准差定义的。平均值改变分布的空间高度,而标准差控制分布的扩散程度。与其他分布(例如泊松分布)的重要区别在于,正态分布的标准差在所有方向上是相同的。因此,利用高斯分布,我们能了解到数据的平均水平,以及数据的散布范围——比如它是分散在较大范围里,还是高度集中在几个值附近。

泊松分布类似于正态分布,但具有附加的偏斜量。当偏斜量很低的时候,泊松分布将在所有方向上都具有相对均匀的扩展,就像正态分布一样。但是当偏斜量较大时,数据在不同方向上的分散程度会有所不同——在一个方向上它将非常分散,而在另一个方向上它将高度集中。

除此之外,还有更多不同的概率分布值得你深入研究,但目前这 3 个分布模式已经很有用啦。比如,我们可以使用平均分布模型来快速查看并解释分类变量。如果看到数据呈高斯分布,那么我们就应该选择那些特别适用于高斯分布的算法来处理它们。而对泊松分布,我们就必须

特别小心地选择算法,以便在空间分布不均匀的时候也能可靠地处理数据。

3. 降维技术

降维这个词应该不难理解,大家应该都听过“降维打击”吧?没错,就是拍扁(误。

举例来说,对一个很复杂的数据集,我们希望减少它的维度。在数据科学中,这主要是特征变量的数量。以下图为例:

一个降维的示意图

上面这个立方体代表了一个 3 维的数据集,里面大约有1000 个特征点。当然,以现在的计算能力,分析1000 个点基本上是小菜一碟,但对于更大尺度上的数据集,还是可能碰到一些问题的。然而,如果我们从 2 维角度来分析其中的数据——就像只从立方体的某个面看进去——我们就能从这个角度很轻易地区分各种不同颜色的数据点。在降维

技术的帮助下,我们就像是把 3 维的数据集投影到一个 2 维平面上,再进行操作。这能相当有效地减少需要计算的特征点的数量——现在只剩100 个啦!

另外一种降维的思路,是特征修剪。在进行特征修剪的时候,我们希望能去除那些对分析结果无关的特征。举例来说,假如在探索数据的时候,我们发现有10 个特征,其中7 个与输出有很高的相关性,另外 3 个的相关性很低。那么,这 3 个低相关的特征或许并不值得我们分析,可能可以直接从分析中去掉,而不影响最后的输出。

在降维操作中,最常见的统计技术是PCA(Principal Component Analysis,主成分分析)。它实际上是通过创建各种特征的矢量,标明它们对输出结果的重要性,即它们的相关性。PCA 在上面讨论的两种降维方式中都发挥着重要的作用。在这里你能看到更多关于PCA 的详细介绍。

4. 过采样和欠采样

过采样(Over Sampling)和欠采样(Under Sampling)是用于分类问题的统计技术。有时,我们的分类数据集可能会太过偏向其中的一侧。例如,我们在第1类中有2000个样本,但在第2类中只有200个。这将严重影响我们尝试用于建模和预测的许多机器学习技术!因此,我们可以使用过采样和欠采样技术来解决这个问题。请看下面的示意图:

相关文档
最新文档