文件B彻底理解样本方差为何除以n-1-Abner-CSDN博客
标准偏差为什么除以n-1

标准偏差为什么除以n-1标准偏差是用来衡量一组数据的离散程度的统计量,它可以帮助我们了解数据的分布情况。
在计算标准偏差时,我们经常会遇到一个除以n-1的操作,这是为什么呢?接下来我们将从数学和统计学的角度来解释这个问题。
首先,我们来看一下标准偏差的计算公式:标准偏差 = sqrt(Σ(xi x)² / (n 1))。
其中,Σ代表求和,xi代表每个数据点,x代表数据的平均值,n代表数据的个数。
在计算标准偏差时,我们会发现分母是n-1而不是n,这是因为我们使用样本数据来估计总体的标准偏差。
为了理解为什么要除以n-1,我们需要先了解一下总体标准差和样本标准差的区别。
总体标准差是用来衡量整个总体数据的离散程度,而样本标准差是用来估计总体标准差的。
在统计学中,我们通常使用样本数据来推断总体的特征,因为很难获取到整个总体的数据。
当我们使用样本数据来估计总体标准差时,我们会发现样本数据的离散程度往往会比总体数据的离散程度小一些。
这是因为样本数据中的每个数据点都是从总体中抽取出来的,而在这个过程中会丢失一些信息。
为了弥补这个信息的损失,我们需要对样本标准差进行修正,这就是为什么要除以n-1而不是n的原因。
具体来说,当我们使用样本数据来估计总体标准差时,我们会发现样本数据的离散程度往往会比总体数据的离散程度小一些。
这是因为样本数据中的每个数据点都是从总体中抽取出来的,而在这个过程中会丢失一些信息。
为了弥补这个信息的损失,我们需要对样本标准差进行修正,这就是为什么要除以n-1而不是n的原因。
总之,标准偏差除以n-1是为了修正样本数据对总体数据离散程度的低估,从而更准确地估计总体数据的离散程度。
这种修正方法在统计学中被广泛应用,并且经过了严格的理论推导和实践验证。
希望通过本文的解释,读者对标准偏差为什么除以n-1有了更深入的理解。
样本方差公式中N-1的思考

样本方差公式中N-1的思考蒲智勇摘要:样本方差是来判断数据的稳定性的,在生活中应用样本方差来做出选择,直接关系着事件的成功与否。
本文通过文件检索等方法,分析了的意义与来源,得出样本方差公式中N-1是对标准方差的修正的结果。
关键词:样本样本方差统计量无偏性Sample variance formula for N - 1Abstract:the stability of the sample variance is to judge the data, application sample variance in life to make a choice, directly related with the success of the event. In these paper, through methods of document retrieval, analyzes the meaning and origin, draw a sample variance formula for N - 1 is the result of a modification to the standard variance.Keywords:sample sample variance statistics magnitude unbiasedness前言:目前许多教材上,对样本方差是如何来的都未做出解释,即使有也一笔带过,大学上课的老师提都未提。
大学是来做学问的地方,怎么不去探讨它?当接触这样本方差公式时,就在想是不是,样本的平均值与观察值相等的原因引起的。
就随便列举了一组观察值,恰好观察值与样本均值相等,就草率的认为明白了这公式。
但心里还是对这个公式感觉怪怪的,怎么跟以前的方差公式不一样,以前是N,怎么现在变成了N-1?一直想从其他角度推出这个公式,因为个人因素,未能如愿。
那就只有从侧面去解释这个原因一、样本方差中的基本概念为无偏估计。
为什么样本方差里面要除以(n-1)而不是n

为什么样本方差里面要除以(n-1)而不是n?(---by小马哥整理)首先,我们来看一下样本方差的计算公式:(1) 刚开始接触这个公式的话可能会有一个疑问就是:为什么样本方差要除以(n-1)而不是除以n?为了解决这个疑惑,我们需要具备一点统计学的知识基础,关于总体、样本、期望(均值)、方差的定义以及统计估计量的评选标准。
有了这些知识基础之后,我们会知道样本方差之所以要除以(n-1)是因为这样的方差估计量才是关于总体方差的无偏估计量。
这个公式是通过修正下面的方差计算公式而来的。
公式(2)是我们按照正常的思维, 思考的应该有的方差的计算公式,也就是除以n的情况:(2)公式(3)是我们经过修正得到的式子, 修正过程为:(3)我们在课本上看到的其实是修正后的结果:(4) 下面详细(推导)讲, 为啥会要乘以前面那个(1/n-1), 来对公式(2)进行修正.为了方便叙述,在这里说明好数学符号:(5) 前面说过样本方差之所以要除以(n-1)是因为这样的方差估计量才是关于总体方差的无偏估计量。
在公式上来讲的话就是样本方差的估计量的期望要等于总体方差。
如下:(6) 但是没有修正的方差公式,它的期望是不等于总体方差的(下面会讲解详细原因, 就是下面那个公式推导!)(7) 也就是说,样本方差估计量如果是用没有修正的方差公式来估计总计方差的话是有偏差的下面给出比较好理解的公式推导过程:(8) 也就是说,除非否则一定会有(9) 需要注意的是不等式右边的才是的对方差的“正确”估计,但是我们是不知道真正的总体均值是多少的,只能通过样本的均值来代替总体的均值。
所以样本方差估计量如果是用没有修正的方差公式来估计总计方差的话是会有偏差,是会低估了总体的样本方差的。
为了能无偏差的估计总体方差,所以要对方差计算公式进行修正,修正公式如下:(10) 这种修正后的估计量将是总体方差的无偏估计量,下面将会给出这种修正的一个来源;为了能搞懂这种修正是怎么来的,首先我们得有下面几个等式:1.方差计算公式:(11) 2. 均值的均值、方差计算公式:(12) 对于没有修正的方差计算公式我们有:(13)因为:(14) 所以有:(15) 在这里如果想修正的方差公式,让修正后的方差公式求出的方差的期望为总体方差的话就需要在没有修正的方差公式前面加上来进行修正,即:(16) 所以就会有这样的修正公式:(17) 而我们看到的都是修正后的最终结果:(18)。
关于求方差时为什么要除以n

关于求方差时为什么要除以n-1,而不是除以n的问题
无论你采用哪种抽样方法,样本都不可能覆盖全体对象,所以为了补偿误差,便除以n-1。
比如统计一个国家人民的身高的时候,整个国家里应该有最高与最矮的人,但是你自己确定的样本里,往往很难取到这么稀有的数值,所以你根据样本算出的波动区间往往小于实际波动区间,所以便除以n-1来补偿。
一般都能够理解样本计算出的结果和实际结果之间的误差,但不明白的是如果要补偿误差的话,为什么是n-1而不是n-2或n-3、甚至其他的数,这些数不是同样可以增大结果吗?
具体说来,抽样,实际上也就是通过样本去估计总体。
用样本去估计总体,当然就要评估估计的好坏如何。
首先,评估方面就是先要评估这个估计是有偏估计还是无偏估计,无偏估计更为有效。
除以n所得到的样本方差虽然也是总体方差的估计量,但并不是无偏估计量,而除以n-1所得到的样本标准方差则是无偏估计量。
正因为除以n-1所得到的样本标准方差是总体的无偏估计,所以它更科学,误差更小。
若除以n-2或n-3的话,首先未必能保证这就是总体方差的估计量,即使是,也不会是无偏估计。
之所以选择n-1,这个不是巧合,而是数学推导下的结果。
更进一步说的话,若发现两个估计量都是无偏估计量,那就得评估这两个估计量的方差的大小,也就是有效性问题,谁的方差小,谁就更有效。
方差为什么要除以n-1

样本方差为什么是除以n‐1不要bs……话说这个问题从中学开始就困扰着我,可是课本上通常都是语焉不详一笔带过,似乎是很显然的样子,搞得我一度无限怀疑自己的智商。
最近仔细看了看书,整理了一下思路,终于把它推倒了。
赶紧记下来,请各位过路的大牛指教。
下面的推倒过程需要两个结论,在这里不加证明了,基本上概率书上都有。
(1)对于任意两个随机变量X,Y都有 E(X+Y) = E(X) + E(Y),和的期望等于期望的和 (2) V(X) = E(X^2) – E(X)^2,方差等于平方的期望减去期望的平方。
(3)若X,Y独立,有V(X+Y) = V(X) + V(Y)。
另外还有E(aX+b) = aE (X) + b, V(aX+b) = a^2*V(X)从头来说,有这么个随机变量X,我们不知道它的分布,但是我们可以获得很多个满足同样分布的样本Xi,现在我们要从这些样本里估计这个随机分布的一些信息,比如它的均值(所谓总体均值)和方差(所谓总体方差)。
当然我们想让我们的估计尽可能地准确,判断准确与否的一个标准(不是唯一标准)就是看它是不是“无偏估计”(unbiased estimation),所谓无偏估计就是说这个估计的期望值(每个样本都是一个随机变量,估计值是由这样样本算出来的,所以也是个随机变量,也有期望方差等等概念)就是真实值。
比如最简单的,样本均值 就是一个无偏估计,因为我们可以证明:这里第三个等号用到了结论(1)。
这个样本均值比较自然而符合直观,加起来一除自然是平均值。
但下面不太符合直观的来了,样本方差的无偏估计是这里的就是上面那个样本均值。
这里就比较别扭了,因为感觉上应该是除以n才对,怎么会冒出一个n1来?但是下面我们可以证明 .推倒前还需要一个东西,的方差:下面可以开始了:这里后面那个E分成了三部分,第一部分这里第二个等号利用结论(2)关于第二部分和第三部分,实际上有这个只要把代入展开就可以发现,所以后面两项就只剩下了,而代入起来就有。
总体方差与样本方差的计算方法

总体方差与样本方差的计算方法宝子,今天咱们来唠唠总体方差和样本方差的计算方法呀。
先说说总体方差。
总体方差呢,是用来描述整个总体数据的离散程度的。
假如我们有一组数据,比如说有n个数据,分别是x₁,x₂,x₃……一直到xₙ。
那总体方差的计算公式就是:先算出这组数据的平均数,设这个平均数是μ,μ=(x₁ + x₂ + x₃+……+xₙ)/n。
然后总体方差σ² = [(x₁ - μ)²+(x₂ - μ)²+(x₃ - μ)²+……+(xₙ - μ)²]/n。
简单来说呢,就是每个数据与平均数的差的平方和,再除以数据的个数。
这就像是看这组数据里的每个数偏离平均数有多远,总体方差越大,说明这些数据越分散,就像一群调皮的小娃娃,跑得特别开。
再讲讲样本方差。
样本方差和总体方差有点像,但又有点小区别。
为啥要有样本方差呢?有时候我们没办法获取整个总体的数据,只能抽取一部分作为样本呀。
假如我们抽取的样本有m个数据,y₁,y₂,y₃……一直到yₙ,样本的平均数设为xₙ,xₙ=(y₁ + y₂ + y₃+……+yₙ)/m。
样本方差s² = [(y₁ - xₙ)²+(y₂ - xₙ)²+(y₃ - xₙ)²+……+(yₙ - xₙ)²]/(m - 1)。
注意哦,这里是除以m - 1而不是m。
为啥呢?这就像是给样本数据一点小小的“惩罚”,让样本方差能更好地估计总体方差,就像让样本这个小代表更谨慎地反映总体的情况。
宝子,你看总体方差和样本方差的计算方法也不是特别难理解吧。
总体方差是针对整个总体的,样本方差是针对样本的,它们就像两个小工具,能帮助我们了解数据是集中在一起呢,还是分散得乱七八糟的。
要是你在处理数据的时候呀,就能用这两个方差来分析数据的特征啦,是不是感觉自己又掌握了一个超酷的小技能呢?。
样本变异数的公式为何是除以n-1?_详全文

樣本變異數的公式為何是除以n-1?淡江大學數學系 鄭惟厚教授高中數學課本中提到,假設母體數據n x x x ,,,21 的平均數等於µ,則母體變異數為()nx n i i ∑=−=122µσ,標準差為()nx n i i ∑=−=12µσ。
但是如果n x x x ,,,21 是抽自某一母體的樣本數據,則其樣本變異數等於 ()1122−−=∑=n x xs n i i ,標準差()1122−−==∑=n x x s s n i i 。
同樣都是在計算變異數,為何一個公式是除以n,另一個公式卻是除以n-1呢?除以n 很自然,因為通常求平均都是除以n 的,所以母體變異數的公式相當「正常」,相對來說,樣本變異數的分母n-1,就顯得怪怪的。
要了解n-1的背後原因,首先必須知道,母體和樣本的角色不同、「地位」也就不一樣。
母體是我們的關心對象,通常我們會想要知道有關它的資訊。
比如我們可能有興趣知道,全國成年民眾當中,贊成把集會遊行改成報備制的,占多少百分比。
但是就如同這個例子的「全國成年民眾」,母體通常都很龐大,幾乎不可能對它蒐集完整資訊,通常只能從其中抽取樣本,再從樣本裡面找相關資訊。
樣本變異數2s 的角色,除了可以提供我們有關樣本數據的散佈情況之外,還有一個重要功能,就是當作母體變異數2σ的估計。
當作估計的量,我們會希望它不要系統性的高估、或者系統性的低估,也就是要求估計量有「不偏」性質。
用秤體重來比喻的話,如果體重計有時把我們秤重了些、有時又秤輕了些,但是若秤了許許多多次之後,平均起來就等於我們的真實體重的話,就相當於有不偏性質。
但是假如我家體重計無法正確歸零,常常把我的體重「加碼」,量很多次下來,平均把我多秤了半公斤,這樣就叫做系統性高估,而非「不偏」了。
假設樣本變異數2s 公式的分母是用n 而非n-1的話,如果把它當作母體變異數2σ的估計,常常會低估,不符合「不偏」的條件,但是如果把n 改成n-1,樣本變異數就會是母體變異數的不偏估計,這件事實是可以用數學證明出來的。
标准误差为什么要除以n-1[精华]
![标准误差为什么要除以n-1[精华]](https://img.taocdn.com/s3/m/094baef95ff7ba0d4a7302768e9951e79b8969bf.png)
「标准偏差」为什么要除以「n -1」印象中,在我的求学过程里并未接触到「标准偏差」的概念,师大毕业后在国中任教了十三年,也只有在「资料整理」中教学生画画统计图表而已;后来转进高中教学,才开始研讨「离差」及「相关系数」等教材(说白一点,第一次教高二数学时,我跟学生一样是个「初学者」)。
一晃又是十三年多,对统编本「∑=-=ni i X x n S 12)(1」的公式,无论正的、倒的、横的、竖的都可以跟学生解释得头头是道之时,ㄧ纲多本的数学教材中突然冒出了「∑=--=ni i X x n S 12)(11」这样一个「莫名其妙」的公式(即「样本标准偏差」)。
好长ㄧ段时间,心里既自责又彷徨更气愤,自责的是这十三年来被我教到的学生全被我「误」了;彷徨的是我该如何去解释这「n -1」?要学生死背吗?(这那是我的教学态度?)还是另编一套理论来「误人子弟」,硬是将公式说得清清楚楚?(那又该怎么说才好呢?)气愤的是为什么不继续沿用「∑=-=ni i X x n S 12)(1」呢?(新教材简直就是在整人吗?)……这个问题在很多的研讨会中被提出来讨论(原来我并不孤独,与我一样心路历程的人还真不少),勉强接受了「不偏估计」的说法,但会后讨论、抱怨声仍不断,多数人还是希望统一使用「∑=-=ni i X x n S 12)(1」这个公式,不要再分什么「母群体标准偏差」或「样本标准偏差」,徒增「教」、「学」之困扰。
(说的也对,您怎么分辨是「母群体」还是「样本」?题目是「求标准偏差」时,到底要算哪一个?总不会两个都要算吧?)抱怨归抱怨,心想新书既敢出版,表示「∑=--=ni i X x n S 12)(11」这样的定义应该是无庸置疑的,不妨先弄清楚它的理论根据再说吧。
没想到经过一段时间的摸索、学习之后,不但接受了这个说法,更认为「∑=--=ni i X x n S 12)(11」应该是「高中数学」中「标准偏差」的唯一定义,略举数项个人论点如下:(仅提供参考,非论教材之是非)一、 高中数学的「统计」教材,开宗明义就是「统计抽样」,其目的是想藉由抽取之「样本」所提供的信息来推估、了解「母群体」的状况。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
彻底理解样本方差为何除以n-1
设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:
很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1,那么问题来了,为什么不是除以n-2、n-3等等。
所以在这里彻底总结一下,首先交代一下无偏估计。
无偏估计
以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为。
如果你只是把作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就
跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为:然后在把这些平均值,再做平均,记为:,这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值,如果满足,这就是一个无偏估计,其中统计的样本均值也是一个随机变量,就是的一个取值。
无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
那么,我们根据无偏估计的定义可得:
由上式可以看出如果除以n,那么样本方差比总体方差的值偏小,那么该怎么修正,使得样本方差式总体方差的无偏估计呢?我们接着上式继续化简:
到这里得到如下式子,看到了什么?该怎修正似乎有点眉目。
如果让我们假设的样本方差乘以,即修正成如下形式,是不是可以得到样本方差是总体方差的无偏估计呢?
则:
因此修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1。