统计概率知识点归纳
统计概率所有知识点总结

统计概率所有知识点总结一、基本概率论概率论是统计学中最基础的部分,它研究的是随机事件的可能性。
随机事件是不确定的事件,而概率就是描述这种不确定性的量。
在概率论中,经常用到的概念包括事件、概率、样本空间等。
事件是指可能发生或者不发生的事物,而概率则是衡量事件发生可能性的大小。
样本空间是所有可能结果的集合,它包括了所有可能的事件。
二、条件概率条件概率是指在已知某些信息的情况下,另一个事件发生的概率。
条件概率的计算方法通常使用乘法法则。
条件概率在许多领域中都有着广泛的应用,比如医学诊断、市场营销、风险管理等。
三、独立性在概率论中,独立性是一个非常重要的概念。
两个事件如果是独立的,那么它们的发生不会互相影响。
独立性的概念在统计推断中有着广泛的应用,比如在抽样调查中,我们通常要求样本之间是独立的,以保证统计推断的准确性。
四、随机变量随机变量是统计学中的一个重要概念,它是对随机事件的量化描述。
随机变量可以是离散的,也可以是连续的。
对于离散的随机变量,我们通常关心的是它的概率分布;而对于连续的随机变量,我们通常关心的是它的密度函数。
五、概率分布概率分布是描述随机变量取值可能性的函数。
常见的概率分布包括均匀分布、正态分布、泊松分布、指数分布等。
概率分布在统计学中有着广泛的应用,比如在假设检验、参数估计等问题中。
六、抽样分布抽样分布是指统计量在重复抽样过程中的概率分布。
常见的抽样分布包括t 分布、F分布、卡方分布等。
抽样分布在统计推断中有着重要的作用,它可以帮助我们理解样本统计量的性质,从而进行参数估计和假设检验。
七、统计推断统计推断是统计学中一个重要的领域,它研究的是如何通过样本数据对总体特征进行推断。
统计推断通常包括参数估计和假设检验两个部分。
参数估计是指在已知总体分布的情况下,通过样本数据估计总体参数的值;而假设检验是指在总体参数未知的情况下,通过样本数据来对总体特征进行检验。
统计推断在医学、经济学、社会学等领域中有着广泛的应用。
概率与统计知识点总结

概率与统计知识点总结一、概率的基本概念概率,简单来说,就是衡量某个事件发生可能性大小的一个数值。
比如抛硬币,正面朝上的概率是 05,意思是在大量重复抛硬币的实验中,正面朝上的次数大约占总次数的一半。
随机事件,就是在一定条件下,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件。
比如掷骰子得到的点数就是随机事件。
必然事件,就是在一定条件下必然会发生的事件。
比如太阳从东方升起,这就是必然事件。
不可能事件,就是在一定条件下不可能发生的事件。
比如在地球上,水往高处流就是不可能事件。
概率的取值范围在 0 到 1 之间。
0 表示事件不可能发生,1 表示事件必然发生。
二、古典概型古典概型是一种最简单、最基本的概率模型。
它具有两个特点:试验中所有可能出现的基本事件只有有限个;每个基本事件出现的可能性相等。
计算古典概型中事件 A 的概率公式为:P(A) = A 包含的基本事件个数/基本事件的总数。
例如,一个袋子里有 5 个红球和 3 个白球,从中随机摸出一个球是红球的概率,基本事件总数是 8(5 个红球+ 3 个白球),红球的个数是 5,所以摸到红球的概率就是 5/8。
三、几何概型与古典概型不同,几何概型中的基本事件个数是无限的。
比如在一个时间段内等可能地到达某一地点,或者在一个区域内等可能地取点。
几何概型的概率计算公式是:P(A) =构成事件 A 的区域长度(面积或体积)/试验的全部结果所构成的区域长度(面积或体积)。
举个例子,在区间0, 10中随机取一个数,这个数小于 5 的概率就是 5/10 = 05。
四、条件概率条件概率是在已知某个事件发生的条件下,另一个事件发生的概率。
记事件 A 在事件 B 发生的条件下发生的概率为 P(A|B)。
计算公式为:P(A|B) = P(AB) / P(B) ,其中 P(AB) 表示事件 A 和事件 B 同时发生的概率。
比如说,已知今天下雨,明天也下雨的概率就是一个条件概率。
高中数学统计与概率知识点

高中数学统计与概率知识点一、统计学基础1. 数据收集- 普查与抽样调查- 数据的类型(定量数据与定性数据)2. 数据整理与展示- 频数分布表- 直方图- 饼图- 条形图3. 中心趋势的度量- 平均数(算术平均数)- 中位数- 众数4. 离散程度的度量- 极差- 四分位距- 方差与标准差5. 相关性分析- 相关系数- 散点图二、概率论基础1. 随机事件- 事件的定义- 必然事件与不可能事件- 互斥事件与独立事件2. 概率的计算- 单次试验的概率- 多次试验的概率- 条件概率- 贝叶斯定理3. 随机变量- 离散随机变量与连续随机变量 - 概率分布- 概率密度函数与概率分布函数4. 期望值与方差- 随机变量的期望值- 随机变量的方差5. 常见概率分布- 二项分布- 泊松分布- 正态分布三、统计与概率的应用1. 假设检验- 零假设与备择假设- 显著性水平- 第一类错误与第二类错误 - t检验与卡方检验2. 回归分析- 线性回归- 相关系数与决定系数3. 抽样与估计- 抽样误差- 置信区间- 最大似然估计四、综合练习题1. 选择题- 统计图表解读- 概率计算- 假设检验2. 填空题- 计算平均数、中位数、众数 - 计算方差、标准差- 概率分布的应用3. 解答题- 解释统计概念- 概率问题的求解- 应用统计方法解决实际问题五、附录1. 公式汇总- 统计学公式- 概率论公式2. 重要概念索引- 术语解释- 概念间的关系3. 参考资料- 推荐阅读书籍- 在线资源链接请根据需要对上述内容进行编辑和调整。
这篇文章是为了提供一个关于高中数学统计与概率的知识点概览,适用于教育目的。
每个部分都包含了关键的子标题和简短的描述,以便于理解和使用。
统计概率知识点归纳总结大全

统计概率知识点归纳总结大全1.了解随机事件的发生存在着规律性和随机事件概率的意义.2.了解等可能性事件的概率的意义,会用排列组合的基本公式计算一些等可能性事件的概率.3.了解互斥事件、相互独立事件的意义,会用互斥事件的概率加法公式与相互独立事件的概率乘法公式计算一些事件的概率.4.会计算事件在n 次独立重复试验中恰好发生k 次的概率.5. 掌握离散型随机变量的分布列. 6.掌握离散型随机变量的期望与方差. 7.掌握抽样方法与总体分布的估计. 8.掌握正态分布与线性回归.考点1. 求等可能性事件、互斥事件和相互独立事件的概率 解此类题目常应用以下知识:(1)等可能性事件(古典概型)的概率:P (A )=)()(I card A card =nm ;等可能事件概率的计算步骤:(1) 计算一次试验的基本事件总数n ;(2) 设所求事件A ,并计算事件A 包含的基本事件的个数m ; (3) 依公式()m P A n=求值;(4) 答,即给问题一个明确的答复.(2)互斥事件有一个发生的概率:P (A +B )=P (A )+P (B ); 特例:对立事件的概率:P (A )+P (A )=P (A +A )=1. (3)相互独立事件同时发生的概率:P (A ·B )=P (A )·P (B );特例:独立重复试验的概率:P n (k )=k n k k n p p C --)1(.其中P 为事件A 在一次试验中发生的概率,此式为二项式[(1-P)+P]n 展开的第k+1项.(4)解决概率问题要注意“四个步骤,一个结合”: ① 求概率的步骤是:第一步,确定事件性质⎧⎪⎪⎨⎪⎪⎩等可能事件互斥事件 独立事件 n 次独立重复试验即所给的问题归结为四类事件中的某一种. 第二步,判断事件的运算⎧⎨⎩和事件积事件即是至少有一个发生,还是同时发生,分别运用相加或相乘事件.第三步,运用公式()()()()()()()()(1)k k n k n n m P A nP A B P A P B P A B P A P B P k C p p -⎧=⎪⎪⎪+=+⎨⎪⋅=⋅⎪=-⎪⎩等可能事件: 互斥事件: 独立事件: n 次独立重复试验:求解 第四步,答,即给提出的问题有一个明确的答复. 考点2离散型随机变量的分布列 1.随机变量及相关概念①随机试验的结果可以用一个变量来表示,这样的变量叫做随机变量,常用希腊字母ξ、η等表示.②随机变量可能取的值,可以按一定次序一一列出,这样的随机变量叫做离散型随机变量. ③随机变量可以取某区间内的一切值,这样的随机变量叫做连续型随机变量. 2.离散型随机变量的分布列①离散型随机变量的分布列的概念和性质一般地,设离散型随机变量ξ可能取的值为1x ,2x ,……,i x ,……,ξ取每一个值ix (=i 1,2,……)的概率P (i x =ξ)=i P ,则称下表.为随机变量ξ的概率分布,简称ξ的分布列.由概率的性质可知,任一离散型随机变量的分布列都具有下述两个性质: (1)0≥i P ,=i 1,2,…;(2)++21P P …=1. ②常见的离散型随机变量的分布列: (1)二项分布n 次独立重复试验中,事件A 发生的次数ξ是一个随机变量,其所有可能的取值为0,1,2,…n ,并且k n k k n k q p C k P P -===)(ξ,其中n k ≤≤0,p q -=1,随机变量ξ的分布列如下:ξ1… k… nPn n q p C 00111-n n q p C…k n k kn q p C -q p C n n n称这样随机变量ξ服从二项分布,记作),(~p n B ξ,其中n 、p 为参数,并记:),;(p n k b q p C kn k k n =- .(2) 几何分布在独立重复试验中,某事件第一次发生时所作的试验的次数ξ是一个取值为正整数的离散型随机变量,“k ξ=”表示在第k 次独立重复试验时事件第一次发生.随机变量ξ的概率分布为:ξ1x2x… i x… PP 1P 2…i P…ξ1 2 3… k… Ppqp2q p…1k q p -…考点3 离散型随机变量的期望与方差 随机变量的数学期望和方差(1)离散型随机变量的数学期望:++=2211p x p x E ξ…;期望反映随机变量取值的平均水平. ⑵离散型随机变量的方差:+-+-=222121)()(p E x p E x D ξξξ…+-+n n p E x 2)(ξ…; 方差反映随机变量取值的稳定与波动,集中与离散的程度. ⑶基本性质:b aE b a E +=+ξξ)(;ξξD a b a D 2)(=+.(4)若ξ~B(n ,p),则 np E =ξ ; D ξ =npq (这里q=1-p ) ;如果随机变量ξ服从几何分布,),()(p k g k P ==ξ,则pE 1=ξ,D ξ =2pq 其中q=1-p.考点4 抽样方法与总体分布的估计 抽样方法1.简单随机抽样:设一个总体的个数为N ,如果通过逐个抽取的方法从中抽取一个样本,且每次抽取时各个个体被抽到的概率相等,就称这样的抽样为简单随机抽样.常用抽签法和随机数表法.2.系统抽样:当总体中的个数较多时,可将总体分成均衡的几个部分,然后按照预先定出的规则,从每一部分抽取1个个体,得到所需要的样本,这种抽样叫做系统抽样(也称为机械抽样).3.分层抽样:当已知总体由差异明显的几部分组成时,常将总体分成几部分,然后按照各部分所占的比进行抽样,这种抽样叫做分层抽样. 总体分布的估计由于总体分布通常不易知道,我们往往用样本的频率分布去估计总体的分布,一般地,样本容量越大,这种估计就越精确.总体分布:总体取值的概率分布规律通常称为总体分布.当总体中的个体取不同数值很少时,其频率分布表由所取样本的不同数值及相应的频率表示,几何表示就是相应的条形图.当总体中的个体取值在某个区间上时用频率分布直方图来表示相应样本的频率分布. 总体密度曲线:当样本容量无限增大,分组的组距无限缩小,那么频率分布直方图就会无限接近于一条光滑曲线,即总体密度曲线. 考点5 正态分布与线性回归 1.正态分布的概念及主要性质 (1)正态分布的概念如果连续型随机变量ξ 的概率密度函数为 222)(21)(σμπσ--=x ex f ,x R ∈ 其中σ、μ为常数,并且σ>0,则称ξ服从正态分布,记为~N ξ(μ,2σ).(2)期望E ξ =μ,方差2σξ=D . (3)正态分布的性质 正态曲线具有下列性质:①曲线在x 轴上方,并且关于直线x =μ对称.②曲线在x=μ时处于最高点,由这一点向左右两边延伸时,曲线逐渐降低.③曲线的对称轴位置由μ确定;曲线的形状由σ确定,σ越大,曲线越“矮胖”;反之越“高瘦”.(4)标准正态分布当μ=0,σ=1时ξ服从标准的正态分布,记作~N ξ(0,1) (5)两个重要的公式①()1()x x φφ-=-,② ()()()P a b b a ξφφ<<=-.(6)2(,)N μσ与(0,1)N 二者联系.(1)若2~(,)N ξμσ,则~(0,1)N ξμησ-= ;②若2~(,)N ξμσ,则()()()b a P a b μμξφφσσ--<<=-.2.线性回归简单的说,线性回归就是处理变量与变量之间的线性关系的一种数学方法.变量和变量之间的关系大致可分为两种类型:确定性的函数关系和不确定的函数关系.不确定性的两个变量之间往往仍有规律可循.回归分析就是处理变量之间的相关关系的一种数量统计方法.它可以提供变量之间相关关系的经验公式.具体说来,对n 个样本数据(11,x y ),(22,x y ),…,(,n n x y ),其回归直线方程,或经验公式为:a bx y +=ˆ.其中,,)(1221x b y a x n xyx n yx b ni ini ii⋅-=--=∑∑==,其中y x ,分别为|i x |、|i y |的平均数.。
概率和统计的基本概念知识点总结

概率和统计的基本概念知识点总结概率和统计是数学中的两个重要分支,被广泛应用于各个领域,包括自然科学、社会科学和工程学等。
本文将对概率和统计的基本概念进行总结和阐述,并提供一些实际应用案例。
1. 概率的基本概念概率是描述事件发生可能性的数值,通常用一个介于0和1之间的数表示。
概率的计算可以根据事件的性质和概率空间来进行。
1.1 事件与样本空间事件是指在一次试验中可能发生的一种或几种结果。
样本空间是指试验的所有可能结果的集合。
事件是样本空间的子集。
1.2 随机试验与概率空间随机试验是指具有以下特点的实验:可以在相同的条件下重复进行,并且每次试验的结果无法提前确定。
概率空间包括样本空间和概率函数。
1.3 概率函数概率函数是一个将样本空间的事件映射到实数区间[0,1]的函数。
它满足以下条件:对于任意样本空间的事件A,概率函数P(A)具有非负性、规范性和可列可加性。
2. 统计学的基本概念统计学是研究收集、整理、分析和解释数据的方法和技术的学科。
统计学分为描述统计和推断统计两个方面。
2.1 描述统计描述统计是用图表、统计量等方法对数据进行总结和描述的过程。
常用的描述统计方法包括平均数、中位数、众数、方差、标准差等。
2.2 推断统计推断统计是通过对样本数据进行分析,得出关于总体的结论或推断的过程。
推断统计方法包括假设检验、置信区间估计等。
3. 概率与统计的应用案例概率和统计的理论在实际生活和科学研究中有着广泛的应用。
以下是几个典型的案例:3.1 风险评估概率与统计能够用于评估风险和制定保险政策。
根据历史统计数据和概率模型,可以估计某种风险发生的可能性,并制定相应的保险费率。
3.2 质量控制概率与统计可以用于质量控制中的过程监控和产品检验。
通过收集数据并进行统计分析,可以判断生产过程是否处于控制状态,以及产品是否符合质量标准。
3.3 经济预测概率与统计可以应用于经济领域的预测和决策。
通过对历史数据进行分析,可以建立经济模型并做出相应的预测,帮助政府和企业做出合理决策。
概率统计知识点

一.随机事件和概率1、概率的定义和性质(1)概率的公理化定义设Ω为样本空间,A 为事件,对每一个事件A 都有一个实数P(A),若满足下列三个条件:1° 0≤P(A)≤1, 2° P(Ω) =13° 对于两两互不相容的事件1A ,2A ,…有∑∞=∞==⎟⎟⎠⎞⎜⎜⎝⎛11)(i i i i A P A P Υ常称为可列(完全)可加性。
则称P(A)为事件A 的概率。
(2)古典概型(等可能概型)1° {}n ωωωΛ21,=Ω,2° nP P P n 1)()()(21===ωωωΛ。
设任一事件A ,它是由m ωωωΛ21,组成的,则有P(A)={})()()(21m ωωωΥΛΥΥ=)()()(21m P P P ωωω+++Λn m =基本事件总数所包含的基本事件数A =2、五大公式(加法、减法、乘法、全概、贝叶斯)(1)加法公式P(A+B)=P(A)+P(B)-P(AB)当 P(AB)=0时,P(A+B)=P(A)+P(B)(2)减法公式P(A-B)=P(A)-P(AB)当B ⊂ A 时,P(A-B)=P(A)-P(B)当A=Ω时,P(B )=1- P(B)(3)条件概率和乘法公式定义 设A、B 是两个事件,且P(A)>0,则称)()(A P AB P 为事件A 发生条件下,事件B 发生的条件概率,记为=)/(A B P )()(A P AB P 。
条件概率是概率的一种,所有概率的性质都适合于条件概率。
(4)全概公式设事件B 1, B 2,Λ , B n 满足1°B 1, B 2,Λ , B n两两互不相容,P (B i ) > 0(i = 1,2,Λ , n ) ,2°Υni iB A 1=⊂,则有)|()()|()()|()()(2211n n B A P B P B A P B P B A P B P A P +++=Λ。
数学必修三统计和概率知识点总结

数学必修三统计和概率知识点总结
数学必修三统计和概率的主要知识点包括:
1. 统计:
- 样本调查与总体推断:样本的选择和调查方法,通过样本推断总体特征;
- 随机变量与概率分布:离散型和连续型随机变量的概念,概率质量函数和概率密度函数;
- 期望与方差:随机变量的期望值和方差;
- 离散型随机变量的分布:二项分布、泊松分布等离散型随机变量的性质;
- 连续型随机变量的分布:均匀分布、正态分布等连续型随机变量的性质;
- 多元随机变量与边缘分布:多个随机变量之间的关系与边缘分布;
- 相关与回归:随机变量之间的相关性和回归分析;
- 统计与误差:抽样误差和非抽样误差。
2. 概率:
- 随机事件与概率:样本空间、随机事件和概率的概念;
- 概率的运算:事件的和、积以及互斥事件的概率;
- 条件概率:在已知一事件发生的条件下,另一事件发生的概率;
- 事件的独立性:事件之间的独立性和联合概率;
- 正态分布的应用:正态分布的特性、标准正态分布的应用;
- 抽样与抽样分布:抽样的概念,样本均值的分布;
- 参数估计:点估计和区间估计;
- 假设检验:零假设和备择假设的提出,检验统计量的构造。
以上是数学必修三统计和概率的主要知识点总结,具体内容可根据教材的要求进行深入学习和了解。
概率论与数理统计知识点总结免费超详细版

概率论与数理统计知识点总结免费超详细版概率论与数理统计是一门研究随机现象数量规律的学科,它在众多领域都有着广泛的应用,如统计学、物理学、工程学、经济学等。
以下是对概率论与数理统计知识点的超详细总结。
一、随机事件与概率(一)随机事件随机事件是指在一定条件下,可能出现也可能不出现的事件。
随机事件通常用大写字母 A、B、C 等来表示。
(二)样本空间样本空间是指随机试验的所有可能结果组成的集合,通常用Ω表示。
(三)事件的关系与运算1、包含关系:若事件 A 发生必然导致事件 B 发生,则称事件 B 包含事件 A,记作 A⊂B。
2、相等关系:若 A⊂B 且 B⊂A,则称事件 A 与事件 B 相等,记作A = B。
3、并事件:事件 A 与事件 B 至少有一个发生的事件称为 A 与 B的并事件,记作 A∪B。
4、交事件:事件 A 与事件 B 同时发生的事件称为 A 与 B 的交事件,记作A∩B 或 AB。
5、互斥事件:若事件 A 与事件 B 不能同时发生,则称 A 与 B 为互斥事件,即 AB =∅。
6、对立事件:若事件 A 与事件 B 满足 A∪B =Ω 且 AB =∅,则称 A 与 B 为对立事件,记作 B =A。
(四)概率的定义与性质1、概率的古典定义:若随机试验的样本空间Ω只包含有限个基本事件,且每个基本事件发生的可能性相等,则事件 A 的概率为 P(A) =n(A) /n(Ω) ,其中 n(A) 为事件 A 包含的基本事件个数,n(Ω) 为样本空间Ω包含的基本事件个数。
2、概率的统计定义:在大量重复试验中,事件 A 发生的频率稳定在某个常数 p 附近,则称 p 为事件 A 的概率,即 P(A) = p 。
3、概率的公理化定义:设随机试验的样本空间为Ω,对于Ω中的每一个事件 A,都赋予一个实数 P(A),如果满足以下三个条件:(1)非负性:0 ≤ P(A) ≤ 1 ;(2)规范性:P(Ω) = 1 ;(3)可列可加性:对于两两互斥的事件 A1,A2,,有P(A1∪A2∪)= P(A1) + P(A2) +,则称 P(A) 为事件 A 的概率。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
本文将通过以下几部分对统计概率的知识点进行归纳:
一、随机变量
随机变量(random variable)表示随机试验各种结果的实值单值函数。
随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表达。
随机变量可分为离散随机变量和连续随机变量两种,可通过概率计算公式进行概率的计算。
计算离散随机变量的公式叫做概率质量函数(Probability Mass Function,PMF),计算连续随机变量的公式叫做概率密度函数(Probability Density Function,PDF)。
1、概率质量函数
是离散随机变量在各特定取值上的概率。
2、概率密度函数
描述随机变量的输出值,在某个确定的取值点附近的可能性的函数。
而随机变量的取值落在某个区域之内的概率则为概率密度函数在这个区域上的积分。
二、概率分布
数据在统计图中的形状叫做它的分布。
可以通俗的理解为:概率分布=随机变量+概率+分布
1、离散(Discrete)概率分布
以下是几种常见离散概率分布
A、伯努利分布(Bernoulli Distribution)(0-1分布)
伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,其概率分布称为伯努利分布,也叫“0-1分布”或“两点分布”,是最简单的离散型概率分布。
记成功概率为p(0≤p≤1),则失败概率为q=1-p,则:
其概率质量函数为:其期望为:其方差为:Python实现方式:
绘制图形如下:
B、二项分布(Binomial distribution)(n个伯努利分布)
二项分布是n重伯努利试验成功次数的离散概率分布。
二项分布具有如下特征:
1)每次试验相互独立
2)每次试验只有两种可能结果:成功或失败
3)每次试验成功与失败的概率是相同的
4)当n=1时,二项分布服从0-1分布
其概率质量函数为:其期望为:其方差为:Python实现方式:
绘制图形如下:
C、几何分布(Geometric distribution)(二项分布第一次成功)
几何分布是在n次伯努利试验中,试验k次才得到第一次成功的机率。
也就是说:前k-1次皆失败,第k次成功的概率。
其概率质量函数为:其期望为:其方差为:Python实现方式:
绘制图形如下:
D、泊松分布(Poisson Distribution)(二项分布的极限分布,即和)
二项分布中,当n趋于无穷大时,p趋于0,此时事件发生的概率服从泊松分布。
泊松分布的特征如下:
1)事件为独立事件
2)在任意相同的时间范围内,事件发生的概率相同
其概率质量函数为:其期望为:其方差为:Python实现方式:
绘制图形如下:
2、连续(Continuous)概率分布
以下是几种常见的连续概率分布。
A、正态分布(Normal Distribution)
正太分布又名“高斯分布”,大量的随机变量被证明是正态分布的。
任何一个分布只要具有以下特征,则可以称其为正态分布:
1)分布的平均值、中位数和模式一致
2)分布曲线是钟形的,关于线x=μ对称
3)曲线下的总面积为1
4)有一半的值在中心左边,另一半在右边
其概率密度函数为:其期望为:其方差为:
其中,μ和是参数,随着参数变化,概率密度函数的图形如下图所示:
当均值μ=0,标准差σ=1时,称其为标准正态分布,此时概率密度函数为:
Python实现方式:
绘制图形如下:
B、幂律分布(Power Law Distribution)
自然界与社会生活中存在各种各样性质迥异的幂律分布现象,它们都有一个共同的特征,即数据波动非常地大,少数点的数值特别高,大多数的点数值都很低,最大和最小的点之间,可能相差好几个数量级。
统计学上,把这种情况叫做“幂律分布”。
幂律分布的形状,是一个不断下降的曲线,从最高的峰值开始极速下降,后面拖了一个长长的尾巴。
其概率密度函数为:
长尾理论与帕累托法则(二八定律)都是简单的幂律分布,还有其他形式的幂律分布,像名次- 规模分布、规模-概率分布等。
长尾理论,草根主义,关注的是幂律分布的尾部,互联网的发展推动了这一理论的兴起。
互联网市场不像传统市场,会受到地域、货架成本等因素的局限,网上供应的商品都可以被需求方看到,而不仅仅是少部分需求量很大的商品,只要存储和流通的渠道足够大,需求不旺或销量不佳的产品共同占据的市场份额就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。
二八定律,精英主义,关注的是幂律分布的头部,即常说的“20%的人拥有80%的财富”。
幂律分布广泛存在于物理学、地球与行星科学、计算机科学、生物学、生态学、人口统计学与社会科学、经济与金融学等众多领域中,且表现形式多种多样。
三、总体和样本
总体是要研究的对象的集合,样本则是在总体内随机抽取的一部分,用于代表总体,是总体的一个子集。
1、样本数量和样本大小
样本数量,指样本的个数,即抽取的子集的次数。
样本大小,指每个样本中包含的个体数量,即每个子集的规模大小。
2、用Python实现随机抽样
1)用random实现
抽奖的案例
结果如下:
2)用sample()函数实现
结果如下:
sample()函数会从数据框中随机选择子集
结果如下:
四、中心极限定理
1、定理含义
在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。
中心极限定理就是从数学上证明了这一现象。
有以下几个特征:
1)样本的均值约等于总体均值
2)样本的均值围绕在总体均值周围,呈正态分布
需要特别说明的是:
1)样本均值与总体均值的分布形态没有关系,无论总体呈什么分布,样本均值都在总体均值周围呈正态分布。
2)取样次数越多,样本大小越大,样本的均值就越接近正态分布。
2、相关概念区分
1)标准差:方差的算术平方根,用于衡量数据集的离散程度(波动性)。
公式为:
2)样本标准差:总体中抽取的随机样本的标准差,计算公式与标准差的不同之处在于分母是
n-1,可用其估计总体标准差。
公式为:
3)标准误差:所有样本的均值求标准差,反映了样本均值距离总体均值的距离。
公式为:
利用标准误差公式可以判断某个样本是否属于总体:
(1)根据总体标准差和样本大小计算出标准误差;
(2)计算出目标样本的均值;
(3)查看目标样本的均值是否在距离总体均值正负3个标准差的范围内,如果是,则此样本属于总体,否则不属于。
五、产生偏见的原因
1、样本偏差
由于抽取的样本数量不够多或者抽取样本时未遵循随机原则导致的偏差。
避免偏见的方法:
1)样本数量足够大才能够代表总体,小样本得出的结论不具有代表性
2)收集意见时,独立判断得出的结果才具有参考价值,受影响得出的结论不足以信任
2、幸存者偏差
我们常常关注显而易见的样本,而不会关注沉默的样本。
例如:二战战斗机改进中,中弹最少的地方才是最致命的,才最应该加强防护。
避免偏见的方法:
1)多角度观察,当多角度均指向同一个结论时,则认为合理
2)逆向思维
3、概率偏见
行为经济学家把人类自以为的概率叫做心理概率,心理概率与客观概率的不吻合即为概率偏见。
例如:911事件后,美国人选择驾车出行概率增高,但因驾车出行而死亡的人数远超飞机。
避免偏见的方法:
1)用客观的数学方法验证概率
2)多方面咨询相关专家
4、信息茧房
由于人们的信息领域会习惯性地被自己的兴趣所引导,因此久而久之会将自己的生活桎梏于像蚕茧一般的“茧房”中。
例如:各种APP中的个性化推荐,只能看到自己感兴趣的信息。
避免偏见的方法:
1)不采用个性推荐设置
2)多方听取意见,扩大视野
以上,为统计概率部分知识点归纳,希望能够经常回顾,做到温故而知新。