正态分布与线性回归

合集下载

正态分布与回归分析

正态分布与回归分析正态分布是统计学中非常重要的一种概率分布，也被称为高斯分布。

它具有许多重要的性质，广泛应用于各个领域的数据分析和建模中。

回归分析则是统计学中另一个重要的概念，用于研究自变量和因变量之间的关系。

本文将介绍正态分布和回归分析的基本概念，以及它们在实际应用中的重要性和作用。

正态分布是一种连续型的概率分布，其概率密度函数呈钟形曲线，左右对称，中心峰对称于均值。

正态分布的均值、方差完全决定了整个分布。

在正态分布中，68%的数据落在均值加减一个标准差的范围内，95%的数据落在均值加减两个标准差的范围内，99.7%的数据落在均值加减三个标准差的范围内。

这种性质使得正态分布在统计学中有着重要的地位，许多统计推断和假设检验方法都建立在对数据服从正态分布的假设之上。

正态分布在实际应用中有着广泛的应用，例如在自然科学、社会科学、工程技术等领域都能看到正态分布的身影。

许多自然现象和人类行为都服从正态分布，比如身高、体重、考试成绩等。

在实验设计和数据分析中，研究人员常常假设数据服从正态分布，以便进行后续的统计推断和分析工作。

正态分布的性质使得我们能够更好地理解和描述数据的分布规律，为数据分析提供了重要的理论基础。

回归分析是一种用于研究自变量和因变量之间关系的统计方法。

在回归分析中，我们试图通过建立一个数学模型来描述自变量和因变量之间的函数关系。

最常见的回归分析是线性回归分析，即假设自变量和因变量之间的关系是线性的。

通过最小二乘法等方法，我们可以估计出回归系数，从而得到一个最佳拟合的线性模型。

回归分析在实际应用中有着广泛的应用，例如在经济学、医学、市场营销等领域都能看到回归分析的身影。

通过回归分析，我们可以揭示自变量对因变量的影响程度，预测未来的趋势，评估政策措施的效果等。

回归分析不仅可以帮助我们理解数据之间的关系，还可以为决策提供科学依据，指导实践工作的开展。

正态分布和回归分析在实际应用中常常结合起来，例如在线性回归分析中，我们通常假设误差项服从正态分布。

线性回归原理

线性回归原理
线性回归是一种基本的回归分析方法，用于探索自变量与因变量之间的线性关系。

其原理是通过拟合一条（或多条）直线（或平面）来预测连续型的因变量。

具体而言，线性回归假设自变量和因变量之间存在一个线性关系，表示为一个线性方程：Y = α + βX + ε。

其中，Y代表因
变量，X代表自变量，α表示截距，β表示自变量的系数，ε表示误差项。

线性回归的目标就是找到合适的截距和系数来最小化误差项，从而使得预测值和观测值之间的差异最小。

通过最小二乘法可以求解出最佳的截距和系数。

最小二乘法的基本思想是通过计算预测值与实际观测值之间的差异的平方和，来评估拟合线性关系的质量，并通过调整截距和系数使得差异平方和最小化。

在进行线性回归之前，需要先满足以下假设条件：1. 自变量和因变量之间存在线性关系；2. 自变量和误差项之间不存在相关性；3. 误差项具有常数方差；4. 误差项服从正态分布。

线性回归可以应用于多个领域，例如经济学中的价格预测、市场需求分析，医学领域中的药物剂量选择等。

通过分析得到的截距和系数，可以解释自变量对于因变量的影响程度和方向。

需要注意的是，线性回归模型对数据集中的异常值和离群点较为敏感，当数据集中存在异常值时，需要进行数据处理或者考虑其他回归方法。

此外，线性回归模型也适用于有限的自变量
和因变量之间的关系。

如果存在非线性关系，可以考虑使用多项式回归或其他非线性回归模型进行建模。

正态分布与线性回归

独立重复试验时事件 A 第一次发生，且 P(ξ＝k)＝_q_k_－_1_p_(其中 P 是在
一次试题中事件 A 发生的概率；p＋q＝1，k＝1,2,3，…)，则称 ξ 服从几何分布，记作 g(k，p)＝qk－1p.
第74讲 │ 要点探究
要点探究
► 探究点1 离散型随机变量的分布列及其应用
例 1 已知某离散型随机变量 ξ 的分布列如下：
A＝A1 B 1＋ A 1B1＋A1B1＋A2B2，故所求的概率为
P(A)＝P(A1 B 1)＋P( A 1B1)＋P(A1B1)＋P(A2B2)
第74讲 │ 要点探究
＝P(A1)P( B 1)＋P( A 1)P(B1)＋P(A1)P(B1)＋P(A2)P(B2) ＝0.1×0.9＋0.9×0.1＋0.1×0.1＋0.3×0.3＝0.28.
[点评] (1)二项分布是一类重要的分布，要熟练掌握．在写分布列时，首先要判断随机变量是否满足二项分布的条件．(2)在进行概率计算时，要注意排列、组合等知识在等可能事件中的应用，要注意互斥事件、相互独立事件、独立重复试验的概率的应用．
第74讲 │ 要点探究
某厂生产电子元件，其产品的次品率为 5%，现从一批产品中任意连续取出 2 件．
3．课时安排：本单元共安排了4讲及一个单元能力训练卷，每讲建议1课时完成，单元能力训练卷建议1课时完成，大约共需5课时．
第74讲 │ 离散型随机变量的分布列
第74讲离散型随机变量的分布列
第74讲 │ 编读互动
编读互动
离散型随机变量及其分布列是高考必考的一个知识点，常常作为解答题的一问出现．本讲主要复习离散型随机变量及其分布列的计算，复习时，要抓住离散型随机变量的概率分布的两个本质特征：pi≥0(i ＝1,2，…，n)，p1＋p2＋…＋pn＝1，这是确定分布列中参数值的依据．求离散型随机变量的分布列时，首先要根据具体情况确定随机变量 ξ 的取值情况，然后利用排列、组合与概率知识求出 ξ 取各个值的概率．掌握几个典型的分布列：几何分布、二项分布等．

平均分布,正态分布,一阶滑动和,一阶线性回归 C语言编程

#include <stdlib.h>#include <stdio.h>#include <time.h>#include <math.h>#include<string.h># define pi 3.1415926# define sqr 0.707106781//在一阶线性回归出现了参数adouble uni[2000]={0};//程序中出现大数组时，很可能导致堆栈溢出，为了避免double nor[2000]={0};//这个问题，把数组声明为全局变量，double ovlap[1000];double linreg[1000];double nor_num[10];double nor_num_theory[10]={0.0};double mean( double a[]){ int i;double ever=0.0;for(i=0;i<2000;i++)ever+=a[i]/2000.0;return ever;}double std(double a[],double mean){ int i;double stda=0.0;for(i=0;i<2000;i++)stda+=(a[i]-mean)*(a[i]-mean)/2000.0;return stda;}double integral(double a,double b){double i,num=0.0;for(i=a;i<b;i+=0.0001){num+=1/sqrt(2*pi)*exp(-i*i/2)*0.0001;}num=2000*num;return num;}//double B_rela(double a)void main( ){FILE *fp1=fopen("D:\\data1.txt","w");//用于存放平均分布的相关函数FILE *fp2=fopen("D:\\data2.txt","w");//用于存放正态分布的相关函数FILE *fp3=fopen("D:\\data3.txt","w");//用于存放一阶滑动序列的相关函数FILE *fp4=fopen("D:\\data4.txt","w");//用于存放一阶线性回归的相关函数FILE *fp=fopen("D:\\data.txt","w");int i,j,k=0,uni_num[10]={0};//检验平均分布double uni_mean,uni_std; //均匀分布double nor_mean,nor_std;//正态分布double ovlap_mean,ovlap_ju,ovlap_std;//一阶滑动序列的平均数，矩，方差double linreg_mean,linreg_ju,linreg_std;// 一阶线性回归的平均数，矩，方差double uni_B[21],nor_B[21], ovlap_B[21],linreg_B[21];//相关函数srand( (unsigned)time( NULL ) );fprintf(fp,"the following are contents of uniform distribution:\n");for( i=0;i<2011;i++ )uni[i]=rand()/32767.0 ;for(j=0;j<=9;j++){if(i<2000&&(uni[i]>=j*0.1)&&(uni[i]<(j+1)*0.1))uni_num[j]++ ;}if(i<50)fprintf( fp,"%6.4f\t", uni[i]);}fprintf(fp,"\n\n");uni_mean=mean(uni);fprintf(fp,"the average number of the uniform distribution is:%6.4f\n",uni_mean);//打印平均分布的平均数uni_std=std(uni,uni_mean);fprintf(fp,"the variance of the uniform distribution is :%6.4f\n",uni_std);//打印平均分布的方差fprintf(fp,"the following are numbers in each erea \n\n");for(j=0;j<=9;j++) fprintf(fp,"%d\t",uni_num[j]);fprintf(fp,"\n\n");fprintf(fp,"the followings are correlation function value\n\n");double sum1;int B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(uni[j+abs(B_j)]-uni_mean)*(uni[j]-uni_mean);}uni_B[i]=sum1/1000.0;fprintf(fp,"%f\n",uni_B[i]);fprintf(fp1,"%f\n",uni_B[i]);B_j++;fclose(fp1);fprintf(fp,"\n\nthe following are the contents of normal distribution:\n"); memset(nor_num,0,sizeof(nor_num));memset(nor_num,0,sizeof(nor_num));//将数组置零，避免堆栈的叠加double index1,index2;srand( (unsigned)time( NULL ) );for(i=0;i<2000;i++){do{index1=rand()/32767.0 ;index2=rand()/32767.0;}while(index1==0);nor[i]=sqrt(-2*log(index1))*cos(2*pi*index2);if(i<50){fprintf(fp,"%f\t",nor[i]);}if(nor[i]>=-2.0 && nor[i]<-1.6) nor_num[0]++;if(nor[i]>=-1.6 && nor[i]<-1.2) nor_num[1]++;if(nor[i]>=-1.2 && nor[i]<-0.8) nor_num[2]++;if(nor[i]>=-0.8 && nor[i]<-0.4) nor_num[3]++;if(nor[i]>=-0.4 && nor[i]<0.0) nor_num[4]++;if(nor[i]>=0.0 && nor[i]<0.4) nor_num[5]++;if(nor[i]>=0.4 && nor[i]<0.8) nor_num[6]++;if(nor[i]>=0.8 && nor[i]<1.2) nor_num[7]++;if(nor[i]>=1.2 && nor[i]<1.6) nor_num[8]++;if(nor[i]>=1.6 && nor[i]<2.0) nor_num[9]++;}nor_mean=mean(nor);fprintf(fp,"the average number of normal distribution is:%6.4f\n",nor_mean); //正态分布的平均数nor_std=std(nor,nor_mean);fprintf(fp,"the variance of normal distribution is %6.4f\n",nor_std);//正态分布的方差fprintf(fp," the following outputs showed numbers of random number in determined zone\n"); fprintf(fp,"the former number is calculated in theory,the latter one is actual quantity\n");fprintf(fp," theoretical\t\t\tactual\n");for(i=-5;i<5;i++){nor_num_theory[i+5]=integral(0.4*i,0.4*i+0.4);fprintf(fp,"%f\t\t\t",nor_num_theory[i+5]);fprintf(fp,"%f\n",nor_num[i+5]);}//在求相关函数的过程中，会用到中间量fprintf(fp,"\n\n\n");fprintf(fp,"the followings are values of correlation functions\n\n ");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(nor[j+abs(B_j)]-nor_mean)*(nor[j]-nor_mean);}nor_B[i]=sum1/1000.0;fprintf(fp,"%f\n",nor_B[i]);fprintf(fp2,"%f\n",nor_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp2);// 以下部分为关于一阶滑动和序列的内容fprintf(fp,"the follwings are contents of overlap \n\n\n");memset(ovlap,0,sizeof(ovlap));ovlap_mean=0;ovlap_ju=0;ovlap_std=0;double ov_sum2=0.0,ov_sum3=0.0;for(i=0;i<1100;i++){ovlap[i]=nor[i+1]+4*nor[i];if(i<50)fprintf(fp,"%f\t",ovlap[i]);ov_sum2+=ovlap[i]; //ov_sum3+=ovlap[i]*ovlap[i];}ovlap_mean=ov_sum2/1000.0;//求平均数ovlap_ju=ov_sum3/1000.0;//求二阶距ovlap_std=ovlap_ju-ovlap_mean*ovlap_mean;//求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n",ovlap_mean,ovlap_ju,ovlap_std); fprintf(fp,"\n\n\n");/////123fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(ovlap[j+abs(B_j)]-ovlap_mean)*(ovlap[j]-ovlap_mean);}ovlap_B[i]=sum1/1000.0;fprintf(fp,"%f\n",ovlap_B[i]);fprintf(fp3,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp3);//一下为关于一阶线性回归的内容memset(linreg,0,sizeof(linreg));fprintf(fp,"the following are contents about linear regression\n\n ");linreg_mean=0;linreg_ju=0;linreg_std=0;linreg[0]=0.5;//get the value of each memberdouble li_sum1,li_sum2;li_sum1=0;li_sum2=0;for(i=1;i<=1000;i++){linreg[i]=nor[i]-sqr*linreg[i-1];if(i<50){fprintf(fp,"%f\t",linreg[i]);}if(i>100){li_sum1+=linreg[i];li_sum2+=pow(linreg[i],2);}}linreg_mean=li_sum1/900; //求平均数linreg_ju=li_sum2/900; //求二阶原点矩linreg_std=linreg_ju-pow(linreg_mean,2); //求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n\n",linreg_mean,linreg_ju,linreg_std);fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=100;j<1000-abs(B_j);j++){sum1+=(linreg[j+abs(B_j)]-linreg_mean)*(linreg[j]-linreg_mean);}linreg_B[i]=sum1/900;fprintf(fp,"%f\n",linreg_B[i]);fprintf(fp4,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp4);fclose(fp);getchar();}以下为程序生成的数据：the following are contents of uniform distribution:0.0949 0.2003 0.1722 0.7819 0.7060 0.1859 0.9555 0.6196 0.4057 0.12170.0213 0.8671 0.1353 0.0969 0.8642 0.2540 0.5656 0.0188 0.50070.0146 0.6431 0.6016 0.6290 0.0331 0.2777 0.9265 0.0720 0.14010.5796 0.3563 0.1599 0.5901 0.5519 0.0843 0.2079 0.2519 0.64290.0991 0.7468 0.5435 0.0682 0.8469 0.6612 0.6420 0.3045 0.37220.8919 0.0005 0.6651 0.2186the average number of the uniform distribution is:0.5050the variance of the uniform distribution is :0.0851the following are numbers in each erea206 189 214 182 184 209 199 200 211 206the followings are correlation function value0.0030370.0000780.0015480.0030860.0008270.0012770.001035-0.001017-0.003483-0.0065300.087185-0.006530-0.003483-0.0010170.0010350.0012770.0008270.0030860.0015480.0000780.003037the following are the contents of normal distribution:0.667303 0.372894 0.326978 -0.220477 0.969196 1.862360 1.640884 -0.0137021.060122 1.171379 -0.754567 0.942319 1.433209 1.461014 -0.646995 -1.6161470.940878 -0.021497 0.763536 -0.735703 1.325226 -0.570759 -1.0710600.478394 0.177006 -0.160915 0.977499 -0.633792 0.310996 -0.881002-0.847941 -0.221102 -1.514981 0.270405 -0.919251 0.421879 -1.2492052.062010 -0.070496 0.538043 2.382505 0.088082 -0.374721 -1.116906-2.267095 1.570966 -0.136206 -0.417198 0.960820 0.078101 the average number of normal distribution is:-0.0052the variance of normal distribution is 1.0091the following outputs showed numbers of random number in determined zonethe former number is calculated in theory,the latter one is actual quantitytheoretical actual64.114811 71.000000120.571269 132.000000193.619846 202.000000265.511518 269.000000310.920207 317.000000310.920207 298.000000265.511518 237.000000193.619846 196.000000120.571269 120.00000064.114811 81.000000the followings are values of correlation functions0.005019-0.000179-0.0239050.022543-0.0009890.024601-0.0068160.028706-0.0051880.0249710.9695730.024971-0.0051880.0287060.024601-0.0009890.022543-0.023905-0.0001790.005019the follwings are contents of overlap3.042107 1.818552 1.087433 0.087288 5.739144 9.090323 6.5498351.005315 5.411866 3.930947 -2.075949 5.202484 7. 193850 5.197061-4.204127 -5.523712 3.742015 0.677548 2.318441 -1.617586 4.730147 -3.354095 -3.805846 2.090581 0.547111 0.333840 3.276205 -2.2241700.362982 -4.371949 -3.612864 -2.399387 -5.789518 0.162370 - 3.2551270.438311 -2.934810 8.177543 0.256058 4.534676 9.618101 -0.022393-2.615791 -6.734720 -7.497414 6.147657 -0.962023 -0.7079743.921381 0.589083average:0.111364ju:18.264297standard:18.251895the following are correlation function value0.105750-0.109536-0.3461690.2506860.1354860.3537250.0650560.4082470.0942794.24996516.6526394.2499650.0942790.4082470.0650560.1354860.250686-0.346169-0.1095360.105750the following are contents about linear regression0.019340 0.313302 -0.442015 1.281748 0.956027 0.964871 -0.695969 1.5522460.073775 -0.806734 1.512766 0.363522 1.203965 -1.498327 -0.5566711.334504 -0.965134 1.445989 -1.7581712.568441 -2.386921 0.6167480.042287 0.147105 -0.264934 1.164835 -1.457455 1.341572 -1.8296370.445808 -0.536335 -1.135735 1.073491 -1.678324 1.608633 -2.3866803.749648 -2.721897 2.462715 0.641102 -0.365246 -0.116453 -1.034561-1.535550 2.656763 -2.014821 1.007495 0.248413 -0.097553average:0.018926ju:1.770050standard:1.769692the following are correlation function value0.018228-0.000412-0.007155-0.0265130.100574-0.1809430.310911-0.5030500.804904-1.2063651.777504-1.2063650.804904-0.5030500.310911-0.1809430.100574-0.026513-0.007155-0.000412平均分布图：正态数列分布图：相关函数图：。

线性回归分析

线性回归分析线性回归是一种用来建立和预测变量间线性关系的统计分析方法。

它可以帮助我们了解变量之间的相互影响和趋势，并将这些关系用一条直线来表示。

线性回归分析常被应用于经济学、社会科学、自然科学和工程等领域。

一、概述线性回归分析是一个广泛使用的统计工具，用于建立变量间的线性关系模型。

该模型假设自变量（独立变量）与因变量（依赖变量）之间存在线性关系，并通过最小化观测值与模型预测值之间的误差来确定模型的参数。

二、基本原理线性回归分析基于最小二乘法，通过最小化观测值与模型预测值之间的残差平方和来确定模型的参数。

具体来说，线性回归模型可以表示为：Y = β0 + β1X1 + β2X2 + ... + βnXn + ε，其中Y是因变量，X1到Xn是自变量，β0到βn是回归系数，ε是误差项。

回归系数表示自变量对因变量的影响程度。

三、应用步骤进行线性回归分析时，通常需要以下几个步骤：1. 收集数据：获取自变量和因变量的样本数据。

2. 建立模型：根据数据建立线性回归模型。

3. 评估模型的准确性：通过计算残差、决定系数等指标来评估模型的准确性。

4. 进行预测和推断：利用模型对未知数据进行预测和推断。

四、模型评价指标在线性回归分析中，有几个常用的指标用于评价模型的准确性：1. R平方值：R平方值表示因变量的变异性能够被模型解释的比例，数值范围为0到1。

R平方值越接近1，表示模型对数据的拟合程度越好。

2. 残差分析：进行残差分析可以帮助我们判断模型是否符合线性回归的基本假设。

一般来说，残差应该满足正态分布、独立性和等方差性的假设。

五、优缺点线性回归分析有以下几个优点：1. 简单易懂：线性回归模型的建立和解释相对较为简单，无需复杂的数学知识。

2. 实用性强：线性回归模型适用于很多实际问题，可以解决很多预测和推断的需求。

然而，线性回归分析也存在以下几个缺点：1. 假设限制：线性回归模型对于变量间关系的假设比较严格，不适用于非线性关系的建模。

线性回归的前提条件

线性回归的前提条件线性回归的前提假设条件是：（1）自变量与因变量是否呈直线关系。

（2）因变量是否符合正态分布。

（3）因变量数值之间是否独立。

（4）方差是否齐性。

其实如果正规地来说，应该是看残差（residual）是否正态、独立以及方差齐。

所谓残差，就是因变量的真实值与估计值之间的差值。

回归分析是一类统计方法，包括本次介绍的线性回归以及后面将要介绍的logistic回归、Cox回归等，该类方法内容十分丰富，在医学应用中也极为广泛。

回归分析主要是通过建立回归方程来说明某一个事物随另一个(或多个)事物的变化而变动的规律。

相关分析研究的是两个或多个变量相互依存变动的规律，见统计分析之相关，而回归分析则是探索某变量(因变量)如何依赖于其他变量(自变量)的变化而变动的规律，是单方依存，而不是相互依存。

回归分析主要根据因变量的类型而划分不同方法，线性回归其因变量必须是定量变量，后面介绍的logistic回归、Cox回归等因变量则属于其他类型。

线性回归可以说是回归家族中最为经典的方法，同时也是相对简单、容易理解的方法。

本系列主要介绍线性回归的应用，具体内容包括：(1)线性回归的单因素分析；(2)线性回归的多因素分析；一、线性回归简介线性回归是研究因变量(dependent variable)与自变量(independent variable)相依关系的技术。

因变量又称应变量(response variable)，是随机变量，具有一个随机分布，依赖于一个或多个自变量。

自变量有时也被称为解释变量(explanatory variable)或预测变量(predictor variable)，是非随机的，不依赖于其他变量。

线性回归中的因变量必须是定量变量，自变量可以是定量变量，也可以是分类变量。

例如研究体重对高血压的影响，体重是自变量，高血压受体重的影响，是因变量。

线性回归大致可分为三类：当因变量有一个，自变量也只有一个时，称之为简单线性回归(simple linear regression)；当因变量有一个，自变量有多个时，称之为多重线性回归(multiple linear regression)；当因变量有多个，自变量有多个时，称之为多元回归(multi-variate regression)。

正态分布-线性回归

正态分布、线性回归一、知识梳理1．正态分布的重要性正态分布是概率统计中最重要的一种分布，其重要性我们可以从以下两方面来理解：一方面，正态分布是自然界最常见的一种分布。

一般说来，若影响某一数量指标的随机因素很多，而每个因素所起的作用都不太大，则这个指标服从正态分布。

2．正态曲线及其性质正态分布函数：22()2()x f x μσ--=，x ∈（-∞，+∞）3．标准正态曲线标准正态曲线N （0，1）是一种特殊的正态分布曲线，00()1()x x Φ-=-Φ，以及标准正态总体在任一区间(a ，b)内取值概率)()(a b P Φ-Φ=。

4．一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称，对于任一正态总体),(2σμN ，其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5．“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件，认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识：一是这里的“几乎不可能发生”是针对“一次试验”来说的，因为试验次数多了，该事件当然是很可能发生的；二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时，我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步：第一步，提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ；第二步，确定一次试验中的取值a 是否落入范围（μ-3σ，μ+3σ）；第三步，作出推断。

如果a ∈（μ-3σ，μ+3σ），接受统计假设；如果)3,3(σμσμ+-∉a ，由于这是小概率事件，就拒绝统计假设。

6．相关关系研究两个变量间的相关关系是学习本节的目的。

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

备选例题1 设随机变量ξ服从正态分布：ξ～ N(1,4)，试求：
(1)P(0＜ξ≤2)； (2)求常数C，使P(ξ≤C)＝32·P(ξ＞C)．
参考数据：Φ(0)＝0.5，Φ(1)＝0.8413，Φ(2) ＝0.9772，Φ(0.5)＝0.6915，Φ(1.88)＝ 0.9697，Φ(3)＝0.9987.
2．小概率事件是指事件发生的概率很小的事，通常认为这些情况在一次试验中几乎是不可能发生的．
3．统计中假设检验的基本思想：根据小概率事件在一次试验中几乎不可能发生的原理和从总体中抽测的个体的数值，对事先所作的统计假设作出判断，是拒绝假设，还是接受假设．
4．利用线性回归方程，可由一个变量的值预测或控制另一个变量的值．借助计算器，特别是含统计的计算器，能简化手工的计算，迅速得出正确结果．
(函数Φ(x0)实际上是正态总体N(0,1)的累积分
布函数)，即Φ(x0)＝
．
(5)两个重要公式：ⅰ.Φ(－x)＝1Φ(x)
－
；
Φ(a)
ⅱ.P(a＜ξ＜b)＝Φ(b)－
．小于
(6)对于任一正态分布总体N(μ，σ2)来说，取
值 x的概率为F(x)＝Φ(
)．
(7)假设检验的基本思想
ⅰ.提出统计假设，如假设随机变量服从正态分布等；
5．“回归”和“相关”含义是不同的：如果两个变量中的一个变量是人为可以控制、非随机的，另一变量的变化是随机的且随着控制变量的变化而变化，则这两变量间的关系就称为回归关系；若两个变量都是随机的，则称它们之间的关系为相关关系，在本教材中，两者不加区别．
方法规律·归纳
题型一
正态分布的基本运算
思维提示
①P(x＜x0)＝Φ(x0)； ②Φ(x0)＝1－Φ(－x0)；

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

一般说来，若影响某一数量指标的随机因素很多，而每个因素所起的作用都不太大，则这个指标服从正态分布。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5．“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件，认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步：第一步，提出统计假设。

如果a ∈（μ-3σ，μ+3σ），接受统计假设；如果)3,3(σμσμ+-∉a ，由于这是小概率事件，就拒绝统计假设。

6．相关关系研究两个变量间的相关关系是学习本节的目的。

对于相关关系我们可以从下三个方面加以认识：⑴相关关系与函数关系不同。

函数关系中的两个变量间是一种确定性关系。

相关关系是一种非确定性关系，即相关关系是非随机变量与随机变量之间的关系。

⑵函数关系是一种因果关系，而相关关系不一定是因果关系，也可能是伴随关系。

⑶函数关系与相关关系之间有着密切联系，在一定的条件下可以相互转化。

7．回归分析本节所研究的回归分析是回归分析中最简单，也是最基本的一种类型——一元线性回归分析。

对于线性回归分析，我们要注意以下几个方面：⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。

两个变量具有相关关系是回归分析的前提。

⑵散点图是定义在具有相关系的两个变量基础上的，对于性质不明确的两组数据，可先作散点图，在图上看它们有无关系，关系的密切程度，然后再进行相关回归分析。

⑶求回归直线方程，首先应注意到，只有在散点图大至呈线性时，求出的回归直线方程才有实际意义，否则，求出的回归直线方程毫无意义。

8．相关系数有时散点图中的各点并不集中在一条直线的附近，仍可以按照求回归直线方程的步骤求得回归直线方程。

显然这种情形下求得的回归直线方程没有实际意义。

那么，在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义？课本中不加证明地给出了相关系数的公式。

相关系数公式的作用在于，我们对一组数据之间的线性相关程度可作出定量的分析，而不是仅凭画出散点图，直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。

9．线性相关性检验相关性检验是一种假设检验，它给出了一个具体检验y 与x 之间线性相关与否的具体办法。

限于要求，中学阶段只要求掌握这种检验方法的操作步骤，而不要求对这种方法包含的原理进行深入研究。

其具体检验的步骤如下：⑴在课本中的附表3中查出与显著性水平0.05与自由度n-2（n 为观测值组数）相应的相关系数临界值05.0r 。

⑵根据公式∑∑∑===---=ni ni i i ni ii y n y x n x yx n yx r 1212221))((计算r 的值。

⑶检验所得结果。

如果05.0||r r ≤，那么可以认为y 与x 之间的线性相关关系不显著，从而接受统计假设。

如果05.0||r r >，表明一个发生的概率不到5%的事件在一次试验中竟发生了。

这个小概率事件的发生使我们有理由认为y 与x 之间不具有线性相关关系的假设是不成立的，拒绝这一统计假设也就是表明可以认为y 与x 之间具有线性相关关系。

二、基础训练1.如果随机变量ξ～N （μ，σ2），且E ξ=3，D ξ=1，则P （－1＜ξ≤1＝等于B A.2Φ（1）－1 B.Φ（4）－Φ（2） C.Φ（2）－Φ（4） D.Φ（－4）－Φ（－2）2. 随机变量ξ服从正态分布N （0，1），如果P （ξ<1）=0.8413，则P （－1<ξ<0）= .三、例题剖析【例1】将温度调节器放置在贮存着某种液体的容器内，调节器设定在d ℃，液体的温度ξ（单位：℃）是一个随机变量，且ξ～N （d ，0.52）. （1）若d =90°，求ξ<89的概率；（2）若要保持液体的温度至少为80 ℃的概率不低于0.99，问d 至少是多少?（其中若η～N （0，1），则Φ（2）=P （η<2）=0.9772，Φ（－2.327）=P （η<－2.327）=0.01）.剖析：（1）要求P （ξ<89）=F （89），∵ξ～N （d ，0.5）不是标准正态分布，而给出的是Φ（2），Φ（－2.327），故需转化为标准正态分布的数值.（2）转化为标准正态分布下的数值求概率p ，再利用p ≥0.99，解d .解：（1）P （ξ<89）=F （89）=Φ（5.09089-）=Φ（－2）=1－Φ（2）=1－0.9772=0.0228. （2）由已知d 满足0.99≤P （ξ≥80），即1－P （ξ<80）≥1－0.01，∴P （ξ<80）≤0.01. ∴Φ（5.080d-）≤0.01=Φ（－2.327）. ∴5.080d-≤－2.327. ∴d ≤81.1635.故d 至少为81.1635.评述：（1）若ξ～N （0，1），则η=σμξ-～N （0，1）.（2）标准正态分布的密度函数f （x ）是偶函数，x <0时，f （x ）为增函数，x >0时，f （x ）为减函数.【例2】一投资者在两个投资方案中选择一个，这两个投资方案的利润x （万元）分别服从正态分布N （8，32）和N （6，22），投资者要求利润超过5万元的概率尽量地大，那么他应选择哪一个方案?解：对第一个方案，有x ～N （8，32），于是P （x >5）=1－P （x ≤5）=1－F （5）=1－Φ（385-）=1－Φ（－1）=1－［1－Φ（1）]=Φ（1）=0.8413.对第二个方案，有x ～N （6，22），于是P （x >5）=1－P （x ≤5）=1－F （5）=1－Φ（265-）=1－Φ（－0.5）=Φ（0.5）=0.6915. 相比之下，“利润超过5万元”的概率以第一个方案为好，可选第一个方案.【例3】设),(~2σμN X ，且总体密度曲线的函数表达式为：412221)(+--=x x ex f π，x ∈R 。

⑴求μ，σ；⑵求)2|1(|<-x P 及)22121(+<<-x P 的值。

【例4】公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的，如果某地成年男子的身高ε～N （173，7）（单位：cm ），问车门应设计多高（精确到1cm ）？解：设公共汽车门的设计高度为x cm ，由题意，需使P （ξ≥x ）＜1%.∵ξ～N （173，72），∴P （ξ≤x ）=Φ（7173-x ）＞0.99. 查表得7173-x ＞2.33，∴x ＞189.31，即公共汽车门的高度应设计为190 cm ，可确保99%以上的成年男子头部不跟车门顶部碰撞.同步练习正态分布、线性回归1．已知从某批材料中任取一件时，取得的这件材料的强度ε～N （200，18），则取得的这件材料的强度不低于180的概率为（）A ．0.9973B ．0.8665C ．0.8413D ．0.81592．已知连续型随机变量x 的概率密度函数是⎪⎩⎪⎨⎧>≤≤<=b x 0b x a A a x 0)(x f其中常数A>0，则A 的值为（）A ．1B ．bC ．ab -1D ．b-a3．某工厂某产品产量x （千件）与单位成本y （元）满足回归直线方程x y 82.136.77^-=，则以下说法中正确的是（） A ．产量每增加1000件，单位成本下降1.82元 B ．产量每减少1000件，单位成本上升1.82元 C ．产量每增加1000件，单位成本上升1.82元 D ．产量每减少1000件，单位成本下降1.82元4．工人月工资（元）依劳动生产率（千元）变化的回归方程为x y 9060^+=，下列判断正确的是（） A ．劳动生产率为1000元时，工资为150元 B ．劳动生产率提高1000元时，工资提高150元 C ．劳动生产率提高1000元时，工资提高90元 D ．劳动生产率为1000元时，工资为90元 5．若随机变量ε～N （5，2），且P(ε<a)=0.9，则a=_____________。

6．已知连续型随机变量x 的分布函数为：⎪⎩⎪⎨⎧≤<≤<=21 a 1x 0ax 0)(x x f 其他则a=___________，=<)23(x P _____________。

7．设随机变量ε服从N （0，1），求下列各式的值：（1）P(ε≥2.55)；（2）P(ε<-1.44)；（3）P(|ε|<1.52)。

8．某厂生产的圆柱形零件的外径ε～N （4，0.25）。

质检人员从该厂生产的1000件零件中随机抽查一件，测得它的外径为5.7cm 。

试问该厂生产的这批零件是否合格？9．现随机抽取了我校10名学生在入学考试中的数学成绩（x ）与入学后的第一次考试中的数学成绩（y ），10．某工业部门进行一项研究，分析该部门的产量与生产费用之间的关系，从这个工业部门内随机抽取选了10（1）计算x 与y 的相关系数；（2）对这两个变量之间是否线性相关进行相关性检验；（3）设回归直线方程为a bx y +=^，求系数a ，b 。

同步练习（参考答案）：1．B 2．C 3．A 4．C 5．6.52 6．32=a ，32)23(=<x P 提示：5．因为ε～N （5，2），9.0)25()(=-=<a a P φε，查表知28.125=-a ，解得a=6.52。