正态分布、线性回归(1)

合集下载

线性回归分析的基本原理

线性回归分析的基本原理线性回归分析是一种常用的统计分析方法，用于研究两个变量之间的线性关系。

它通过拟合一条直线来描述两个变量之间的关系，并利用这条直线进行预测和推断。

本文将介绍线性回归分析的基本原理，包括模型假设、参数估计、模型评估等内容。

一、模型假设线性回归分析的基本假设是：自变量和因变量之间存在线性关系，并且误差项服从正态分布。

具体来说，线性回归模型可以表示为：Y = β0 + β1X + ε其中，Y表示因变量，X表示自变量，β0和β1表示模型的参数，ε表示误差项。

线性回归模型假设误差项ε服从均值为0、方差为σ^2的正态分布。

二、参数估计线性回归模型的参数估计通常使用最小二乘法。

最小二乘法的基本思想是通过最小化观测值与模型预测值之间的差异来估计模型的参数。

具体来说，最小二乘法的目标是最小化残差平方和：min Σ(Yi - (β0 + β1Xi))^2通过对残差平方和进行求导，可以得到参数的估计值：β1 = Σ(Xi - X̄)(Yi - Ȳ) / Σ(Xi - X̄)^2β0 = Ȳ - β1X̄其中，Xi和Yi分别表示观测值的自变量和因变量，X̄和Ȳ分别表示自变量和因变量的均值。

三、模型评估线性回归模型的拟合程度可以通过多个指标进行评估，包括决定系数（R^2）、标准误差（SE）和F统计量等。

决定系数是用来衡量模型解释变量变异性的比例，其取值范围为0到1。

决定系数越接近1，说明模型对观测值的解释能力越强。

标准误差是用来衡量模型预测值与观测值之间的平均误差。

标准误差越小，说明模型的预测精度越高。

F统计量是用来检验模型的显著性。

F统计量的计算公式为：F = (SSR / k) / (SSE / (n - k - 1))其中，SSR表示回归平方和，SSE表示残差平方和，k表示模型的自由度，n表示观测值的个数。

F统计量的值越大，说明模型的显著性越高。

四、模型应用线性回归分析可以用于预测和推断。

通过拟合一条直线，可以根据自变量的取值来预测因变量的值。

正态分布与线性回归

独立重复试验时事件 A 第一次发生，且 P(ξ＝k)＝_q_k_－_1_p_(其中 P 是在
一次试题中事件 A 发生的概率；p＋q＝1，k＝1,2,3，…)，则称 ξ 服从几何分布，记作 g(k，p)＝qk－1p.
第74讲 │ 要点探究
要点探究
► 探究点1 离散型随机变量的分布列及其应用
例 1 已知某离散型随机变量 ξ 的分布列如下：
A＝A1 B 1＋ A 1B1＋A1B1＋A2B2，故所求的概率为
P(A)＝P(A1 B 1)＋P( A 1B1)＋P(A1B1)＋P(A2B2)
第74讲 │ 要点探究
＝P(A1)P( B 1)＋P( A 1)P(B1)＋P(A1)P(B1)＋P(A2)P(B2) ＝0.1×0.9＋0.9×0.1＋0.1×0.1＋0.3×0.3＝0.28.
[点评] (1)二项分布是一类重要的分布，要熟练掌握．在写分布列时，首先要判断随机变量是否满足二项分布的条件．(2)在进行概率计算时，要注意排列、组合等知识在等可能事件中的应用，要注意互斥事件、相互独立事件、独立重复试验的概率的应用．
第74讲 │ 要点探究
某厂生产电子元件，其产品的次品率为 5%，现从一批产品中任意连续取出 2 件．
3．课时安排：本单元共安排了4讲及一个单元能力训练卷，每讲建议1课时完成，单元能力训练卷建议1课时完成，大约共需5课时．
第74讲 │ 离散型随机变量的分布列
第74讲离散型随机变量的分布列
第74讲 │ 编读互动
编读互动
离散型随机变量及其分布列是高考必考的一个知识点，常常作为解答题的一问出现．本讲主要复习离散型随机变量及其分布列的计算，复习时，要抓住离散型随机变量的概率分布的两个本质特征：pi≥0(i ＝1,2，…，n)，p1＋p2＋…＋pn＝1，这是确定分布列中参数值的依据．求离散型随机变量的分布列时，首先要根据具体情况确定随机变量 ξ 的取值情况，然后利用排列、组合与概率知识求出 ξ 取各个值的概率．掌握几个典型的分布列：几何分布、二项分布等．

平均分布,正态分布,一阶滑动和,一阶线性回归 C语言编程

#include <stdlib.h>#include <stdio.h>#include <time.h>#include <math.h>#include<string.h># define pi 3.1415926# define sqr 0.707106781//在一阶线性回归出现了参数adouble uni[2000]={0};//程序中出现大数组时，很可能导致堆栈溢出，为了避免double nor[2000]={0};//这个问题，把数组声明为全局变量，double ovlap[1000];double linreg[1000];double nor_num[10];double nor_num_theory[10]={0.0};double mean( double a[]){ int i;double ever=0.0;for(i=0;i<2000;i++)ever+=a[i]/2000.0;return ever;}double std(double a[],double mean){ int i;double stda=0.0;for(i=0;i<2000;i++)stda+=(a[i]-mean)*(a[i]-mean)/2000.0;return stda;}double integral(double a,double b){double i,num=0.0;for(i=a;i<b;i+=0.0001){num+=1/sqrt(2*pi)*exp(-i*i/2)*0.0001;}num=2000*num;return num;}//double B_rela(double a)void main( ){FILE *fp1=fopen("D:\\data1.txt","w");//用于存放平均分布的相关函数FILE *fp2=fopen("D:\\data2.txt","w");//用于存放正态分布的相关函数FILE *fp3=fopen("D:\\data3.txt","w");//用于存放一阶滑动序列的相关函数FILE *fp4=fopen("D:\\data4.txt","w");//用于存放一阶线性回归的相关函数FILE *fp=fopen("D:\\data.txt","w");int i,j,k=0,uni_num[10]={0};//检验平均分布double uni_mean,uni_std; //均匀分布double nor_mean,nor_std;//正态分布double ovlap_mean,ovlap_ju,ovlap_std;//一阶滑动序列的平均数，矩，方差double linreg_mean,linreg_ju,linreg_std;// 一阶线性回归的平均数，矩，方差double uni_B[21],nor_B[21], ovlap_B[21],linreg_B[21];//相关函数srand( (unsigned)time( NULL ) );fprintf(fp,"the following are contents of uniform distribution:\n");for( i=0;i<2011;i++ )uni[i]=rand()/32767.0 ;for(j=0;j<=9;j++){if(i<2000&&(uni[i]>=j*0.1)&&(uni[i]<(j+1)*0.1))uni_num[j]++ ;}if(i<50)fprintf( fp,"%6.4f\t", uni[i]);}fprintf(fp,"\n\n");uni_mean=mean(uni);fprintf(fp,"the average number of the uniform distribution is:%6.4f\n",uni_mean);//打印平均分布的平均数uni_std=std(uni,uni_mean);fprintf(fp,"the variance of the uniform distribution is :%6.4f\n",uni_std);//打印平均分布的方差fprintf(fp,"the following are numbers in each erea \n\n");for(j=0;j<=9;j++) fprintf(fp,"%d\t",uni_num[j]);fprintf(fp,"\n\n");fprintf(fp,"the followings are correlation function value\n\n");double sum1;int B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(uni[j+abs(B_j)]-uni_mean)*(uni[j]-uni_mean);}uni_B[i]=sum1/1000.0;fprintf(fp,"%f\n",uni_B[i]);fprintf(fp1,"%f\n",uni_B[i]);B_j++;fclose(fp1);fprintf(fp,"\n\nthe following are the contents of normal distribution:\n"); memset(nor_num,0,sizeof(nor_num));memset(nor_num,0,sizeof(nor_num));//将数组置零，避免堆栈的叠加double index1,index2;srand( (unsigned)time( NULL ) );for(i=0;i<2000;i++){do{index1=rand()/32767.0 ;index2=rand()/32767.0;}while(index1==0);nor[i]=sqrt(-2*log(index1))*cos(2*pi*index2);if(i<50){fprintf(fp,"%f\t",nor[i]);}if(nor[i]>=-2.0 && nor[i]<-1.6) nor_num[0]++;if(nor[i]>=-1.6 && nor[i]<-1.2) nor_num[1]++;if(nor[i]>=-1.2 && nor[i]<-0.8) nor_num[2]++;if(nor[i]>=-0.8 && nor[i]<-0.4) nor_num[3]++;if(nor[i]>=-0.4 && nor[i]<0.0) nor_num[4]++;if(nor[i]>=0.0 && nor[i]<0.4) nor_num[5]++;if(nor[i]>=0.4 && nor[i]<0.8) nor_num[6]++;if(nor[i]>=0.8 && nor[i]<1.2) nor_num[7]++;if(nor[i]>=1.2 && nor[i]<1.6) nor_num[8]++;if(nor[i]>=1.6 && nor[i]<2.0) nor_num[9]++;}nor_mean=mean(nor);fprintf(fp,"the average number of normal distribution is:%6.4f\n",nor_mean); //正态分布的平均数nor_std=std(nor,nor_mean);fprintf(fp,"the variance of normal distribution is %6.4f\n",nor_std);//正态分布的方差fprintf(fp," the following outputs showed numbers of random number in determined zone\n"); fprintf(fp,"the former number is calculated in theory,the latter one is actual quantity\n");fprintf(fp," theoretical\t\t\tactual\n");for(i=-5;i<5;i++){nor_num_theory[i+5]=integral(0.4*i,0.4*i+0.4);fprintf(fp,"%f\t\t\t",nor_num_theory[i+5]);fprintf(fp,"%f\n",nor_num[i+5]);}//在求相关函数的过程中，会用到中间量fprintf(fp,"\n\n\n");fprintf(fp,"the followings are values of correlation functions\n\n ");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(nor[j+abs(B_j)]-nor_mean)*(nor[j]-nor_mean);}nor_B[i]=sum1/1000.0;fprintf(fp,"%f\n",nor_B[i]);fprintf(fp2,"%f\n",nor_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp2);// 以下部分为关于一阶滑动和序列的内容fprintf(fp,"the follwings are contents of overlap \n\n\n");memset(ovlap,0,sizeof(ovlap));ovlap_mean=0;ovlap_ju=0;ovlap_std=0;double ov_sum2=0.0,ov_sum3=0.0;for(i=0;i<1100;i++){ovlap[i]=nor[i+1]+4*nor[i];if(i<50)fprintf(fp,"%f\t",ovlap[i]);ov_sum2+=ovlap[i]; //ov_sum3+=ovlap[i]*ovlap[i];}ovlap_mean=ov_sum2/1000.0;//求平均数ovlap_ju=ov_sum3/1000.0;//求二阶距ovlap_std=ovlap_ju-ovlap_mean*ovlap_mean;//求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n",ovlap_mean,ovlap_ju,ovlap_std); fprintf(fp,"\n\n\n");/////123fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=0;j<1000-abs(B_j);j++){sum1+=(ovlap[j+abs(B_j)]-ovlap_mean)*(ovlap[j]-ovlap_mean);}ovlap_B[i]=sum1/1000.0;fprintf(fp,"%f\n",ovlap_B[i]);fprintf(fp3,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp3);//一下为关于一阶线性回归的内容memset(linreg,0,sizeof(linreg));fprintf(fp,"the following are contents about linear regression\n\n ");linreg_mean=0;linreg_ju=0;linreg_std=0;linreg[0]=0.5;//get the value of each memberdouble li_sum1,li_sum2;li_sum1=0;li_sum2=0;for(i=1;i<=1000;i++){linreg[i]=nor[i]-sqr*linreg[i-1];if(i<50){fprintf(fp,"%f\t",linreg[i]);}if(i>100){li_sum1+=linreg[i];li_sum2+=pow(linreg[i],2);}}linreg_mean=li_sum1/900; //求平均数linreg_ju=li_sum2/900; //求二阶原点矩linreg_std=linreg_ju-pow(linreg_mean,2); //求方差fprintf(fp,"\n\naverage:%f\nju:%f\nstandard:%f\n\n",linreg_mean,linreg_ju,linreg_std);fprintf(fp,"the following are correlation function value\n\n");B_j=-10;for(i=0;i<=20;i++){ sum1=0.0;for(j=100;j<1000-abs(B_j);j++){sum1+=(linreg[j+abs(B_j)]-linreg_mean)*(linreg[j]-linreg_mean);}linreg_B[i]=sum1/900;fprintf(fp,"%f\n",linreg_B[i]);fprintf(fp4,"%f\n",ovlap_B[i]);B_j++;}fprintf(fp,"\n\n");fclose(fp4);fclose(fp);getchar();}以下为程序生成的数据：the following are contents of uniform distribution:0.0949 0.2003 0.1722 0.7819 0.7060 0.1859 0.9555 0.6196 0.4057 0.12170.0213 0.8671 0.1353 0.0969 0.8642 0.2540 0.5656 0.0188 0.50070.0146 0.6431 0.6016 0.6290 0.0331 0.2777 0.9265 0.0720 0.14010.5796 0.3563 0.1599 0.5901 0.5519 0.0843 0.2079 0.2519 0.64290.0991 0.7468 0.5435 0.0682 0.8469 0.6612 0.6420 0.3045 0.37220.8919 0.0005 0.6651 0.2186the average number of the uniform distribution is:0.5050the variance of the uniform distribution is :0.0851the following are numbers in each erea206 189 214 182 184 209 199 200 211 206the followings are correlation function value0.0030370.0000780.0015480.0030860.0008270.0012770.001035-0.001017-0.003483-0.0065300.087185-0.006530-0.003483-0.0010170.0010350.0012770.0008270.0030860.0015480.0000780.003037the following are the contents of normal distribution:0.667303 0.372894 0.326978 -0.220477 0.969196 1.862360 1.640884 -0.0137021.060122 1.171379 -0.754567 0.942319 1.433209 1.461014 -0.646995 -1.6161470.940878 -0.021497 0.763536 -0.735703 1.325226 -0.570759 -1.0710600.478394 0.177006 -0.160915 0.977499 -0.633792 0.310996 -0.881002-0.847941 -0.221102 -1.514981 0.270405 -0.919251 0.421879 -1.2492052.062010 -0.070496 0.538043 2.382505 0.088082 -0.374721 -1.116906-2.267095 1.570966 -0.136206 -0.417198 0.960820 0.078101 the average number of normal distribution is:-0.0052the variance of normal distribution is 1.0091the following outputs showed numbers of random number in determined zonethe former number is calculated in theory,the latter one is actual quantitytheoretical actual64.114811 71.000000120.571269 132.000000193.619846 202.000000265.511518 269.000000310.920207 317.000000310.920207 298.000000265.511518 237.000000193.619846 196.000000120.571269 120.00000064.114811 81.000000the followings are values of correlation functions0.005019-0.000179-0.0239050.022543-0.0009890.024601-0.0068160.028706-0.0051880.0249710.9695730.024971-0.0051880.0287060.024601-0.0009890.022543-0.023905-0.0001790.005019the follwings are contents of overlap3.042107 1.818552 1.087433 0.087288 5.739144 9.090323 6.5498351.005315 5.411866 3.930947 -2.075949 5.202484 7. 193850 5.197061-4.204127 -5.523712 3.742015 0.677548 2.318441 -1.617586 4.730147 -3.354095 -3.805846 2.090581 0.547111 0.333840 3.276205 -2.2241700.362982 -4.371949 -3.612864 -2.399387 -5.789518 0.162370 - 3.2551270.438311 -2.934810 8.177543 0.256058 4.534676 9.618101 -0.022393-2.615791 -6.734720 -7.497414 6.147657 -0.962023 -0.7079743.921381 0.589083average:0.111364ju:18.264297standard:18.251895the following are correlation function value0.105750-0.109536-0.3461690.2506860.1354860.3537250.0650560.4082470.0942794.24996516.6526394.2499650.0942790.4082470.0650560.1354860.250686-0.346169-0.1095360.105750the following are contents about linear regression0.019340 0.313302 -0.442015 1.281748 0.956027 0.964871 -0.695969 1.5522460.073775 -0.806734 1.512766 0.363522 1.203965 -1.498327 -0.5566711.334504 -0.965134 1.445989 -1.7581712.568441 -2.386921 0.6167480.042287 0.147105 -0.264934 1.164835 -1.457455 1.341572 -1.8296370.445808 -0.536335 -1.135735 1.073491 -1.678324 1.608633 -2.3866803.749648 -2.721897 2.462715 0.641102 -0.365246 -0.116453 -1.034561-1.535550 2.656763 -2.014821 1.007495 0.248413 -0.097553average:0.018926ju:1.770050standard:1.769692the following are correlation function value0.018228-0.000412-0.007155-0.0265130.100574-0.1809430.310911-0.5030500.804904-1.2063651.777504-1.2063650.804904-0.5030500.310911-0.1809430.100574-0.026513-0.007155-0.000412平均分布图：正态数列分布图：相关函数图：。

线性回归分析

线性回归分析线性回归是一种用来建立和预测变量间线性关系的统计分析方法。

它可以帮助我们了解变量之间的相互影响和趋势，并将这些关系用一条直线来表示。

线性回归分析常被应用于经济学、社会科学、自然科学和工程等领域。

一、概述线性回归分析是一个广泛使用的统计工具，用于建立变量间的线性关系模型。

该模型假设自变量（独立变量）与因变量（依赖变量）之间存在线性关系，并通过最小化观测值与模型预测值之间的误差来确定模型的参数。

二、基本原理线性回归分析基于最小二乘法，通过最小化观测值与模型预测值之间的残差平方和来确定模型的参数。

具体来说，线性回归模型可以表示为：Y = β0 + β1X1 + β2X2 + ... + βnXn + ε，其中Y是因变量，X1到Xn是自变量，β0到βn是回归系数，ε是误差项。

回归系数表示自变量对因变量的影响程度。

三、应用步骤进行线性回归分析时，通常需要以下几个步骤：1. 收集数据：获取自变量和因变量的样本数据。

2. 建立模型：根据数据建立线性回归模型。

3. 评估模型的准确性：通过计算残差、决定系数等指标来评估模型的准确性。

4. 进行预测和推断：利用模型对未知数据进行预测和推断。

四、模型评价指标在线性回归分析中，有几个常用的指标用于评价模型的准确性：1. R平方值：R平方值表示因变量的变异性能够被模型解释的比例，数值范围为0到1。

R平方值越接近1，表示模型对数据的拟合程度越好。

2. 残差分析：进行残差分析可以帮助我们判断模型是否符合线性回归的基本假设。

一般来说，残差应该满足正态分布、独立性和等方差性的假设。

五、优缺点线性回归分析有以下几个优点：1. 简单易懂：线性回归模型的建立和解释相对较为简单，无需复杂的数学知识。

2. 实用性强：线性回归模型适用于很多实际问题，可以解决很多预测和推断的需求。

然而，线性回归分析也存在以下几个缺点：1. 假设限制：线性回归模型对于变量间关系的假设比较严格，不适用于非线性关系的建模。

正态分布-线性回归

正态分布、线性回归一、知识梳理1．正态分布的重要性正态分布是概率统计中最重要的一种分布，其重要性我们可以从以下两方面来理解：一方面，正态分布是自然界最常见的一种分布。

一般说来，若影响某一数量指标的随机因素很多，而每个因素所起的作用都不太大，则这个指标服从正态分布。

2．正态曲线及其性质正态分布函数：22()2()x f x μσ--=，x ∈（-∞，+∞）3．标准正态曲线标准正态曲线N （0，1）是一种特殊的正态分布曲线，00()1()x x Φ-=-Φ，以及标准正态总体在任一区间(a ，b)内取值概率)()(a b P Φ-Φ=。

4．一般正态分布与标准正态分布的转化由于一般的正态总体),(2σμN 其图像不一定关于y 轴对称，对于任一正态总体),(2σμN ，其取值小于x 的概率)()(σμ-Φ=x x F 。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5．“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件，认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

关于这一点我们要有以下两个方面的认识：一是这里的“几乎不可能发生”是针对“一次试验”来说的，因为试验次数多了，该事件当然是很可能发生的；二是当我们运用“小概率事件几乎不可能发生的原理”进行推断时，我们也有5%的犯错误的可能。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步：第一步，提出统计假设。

课本例子里的统计假设是这个工人制造的零件尺寸服从正态分布),(2σμN ；第二步，确定一次试验中的取值a 是否落入范围（μ-3σ，μ+3σ）；第三步，作出推断。

如果a ∈（μ-3σ，μ+3σ），接受统计假设；如果)3,3(σμσμ+-∉a ，由于这是小概率事件，就拒绝统计假设。

6．相关关系研究两个变量间的相关关系是学习本节的目的。

高考数学理一轮复习 X1-4正态分布、线性回归精品课件

备选例题1 设随机变量ξ服从正态分布：ξ～ N(1,4)，试求：
(1)P(0＜ξ≤2)； (2)求常数C，使P(ξ≤C)＝32·P(ξ＞C)．
参考数据：Φ(0)＝0.5，Φ(1)＝0.8413，Φ(2) ＝0.9772，Φ(0.5)＝0.6915，Φ(1.88)＝ 0.9697，Φ(3)＝0.9987.
2．小概率事件是指事件发生的概率很小的事，通常认为这些情况在一次试验中几乎是不可能发生的．
3．统计中假设检验的基本思想：根据小概率事件在一次试验中几乎不可能发生的原理和从总体中抽测的个体的数值，对事先所作的统计假设作出判断，是拒绝假设，还是接受假设．
4．利用线性回归方程，可由一个变量的值预测或控制另一个变量的值．借助计算器，特别是含统计的计算器，能简化手工的计算，迅速得出正确结果．
(函数Φ(x0)实际上是正态总体N(0,1)的累积分
布函数)，即Φ(x0)＝
．
(5)两个重要公式：ⅰ.Φ(－x)＝1Φ(x)
－
；
Φ(a)
ⅱ.P(a＜ξ＜b)＝Φ(b)－
．小于
(6)对于任一正态分布总体N(μ，σ2)来说，取
值 x的概率为F(x)＝Φ(
)．
(7)假设检验的基本思想
ⅰ.提出统计假设，如假设随机变量服从正态分布等；
5．“回归”和“相关”含义是不同的：如果两个变量中的一个变量是人为可以控制、非随机的，另一变量的变化是随机的且随着控制变量的变化而变化，则这两变量间的关系就称为回归关系；若两个变量都是随机的，则称它们之间的关系为相关关系，在本教材中，两者不加区别．
方法规律·归纳
题型一
正态分布的基本运算
思维提示
①P(x＜x0)＝Φ(x0)； ②Φ(x0)＝1－Φ(－x0)；

第4章：经典正态线性回归模型

上述似然函数中，含待估参数，分别对待估参数求偏导并令其为0，即可求出参数估计。 ln LF (1/ 2 ) (Y 1 2 X i )(1) 0 ˆ 1 ln LF (1/ 2 ) (Y 1 2 X i )( X i ) 0 ˆ 2 ln LF 2 2 4 (n / 2 ) (1/ 2 ) (Y 1 2 X i ) 0 2 ˆ 联立求解上述方程组, 有 ˆ ( X i X )(Yi Y ) , Y X （与OLS 估计量相同） ˆ ˆ 2 1 2 2 (Xi X ) ˆ LS ˆ ( 2 ui2 / (n 2)
暨南大学经济学院统计系陈文静 12
4.3 在正态性假定下OLS估计量的性质
ˆ 1、无偏性：E ( ) 2、有效性：最小方差 3、一致性：随着样本容量无限增大，估计量将收敛于其真值。 ˆ lim P i i 1
n

ˆ 0 或 p lim i i
暨南大学经济学院统计系
陈文静
23
4.4
最大似然估计（ML估计）
方法：将每一个Yi的分布函数相乘，取对数再取偏导并令其为0. 由于假定了ui为独立同(正态)分布, 那么Yi也为独立同(正态)分布, 其均值为1 2 X i 方差为 2 , 密度函数为： 1 (Yi 1 2 X i ) 2 1 f (Yi ) exp 2 2 2 而联合密度函数(由于独立性)为每一个Yi的密度函数相乘, 即有极大似然函数为： LF f (Y1 ,...Yn 1 2 X i , 2 ) f (Y1 1 2 X i , 2 ) f (Yn 1 2 X i , 2 ) 1 (Yi 1 2 X i ) 2 1 n exp 2 n ( 2 ) 2 对 LF 取对数，有： n 1 (Y 1 2 X i ) 2 ln LF n ln ln(2 ) 2 2 2 n n 1 (Y 1 2 X i ) 2 2 ln ln(2 ) 2 2 2 2

第十一章(理) 第四节正态分布、线性回归

第十一章（理）第四节正态分布、线性回归1.111222则有 ( )A ．μ1＜μ2，σ1＜σ2B ．μ1＜μ2，σ1＞σ2C ．μ1＞μ2，σ1＜σ2D ．μ1＞μ2，σ1＞σ2解析：μ反映正态分布的平均水平，x ＝μ是正态曲线的对称轴，由图知μ1＜μ2，σ 反映正态分布的离散程度，σ越大，曲线越“矮胖”，表明越分散，σ越小，曲线越 “高瘦”，表明越集中，由图知σ1＜σ2. 答案：A2．已知随机变量ξ服从正态分布N (3，σ2)，则P (ξ<3)＝ ( ) A.15 B.14C.13D.12解析：根据正态分布的知识可知此正态分布图象的对称轴为x ＝3，而P (ξ<3)表示对称轴左边图象的面积，对称轴左右两边图象面积相等，整个图象的面积为1. 答案：D3．设随机变量ξ服从正态分布N (2,9)，若P (ξ>c ＋1)＝P (ξ<c －1)，则c ＝ ( ) A ．1 B ．2 C ．3 D ．4解析：由题意得随机变量ξ相应的正态密度曲线关于直线x ＝2对称，又P (ξ>c ＋1) ＝P (ξ<c －1)，因此(c ＋1)＋(c －1)2＝2，c ＝2.答案：B4．设随机变量ξ服从标准正态分布N (0,1)，已知Φ(－1.96)＝0.025，则P (|ξ|<1.96)＝( ) A ．0.025 B ．0.050 C ．0.950 D ．0.975 解析：P (|ξ|<1.96)＝Φ(1.96)－Φ(－1.96) ＝1－2Φ(－1.96)＝0.950. 答案：C5．已知随机变量ξ服从正态分布N (2，σ2)，P (ξ≤4)＝0.84，则P (ξ≤0)＝ ( ) A ．0.16 B ．0.32C ．0.68D ．0.84解析：根据正态分布曲线的对称性，得P (ξ≤0)＝1－P (ξ≤4)＝1－0.84＝0.16. 答案：A6.对有线性相关关系的两个变量建立的回归直线方程y ＝a ＋bx 中，回归系数b ( ) A ．可以小于0 B ．大于0 C ．能等于0 D ．只能小于0解析：因为b ＝0时，r ＝0，这时不具有线性相关关系，但b 能大于0也能小于0. 答案：A7．以下是两个变量x 和y 的一组数据：则这两个变量间的回归直线方程为 ( ) A.y ^＝x 2 B.y ^＝x C.y ^＝9x －15 D.y ^＝15x －9 解析：根据数据可得x ＝4.5，y ＝25.5， ∑i ＝1n x 2i ＝204，∑i ＝1nx i y i ＝1 296.b ＝1221niii nii x ynx y xnx ==--∑∑＝1 296－8×4.5×25.5204－8×4.52＝9，a ＝y －b x ＝25.5－9×4.5＝－15. ∴y ^＝9x －15. 答案：C8．已知回归直线方程y ^＝4.4x ＋838.19，则可估计x 与y 的增长速度之比约为________．解析：x 与y 的增长速度之比即为回归直线方程的斜率的倒数14.4＝1044＝522.答案：5229．某肉食鸡养殖小区某种病的发病鸡只数呈上升趋势，统计近4个月这种病的新发病鸡只数的线性回归分析如下表所示：该养殖小区这种病的新发病鸡总只数约为________．解析：由上表可得：y ^＝94.7x ＋1 924.7，当x 分别取9,10，11,12时，得估计值分别为：2 777,2 871.7,2 966.4,3 061.1，则总只数约为2 777＋2 871.7＋2 966.4＋3 061.1≈11 676. 答案：11 67610．下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据：(1)请根据上表提供的数据，求出y 关于x 的回归直线方程y ^＝bx ＋a ；(2)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤．试根据(1)求出的回归直线方程，预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤？ (参考数值：3×2.5＋4×3＋5×4＋6×4.5＝66.5) 解：(1)∑i ＝14x i y i ＝3×2.5＋4×3＋5×4＋6×4.5＝66.5，x —＝3＋4＋5＋64＝4.5， y —＝2.5＋3＋4＋4.54＝3.5，∑i ＝14x 2i ＝32＋42＋52＋62＝86，b ＝66.5－4×4.5×3.586－4×4.52＝66.5－6386－81＝0.7，a ＝y —－b x —＝3.5－0.7×4.5＝0.35. 故回归直线方程为y ^＝0.7x ＋0.35.(2)根据回归方程的预测，现在生产100吨产品消耗的标准煤的数量为0.7×100＋0.35＝70.35，故耗能减少了90－70.35＝19.65(吨)．。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

12.4 正态分布、线性回归一、知识梳理1．正态分布的重要性正态分布是概率统计中最重要的一种分布，其重要性我们可以从以下两方面来理解：一方面，正态分布是自然界最常见的一种分布。

一般说来，若影响某一数量指标的随机因素很多，而每个因素所起的作用都不太大，则这个指标服从正态分布。

只要会用它求正态总体),(2σμN 在某个特定区间的概率即可。

5．“小概率事件”和假设检验的基本思想“小概率事件”通常指发生的概率小于5%的事件，认为在一次试验中该事件是几乎不可能发生的。

这种认识便是进行推断的出发点。

课本是借助于服从正态分布的有关零件尺寸的例子来介绍假设检验的基本思想。

进行假设检验一般分三步：第一步，提出统计假设。

如果a ∈（μ-3σ，μ+3σ），接受统计假设；如果)3,3(σμσμ+-∉a ，由于这是小概率事件，就拒绝统计假设。

6．相关关系研究两个变量间的相关关系是学习本节的目的。

对于相关关系我们可以从下三个方面加以认识：⑴相关关系与函数关系不同。

函数关系中的两个变量间是一种确定性关系。

相关关系是一种非确定性关系，即相关关系是非随机变量与随机变量之间的关系。

⑵函数关系是一种因果关系，而相关关系不一定是因果关系，也可能是伴随关系。

⑶函数关系与相关关系之间有着密切联系，在一定的条件下可以相互转化。

7．回归分析本节所研究的回归分析是回归分析中最简单，也是最基本的一种类型——一元线性回归分析。

对于线性回归分析，我们要注意以下几个方面：⑴回归分析是对具有相关关系的两个变量进行统计分析的方法。

两个变量具有相关关系是回归分析的前提。

⑵散点图是定义在具有相关系的两个变量基础上的，对于性质不明确的两组数据，可先作散点图，在图上看它们有无关系，关系的密切程度，然后再进行相关回归分析。

⑶求回归直线方程，首先应注意到，只有在散点图大至呈线性时，求出的回归直线方程才有实际意义，否则，求出的回归直线方程毫无意义。

8．相关系数有时散点图中的各点并不集中在一条直线的附近，仍可以按照求回归直线方程的步骤求得回归直线方程。

显然这种情形下求得的回归直线方程没有实际意义。

那么，在什么情况下求得的回归直线方程才能对相应的一组观测数据具有代表意义？课本中不加证明地给出了相关系数的公式。

相关系数公式的作用在于，我们对一组数据之间的线性相关程度可作出定量的分析，而不是仅凭画出散点图，直觉地从散点图的形状粗浅地得出数据之间的线性相关程度。

9．线性相关性检验相关性检验是一种假设检验，它给出了一个具体检验y 与x 之间线性相关与否的具体办法。

限于要求，中学阶段只要求掌握这种检验方法的操作步骤，而不要求对这种方法包含的原理进行深入研究。

其具体检验的步骤如下：⑴在课本中的附表3中查出与显著性水平0.05与自由度n-2（n 为观测值组数）相应的相关系数临界值05.0r 。

⑵根据公式∑∑∑===---=ni ni i i ni ii y n y x n x yx n yx r 1212221))((计算r 的值。

⑶检验所得结果。

如果05.0||r r ≤，那么可以认为y 与x 之间的线性相关关系不显著，从而接受统计假设。

如果05.0||r r >，表明一个发生的概率不到5%的事件在一次试验中竟发生了。

这个小概率事件的发生使我们有理由认为y 与x 之间不具有线性相关关系的假设是不成立的，拒绝这一统计假设也就是表明可以认为y 与x 之间具有线性相关关系。

● 教学目标1．了解正态分布的意义，能借助正态曲线的图像理解正态曲线的性质。

2．了解标准正态分布的意义和性质，掌握正态总体),(2σμN 转化为标准正态总体N （0，1）的公式)()(σμ-Φ=x x F 及其应用；通过生产过程的质量控制图，了解假设检验的基本思想。

3．了解相关关系、回归分析、散点图等概念，会求回归直线方程。

4．了解相关系数的计算公式及其意义，会用相关系数公式进行计算；了解相关性检验的方法与步骤，会用相关性检验方法进行检验。

重点：正态分布的意义及主要性质，线性回归的方法和简单应用。

二、基础训练1.如果随机变量ξ～N （μ，σ2），且E ξ=3，D ξ=1，则P （－1＜ξ≤1＝等于B A.2Φ（1）－1 B.Φ（4）－Φ（2） C.Φ（2）－Φ（4） D.Φ（－4）－Φ（－2）现要使销售额达到6万元，则需广告费用为__1.5万元____.（保留两位有效数字）三、例题剖析【例1】将温度调节器放置在贮存着某种液体的容器内，调节器设定在d ℃，液体的温度ξ（单位：℃）是一个随机变量，且ξ～N （d ，0.52）. （1）若d =90°，求ξ<89的概率；（2）若要保持液体的温度至少为80 ℃的概率不低于0.99，问d 至少是多少?（其中若η～N （0，1），则Φ（2）=P （η<2）=0.9772，Φ（－2.327）=P （η<－2.327）=0.01）.在实际生活中，常用统计中假设检验的思想检验产品是否合格，方法是：（1）提出统计假设：某种指标服从正态分布N （μ，σ2）；（2）确定一次试验中的取值a ；（2）作出统计推断：若a ∈（μ－3σ，μ+3σ），则接受假设，若a ∈（μ－3σ，μ+3σ），则拒绝假设.如：某砖瓦厂生产的砖的“抗断强度”ξ服从正态分布N （30，0.8），质检人员从该厂某一天生产的1000块砖中随机抽查一块，测得它的抗断强度为27.5 kg/cm 2，你认为该厂这天生产的这批砖是否合格?为什么?【例2】1. 已知测量误差ξ～N （2，100）（cm ），必须进行多少次测量，才能使至少有一次测量误差的绝对值不超过8 cm 的频率大于0.9?2. 随机变量ξ服从正态分布N （0，1），如果P （ξ<1）=0.8413，求P （－1<ξ<0）3. 公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的，如果某地成年男子的身高ξ～N （173，72）（cm ），问车门应设计多高？4. 公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的，如果某地成年男子的身高ξ～N （173，72）（cm ），问车门应设计多高？5. 一投资者在两个投资方案中选择一个，这两个投资方案的利润x （万元）分别服从正态分布N （8，32）和N （6，22），投资者要求利润超过5万元的概率尽量地大，那么他应选择哪一个方案?【例3】设),(~2σμN X ，且总体密度曲线的函数表达式为：412221)(+--=x x ex f π，x ∈R 。

⑴求μ，σ；⑵求)2|1(|<-x P 及)22121(+<<-x P 的值。

【例4】公共汽车门的高度是按照确保99%以上的成年男子头部不跟车门顶部碰撞设计的，如果某地成年男子的身高ε～N （173，7）（单位：cm ），问车门应设计多高（精确到1cm ）？【例5】已知某地每单位面积菜地年平均使用氮肥量xkg 与每单位面积蔬菜年平均产量yt 之间的关系有如下数据：年份1985 1986 1987 1988 1989 1990 1991 1992 x(kg) 70 74 80 78 85 92 90 95 y(t) 5.1 6.0 6.8 7.8 9.0 10.2 10.0 12.0年份1993 1994 1995 1996 1997 1998 1999 x(kg) 92 108 115 123 130 138 145 y(t) 11.5 11.0 11.8 12.2 12.5 12.8 13.0 ⑵若线性相关，求蔬菜产量y 与使用氮肥量之间的回归直线方程，并估计每单位面积施肥150kg 时，每单位面积蔬菜的年平均产量。

〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒〒四、同步练习 g3.1100 正态分布、线性回归1．已知从某批材料中任取一件时，取得的这件材料的强度ε～N （200，18），则取得的这件材料的强度不低于180的概率为（）A ．0.9973B ．0.8665C ．0.8413D ．0.81592．已知连续型随机变量x 的概率密度函数是⎪⎩⎪⎨⎧>≤≤<=b x 0b x a A a x 0)(x f其中常数A>0，则A 的值为（）A ．1B ．bC ．ab -1D ．b-a3．某工厂某产品产量x （千件）与单位成本y （元）满足回归直线方程x y 82.136.77^-=，则以下说法中正确的是（） A ．产量每增加1000件，单位成本下降1.82元 B ．产量每减少1000件，单位成本上升1.82元 C ．产量每增加1000件，单位成本上升1.82元 D ．产量每减少1000件，单位成本下降1.82元4．工人月工资（元）依劳动生产率（千元）变化的回归方程为x y 9060^+=，下列判断正确的是（） A ．劳动生产率为1000元时，工资为150元 B ．劳动生产率提高1000元时，工资提高150元 C ．劳动生产率提高1000元时，工资提高90元 D ．劳动生产率为1000元时，工资为90元 5．若随机变量ε～N （5，2），且P(ε<a)=0.9，则a=_____________。

6．已知连续型随机变量x 的分布函数为：⎪⎩⎪⎨⎧≤<≤<=21 a 1x 0ax 0)(x x f 其他则a=___________，=<)23(x P _____________。

7．设随机变量ε服从N （0，1），求下列各式的值：（1）P(ε≥2.55)；（2）P(ε<-1.44)；（3）P(|ε|<1.52)。