清华数学实验第五章概率统计应用实验 2
概率论与数理统计应用实验报告

概率论与数理统计应用实验报告
概率论与数理统计是中国大学MOOC《数据科学导论》课程中的一门关键科目,为了加深熟悉概率论与数理统计的过程,我完成了在R语言环境下的相关实验并撰写了这份报告。
实验过程以R Studio为平台。
R studio是一款跨平台,开源的编程环境,可以天然
地支持R语言,为我们提供卓越的实验环境。
所有的实验操作都是在R Studio上进行的。
实验分两步,第一步是正态分布的实验,第二步是对多项式分布的实验。
正态分布的实验
首先,我们构造了1000000以内随机整数,范围为-500000到500000。
将这些整数绘
制灰度图,来查看各项数据的分布情况,数据在中心出现了最多,并且随着两端逐渐减少,绘出的图像符合正态分布的分布曲线,即右尾巴更长。
此外,我们还对构造出的数据进行
正态性分析,使用R语言中的hist函数来绘制正态分布的柱状图,根据结果可以清楚地
看出,数据的分布也是符合正态分布的,由此也证明了构造数据的正确性。
多项式分布的实验
我们首先运用随机数生成器在R语言环境下,构造出多项式分布的数据,将生成的数
据进行灰度图展示,发现随着两端的和逐渐增加,形成非对称的多项式分布的曲线。
同时,我们运用R语言中的hist函数来检验再次检验多项式分布,结果也确实符合多项式分布,从而证明以上步骤是正确的。
经过上述实验,我加深了对概率论与数理统计的熟悉。
构建统计数据,运用R Studio 画出统计图来检验和证明数据是否符合正态分布和多项式分布使我对概率论和数理知识有
了更为深刻的认识,也为今后解决数据科学相关的科学问题奠定基础。
人教B版高中数学必修第二册教学课件:第五章5.4统计与概率的应用

员工 项目 子女教育 继续教育 大病医疗 住房贷款利息 住房租金 供养老人
A
B
C
D
E
F
○
○
×
○
×
○
×
×
○
×
○
○
×
×
×
○
×
×
○
○
×
×
○
○
×
×
○
×
×
×
○
○
×
×
×
○
【解题提示】 (1)按比例分配进行分层抽样。 (2)按照字典排序法列举出所有的抽取结果和事件M的所有基本 事件,然后利用基本事件个数计算概率。
6
6
(3)设第1组抽取的2人为A1,A2,第3组抽取的3人为B1,B2,B3,第4组抽取的1人为C,则从这6人
中随机抽取2人有(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A1,C),(A2,B1),(A2,
B2),(A2,B3),(A2,C),(B1,B2),(B1,B3),(B1,C),(B2,B3),(B2,C),(B3,
估算,其p%分位数即为频率分布直方图中使左侧小矩形面积之和等于p%的分点值. ②某校100名学生的数学测试成绩的频率分布直方图如图:
由此可估计其80%分位数.
首先求分数在130以下的学生所占比例为5%+18%+30%+22% =75%.在140以下的学生所占比例为75%+15%=90%.
因此,80%分位数一定位于[130,140)内,
织了一场PK赛,A,B两队各由4名选手组成,每局两队各派一名选手PK,比赛四局.除第三局胜者
得2分外,其余各局胜者均得1分,每局的负者得0分.假设每局比赛A队选手获胜的概率均为 2 ,
概率论实验报告_2

概率论试验报告试验一:随机掷硬币1、模拟掷一枚硬币的随机试验(可用0——1随机数来模拟试验结果),取n=100,模拟掷n次硬币的随机试验。
记录试验结果,观察样本空间的确定性及每次试验结果的偶然性,统计正面出现的次数,并计算正面的出现的频率;试验结果如下:测试中出现零代表正面,出现一代表反面,其中共计50次正面50次反面。
2、取试验次数n=1000,将过程(1)重复三次,比较三次试验结果试验结果如下3、三次结果分别是0.501,0.503,0.521 。
这充分说明模拟情况接近真实情况,频率接近概率0.5。
试验二:高尔顿钉板试验1、自高尔顿钉板上端放一个小球, 任其自由下落. 在其下落过程中,当小球碰到钉子时从左边落下的概率为p , 从右边落下的概率为,1p -碰到下一排钉子又是如此, 最后落到底板中的某一格子. 因此任意放入一球, 则此球落入哪个格子事先难以确定. 设横排共有20=m 排钉子, 下面进行模拟实验:(1) 取,5.0=p 自板上端放入一个小球, 观察小球落下的位置; 将该实验重复作5次, 观察5次实验结果的共性及每次实验结果的偶然性;(2) 分别取,85.0,5.0,15.0=p 自板上端放入n 个小球, 取,5000=n 观察n 个小球落下后呈现的曲线我们分析可知,这是一个经典的古典概型试验问题2、具体程序:3、我们分析实验结果可知,若小球碰钉子后从两边落下的概率发生变化, 则高尔顿钉板实验中小球落入各个格子的频数发生变化, 从而频率也相应地发生变化. 而且, 当,5.0p曲线峰值的格子位置向右偏; 当><p曲线峰值的格子位置向左偏。
,5.0试验三:抽签试验1、我们做模拟实验,用1-10的随机整数来模拟实验结果。
在1-10十个随机数中,假设10代表抽到大王,将这十个数进行全排,10出现在哪个位置,就代表该位置上的人摸到大王。
每次随机排列1-10共10个数,10所在的位置随机变化,分别输出模拟实验10次, 100次,1000次的结果, 将实验结果进行统计分析, 给出分析结果。
09-5.4 统计与概率的应用高中数学必修第二册人教B版

≈ 32.67,
1
18
× (72 × 20 − 1582 −
(2)使用统计学的观点说明( − 2, + 2)以内的数据与原数据对比有什么特点.
(主要用平均数与方差进行说明)
【解析】( − 2, + 2)以内的数据与原数据对比,有以下特点:
①( − 2, + 2)以内的数据占总数据个数的90%,说明该校90%左右的男生身高
我们有理由认为这个骰子是不均匀的.
例6 元旦就要到了,某校欲举行联欢活动,每班派一人主持节目,高二(1)班的小
明、小华和小丽实力相当,都争着要去,班主任决定用抽签的方式来决定,小强给
小华出主意,要小华先抽,说先抽的机会大,你是怎么认为的?
【解析】取三张卡片,上面分别标有1,2,3,抽到“1”就表示中签.假设抽签的次序
用样本估计总体,得全市居民每月节电量约为640 ×
300 000
200
= 960 000(kW ⋅ h).
(3)在(1)(2)的条件下,若使用阶梯电价前后全市缴纳电费总额不变,求第二
阶梯电价.(结果保留两位有效数字)
【解析】由题意,全市缴纳电费总额不变,由于“未超出部分”的用电量在“阶梯电价”
前后不变,故“超出部分”对应的总电费也不变,在200户居民组成的样本中,每月用
120×100
【解析】
6
= 2 000(条),即估计该水库中鱼的总条数为2 000.
.
题型2 概率的应用
例4 甲、乙二人用4张扑克牌(分别是红桃2,红桃3,红桃4,方片4)玩游戏,他们将
扑克牌洗匀后,背面朝上放在桌面上,甲先抽,乙后抽,抽出的牌不放回,各抽一张.
(1)若甲抽到红桃3,则乙抽到的牌的数字比3大的概率是多少?
清华数学实验实验五蒙特卡罗方法

03 蒙特卡罗方法在清华数学 实验实验五中的应用
模拟随机过程
随机过程模拟
蒙特卡罗方法可以模拟各种随机 过程,如股票价格波动、气象变 化等,通过模拟这些过程,可以 更好地理解和预测实际现象。
概率分布模拟
蒙特卡罗方法可以生成符合特定 概率分布的随机数,用于模拟和 研究各种概率分布的性质和行为 。
求解数学问题
蒙特卡罗方法的优缺点
误差和不确定性
蒙特卡罗方法的精度取决于抽样次数,抽样次数越多,精 度越高,但计算成本也越高。同时,由于是随机模拟,结 果存在一定的不确定性。
对离散问题处理不佳
对于一些离散或非连续的问题,蒙特卡罗方法的精度可能 会受到影响。
对参数敏感
蒙特卡罗方法的参数选择对结果影响较大,需要谨慎选择。
02 清华数学实验实验五内容
实验目的
掌握蒙特卡罗方法的原理和应用。 学会使用蒙特卡罗方法解决实际问题。 培养数学建模和计算能力。
实验原理
蒙特卡罗方法是一种基于概率统 计的数值计算方法,通过随机抽
样和统计模拟来求解问题。
该方法适用于具有随机性和不确 定性的问题,通过大量模拟实验
来获得近似解。
蒙特卡罗方法的精度取决于模拟 实验的次数和随机抽样的质量。
金融工程
蒙特卡罗方法在金融工程中广泛应用于 风险评估、资产定价和衍生品定价等问
题。
工程设计
蒙特卡罗方法在工程设计中用于优化 设计参数、模拟系统性能和可靠性分
析等。
物理科学
在物理科学中,蒙特卡罗方法被用于 模拟分子运动、材料性质和量子力学 等领域。
社会科学
在社会科学中,蒙特卡罗方法被用于 模拟社会现象、预测人口变化和评估 政策效果等。
蒙特卡罗方法的优缺点
_新教材高中数学第五章统计与概率

D.10张票中有1 张奖票,10人去摸,无论谁先摸,摸到奖票的概率
都是0.1
【答案】
D
(2)我们知道,每次抛掷硬币的结果出现正、反的概率都为0.5,则连
续抛掷质地均匀的硬币两次,是否一定出现“一次正面向上,一次反
面向上”呢?
【解析】 不一定.这是因为统计规律不同于确定的数学规律,对于具体的一
次试验而言,它带有很大的随机性(即偶然性),通过具体试验可以知道除上述结
状元随笔 (1)正确理解频率与概率之间的关系
随机事件的频率,是指事件发生的次数与试验总次数的比值,它具有一
定的稳定性,总在某个常数附近摆动,且随着试验次数的不断增多,这种
摆动的幅度越来越小.我们给这个常数取一个名字,叫做这个随机事件的
概率.概率可以看成频率在理论上的期望值,它从数量上反映了随机事件
发生的可能性的大小.频率在大量重复试验的前提下可以近似地作为这个
事件的概率.
(2)概率与频率的区别与联系:
频率
概率
频率反映了一个随机事件发 概率是一个确定的值,它反映
区别
生的频繁程度,是随机的 随机事件发生的可能性的大小
频率是概率的估计值,随着试验次数的增加,频率会越来越
联系
接近概率
基 础 自 测
(2)将“60分~69分”记为事件B,则P(B)≈0.140;
(3)将“60分以上”记为事件C,则P(C)≈0.067+0.282+0.403+0.140=0.892.
题型3 频率分布直方图的应用[经典例题]
例3 (1)在某次赛车中,50名参赛选手的成
绩(单位:min)全部介于13到18之间(包括13和
1
,是指试验次数相当
1 000
数学实验——第五章 概率论与数理统计
结果为
三、数据的描述与直方图
1.数据描写的常用命令为 ⑴ hist. 功能 格式 生成已知数据的直方图.
hist x, k .
X 近似服从正态分布.
i 1 i
n
相应的图形为
下图是 n 100时泊松分布的图形.
例
产生服从二项分布 B
N , p 的 n个随机数,
,
这里取
N 10, p 0.2, 计算 n个随机数的和Yn 以及
Nnp 1 p Yn Nnp
并把这个过程重复1000次, 用这1000 个
共16层小钉
x -8 -7 -6 -5 -4 -3 -2 -1 O 1 2 3 4 5 6 7 8
1, 小球碰第 1, 小球碰第
Xk
k 层钉后向右落下 k 层钉后向左落下
(k 1, 2, ,16)
程序如下
输出图形
例
掷骰子实验.
掷 n次同一个均匀的骰子, 观察每个点数出现的频率. 程序如下
k!
e ,
例
产生一个 10000 3 的矩阵, 其列向量是参数为 4
的泊松随机数. 输入命令 返回值
⑵正态分布随机数 格式 例
normrnd mu,sigma, m, n
生成一个10000 3 的矩阵, 其列向量服从 N
0,1 .
输入命令 结果为
例
生成一个10000 3 的矩阵, 其列向量服从 N
P X k
我们对上例进行对比.
k
k!
e .
例
设X
E ,
当
的密度函数图形. 程序如下:
1 ,1, 2 时, 画出指数函数 2
概率统计随机数应用实验
在数据分析中的应用
随机抽样
在数据分析中,随机抽样是一种常用 的方法,通过生成随机数来从总体中 抽取样本,从而进行数据分析。
随机森林算法
随机森林是一种基于决策树的集成学 习算法,其中的特征选择和样本分割 都是通过随机抽样实现的。
05
实验步骤与结果分析
实验步骤设计
步骤一
确定实验目标
步骤二
选择随机数生成方法
真随机数生成器的缺点是速度慢、不易于集成到微处理器中。
随机数质量评估
1
评估随机数的质量是确保随机数在应用中有效性 的重要步骤,包括统计测试和密码学测试。
2
统计测试包括频率测试、累积和测试、离散概率 分布测试等,用于检验随机数的统计特性是否符 合预期。
3
密码学测试包括强度测试、随机性测试、密钥生 成测试等,用于检验随机数的安全性是否满足密 码学应用的要求。
02
概率统计基础
概率论基本概念
概率
描述随机事件发生的可能性大小。
独立事件
两个事件之间没有相互影响。
条件概率
在某一事件发生的条下,另一事件发生的概 率。
统计推断方法
参数估计
通过样本数据估计总体参数的方法。
假设检验
根据样本数据对某一假设进行检验的方法。
方差分析
比较不同组数据的变异程度。
随机变量及其分布
04
随机数在实验中的应用
在模拟中的应用
模拟实验
随机数可用于模拟各种实验条件,如模拟物理过程、化学反应、生物实验等。 通过生成随机数,可以模拟实验中的随机因素,从而更准确地预测实验结果。
蒙特卡洛方法
蒙特卡洛方法是一种基于随机抽样的数值计算方法,通过生成大量随机数,可 以对复杂问题进行分析和求解,例如计算圆周率、求解数学优化问题等。
人教B版高中数学必修第二册精品课件 第五章 5.4 统计与概率的应用
0.1
0.2
0.3
0.2
0.2
L2的频率
0
0.1
0.4
0.4
0.1
(2)记事件A1,A2分别表示甲选择L1和L2时,在40 min内赶到火车站;
记事件B1,B2分别表示乙选择L1和L2时,在50 min内赶到火车站.
由(1)知P(A1)=0.1+0.2+0.3=0.6,P(A2)=0.1+0.4=0.5,P(A1)>P(A2),所以甲应
的,则从这种野生动物中任逮一只,设逮到带有标记的该种动物为事件A,则
1 200
由古典概型可知,P(A)= .第二次被逮到的 1 000 只中,有 100 只带有标记,
100
1
即事件 A 发生的频数 m=100,由概率的统计定义可知 P(A)≈
= ,故
1 000 10
1 200
1
≈
,解得
x≈12
000.
两班各派一人先进行转盘游戏,胜者获得一件奖品,负者表演一个节目.(1)
班的文娱委员利用分别标有数字1,2,3,4,5,6,7的两个转盘(如图所示),设计
了一种游戏方案:两人分别转动转盘1和转盘2,转盘停止后,将两个指针指
向的数字相加,当和为偶数时,(1)班获胜;否则,(2)班获胜.该方案对双方是否
公平?为什么?
成绩,由此能否判定甲、乙两名同学成绩的优劣?
提示:能.可计算平均分和方差.
2.为了解某市汽车尾气情况,在路口A对通行的30辆私家车进行抽测,这种
方法是否合理?
提示:不合理.抽样方法不正确.
1 +2 +…+
3.(1)数据 x1,x2,…,xn 的平均数 =
最新清华大学 杨虎 应用数理统计课后习题参考答案2资料
习题三1 正常情况下,某炼铁炉的铁水含碳量2(4.55,0.108)X N .现在测试了5炉铁水,其含碳量分别为4.28,4.40,4.42,4.35,4.37. 如果方差没有改变,问总体的均值有无显著变化?如果总体均值没有改变,问总体方差是否有显著变化(0.05α=)?解 由题意知 2~(4.55,0.108),5,0.05X N n α==,1/20.975 1.96u u α-==,设立统计原假设 0010:,:H H μμμμ=≠ 拒绝域为{}00K x c μ=->,临界值1/21.960.108/0.0947c u α-==⋅=,由于 0 4.364 4.550.186x c μ-=-=>,所以拒绝0H ,总体的均值有显著性变化.设立统计原假设 22220010:,:H H σσσσ=≠ 由于0μμ=,所以当0.05α=时22220.0250.97511()0.03694,(5)0.83,(5)12.83,n i i S X n μχχ==-===∑2210.02520.975(5)/50.166,(5)/5 2.567c c χχ====拒绝域为 {}222200201//K s c s c σσ=><或由于220/ 3.167 2.567S σ=>,所以拒绝0H ,总体的方差有显著性变化. 2 一种电子元件,要求其寿命不得低于1000h .现抽测25件,得其均值为x =950h .已知该种元件寿命2(100,)X N σ,问这批元件是否合格(0.05α=)?解 由题意知 2(100,)X N σ,设立统计原假设0010:,:,100.0.05.H H μμμμσα≥<==拒绝域为{}00K x c μ=-> 临界值为 0.050.0532.9c u u =⋅=⋅=-由于 050x c μ-=-<,所以拒绝0H ,元件不合格.3 某食品厂用自动装罐机装罐头食品,每罐标准重量为500g ,现从某天生产的罐头中随机抽测9罐,其重量分别为510,505,498,503,492,502,497,506,495(g ),假定罐头重量服从正态分布. 问 (1)机器工作是否正常(0.05α=)? 2)能否认为这批罐头重量的方差为5.52(0.05α=)? 解 (1)设X 表示罐头的重量(单位:g). 由题意知2(,)XN μσ,μ已知设立统计原假设 0010:500,:H H μμμμ==≠,拒绝域 {}00K x c μ=-> 当0.05α=时,2500.89,34.5, 5.8737x s s ===临界值 12(1) 4.5149c t n α-=-⋅=,由于00.8889x c μ-=<,所以接受0H ,机器工作正常.(2)设X 表示罐头的重量(单位:g). 由题意知2(,)XN μσ,σ已知设立统计原假设 222220010: 5.5,:H H σσσσ==≠拒绝域为 {}{}222200102K s c sc σσ=<> 当α=0.05时,可得2220.0250.97512500.89,34.5,(5) 2.7,(5)19.02,0.3, 2.11x s c c χχ======由于22001.0138s K σ=∈,所以接受0H ,可以认为方差为25.5.4 某部门对当前市场的鸡蛋价格情况进行调查,抽查某市20个集市上鸡蛋的平均售价为3.399(元/500克),标准差为0.269(元/500克).已知往年的平均售价一直稳定在 3.25(元/500克)左右, 问该市当前的鸡蛋售价是否明显高于往年?(0.05α=)解 设X 表示市场鸡蛋的价格(单位:元/克),由题意知2(,)XN μσ设立统计原假设 0010: 3.25,:H H μμμμ==>, 拒绝域为 {}00K x c μ=->当α=0.05时,13.399,0.269,20,0.0992x n c ασμ-====⋅=临界值由于0 3.399 3.250.149.x c μ-=-=>所以拒绝0H ,当前的鸡蛋售价明显高于往年.5 已知某厂生产的维尼纶纤度2(,0.048)X N μ,某日抽测8根纤维,其纤度分别为1.32,1.41,1.55,1.36,1.40,1.50,1.44,1.39,问这天生产的维尼纶纤度的方差2σ是否明显变大了(0.05α=)?解 由题意知 2(,0.048)XN μ,0.05α=设立统计原假设 2222220010:0.048,:0.048H H σσσσ==>=拒绝域为{}2200K s c σ=>, 当0.05α=时,2220.950.951.4213,0.0055,(7)14.07,(7)7 2.0096x s c χχ=====由于220 2.3988s c σ=>,所以拒绝0H ,认为强度的方差明显变大.6 某种电子元件,要求平均寿命不得低于2000h ,标准差不得超过130h .现从一批该种元件中抽取25只,测得寿命均值1950h ,标准差148h s =.设元件寿命服从正态分布,试在显著水平 α=0.05下, 确定这批元件是否合格. 解 设X 表示电子元件的平均寿命(单位:h ),由题意知2(,)X N μσ设立统计原假设 0010:=2000H <H μμμμ≥,: 拒绝域为 {}00K x c μ=-<当0.05α=时,1950,148,(1)50.64x s c t n α===-=-临界值由于 050x c μ-=->,所以接受0H ,即这批电子元件的寿命是合格的. 7 设n X X X ,...,,21为来自总体(,4)XN μ的样本,已知对统计假01:1;: 2.5H H μμ== 的拒绝域为0K {}2>=X .1)当9=n 时,求犯两类错的概率α与β;2)证明:当n →∞时,α→0,β→0.解 (1)由题意知 {}010~(,4),:1;: 2.5,2,9.X N H H K X n μμμ===>= 犯第一类错误的概率为()21 1.51(1.5)0.0668.X P X P αμ⎫=>==>==-Φ=⎪⎭犯第二类错误的概率为()2 2.50.75(0.75)1(0.75)0.2266.X P X P βμ⎫=≤==≤=-⎪⎭=Φ-=-Φ=(2)若0:1H μ=成立,则(1,4)X N}{}{00000()=11)n P H H P X c P X c nc αμμσ=≥+=-<+=-Φ否定成立 当n →∞时,0)1ncσΦ→,所以0()n n α→→∞同理 }{0010=<+=+c )/)()=0()n P X c n βμμμσΦ-→Φ-∞→∞ 8 设需要对某一正态总体,4()N μ的均值进行假设检验H 0:μ= 15,H 1:μ< 15 取检验水平α=0.05,试写出检验H 0的统计量和拒绝域.若要求当H 1中的μ=13时犯第二类错误的概率不超过β=0.05,估计所需的样本容量n . 解 由题意知 (,4)XN μ,σ已知, 设立统计原假设 01:15,:15H H μμ=<则拒绝域为}{015K X c =-<,其中临界值0.05c μ=⋅=-犯第二类错误的概率1513130.05P X P Xβ⎛⎫⎛⎫=->==->≤⎪⎭⎝⎝即1.65)0.95Φ≥, 化简得23.311n≥≈.9 设nXXX,...,,21为来自总体X~2(,)Nμσ的样本,2σ为已知, 对假设:0011:;:H Hμμμμ==其中01μμ≠,试证明:22011212()()nαβσμμμμ--=+⋅-解(1)10>μμ当时,由题意知00110:;:;H Hμμμμμ==>犯第一,二类错误分别为,αβ,则有001(|)P X c c uααμμμ-=>+=⇒=011100(|))XP X c P uαβμμμμμ-=≤+==≤=⇒()()220 11111120010 u u u u n u u ββααβαβσμμμ------=-=⇒+==+-(2)10μμ≤当时由题意知00110:,:H Hμμμμμ==≤,犯第一,二类错误分别为,αβ,则有00(|)P X c c uααμμμ=<+=⇒=()()01100220 1111120010 (|))XP X c P uu u u u n u uαβααβαββμμμμμσμμ-----=≥+==≥+=⇒=⇒+==+-10设171,...,XX为总体2(0,)X N σ样本,对假设:2201:9,: 2.905H Hσσ==的拒绝域为}{24.93K s=<. 求犯第Ⅰ类错误的概率α和犯第Ⅱ类错的概率β.解由题意知2(0,)X N σ,222~().nsnχσ统计假设为2201:9,: 2.905H Hσσ==. 拒绝域为}{24.93K s=<则犯第一,二类错误的概率,αβ分别是()()22222221717417174497.3040.0259999171744 3.319120.48810.750.253.319 3.319s s P s P P s P s P ασβσ⎛⎫⎛⎫⨯⨯=<==<=<== ⎪ ⎪⎝⎭⎝⎭⎛⎫⨯=<==-<==-= ⎪⎝⎭11 设总体是密度函数是1,01(;)0,x x f x θθθ-<<=⎧⎨⎩其他统计假设 01:1,:2H H θθ==.现从总体中抽取样本21,X X ,拒绝域2134ΚX X =≤⎧⎫⎨⎬⎩⎭,求:两类错误的概率,αβ 解 由题意知010213:1;:2,, 2.4H H K X n X θθ⎧⎫===≤=⎨⎬⎩⎭当12121,0,11(;1) 1.~(0,1),(,)0,x x f x X U f x x θ<<⎧===⎨⎩时,其他此时 212121231431(,)0.250.75ln 0.75.4x x P X f x x dx dx X αθ≤⎛⎫=≤===+⎪⎝⎭⎰⎰当1212122,014,0,12(;2).(,)0,0,x x x x x x f x f x x θ<<<<⎧⎧===⎨⎨⎩⎩时,其他其他 此时 21212123143992(,)ln 0.75.4168x x P X f x x dx dx X βθ>⎛⎫=>===+⎪⎝⎭⎰⎰12 设总体2(,)X N μσ,根据假设检验的基本原理,对统计假设:00110:,:()()H H μμμμμσ==>已知;0010:,:H H μμμμσ≥<(未知),试分析其拒绝域. 解 由题意知 2(,)XN μσ,当00110:,:()H H μμμμμ==>成立时()01X P X c P αμμμ=->==>=-Φ{}1100,u c u K X c ααμ--===->所以拒绝域为 }{00K X c μ=->当0010:,:H H μμμμ≥<成立时00()()X P X c P X c P αμμμμ⎛⎛⎫⎫=-<≥≥-<=<=Φ}{00,c K X c ααμμμ===-<所以拒绝域为}{00K X c μ=-< 13 设总体2(,)X N μσ根据假设检验的基本原理,对统计假设:(1)22220010:,:()H H σσσσμ=>已知;(2)22220010:,:()H H σσσσμ≤>未知试分析其拒绝域.解 由题意知 2~(,)X N μσ(1)假设统计假设为 22220010:=,:>H H σσσσ 其中μ已知当0H 成立时,拒绝域形式为 2020=>sK c σ⎧⎫⎪⎨⎬⎪⎭⎩由222220=(n)ns ns χσσ,可得220=>nsP nc ασ⎧⎫⎪⎨⎬⎪⎭⎩ 所以 21-=()nc n αχ,由此可得拒绝域形式为2201-201=>()sK n n αχσ⎧⎫⎪⎨⎬⎪⎭⎩ (2)假设统计假设为 22220010:<,:>H H σσσσ 其中μ未知当0H 成立时,选择拒绝域为 2020=>sK c σ⎧⎫⎪⎨⎬⎪⎭⎩,由222(-1)(1)n s n χσ-得 ()()()()222201111n s n s P n c P n c ασσ⎧⎫⎧⎫--⎪⎪⎪⎪=>-≤>-⎨⎬⎨⎬⎪⎪⎪⎪⎩⎭⎩⎭所以21(1)(1)n c n αχ--=-,由此可得拒绝域形式为2201-201=>(1)1s K n n αχσ⎧⎫⎪-⎨⎬-⎪⎭⎩14 从甲、乙两煤矿各取若干样品,得其含灰率(%)为,甲:24.3, 20.8, 23.7, 21.3,17.4, 乙:18.2, 16.9, 20.2, 16.7 .假定含灰率均服从正态分布且2212=σσ,问甲、乙两煤矿的含灰率有无显著差异 (=0.05α)? 解 由题意知 2212(,),Y (,)XN N μσμσ设统计假设为 012112:=;:H H μμμμ≠ 其中12=5,=4n n 当=0.05α时1/2122.3238,(2) 2.3646w s t n n α-==+-=临界值1-12=(+2) 3.6861w c t n n s α-⋅= 拒绝域为}{0 3.6861K x y c =->= 而 03.5,,.x y c H -=<接受认为没有差别15 设甲、乙两种零件彼此可以代替,但乙零件比甲零件制造简单,造价也低.经过试验获得它们的抗拉强度分别为(单位:kg/cm 2):甲:88,87,92,90,91 乙:89,89,90,84,88假定两种零件的抗拉强度都服从正态分布,且21σ =22σ.问甲种零件的抗拉强度是否比乙种的高(=0.05α)? 解 由题意知 2212(,),Y (,)XN N μσμσ设统计假设为 012112:=;:H H μμμμ≠,其中12=5,=5n n 当=0.05α时122.2136,(2) 1.86,w s t n n α==+-=-临界值1-212=(+2) 2.2136w c t n n s α-⋅= 拒绝域为}{0 2.2136K x y c =->=而 1.6x y c -=<,所以接受0H ,认为甲的抗拉强度比乙的要高.16 甲、乙两车床生产同一种零件.现从这两车床产生的产品中分别抽取8个和9个,测得其外径(单位:mm )为:甲:15.0,14.5,15.2,15.5,14.8,15.1,15.2,14.8乙:15.2,15.0,14.8,15.2,15.0,15.0,14.8,15.1,14.8假定其外径都服从正态分布,问乙车床的加工精度是否比甲车床的高(=0.05α)?解 由题意知 2212(,),Y (,)XN N μσμσ设统计假设为 2222012112:;:H H σσσσ≥<,其中12=8,=9n n当=0.05α时 220.0955,0.0261x y s s ==,临界值 12(1,1)0.2684c F n n α=--=拒绝域为202x ys K c s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩,而22 3.6588x y s F c s ==>,接受0H ,认为乙的精度高.17 要比较甲、乙两种轮胎的耐磨性,现从甲、乙两种轮胎中各取8个,各取一个组成一对,再随机选取8架飞机,将8对轮胎磨损量(单位:mg )数据列表如下:试问这两种轮胎的耐磨性有无显著差异?(=0.05α). 假定甲、乙两种轮胎的磨损量分别满足2212(,),Y (,)XN N μσμσ且两个样本相互独立.解 由题意知 2212(,),Y (,)X N N μσμσ设统计假设为 012112:=;:H H μμμμ≠,其中12===8n n n 当=0.05α时,令()221/211,320,102200,319.69,(1) 2.36461n ZZ i Z X Y z s z z s t n n α-==-==-==-=-∑ 拒绝域为}{0K z c =>,临界值1-2=(1)2138Z c t n s α-⋅= 而320z c =<,所以接受0H ,认为两种轮胎耐磨性无显著差异.18 设总体2212(,),Y (,)X N N μσμσ, 由两总体分别抽取样本 X :4.4,4.0,2.0,4.8 Y :6.0,1.0,3.2,0.41)能否认为12μμ= (=0.05α)? 2)能否认为2212σσ= (=0.05α)?解 (1) 由题意知 2212(,),Y (,)XN N μσμσ设统计假设为 012112:=;:H H μμμμ≠,其中12==4=n n n令Z X Y =-,则有22111.15,()9.02331n z i z s z z n ===-=-∑, 当=0.05α时,1-2=(1) 3.1824c t n α-=,1-2=(1)/ 4.78Z c t n s α-⋅= 拒绝域为}{0K z c =>,而 1.15z c =<,所以012,.H μμ=接受认为 (2) 由题意知 2212(,),Y(,)XN N μσμσ设统计假设为 2222220111:=;:H H σσσσ≠,其中12==4=n n n 其中221.5467, 6.4367x y s s ==,拒绝域为2201222>x x y y s s K c c s s ⎧⎫⎪⎪=<⎨⎬⎪⎪⎭⎩或临界值 1/21221212(1,1)0.0648,(1,1)15.4392c F n n c F n n αα-=--==--=而22201220.2403,,.X Ys F H s σσ===接受认为19 从过去几年收集的大量记录发现,某种癌症用外科方法治疗只有2%的治愈率.一个主张化学疗法的医生认为他的非外科方法比外科方法更有效.为了用实验数据证 实他的看法,他用他的方法治疗200个癌症病人,其中有6个治好了.这个医生断 言这种样本中的3%治愈率足够证实他的看法.(1)试用假设检验方法检验这个医生的看法;(2)如果该医生实际得到了4.5%治愈率,问检验将证实化学疗法比外科方法更有效的概率是多少?解 (1) 记每个病人的治愈情况为X ,则有(1,) XB p设统计假设为 0010:=0.02;:0.02H p p H p p >≤=,其中200,0.05n α==拒绝域为}{00K x p c =-<,临界值10.0163c αμ-== 而 000.01,,0.02.x p c H p -=<>拒绝不能认为(2) 不犯第二类错误的概率101 4.5%P X u p p αβ-⎧⎫⎪⎪-=>=⎨⎬⎪⎪⎭⎩由(1,) XB p ,可得 (1),p p EX p DX n-==由中心极限定理得1 4.5%10.72X P p β⎧⎫⎪-=>=⎬⎪⎭=-Φ=20 在某公路上,50min 之间,观察每15s 内通过的汽车数,得下表通过的汽车数量0 1 2 3 4 ≥5 次数f92 68 28 11 1 0问能否认为通过的汽车辆数服从泊松分布(=0.10α)?解 设统计假设为 0010:()(),()(),200.0.10H F x F x H F x F x n α====4001ˆ,0.805.j j H X j n λν====∑若成立 记 ˆ1,2,3,4ˆ(),!j j j p P x j e j λλ-==-=则有ˆ0.8050102143243500.8050.4471,0.805*0.3599,*0.144920.8050.805*0.0389,*0.0078,10.0014,34j j p e e p p p p p p p p p p λ--=============-=∑检验统计量的值为()2522210.9500 2.1596(1)(4)9.848,~(),0.805.jj n j jnp m r np H X P ανχχχλλ-=-==<--===∑不拒绝认为且21 对某厂生产的汽缸螺栓口径进行100次抽样检验,测得100数据分组列表如下:组限10.93~10.9510.95~10.9710.97~10.9910.99~11.01频数 582034 组限 11.01~11.0311.03~11.0511.05~11.0711.07~11.09 频数17664试对螺栓的口径X 的分布做假设检验(=0.05α).解 设X 表示螺栓的口径,2(,)XN μσ,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中100,0.05,2n r α===在0H 成立的情况下,计算得88221111ˆˆ11.0024,()0.00101888j j j j i i X x v x v μσμ====⋅==-⋅=∑∑ 由ˆ11.0024(0,1)ˆ0.00319X X N μσ--=得0810.9311.002411.0911.00242.2689,, 2.74520.003190.00319x x --==-==所以110887()()0.0386,,()()0.0140p x x p x x =Φ-Φ==Φ-Φ=检验统计量的值为2822210.951()13.825(1)(5)11.07j j nj jv np m r np αχχχ-=-==>--==∑由此应该20,~(,).H X N μσ拒绝不能认为22 检查产品质量时,每次抽取10个产品检验,共抽取100次,得下表:次品数0 1 2 3 4 5 6 7 8 9 10 频数 35 40 18 5 1 1 0 0 0 0 0 问次品数是否服从二项分布(=0.05α)? 解 设X 表示抽取的次品数,2(,)XN μσ,分布函数为()F x ,统计假设为0010:()(),:()()H F x F x H F x F x =≠,其中10,0.05n α==在0H 成立的情况下,01ˆNjj X pjvN N===∑计算得00101192280101102103371010010*******(1),0,1,,10;ˆˆˆ(1)0.3487,(1)0.3874,(1)0.1937ˆˆ(1)0.0574,(1)10,jj N j j N p C p p j p C p p p C p p p C p p p C p pp C p p--=-==-==-==-==-==-= 检验统计量的值为0020()21022210.9505.1295(1)(9)16.92jj n j jnp m r np ανχχχ-=-==<--==∑因此0,~(10,0.1).H X B 不拒绝认为23 请71人比较A 、B 两种型号电视机的画面好坏,认为A 好的有23人,认为B 好的有45人,拿不定主意的有3人,是否可以认为B 的画面比A 的好(=0.10α)?解 设X 表示A 种型号电视机的画面要好些,Y 表示B 中型号电视机画面要好些分布函数分别为()X F x ,()Y F x ,统计假设为01:()(),:()(),10,100.0.05X Y X Y H F x F x H F x F x N n α=≠===由题意知++=23=45,=+n n n n n --, 检验统计量 ,min()s n n +-=而23(68)25s s α=<=,所以0,.H B 拒绝认为的画面好24 为比较两车间(生产同一种产品)的产品某项指标的波动情况,各依次抽取12个产品进行测量,得下表甲 1.13 1.26 1.16 1.41 0.86 1.39 1.21 1.22 1.20 0.62 1.18 1.34 乙 1.21 1.31 0.99 1.59 1.41 1.48 1.31 1.12 1.60 1.38 1.60 1.84 问这两车间所生产的产品的该项指标分布是否相同(=0.05α)?解 设,X Y 分别表示甲乙两车间所生产产品的指标分布,分布函数分别()X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,12,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为112T =且(150,300)T N拒绝域为012K u u α-⎧⎫⎪=>⎨⎬⎪⎭⎩而0.9752.194 1.96u u =>=,所以0,.H 拒绝认为指标分布不相同25 观察两班组的劳动生产率(件/h),得下表:问两班组的劳动生产率是否相同(α=0.05)?解 设,X Y 分别表示两个组的劳动生产率,分布函数分别为(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,9,9X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为73T = 拒绝域形式为}{01212,<K T t T t t t =<>其中而12(9,9)=66,(9,9)105t t =,因此T K ∈, 所以0,.H 接受认为劳动生产率相同26 观观察得两样本值如下:Ⅰ 2.36 3.14 7.52 3.48 2.76 5.43 6.54 7.41 Ⅱ 4.38 4.25 6.54 3.28 7.21 6.54 问这两样本是否来自同一总体(α=0.05)?解 设,X Y 分别表示Ⅰ,Ⅱ两个样本,分布函数分别是(),X F x ()Y F x ,统计假设为01:()(),:()(),.0.05,6,8,X Y X Y H F x F x H F x F x n m α=≠===检验统计量为秩和T ,易知T 的样本值为49T = 拒绝域形式为}{01212,<K T t T t t t =<>其中而12(6,8)=32,(6,8)58t t =,因此0T K ∈, 所以0,.H 接受认为来自同一总体 27 某种动物配偶的后代按体格的属性分为三类,各类的数目是:10,53,46,按照某种遗传模型其比率之比应为:22)1(:)1(2:p p p p --,问数据与模型是否相符(05.0=α)?解 设体格的属性为样本X ,由题意知(2,1)X B p -其密度函数为()f x ,其中22(,)(1)0,1,2xxx f x p C p p x -=-=统计假设为0010:()(),:()()H F x F x H F x F x =≠似然函数为222211(1)(1)i iii nnx x x x n nxnxi i L C pp pp C--===-=-∏∏解得最大似然统计量为 ˆ12xp=- 则 220ˆˆ 1.330.1121pp === 1ˆˆˆ2(1)0.4454p p p =-= 22ˆˆ(1)0.4424p p =-= 拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ0.9134(1)(9) 3.8414ˆjj n j j np m r npανχχχ-=-==<--==∑所以0,.H 不拒绝认为与模型相符28 在某地区的人口调查中发现:15729245个男人中有3497个是聋哑人.16799031个女人中有3072个是聋哑人.试检验“聋哑人与性别无关”的假设(05.0=α).解 设X 表示男人中聋哑人的个数,Y 表示女人中聋哑人的个数,其分布函数分别表示为()X F x ,()Y F x . 统计假设为01:(,)()(),:(,)()()X Y X Y H F x y F x F x H F x y F x F x =≠拒绝域为}{2201(1)K m r αχχ-=>--而21022210.950ˆ()62.64(1)(1) 3.84ˆj j n j jv np m r np αχχχ-=-==>--==∑ 所以0,.H 拒绝认为聋哑与性别相关 29 下表为某药治疗感冒效果的联列表:试问该药疗效是否与年龄有关(α=0.05)?解 设X 表示该药的疗效与年龄有关,Y 表示该药的疗效与年龄无关,其分布函数分别表示为(),X F x ()Y F x . 统计假设为01:(,)()(),:(,)()(),3,3,0.05,X Y X Y H F x y F x F x H F x y F x F x r s α=≠===拒绝域为}{2201(1)K m r αχχ-=>--而 ()21022210.950ˆ13.59(1)(4)9.488ˆj j n j j np m r npανχχχ-=-==>--==∑所以0,.H 拒绝认为疗效与年龄相关30 某电子仪器厂与协作的电容器厂商定,当电容器厂提供的产品批的不合格率不超过3%时以高于95%的概率接受,当不合格率超过12%时,将以低于10%的概率接受.试为验收者制订验收抽样方案.解 由题意知,010.03,0.12,0.05,0.1p p αβ====代入式子 01()1()L p L p αβ=-⎧⎨=⎩()L p 选用式子()()()(1)(1)L P X d P U np p np p φ=≤=≤≈--计算求得 66,4n d ==,于是抽查方案是:抽查66件产品,如果抽得的不合格产品4X ≤,则接受这批产品,否则拒绝这批产品.31 假设一批产品的质量指标2(,)XN μσ(2σ已知),要求质量指标值越小越好.试给出检验抽样方案(,n c )的计算公式.若2σ未知,又如何确定检验抽样方案(,n c )?若质量高时指质量指标在一个区间时,又如何确定检验抽样方案(,n c )?解 (1) 解方程组01()1()L L μαμβ=-⎧⎨=⎩ 得 ()201u u n αβσμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+ (2) 若2σ未知,用*2M 估计2σ,从而得出公式()2*201u u M n αβμμ⎛⎫+⎪= ⎪-⎝⎭10u u c u u αβαβμμ+=+习题四1 下表数据是退火温度x (C 0)对黄铜延性η效应的试验结果,η是以延伸率计算的,且设为正态变量,求η对x 的样本线性回归方程.x (C 0)300 400 500 600 700 800 y (%)40 50 55 60 67 70解 利用回归系数的最小二估计:101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑代入样本数据得到:1ˆˆ0.0589,24.6286ββ==样本线性回归方程为:ˆ24.62860.0589yx =+2 证明线性回归函数中(1)回归系数1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ--; (2)回归系数0β的置信水平为α-1的置信区间为2ˆ(2)n αβ-±-.证 (1) 由于211ˆ,xx N l σββ⎛⎫ ⎪⎝⎭()0,1N222(2)ES n χσ-又因为:,()222ˆ2(2)n n σχσ--故所以()2t n -易知 {}11ˆ1p cββα-<=-,1P α<=-⎪⎭⎩其中()122n α--所以1β的置信水平为α-1的置信区间为211ˆˆ(2)n αβ--(2) 由0ˆβ~2201(,())xxnx N l βσ+,得 ()0,1N ,()222ˆ2(2)n n σχσ--,0ˆβ与2ˆσ相互独立,所以:()2T t n ==-根据11221(2)(2)P T t n P t n ααα--⎫⎪⎛⎫⎪-=<-=<- ⎪⎪⎝⎭⎪⎪⎭()()0001122ˆˆ22P n n ααβββ--⎛⎫ ⎪ ⎪=--<<+- ⎪ ⎪ ⎪⎝⎭得到0β的置信度为1α-的置信区间()012ˆ2n αβ--.3 某河流溶解氧浓度(以百万分之一计)随着水向下游流动时间加长而下降.现测得8组数据如下表所示.求溶解氧浓度对流动时间的样本线性回归方程,并以α=0.05对回归显著性作检验.流动时间t (天) 0.5 1.0 1.6 1.8 2.6 3.2 3.8 4.7 溶解氧浓度(百万分之一)0.28 0.29 0.29 0.18 0.17 0.18 0.10 0.12解 利用101ˆˆˆtyttl l y tβββ⎧=⎪⎨⎪=-⎩其中2211,n n ty i i tt i i i l t y nty l t nt ===-=-∑∑ 代入样本数据得到: 10ˆˆ0.0472,0.3145ββ=-= 所以,样本线性回归方程为:ˆ0.31450.0472yt =- 拒绝域形式为:{}21ˆc β>()20.95ˆ1,6,0.0058ttF c c l σ==>而21ˆ0.0022β=,所以回归模型不显著. 4 假设X 是一可控制变量,Y 是一随机变量,服从正态分布.现在不同的X 值下分别对Y 进行观测,得如下数据i x0.25 0.37 0.44 0.55 0.60 0.62 0.68 0.70 0.73 i y2.57 2.31 2.12 1.92 1.75 1.71 1.60 1.51 1.50 i x 0.75 0.82 0.84 0.87 0.88 0.90 0.95 1.00 i y1.41 1.33 1.31 1.25 1.20 1.19 1.15 1.00(1)假设X 与Y 有线性相关关系,求Y 对X 样本回归直线方程,并求2σ=DY 的无偏估计;(2)求回归系数210σββ、、的置信度为95%的置信区间; (3)检验Y 和X 之间的线性关系是否显著(=0.05α); (4)求Y 置信度为95%的预测区间;(5)为了把Y 的观测值限制在)68.1,08.1(,需把x 的值限制在什么范围?(=0.05α)解 (1) 利用101ˆˆˆxyxx l l y x βββ⎧=⎪⎨⎪=-⎩其中2211,n nxy i i xx i i i l x y nxy l x nx ===-=-∑∑计算得10ˆˆ2.0698, 3.0332ββ=-= 所以,样本线性回归方程为:ˆ 3.0332 2.0698yx =-,22ˆ0.002015ES σ== (2) 根据第二题,1β的置信区间为()112ˆˆ2n αβ-±-,代入值计算得到:()1 2.1825, 1.9571β∈--,0β的置信区间为()02ˆ2n αβσ-±-,代入数值计算得到:()0 2.95069,3.1160β∈.(3) 根据F 检验法,其拒绝域形式为 }{201ˆK c β=> 而 12ˆ(2),xxc tn l ασ-=- 显然10K β∈,所以Y 和X 之间具有显著的线性关系.(4)()221(0,(1))xxxx yN l nσ-++,()2ˆ1()1(0,1)xxx x s x N l n -=++令222ˆ(2)(2),(2)ˆ()n n tn s x σχσσ---则有 1122ˆˆˆ((2),(2))y ytn yt nαα--∈--(5) 根据(4)的结论,令 22ˆˆ1.68 1.08yyαα--+=-=,解得 (0.7802,0.8172)x ∈5 证明对一元线性回归系数0ˆβ,1ˆβ相互独立的充分必要条件是0=x . 证 ""⇒()()()()()010011111ˆˆˆˆˆˆcov ,E y x ββββββββββ=--=---2110111101ˆˆˆˆ()E y x y x βββββββββ=---++2211011101ˆy xE y x ββββββββ=---++ ()2211ˆx E ββ=-- 222221111ˆˆˆ()xx E D E l σββββ=+=+ 若要()01ˆˆcov ,0ββ=,那么0x =.反之显然也成立,命题的证.6 设n 组观测值),...,2,1)(,(n i y x i i =之间有关系式:i i i i x x y εεββ,+-+=)(10~),...,2,1)(,0(2n i N =σ(其中∑==ni i x n x 11),且n εεε,...,,21相互独立.(1) 求系数10,ββ的最小二乘估计量10ˆ,ˆββ; (2) 证明∑∑∑===-+-=-ni i n i i i n i i y y y y y y 121212)ˆ()ˆ()(,其中∑==n i i y n y 11 (3) 求10ˆ,ˆββ的分布. 解 (1) 最小化残差平方和:2201[()]Ei i S y x x ββ=---∑01ββ求,的偏导数[][]220101012()02()()0E Ei i i i i S S y x x y x x x x ββββββ∂∂=----==-----=∂∂∑∑, 01ˆˆ,xyxxl y l ββ==得到:(2) 易知()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑ 其中01ˆˆˆ()()xyi i i xxl yx x y x x l ββ=+-=+-,将其代入上式可得 1ˆˆ()()0niiii y yy y =--=∑ 所以,∑∑∑===-+-=-ni i n i i i ni iy y yy y y121212)ˆ()ˆ()( (3)20ˆ~(0,),i N y εσβ=,200ˆ~(,)N nσββ∴同理,易得211ˆ~(,)xxN l σββ∴7 某矿脉中13个相邻样本点处某种金属的含量Y 与样本点对原点的距离X 有如下观测值 ix 2 3 4 5 7 8 10 i y 106.42 108.20 109.58 109.50 110.00 109.93 110.49 ix 11 14 15 16 18 19 i y 110.59 110.60 110.90 110.76 111.00 111.20分别按(1)x b a y +=;(2)x b a y ln +=;(3)xba y +=. 建立Y 对X 的回归方程,并用相关系数221TES S R -=指出其中哪一种相关最大.解 (1)令v y a bv ==+,根据最小二乘法得到,正规方程:101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,最后得到10ˆˆ1.1947,106.3013ββ==所以:样本线性回归方程为:ˆ106.3013y=+10.8861R = (2) 令ln ,v x y a bv ==+101ˆˆˆvyvv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ1.714,106.3147ββ== 所以:样本线性回归方程为:ˆ106.3147 1.714ln yx =+,20.9367R = (3) 令1,v y a bv x==+ 101ˆˆˆvy vv l l y vβββ⎧=⎪⎨⎪=-⎩,得到10ˆˆ111.4875,9.833ββ==- 所以:样本线性回归方程为:ˆ111.48759.833yx =-,30.987R = 综上,123R R R <<,所以第三种模型所表示的X Y 与的相关性最大. 8 设线性模型⎪⎩⎪⎨⎧++=+-=+=3213221211122εββεββεβy y y其中i ε~),0(2σN (1,2,3.i =)且相互独立,试求1β、2β的LS 估计.解 令()()1231212310,,,21,(,),,,12T TT Y y y y X βββεεεε⎡⎤⎢⎥==-==⎢⎥⎢⎥⎣⎦则线性模型可转化为 Y X βε=+ 根据 222TTTTES Y X Y Y Y X X X ββββ=-=-+, 令 20ES β∂=∂ 可得 ()1ˆTT X X X Y β-=即 112322311ˆˆ(23),(2)66Y Y Y Y Y ββ=++=--+ 9 养猪场为估算猪的毛重,随机抽测了14头猪的身长1x (cm),肚围2x (cm)与体重y (kg),得数据如下表所示,试求一个22110x b x b b y ++=型的经验公式.解 由多元线性模型得:()2140,Y X I βεεσ=+⎧⎪⎨=⎪⎩()()()0121212,,,,,,TTTn n Y y y y ββββεεεε===()114149145581516215271159621627416971ˆ172741787918084190851929419891110395T T X X X X Y β-⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦代入数值得到:12ˆ15.93840.52230.4738yx x =-++ 同样得到:12ˆ15.93840.52230.4738yx x =-++ 10 某种商品的需求量y ,消费者的平均收入1x 和商品价格2x 的统计数据如下表所示.试求y 对1x 、2x 的线性回归方程. 1i x1000 600 1200 500 300 400 1300 1100 1300 300 2i x 5 7 6 6 8 7 5 4 3 9 y100 75 80 70 50 65 90 100 110 60解 建立回归模型201122=+++(0,)Y x x N βββεεσ其中根据2()=0E S ββ∂∂,可求得β的LS 估计为 -1ˆ=(X X)T T X Y β代入x ,得0=111.6918,β 1=0.0143,β 2=7.1882,β-则回归方程为:12ˆ111.69180.01437.1882yx x =+-11 设n 组观测值),...,2,1)(,(n i y x i i =之间有如下关系:i i i i i x x y εεβββ,+++=2210~),...,2,1)(,0(2n i N =σ,且n εεε,...,,21相互独立.(1)求系数210,,βββ的最小二乘估计量21ˆ,ˆ,ˆβββ; (2)设n i x x y i i i ,...,2,1,ˆˆˆˆ2210=++=βββ,∑==n i i y n y 11,证明:∑∑∑===-+-=-ni i ni i i ni i y y y y y y 121212)ˆ()ˆ()(解 (1) ()()()0121212,,,,,,TTTn n Y y y y ββββεεεε===1222211111Tn n X x x x x x x ⎛⎫ ⎪= ⎪ ⎪⎝⎭()1ˆT T X X X Y β-=(2)()()()22221111ˆˆˆˆˆˆ()()2()nnnniiiiiii i i i i i i i y y y yy y y y yy y y y y ====-=-+-=-+-+--∑∑∑∑()()11ˆˆˆˆ()0nT T i i i i x x x x y yy y β-==--=∑其中:y=x ,将其代入,得到 ()22211ˆˆ()()nni i i i i i y y y yy y ==∴-=-+-∑∑ 12(1)求形如210的回归方程;(2)对上述回归方程的显著性作检验; (3)求当x =5.5时Y 的估计值.解 (1) 令212,xx x x ==,求得回归方程为:2ˆ 3.4167 2.72620.3905yx x =+- (2) 拒绝域形式为:{}21ˆc β> ()20.9521ˆ1,6ˆxxF c l σβ=>而,所以回归方程具有显著性 (3) 将 5.5x =代入回归方程,得到ˆ 6.5982y=13 设y 和变量12,x x 有形为ε++=2211x b x b y ,2(0,)N εσ的回归方程模型,试用最小二乘法求出12b b 和的估计.解 令 ()()()121212,,,,,TT Tn Y y y y βββεεε===1112121222Tn n x x x X x x x ⎛⎫=⎪⎝⎭残差平方和为 222T T T T E S Y X Y Y Y X X X ββββ=-=-+令 20E S β∂=∂,得到 112ˆ(,)()T T T X X X Y βββ-==.。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
六层Galton板(六重贝努里试验)
例5.4 小球自顶部落下,在每 一层遭遇隔板,以1/2的概率 向右(左)下落,底部六个隔 板,形成七个槽.模拟100个小 ① ② ③ ④ ⑤ ⑥ 球依次落下,统计Galton板 底部各槽中小球数 X=fix(2*rand(6,100)); Y=sum(X)+1; N=hist(Y,7) %统计 bar(N) N= 4 6 22 28 29 9 2
17/18
练习与思考题
1.美国总统选举前民意测验的抽样调查与计算面积的 蒙特卡罗方法有何相同之处? 2.甲、乙两人在下午1点到2点之间独立地随机到达 汽车站,这段时间内有四趟班车,开车时间分别为1:15, 1:30, 1:45, 2:00;问在: (1)见车就乘, (2)最多等一趟 车;两种情况下, 两人同乘一辆车的概率多大?
P{X x} 1 2
x
exp[ ( t ) / 2 ]dt
2ቤተ መጻሕፍቲ ባይዱ2
计算命令 :p = normcdf(x,mu,sigma) 逆累积分布函数值,即已知概率值p,求z 使得
P{ X z} 1 2
z
exp[ ( t ) / 2 ]dt p
P = 0.0118
55000 65000 15000 45000 45000 5000 35000 55000
12/18
正态分布变量X的数学期望,方差 2 ,密度函数
f (x) 1 2 exp[ ( x ) / 2 )
2 2
x ( , )
计算命令:y = normpdf(x,mu,sigma) 累积分布函数,即积分上限函数
S=
0.3276
16/18
填充图绘制方法 x1=0:.01:1;y1=sqrt(x1); x2=1:-.01:0;y2=x2.^2; fill([x1,x2],[y1,y2],'r') y1=-1:.1:2;y2=2:-.1:-1; x11=y1.*y1;x22=y2+2; fill([x11,x22],[y1,y2],'r') x1=-1:0.1:1; y1=x1.^2.^(1/3); x2=1:-0.1:-1; y2=2-x2.^2; fill([x1,x2],[y1,y2],'c')
P {( X , Y ) D } 24 S 1 S 2
2
24
24
2
S1
2
S 1 0 . 5 22
2
S 2 0 . 5 23
S2
O 24
X
D {( x , y ) | x 1 y x 2 , 0 x , y 24 }
5/18
相遇问题的统计试验
P = binocdf(k,n,p)
MATLAB的二项分布随机数发生器使用格式为 R= binornd(n,p,L,M) 产生 L×M 个二项分布随机数。
10/18
例5.5 有一千名以上的小学生参加保险公司的平安保 险,参加保险的小学生每人一年交保险费50元.若一年 内出现意外事故,保险公司赔付一万元。统计表明, 每年一千名小学生中平均有两名学生出事故。保险公 司赔本的概率有多大?利用二项分布随机数进行模拟, 分析:小学生出意外事故的概率为p=0.002,设随机变 量X为一年内出事故的小学生人数。X服从二项分布 B(n,p),其中n为投保人数。由于对出事故的小学生, 保险公司一次性赔付一万元,所以每年保险公司赔付 费为:X(万元)。一年中保险公司赔付费不超过总 的保险收费则会获利,如果赔付费超过总的保险收费 将会赔本。每年保险公司所获利润为总保险收费减去 总的赔付费。
11/18
function [P1,profits]=prob1(N) p=0.002; join=50;pay=10000; all=join*N; X1=fix(all/pay); %赔付最大承受人数 P1=1-binocdf(X1,N,p); %赔偿概率 puples=binornd(N,p,1,8); %八年出事故人数模拟 Pays=pay*puples; %八年赔付金模拟 %八年利润模拟 profits=all-Pays; [P,p]=prob1(1500)
D 1 {( x , y ) | x y & y x 2 } D 2 {( x , y ) | y x & x y 1 }
F=
0.1185
2
S 1 0 . 5 22
2
S 2 0 . 5 23
2
P {( X , Y ) D }
24 S 1 S 2 24
⑦
8/18
记
Y = X1 + X2 + X3 + X4 + X5 + X6
Y ~ B( n, p )
n k
Y 服从n=6的二项分布
k k
p=0.5
k =0,1,2,…,6 二项分布概率计算函数: binopdf(x,n,p) x 是n重贝努里试验中事件A出现的次数. %计算Galton试验板分布律 n=6;x=0:n; Y=binopdf(x,n,0.5) bar(x,Y) ans =
N=hist(data,n) 计算结果N是n个数的一维数组,分别表示data中各个 小区间的数据量。这种方式只计算而不绘图。
3/18
例5.1 统计10000个均匀随机数在五 个小区间的分布 。 data=rand(10000,1); hist(data,5) N5=hist(data,5)
N5 = 1969 2010 2018 1999 1 条形图是根据数据绘小矩形或 小柱体。使用格式: bar(data) 0.5 或bar3(data) 0 x=linspace(0,pi,10); y=sin(x); bar(y,'r') bar3(y,'r')
2 2
计算命令 :z = norminv(p,mu,sigma)
13/18
产生正态分布随机数的函数为 randn(),使用格式为 R=randn(m,n)
3000 2000 1000 0 -4
-2
0
2
4
产生m×n阶矩阵R,矩阵中元素都是区间(– 3,3)内的 正态随机数。 例5.6 创建10000个正态随机数,将区间[–3,3]分为十 三个小区间,分别绘频数和频率直方图。 data=randn(10000,1); 0.3 N=hist(data,13); 0.2 figure(1),bar([-3:0.5:3],N,'r') 0.1 figure(2),M=N/10000; 0 -3 -2 -1 0 1 2 3 bar([-3:0.5:3],M,'r')
2500 2000 1500 1000 500 0 0 0.2 0.4 0.6 0.8 1
2004
1 2 3 4 5 6 7 8 9 10
4/18
例5.2 相遇问题: 甲、乙两船在24小时内独立地随机到 达码头. 设两船到达码头时刻分别为 X 和 Y
均匀分布随机变量 X ~ U(0 , 24), Y ~ U(0 , 24) 如果甲船到达码头后停留2小时,乙船到达码头后停留 1小时.问两船相遇的概率有多大? Y
function F=shipmeet(N) if nargin==0,N=2000;end P=24*rand(2,N); X=P(1,:);Y= P(2,:); I=find(X<=Y&Y<=X+2); J=find(Y<=X&X<=Y+1); F=(length(I)+length(J))/N plot(X,Y,'b.') ,hold on
概率统计应用实验
随机数与统计直方图 相遇问题及其统计试验 贝努里试验与二项分布 正态随机数及应用 计算面积的蒙特卡罗方法
1/18
均匀分布随机数
O
1
MATLAB产生均匀随机数方法: rand(m,n) 产生m×n个 0,1 之间均匀随机数.随机数等可能落入区 间[0,1]内长度相等子区间中。 引例1. 观察12个1—4之间整型随机数情况 1+ fix(4*rand(1,12)) ans= 4 1 3 2 4 4 2 1 4 2 引例2. 观察1000个随机点分布情况 P=rand(2,1000); x=P(1,:);y=P(2,:); plot(x,y,'b.')
15/18
蒙特卡罗方法,或称计算机随机模拟方法,是一种基 于“随机统计”的计算方法。方法源于美国在第二次 世界大战中研制原子弹的“曼哈顿计划”。 例5.13计算两条抛物线 y =x2 ,x = y 2 所围图形的面积. 在正方形区域D内投入N个点,统计坐标满足
x y
2
x
的点P(x,y)的数目M。面积近似 计算公式为:S=M/N data=rand(N,2); x=data(:,1);y=data(:,2); II=find(y<=sqrt(x)&y>=x.^2); M=length(II); S=M/N
0.0156 0.0938 0.2344
0.3 0.2 0.1 0
P {Y k } C 6 p ( 1 p )
0
1
2
3
4
5
6
0.3125
0.2344
0.0938
0.0156
9/18
计算二项分布随机变量X=k的命令使用格式为
Pk=binopdf(k,n,p) 其中,k是随机变量取值,n是贝努里试验的重数,p 为n重贝努里试验中事件A发生的概率。 对于二项分布随机变量X,计算累加概率P{X ≤ k}的 MATLAB命令使用格式为