袁卫案例

袁卫案例
袁卫案例

袁卫

民商法前沿:学术前沿

演讲题目:统计方法在法律和法庭审判中的应用

演讲人:袁卫

中国人民大学常务副校长

中国人民大学统计学教授、博士生导师

主持人:王利明

中国人民大学法学院院长

中国人民大学法学院教授、博士生导师

中国人民大学民商事法律科学研究中心主任

中国法学会民法学研究会会长

时间:2005年3月23日晚18:30

地点:中国人民大学贤进楼B501会议室

王利明:各位同学,大家晚上好!今天,我们非常荣幸地邀请到袁卫校长来为我们做题为“统计方法在法律和法庭审判中的应用”的演讲。首先,请允许我代表法学院对袁校长的到来表示热烈的欢迎和衷心的感谢。

袁校长是我国首批经济统计学博士、中国人民大学常务副校长、统计学教授、博士生导师、国家有突出贡献的中青年专家、入选教育部首批跨世纪优秀人才培养计划,曾获“全国优秀教师”称号和首都“五一劳动奖章”,享受政府特殊津贴。现为国务院学位委员会应用经济学学科评议组召集人、教育部经济学教学指导委员会成员、国家社科基金评审委员、中国统计学会副会长、中国统计教育学会副会长兼高校分会会长、北京市政府顾问团成员。

袁校长在应用数理统计、风险管理、精算学、保险学等方面都取得了显著的成就,主持过国家自然科学基金、国家社会科学基金等科研项目近20项,获得省部级以上教学科研奖励13项,在国内外学术刊物上发表论文70余篇,出版著作、教材、译著20余部。

他曾于1995到1996年在美国宾夕法尼亚大学华顿商学院做富布莱特(基金)访问学者。先后在美国伯克利大学、宾夕法尼亚大学、乔治亚州立大学、加拿大麦吉尔大学、日本文部省统计数理研究所、匈牙利经济大学、香港大学、台湾辅仁大学等校进行学术交流和学术演讲。

今天,袁卫校长能在百忙之中抽出时间来法学院作演讲是我们的荣幸,也是对我们工作的极大支持,再次感谢校长。

袁卫:谢谢主持人的介绍。今天来和法学院的同学做一下交流,向大家介绍一下统计在法律诉讼或者说是在法律与法庭审判中的应用,希望能够引起大家的兴趣,让大家有所关注,我想将来的法律工作者可能需要这样一个更宽的背景。

把统计应用于法庭审判,在国内还是比较新的课题,但在国外已有了几十年的经验,可以说统计学在法律诉讼中正起着越来越重要的作用。在法律方面我要向大家学习,今天统计方面会讲得少一点,主要让大家了解一下在现代法律诉讼中统计方法是如何应用的。.我们先看几个案例,都是国外的典型案例,最后再做些归纳和总结。

第一个案例是纽约停车计时收费表(Parking meter)盗窃案:

上世纪70年代纽约市政府在全市安置了70000个停车计时表,平均每天可以收集50000美元的硬币。从1978年5月开始,Brink’s公司获得了从这些计时表中收集硬币并上交纽约市财政局的合同。在此之前是由Wells Fargo公司负责这项工作。

整个收集硬币的过程是由Brink’s公司的10个三人小组完成的,按照政府的规划,每个人独自完成对部分计时表的收集工作。收集人员用一把金属钥匙打开计时表的底部,并取下一个封好的硬币盒。盒子被倒放在一个大钱罐的颈上,通过转动硬币盒,收集人员在不直接接触到硬币的情况下使硬币掉到罐子中。之后罐子被放在一个大轮子上,由收集人员从一个计时表推到另一个计时表,空盒被放回并锁好,最后罐子被面包车带回上交给政府。Brink’s公司负责监视管理收集人员。

后来市政府受到匿名的举报,说这个公司可能有人盗窃硬币,于是政府开始了一次对收集工作的调查。调查人员没有直接跟踪,而是在部分计时表中投入了涂有荧光物质的硬币,检查投入荧光币的计时表是否被收集员清空,还要检查回收的硬币中涂有荧光的硬币数量是否有所减少。调查结果表明Brink’s公司的雇员并没把所有硬币上交政府。在一处监视点,调查

人员还发现Brink’s公司的雇员从收款面包车上拖下沉重的口袋放进私人轿车。

1980年4月9日,5个Brink’s公司的收集员被当场抓到盗窃4500美元的硬币,他们被指控犯有盗窃罪以及非法占有财产罪。

政府于4月9日当天就终止了与Brink’s公司的合同,并与另一家公司(CDC)签约。同时,政府加强了监督工作。

政府同时控告Brink’s公司管理和监视失职,并要求其赔偿丢失的金额。但没有人知道究竟

丢了多少钱,赔偿金额无法准确的确定。请大家看这个表格,这些是向政府上交的硬币的数据。

最上面一行是公司一年12个月收集的天数、收集的总额、每天的收集额;后三列数据表示的是在市政厅附近、始终由政府雇员负责收集的47个计时表的收集额。前后三个公司的数据都在表格内。

法官告诫陪审团,既然犯罪事实及造成的损失已被证实,赔偿的总额不需要十分精确,只要是一个“合理且公平”的推断即可。但他同时提醒陪审员,也不能凭空猜测。

市政府没有提出无限的追诉要求,而只是要求赔偿自抓到之日起的前10个月的数额。而双方律师都要从这些数据中找出对自己有利的证据。

市政府的律师对数据作了很简单的处理,计算出被抓前10个月上交市政府的总钱数是1698万,被抓后,第三个公司10个月上交的总金额是1821万,前后的10个月相差了123万左右,但其中存在着后10个月停车较多的可能,于是要求赔偿120万左右。

被告律师则把市政府周边的47块表前10个月和后10个月的收费作了比较,发现后10个

月每个月平均比前10个月增长5.3%。同时又比较了其他的表前后收费的差距,增长率是7.2%。被告律师认为47块表的增长应当与其他表的增长一致,既然不一致,就意味着这47块表也可能存在着盗窃,经计算是32万。因此虽然承认有罪,但认为赔偿数额应当扣除32万。

除了政府律师的理由外,法庭还考虑了被抓当天丢失的4500块钱,前10个月共收集了208天,假定每天都有盗窃,按照简单乘法则应赔偿大约100万。法庭最后判决赔偿100万,同时驳回了被告关于47块表的证据,因为这47块表不是随机的样本,市政府周边的停车的变化不能够代表整个纽约市的变化,可能这些地方有限制停车或其他特殊情况,因此不能作为数据来支持论证。

这个例子应用的是非常简单的统计知识,对数据作的仅是很简单的处理。它告诉我们,当审判中需要计算赔偿数额时,赔偿数额的得出是要有证据支持的,要基本公平合理。

第二个例子是2000年美国总统大选:

大家都知道,2000年的美国总统选举是美国历史上选票最接近的选举之一,最后出现了戏

剧性的一幕。

首先介绍一下美国的总统选举:美国总统选举是按照选举人票,而不是按照实际的选民投票数来计算的。如果这个州选布什的人多,则该州的所有选举人票都归布什。11月份初全国投票已经结束,但真正的投票在参议院和众议院。参议院有一百张选票,一个州两张,表示各州之间的平等,众议院(按人数一人一票)有438票,一共538票。参议员或者众议员投谁的票不由他们自己决定,而要本州的选民投谁的票多,他们就要投谁的票,因为他们是州的代表。参议员各州是平等的,一州两名,众议院则是根据各州人数的多少来决定各州众议员人数,比如加利福尼亚州是人口最多的州,所以选举人票也就最多。

2000年的大选,49个州的选票已经统计完毕,二人相差无几,因此最后一个州——佛罗里达州的选票就成了关键。2000年11月26日,佛罗里达州的选举官员宣布布什赢得了该州的537张选举人票。这样,布什就赢得了这次大选。

但是民主党认为选票设计有问题,认为打孔机故障导致许多废票,所以要求在被认为是民主党占多数的4个县用手工方法重新点票。其中的两个县按时完成了人工重新点票的工作,而另外两个大县Miami-Dade 和Palm Beach 到点票截止时还剩9000张票没点。于是法官Sauls认为没有新的证据能够推翻布什获胜的结果。

但是在12月8日,佛罗里达州高级法院推翻了州选举委员会的结果,不仅要求在Miami-Dade 县重新点票,而且要求重新人工清点其他县的无效票。清点的结果表明,以打孔方式投的票可以重新确认的百分比在每个县是不一样的,最低是8%,最高是26%,还有70~80%的票仍是无法确认的无效票,电子扫描的废票中有5%可以重新确认。

12月12日,美国最高法院以7-2的投票结果认为佛罗里达州法院的判决违背了第14补充修正案中的同等保护条款,又以5-4的结果认定当日即12月12日是人工计票的截止日,因为佛罗里达州立法机构希望得到选民的“安全港利益”,而要得到这一利益就必须在12月12日完成选举工作。

就这样,最高法院并没有裁决谁胜谁负,而是在程序上作了决定,而到12日为止,戈尔仍是没能翻盘。双方的选票是49.8%和50.2%,实际的选民选票数十分接近,戈尔的选民投票数比布什多,但是选举人票数比布什少。

事后我们可以运用统计学对数据进行分析:

第一个问题,假定打孔机的重新确认率是26%,电子扫描的是5%,且假定已确认的选票中支持二人的比例与有效票是相同的,即假定截止后还没有清理的票中的支持比例与已知的相同,若把所有的票都点完,谁会获胜?

第二个问题,假定机器计票是所有选票的随即样本,那么戈尔获胜的可能性有多大?

第三个问题,假定法官Sauls同意民主党的要求,将选票全部清点完,戈尔的获胜率有多大?

请大家看表

这个表对每个县的数据都有记录。三种计票方式:电子扫描(optical)、打孔机(punch)、两种方法都用。第一列是投给布什的票,第二列是投给戈尔的票,第三列是投给其他人的票,第四列是戈尔比布什多的,负数就是少的,第五列是还没有点清的,我们按照已知的支持率来计算,可以得出以下结果,计算过程在这里就省略了:

如果把票继续全部点清楚,且无效票都按已知的支持率来计算的话,虽然支持民主党的四个县戈尔领先,但是其他支持布什的县也有无效票,如果全部计算进来的话,布什仍会赢。如果只点A县,戈尔会翻盘的概率是14.5%。因此总的来说戈尔翻盘的可能性并不大。

第三个例子叫做辛浦森(Simpson's Paradox)悖论:

我们先看三个例子,由复杂到简单,大家会渐渐明白这个悖论产生的原因。

第一个例子:死刑判决中是否存在种族歧视。请看下面的数据:

我们可以看到,一共是326个案例,被告的种族被简单地分为白人和黑人两类,其中160

个白人被告,166个黑人被告,共36个被判死刑。

悖论是:我们首先这样看,160个白人被告中19人被判死刑,死刑判决率是12%,166个黑人被告中17人被判死刑,死刑判决率是10%,所以如果这样看,白人的死刑判决率高于黑人。

但是如果考虑到受害者的种族,则结论完全相反:如果被害人是白人,63个黑人被告中,

有11个被判死刑,死刑判决率是17.5%,白人被告的死刑判决率则是12.6%;如果受害者是黑人,则白人的死刑判决率是0,黑人是5.8%,即如果考虑了受害者的种族,黑人的死刑判决率高出5个百分点。

我们继续看下一个例子,一会再来看为什么会这样。

第二个例子:航班晚点。

下面是美国两家航空公司在五个机场一个月的航班准时率的数据,左边是阿拉斯加航空公司、右边是西部航空公司,五个机场都是在加州。延误的航班次数除以总的航班次数,得到的就是延误率,那么准时率也就知道了。

请看表(ppt演示):

总的来看,阿拉斯加航空的准时航班是3274次,延误501次,一共发出了4275次航班,

总的延误率是15.3%。西部航空公司一共有7100次航班,延误率是12.2%。这样看是西部的延误率低一些。

但是大家再看表内各城市的延误率:在洛杉矶,阿拉斯加是12% ,西部是16%;在凤凰城阿拉斯加是5%,西部是8%,后面几个也是一样。也就是说,在所有的机场,西部的延误率都比阿拉斯加的高,但是最后总的延误率却是西部较低。

仔细看表,大家就会发现问题所在:

西部航空公司一共有6400多正点航班,但有4840次都在凤凰城,也就是说,几乎四分之

三的西部正点航班都在凤凰城,而凤凰城的延误率是5个机场里面最低的,所以就把西部总的延误率降低了。这是因为西部航空公司的总部在凤凰城,以此为中心向四周发散,而阿拉斯加的总部在西雅图,因此阿拉斯加一多半的准点航班出现在西雅图。

用统计学理论解释悖论的原因就是整体和局部的权数不一样,结构不一样。

我们再看第一个例子,160个白人被告中有151个对应着白人受害者,166个黑人被告中的63个对应白人受害者,103个对应黑人受害者,也就是说,黑人被告伤害的既有黑人又有白人。也是结构不同的问题导致了这个悖论的产生。

我们再看一个简单的例子:高校录取问题。

假设某高校只有两个系,财经系和工程系。该校报考及录取的总体情况如下:

如果总的来看两个系的情况,男生报考800人录取350人,录取率44%;女生600人报考录取200人,录取率33%。那么是不是可以得出结论说这个学校歧视女生呢?

我们用统计方法向法庭提供证据,一定要十分慎重小心。再看下面一张表:

这是工程系和财经系各自的录取情况:有800人报了工程系,其中男生600人中录了300人,女生200人中录了100人,录取率都是50%。600人报了财经系,男生报了200人录了50人,女生报了400人录了100人,录取率均为四分之一。这么看起来没有什么性别歧视。而问题的关键就在于,四分之三男生报了工程系,三分之二的女生报了财经系,仍然是结构的不同导致了悖论的产生。

最后总结一下辛浦森悖论:数据分析中局部与全部存在差异,有时方向和结论完全相反,原因往往是结构的问题,用统计专业的术语表达就是“权数”的问题。因而在将数据分析应用于法庭时要格外小心,小心数据构成的结构问题。

下一个例子是扇贝抽样和法律:

Arnold Bennett是美国MIT斯隆商学院的一名教授,在杂志Interfaces(1995年3月)中描述了最近他作为统计学“专家”提供相关服务的一个法律案例。这个案例涉及一艘远离新英格兰海岸捕捞扇贝的渔船。

为了保护幼扇贝免遭捕捞,美国渔业和野生动物保护机构规定“每个扇贝肉的重量至少1/36磅才可以捕捞”。这艘船被指控违反了这个重量标准。Bennett教授在文章中描述:

这艘船抵达马萨诸塞州的一个港口时装有11,000袋扇贝,港务人员随机抽选了其中的18袋来检查。港务人员从每一个袋中随机取出一满勺扇贝,然后算出每个扇贝肉的平均重量。港务人员根据18袋的结果估计这艘船的每个扇贝肉的平均重量为1/39磅,低于标准,于是立即没收了捕获的95%,后来进行了拍卖。

船主不服,对联邦政府提起诉讼,认为自己的捕捞符合标准,认为只选了18袋,不足以代表全体。律师问Bennett教授的问题之一就是:“能够从一个容量18的样本中得到所有扇贝的平均重量的可靠估计吗?”

于是Bennett教授进行了分析:

Bennett教授把被抽样的18袋的每袋的平均重量按照1/36磅为1的情况作了比较,0.93就是比1/36磅轻,1.14就代表比1/36磅重,数量低于1的表明是不符合标准的。

请看下面的数据,只有两袋超过了1/36磅,其他都没有到“1”,都不符合标准。

0.93 0.88 0.85 0.91 0.91 0.84 0.90 0.98 0.88

0.89 0.98 0.87 0.91 0.92 0.99 1.14 1.06 0.93

那么正如律师所问,从11000袋中只抽出18袋作为样本合不合理呢?

结论是不合理:仅用18袋作样本太小了,至少应该在30以上,才能作为推断的基本证据,否则误差很大。当然抽样中也并不是越大越好,只要样本的抽样方法是科学的,适当的样本便是好的。

比如美国总统大选时总会有一个民意测验,那么在全国2亿选民中抽多少人就可以做出比较准确的民意测验呢?答案是抽取1000到1500人,也就是50个州平均一州20~30人就可以了。30一般是基本界限,这样得出的结果误差率在+-2%之内。比如在布什与克里的大选中,有一段时间克里的支持率是49%,布什是46%,按照这个误差率,就意味着克里的支持率是在47~51%之间,布什的在44~48%之间,谁胜谁负还未可知。但是如果一个是50%,一个是45%,按照这个误差率,就意味着肯定无法翻盘。

另一个问题是,法律规定扇贝平均重量要超过1/36磅才可以捕捞,这一规定是否合理?

我们认为以平均的扇贝重量作为保护扇贝的标准是有问题的。按照这个标准,如果船上有大扇贝,即使捕捞了小扇贝,由于平均重量符合了标准也不会被罚,这并不利于保护小扇贝。应当更改这种标准,比如规定捕捞到的小扇贝的百分比不能超过5%,或者像捕鱼那样,规定网眼的大小等等,这样比较合理。

下一个案例是选择陪审团成员有无歧视的问题。

我们知道美国的陪审团是当地老百姓的代表,是随机的样本,有60名的陪审团候选人,每次要从其中选出12人组成陪审团。而陪审团候选人的抽选过程是在更广的范围里进行的,是将每个备选候选人的名字写到一张纸条上,黑人备选候选人的名字写到黄色纸条上,白人备选候选人的名字写到白色纸条上。然后将所有纸条放到一个封闭的大盒子中,随机地从中抽取。

这个案例是一个叫Avery的人诉乔治亚州,从60名陪审团候选人选出的陪审团最后判决一名黑人被告有罪。当地黑人占全部人口的5%,即黄色纸条占全部的5%,但抽出的60张纸条没有一个黄纸条。所以黑人被告上诉,认为60名陪审团候选人的抽取存在种族歧视。

问题是,从很多人中选60人,全部是白人的可能性有多少?根据统计学知识,经过计算,如果随机的独立的从所有备选人中抽选,则60个陪审团候选人全部是白人的概率(即可能性)是4.6%。这只是统计上的含义,专业技术人员在法庭上不说结论性的话,只提供证据数据,不对是否存在歧视直接下结论。我们只能说,在统计的含义上,4.6%是个小概率事件,能依此得出的结论是选择不够随机,如何理解“不够随机”,有无歧视,就都由法官来理解了。我记得加州有一个白人警察打黑人的案例,也是12个陪审团成员全部是白人,最后这个问题导致案件重判。

下一个案例是海洛因携带者审判案

一个叫Charles Shonubi的人从尼日利亚坐飞机到美国,在纽约肯尼迪机场进入美国时被海关扣留,在他的肠胃中发现了103个避孕套,内装427.4克海洛因。Shonubi被判违法携带毒品入境罪。

护照记录表明从1990年9月1日至1991年12月1日,Shonubi至少8次往返于尼日利亚和美国,于是当地法官推断前7次Shonubi也犯有贩运毒品罪。

按照联邦审判原则,量刑的长短取决于携带毒品的数量,但对前7次携带的数量警方并没有证据和线索。开始时,法官用简单乘法(427.4*8)推断8次共携带了3419.2克。这样,Shonubi 就被判151个月的监禁。

在上诉过程中,二级巡回法院认为,地区法院对前7次按同样数量进行推断的做法是不恰当的,因此驳回判决要求重审,因为判决必须建立在前7次毒品携带记录、口供或旁证等准确证据之上,不能简单推断,因为量刑与数量直接相关。

在此案重新调查审理过程中,起诉方请来了统计专家David Boyum博士,并得到了肯尼迪机场海关从1990年9月1日到1991年12月1日的(Shonubi护照上第一次和最后一次进入美国的日期),所有117次来自尼日利亚的吞咽海洛因的净重量数据,平均每次是432.1克。分布如图:

可以看到,0至100克只有一次,1000克以上也较少,比较集中的重量是在300到400克、400到500克。

通过计算机Monte Carlo模拟,Boyum博士从117个重量中随机抽出7个重量,然后求和,即假定7次都携带了海洛因,但数量不做简单推理,而看总数的规律。这样模拟了10万次,得到了10万个数据的分布:7次最少的总和是1700到1800克,最高是4400到4500克。通过计算,政府认为Shonubi在过去的7次入境中有99%的可能性违法携带了2090.2克以上的海洛因,有95%的可能性携带了2341.4克以上的海洛因,有75%的可能性携带了2712.6克以上的海洛因,有55%的可能性携带了3039.3克以上的海洛因。

法庭作了比较保守的估计,认为他至少携带了2500克的海洛因,可能性在80%左右。这比最初判决确定的数量要低一些,量刑也就轻了,虽然也是一种推断,但已经有了一定的数据根据。

下面这个案例是著名的O.J.Simpson案。

这个案子影响很大,是世界上最有名的审判之一,美国人把这个审判称为“世纪审判”。从1994年6月12日案发到1995年10月3日审判,美国共播出了5000小时的有关这个案子的电视节目,可见美国人对这个案件的重视程度。

辛普森是美国橄榄球明星,又是播音员,是个家喻户晓的人物,这个案件便是要判定他是否杀了前妻和前妻男友。

1994年6月12日(周日)晚11点左右,在洛杉矶市郊富人区,晚上跑步的人顺着狗的叫声,在辛普森前妻住宅的外面发现了其前妻和前妻男友的尸体。警察发现前妻被砍7刀,男友被砍22刀。首先被怀疑的就是辛普森,他已经和前妻离婚好几年了,且有虐待前妻的记录。警察在辛普森在富人区的房子外面的车的旁边发现了血迹,还有一只血手套,现场也有一只血手套,一左一右,是一对。

辛普森当晚已经乘航班从洛杉矶飞到了芝加哥,在得知前妻被杀时,表示很惊讶,并且立即飞了回来,但不承认自己有罪。洛杉矶警察作为检方提起诉讼,辛普森则请了美国最好的律师组成律师团。8月到11月选陪审团,最后陪审团确定为9个黑人、2个白人、1个拉美人。洛杉矶虽然黑人较多,但是比例也不是很大,但是这个陪审团却有四分之三都是黑人。

95年1月正式开始法庭辩论,检方的证据主要是:有作案动机;曾经虐待前妻;不满意前妻和其男友;经过DNA检验,血手套DNA相似的概率为99.99%。

法庭辩论中,辛普森的律师指出以下几点:手套是几年前前妻买给辛普森的,但是辛普森戴不进去,最后很困难的戴进去了;警察抽了辛普森7毫升血,最后只剩5.5毫升,有1.5毫升不知去向;没有直接目击者,也一直没有找到凶器;辛两个月前买过一把猎刀,但是上面没有找到任何血迹。

最后辛普森的律师认为发现手套的警察仇视黑人,少的1.5毫升血液可能是被这个警察为了栽赃辛普森滴到血手套上了。同时从作案时间到飞机起飞仅有半个小时,杀人后洗清血迹,然后再登机,时间并不很充裕。

美国有一句话:“一碗面条里只有一条虫。”意思是碗里只要找到一条虫子就不能吃了,再去找第二条在法律上是没意义的。这个案子,检方一开始是很顺利的,他们又提出了许多多余的证据,结果弄巧成拙。

95年10月3日,陪审团要做出最后的判决,12位陪审团成员一致认为辛普森无罪,因为已有的证据不足以认定有罪,只能做无罪推定。所有黑人欢呼雀跃,大多白人非常失望,并开始质疑陪审团制度和DNA检测。

刑事审判结束之后,在97年,法庭认定辛普森对虐待前妻以及其他一些行为要负民事责任,2月10日,判定辛普森赔偿3350万美金给他的前妻及前妻的男友。

这个案例并没有直接运用统计方法,只是我们可以注意一个细节,辛普森的律师曾经问DNA 检验专家,99.99%的概率是否就意味着辛普森一定是有罪的,专家只能说“NO”。法庭哗然。这表明,概率在法庭上只是一个可能性,只要不是100%,就不能仅依此一项证据定罪。这个案件没有直接的证人,没有直接的凶器,缺少最最重要的证据,因此只能做无罪推定。李昌钰说:“我只为证据说话,不去判断被告是否有罪。”套用一下,统计专家应当“只对数据说话,而不运用数据判断嫌疑人是否有罪”。

最后一个例子是肯塔基州牛奶案。

许多产品和服务是由政府、城市、各州或企业以招标方式购买的,购买合同最后属于报价最低者。在完全竞争市场上,这种程序会运行得非常理想,但是如果市场是没有竞争性的或者存在买卖双方的共谋现象,那么就有可能提高潜在的购买成本。美国的商法对共谋有严格的惩罚规定。

1986年,政府对佛罗里达州的学校牛奶市场竞标过程进行了统计分析,使得奶制品生产企业挽回了3300万美元的损失,这些损失完全是由学校牛奶市场上存在的共谋现象造成的。这一调查结果很快传到其他各州,在另外20个州,从学校牛奶市场竞标漏洞中追回的奶制品罚金超过1亿美元。这个例子就涉及到了对肯塔基州学校牛奶厂竞标案件的调查结果。在肯塔基州,政府每年都向奶制品生产企业招标,请他们每天为当地学校的每个学生提供半品脱液体牛奶,包括白色全脂奶、白色低脂奶、低脂咖啡奶等多种奶制品。

在北肯塔基州的13个校区中,奶制品供应商被指责非法“限价”,也就是说,供应商合谋分割垄断该地区,以便“稳操胜券”。由于该地区分属Boone,Campbell 和Kenton三县,所以这一块市场被称为“三县”市场。

从1983年到1991年,Meyer和Trauth是“三县”市场上唯一的两家竞标企业,所以,这两家企业也就自然而然地“赢得”了本地区所有的奶制品合同。相比之下,其他大多数奶制品生产商只能“分享”北肯塔基州剩余校区(称为周边市场)的订单。于是肯塔基州政府确信Meyer 和Trauth这两家生产商合谋分割了三县市场。在调查中,Meyer已经承认错误,但Trauth

顽固地“矢口否认”。

肯塔基州政府为所有争夺奶制品订单的竞标企业建立了数据库,其中的一些数据有助于我们的分析,比如奶制品的价格、数量、运输距离等。我们可以从若干个方面进行分析,比如什么叫做共谋市场、共谋的模型、市场的份额、重复率等等。我们今天只简单讲其中的几个。在自由竞争的市场中,如果一个供货商连续几年供货,则一年便是一个重复,如果重复率超过了70%,便不被法律允许。

分析市场的份额是要保证若干家互相竞争,分享市场。而在三县市场则是垄断,从84年到88年只有这两家企业,他们平分市场,固定份额,没有竞争,重复率是92%、100%,这些都是违背法律的。

我们再看竞标的过程:这是89年的投标过程,8月17日已经是快开学的日子了,这时竞标也快结束了,价格应该下降,但是这里却上升了,这在市场上是很不正常的。

最后,政府从6个角度,加上法律的依据,证明从85年到88年这4年期间两家企业存在共谋。

最后,我们总结一下:用统计的方法、数量分析的方法在法庭作证的时候,必须十分慎重,否则就会陷入陷阱。统计学家的证言,做得好可能很有效,如果有其他证据,做得不好也可能影响很小。如果一个统计学者愿意作证,就要按法律程序正式宣誓,并作好长期的准备。其中有几个要点需要注意:

1、持久性:法律诉讼持续数年,要保持前后一致;

2、措辞严谨:法庭作证表达通俗易懂并且严谨;

3、保持客观:保持客观中立,防止被利用;

4、与律师的分工:作证目的不是要赢得官司,专家和律师各有分工,不要颠倒位置;

5、高效的文件:文件严谨,注意归档,中间草稿及时销毁。

我就简单讲这些问题,希望大家能从中找到些许灵感,谢谢大家!

文字录入、审校:刘雨佳

摘要:

2005年3月23日,中心邀请中国人民大学常务副校长、中国人民大学统计学教授、博士生导师袁卫教授作题为“统计方法在法律和法庭审判中的应用”的讲座,中国人民大学法学院王利明教授作为主持人出席。

袁卫教授认为统计学在法律诉讼中正起着越来越重要的作用,并列举10个典型案例来说明统计方法如何应用于法律诉讼。

袁卫教授通过案例指出:当审判中需要计算数额时,数额的得出要有证据支持,要基本公平合理,即使是推断,也要有一定的数据根据。

通过对辛浦森悖论的讲解,袁教授指出数将数据分析应用于法庭时要格外小心,小心数据构成的结构问题。而著名的辛普森案件告诉我们概率在法庭上只是一个可能性,只要不是100%,就不能仅依此一项证据定罪。

袁教授数次强调专业技术人员在法庭上不说结论性的话,只提供证据数据,不对是非问题直接下结论。统计专家应当只对数据说话,而不运用数据判断嫌疑人是否有罪。

袁教授最后指出用统计的方法、数量分析的方法在法庭作证时,必须十分慎重,否则就会陷入陷阱。如果一个统计学者愿意作证,就要作好长期的准备,并且要注意前后一致、措辞严谨、客观中立、与律师分离以及文件的严谨。

统计学第三版袁卫编辑课后答案

统计学 第一章 1.什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学与统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。 2.简要说明统计数据的来源 答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。 3.简要说明抽样误差和非抽样误差 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。 4.答:(1)有两个总体:A品牌所有产品、B品牌所有产品 (2)变量:口味(如可用10分制表示) (3)匹配样本:从两品牌产品中各抽取1000瓶,由1000名消费者分别打分,形成匹配样本。 (4)从匹配样本的观察值中推断两品牌口味的相对好坏。 第二章、统计数据的描述 思考题 1描述次数分配表的编制过程 答:分二个步骤: (1)按照统计研究的目的,将数据按分组标志进行分组。 按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。 按数量标志进行分组,可分为单项式分组与组距式分组 单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。 统计分组应遵循“不重不漏”原则 (2)将数据分配到各个组,统计各组的次数,编制次数分配表。 2.解释洛伦兹曲线及其用途 答:洛伦兹曲线是20世纪初美国经济学家、统计学家洛伦兹根据意大利经济学家帕累托提出的收入分配公式绘制成的描述收入和财富分配性质的曲线。洛伦兹曲线可以观察、分析国家和地区收入分配的平均程度。 3. 一组数据的分布特征可以从哪几个方面进行测度? 答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常

统计学课后习题答案(袁卫)

统计学课后习题答案(袁卫、庞皓、曾五一、贾俊平)第三版 第1章绪论 1.什么是统计学?怎样理解统计学与统计数据的关系? 2.试举出日常生活或工作中统计数据及其规律性的例子。 3..一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2 440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536 kg。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)描述推断。 答:(1)总体:最近的一个集装箱内的全部油漆; (2)研究变量:装满的油漆罐的质量; (3)样本:最近的一个集装箱内的50罐油漆; (4)推断:50罐油漆的质量应为4.536×50=226.8 kg。 4.“可乐战”是描述市场上“可口可乐”与“百事可乐”激烈竞争的一个流行术语。这场战役因影视明星、运动员的参与以及消费者对品尝试验优先权的抱怨而颇具特色。假定作为百事可乐营销战役的一部分,选择了1000名消费者进行匿名性质的品尝试验(即在品尝试验中,两个品牌不做外观标记),请每一名被测试者说出A品牌或B品牌中哪个口味更好。要求: (1)描述总体; (2)描述研究变量; (3)描述样本; (4)一描述推断。 答:(1)总体:市场上的“可口可乐”与“百事可乐” (2)研究变量:更好口味的品牌名称; (3)样本:1000名消费者品尝的两个品牌 (4)推断:两个品牌中哪个口味更好。 第2章统计数据的描述——练习题 ●1.为评价家电行业售后服务的质量,随机抽取了由100家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C.一般;D.差;E.较差。调查结果如下: B E C C A D C B A E D A C B C D E C E E A D B C C A E D C B B A C D E A B D D C C B C E D B C C B C D A C B C D E C E B B E C C A D C B A E B A C D E A B D D C A D B C C A E D C B C B C E D B C C B C (1) 指出上面的数据属于什么类型;

袁卫《统计学》笔记和典型题(含历年真题)详解(数据与统计学)【圣才出品】

第1章数据与统计学 1.1 复习笔记 一、统计数据与统计学 1.统计学的概念 统计学是研究如何搜集数据、整理数据、分析数据,以便从中做出正确推断的认识方法论科学。实际上,它是一门方法论的科学而不是实质性科学。 2.统计学和统计数据的关系 统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。离开了统计数据,统计方法乃至统计学就失去了其存在的意义。 二、统计学的产生与发展 最早的统计是作为国家重要事项的记录,从统计的产生和发展过程来看,可以把统计学划分为三个时期:一是统计学的萌芽时期,主要有国势学派和政治算术学派;二是统计学的近代时期,主要有数理统计学派和社会统计学派;三是统计学的现代期,主要表现为统计学吸收数学营养的程度越来越迅速;统计学向其他学科领域渗透的能力越来越强;统计学的应用日趋广泛和深入,所发挥的功效日益增强。 三、统计学的分科

1.描述统计和推断统计 描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。推断统计主要有两种类型,即参数估计和假设检验。 2.理论统计和应用统计 理论统计是指统计学的数学原理。由于现代统计科学用到了几乎所有的数学知识,要成为优秀的统计工作者就必须经过严格的数学训练,特别是从事统计理论和方法研究的人员就必须有很好的数学基础。 四、统计数据的种类与来源 1.数据的种类 数据的种类按性质可以分为:(1)定位的数据;(2)定性的数据;(3)定量的数据;(4)定时的数据。 数据的种类按表现形式可以分为:(1)结构型数据;(2)非结构型数据。 2.数据的来源 统计数据来源于直接组织的调查、观察和科学试验,称之为第一手数据或直接的数据;或者来源于已有的数据,称之为第二手数据或间接的数据。 五、统计数据的质量 1.抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差。这种误差虽然不可避免,但是可以控制。 2.非抽样误差是相对于抽样误差而言的,是指除了抽样误差之外的,由于其他原因引起的样本观察值与总体真值之间的差异。非抽样误差特别是其中的系统偏差是可以避免,但

袁卫《统计学》配套题库【课后习题】(时间序列分析与预测)【圣才出品】

第8章时间序列分析与预测 思考题 1.联系实际举出三个时间序列的例子,并分别判断这些时间序列的性质。 答:(1)已知某人2010年全年的月收入时间序列,如表8-1所示。此时间序列各个不同时期的指标值是可以相加的,这属于时期指标时间序列。 表8-1 某人2010年全年各月收入(单位:元) (2)2003~2009年某省城镇总人口数时间序列,如表8-2所示。此时间序列各个时点的指标值是不能相加的,这属于时点指标时间序列。 表8-2 2003~2009年某省城镇总人口数(单位:万人) (3)某厂全体职工2004~2010年间各年的人均年收入时间序列,如表8-3所示。此时间序列的各个指标值也不能够直接相加,这属于平均指标时间序列。 表8-3 某厂全体职工2004~2010年间各年的人均年收入(单位:元) 2.时间序列有哪些速度分析指标?它们之间的关系是什么? 答:(1)时间序列的速度分析指标有发展速度和增长速度。

①时间序列中报告期水平与基期水平之比,称为发展速度,说明现象报告期水平较基期水平的相对发展程度。其计算公式为: 发展速度=报告期水平/基期水平=x t/x0 ②由增长量与基期水平对比可计算增长速度,说明报告期水平较基期水平增长的相对程度。起计算公式为: 增长速度=增长量/基期水平=(报告水平-基期水平)/基期水平 (2)发展速度与增长速度之间的关系为: 增长速度=发展速度-1 3.为什么平均发展速度要用几何平均法计算?计算平均发展速度的几何平均法的特点是什么? 答:(1)平均发展速度是各期环比发展速度的序时平均数,通常采用几何平均法去计算。这是由于现象发展的总速度并不等于各期环比发展速度之和,而是等于各期环比发展速度的连乘积,所以各期环比发展速度的序时平均数,不能在速度代数和基础上按算术平均方法去计算,而只能在速度连乘积基础上按几何平均法去计算。 (2)用几何平均法计算平均发展速度的特点是着眼于期末水平,不论中间水平变化过程怎样,只要期末水平确定,对平均发展速度的计算结果没有影响。或者说用几何平均法计算平均发展速度隐含着一个假定:从时间序列的最初水平出发,以计算的平均发展速度代替各期的环比发展速度,计算出的期末水平与实际的期末水平相一致。所以,计算平均发展速度的几何平均法也称为“水平法”。 4.甲企业近四年产品销售量分别增长了9%、7%、8%、6%,乙企业这四年产品的次

袁卫《统计学》(第3版)章节题库-数据与统计学(圣才出品)

第三部分章节题库 第1章数据与统计学 一、单项选择题 1.被马克思誉为“政治经济学之父,在某种程度上也是统计学的创始人”的是()。 A.布莱斯·帕斯卡 B.威廉·配第 C.费马 D.约翰·格朗特 【答案】B 【解析】布莱斯·帕斯卡和费马是古典概率论的奠基人;约翰·格朗特是人口统计的创始人。 2.统计学的两大分类是()。 A.统计资料的收集和分析 B.理论统计和运用统计 C.统计预测和决策 D.描述统计和推断统计 【答案】D 3.下列不属于描述统计问题的是()。

A.根据样本信息对总体进行的推断 B.了解数据分布的特征 C.分析感兴趣的总体特征 D.利用图、表或其他数据汇总工具分析数据 【答案】A 【解析】描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法;推断统计是研究如何利用样本数据来推断总体特征的统计方法。 4.下列叙述中,采用推断统计方法的是()。 A.用饼图描述某企业职工的学历构成 B.反映大学生统计学成绩的条形图 C.一个城市在1月份的平均汽油价格 D.从一个果园中采摘36个橘子,利用这36个橘子的平均重量估计果园中橘子的平均重量 【答案】D 【解析】推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。由题可知,根据36个橘子的平均重量估计果园中橘子的平均重量属于推断统计方法。 5.如果一个样本因人故意操纵而出现偏差,这种误差属于()。 A.抽样误差 B.非抽样误差 C.设计误差

D.实验误差 【答案】B 【解析】非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,人为干扰造成的误差,调查中由于被调查者不回答产生的误差等。 6.下列说法错误的是()。 A.抽样误差只存在于概率抽样中 B.非抽样误差只存在于非概率抽样中 C.无论是概率抽样还是非概率抽样都存在非抽样误差 D.在全面调查中也存在非抽样误差 【答案】B 【解析】抽样误差是由于抽样的随机性引起的样本结果与总体真值之间的误差;非抽样误差是相对抽样误差而言的,是指除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。抽样误差是一种随机误差,只是存在于概率抽样中,非抽样误差则不同,无论是概率抽样、非概率抽样,或是在全面性调查中,都有可能产生非抽样误差。 7.指出下面的说法哪一个是错误的?() A.抽样误差是可以避免的 B.非抽样误差是可以避免的 C.抽样误差是不可避免的 D.抽样误差是可以控制的

袁卫 曾五一 贾俊平统计学第五版课后习题 答案

各章练习题答案第2章统计数据的描述 2.1 (1)属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频率)频率% A1414 B2121 C3232 D1818 E1515 合计100100 (3)条形图(略) 2.2 (1)频数分布表如下: (2)某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%) 先进企业良好企业一般企业落后企业11 11 9 9 27.5 27.5 22.5 22.5 合计40 100.0 2.3 频数分布表如下: 某百货公司日商品销售额分组表 按销售额分组(万元)频数(天)频率(%) 25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0

合计40 100.0 直方图(略)。 2.4 (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2 660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计100 100 直方图(略)。 2.5 (1)属于数值型数据。 (2)分组结果如下: 分组天数(天) -25~-20 6 -20~-15 8 -15~-10 10 -10~-5 13 -5~0 12 0~5 4 5~10 7 合计60 (3)直方图(略)。 2.6 (1)直方图(略)。 (2)自学考试人员年龄的分布为右偏。 2.7 (1)茎叶图如下:

统计学名词解释汇总袁卫版

统计学名词解释 统计学:是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学方法:描述统计和推断统计;理论统计和应用统计。 统计数据的来源:第一手数据(直接数据);第二手数据(间接数据)。 基本概念: 总体(人们研究的所有基本单位总和) 变量(总体中个体单位所具有的特征) 样本(总体的一部分) 统计数据类型: 按采取计量尺度,分类数据(定性)、顺序数据(定性)、数值型数据(定量);按统计数据收集方法,观测数据、实验数据; 按被描述对象与时间关系,截面数据、时间序列数据(动态数据) 变量分类: 分类变量,顺序变量,数值型变量; 随机变量(某次试验结果的数值性描述),非随机变量; 经验变量,理论变量。 离散型变量和连续型变量 离散型变量,只能取有限个数值; 连续型变量,取一个或多个区间中任何值; 均值:亦数学期望,是随机变量所有可能取值的一个加权平均 参数估计:用样本统计量去估计总体的参数 估计量:用来估计总体参数的统计量的名称 点估计:用样本估计量的值作为总体参数的估计值 区间估计:在点估计的基础上,给出总体参数估计的一个范围 置信区间: 在区间估计中,由样本统计量所构造的总体参数的估计区间; 置信系数:置信区间中包含总体参数真值的次数所占的比率

评价估计量的标准:无偏性、有效性、一致性; 假设:对总体参数的具体数值所作的陈述;假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设假设是否成立的过程。 方差分析:检验多个总体均值是否相等的统计方法 数据的预处理包括哪些内容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组 频数,矩形的高度表示每一组的频数或频率,宽度表示组距, ②直方图各矩形连续排列,条形图分开排列, ③条形图主要展示分类数据,直方图主要展示数值型数据。 ④茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。一组数据的分布特征可以从哪几方面进行测度: 一是分布的集中趋势,反映数据向其中心靠拢或聚集的程度; 二是分布的离散程度,反映各数据远离其中心值的趋势; 三是分布的形状,反映数据分布偏斜程度和峰度。 简述众数、中位数、平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。 均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。 为什么要计算离散系数第一,极差、平均差、方差和标准差等都是反映数据分散程度的绝对值,其数值的大小取决于原变量值本身水平高低的影响。

袁卫《统计学》配套题库【课后习题】(统计指数)【圣才出品】

第9章统计指数 思考题 1.统计指数与数学上的指数函数有何不同?广义指数与狭义指数有何差异? 答:与数学上的“指数函数”不同,统计学中的指数是一种对比性的分析指标,可以反映不同时间(时期、时点)或不同空间(国家、地区、部门、企业等)现象水平的数量对比关系,以及现象的实际水平与计划(规划或目标)水平的数量对比关系。在经济分析的各个领域,指数工具都获得了广泛应用,因此,统计指数常常也被称为“经济指数”。 指数有广义和狭义之分。广义地讲,任何两个数值对比形成的相对数都可以称为指数;狭义地讲,指数是用于测定多个项目在不同场合下综合变动的一种相对数。从指数理论和方法上看,指数所研究的主要是狭义的指数。 2.与一般相对数比较,总指数所研究的现象总体有何特点? 答:一般相对数是考察总体中个别现象或个别项目的数量对比关系的指数;总指数是考察整个总体现象的数量对比关系的指数。它与一般相对数的区别不仅在于考察范围不同,还在于考察方法不同。总指数不能简单地沿用一般相对数的计算分析方法,也不一定能够具备一般相对数的某些直观分析性质。 3.有人认为,不同商品的销售量是不同度量的现象,因为它们的计量单位可以不同;而不同商品的价格则是同度量的现象,因为它们的计量单位相同,都是货币单位。这种看法是否正确?为什么?

答:这种看法是不完全正确的。 在统计学中,一般把相乘以后使得不能直接相加的指标过渡到可以直接相加的指标的那个因素,叫做同度量因素。同度量因素作为对比指标的媒介转化因素必须是一个水平相对固定的因素(即在同一综合指数的分子和分母中具有相同的水平),否则,它就不是同度量因素,而成为另一个对比指标了。不同商品的销售量是不同度量的现象,不仅因为它们的计量单位可以不同,而且直接加总的结果也没有实际经济意义。而不同商品的价格由于直接加总的结果没有实际意义,所以它也是不同度量的现象。 4.总指数有哪两种基本编制方式?它们各自有何特点? 答:总指数的编制有综合指数的编制和平均指数的编制两种方式。 综合指数是由两个总量指标对比形成的指数,凡是一个总量指标可以分解为两个或者两个以上的因素指标时,将其中一个或一个以上的因素固定下,仅观察其中一个因素指标的变动程度,这样编制出来的总指数称为综合指数。被固定的因素指标称为同度量因素。被研究的因素指标称为指数化指标。综合指数的特点是“先综合,后对比” 平均指数是从个体指数出发来编制总指数,也就是先算出各种产品或商品的数量指标或质量指标的个体指标,然后进行加权平均计算。是编制总指数的一种重要形式。包括加权算术平均数指数和加权调和平均数指数。平均指数的特点是“先对比,后综合” 5.有人认为,在编制价格指数时,采用帕氏公式计算得到的结果“现实经济意义”较强,因而不能采用拉氏公式。对此,你有何看法? 答:这种观点是不正确的。 因为帕氏价格指数的分子与分母之差,即∑p1q1-∑p0q1=∑(p1-p0)q1能够表明计

统计学名词解释汇总情况 袁卫版

统计学名词解释 统计学:是收集、处理、分析、解释数据并从数据中得出结论的科学。 统计学方法:描述统计和推断统计;理论统计和应用统计。 统计数据的来源:第一手数据(直接数据);第二手数据(间接数据)。 基本概念: 总体(人们研究的所有基本单位总和) 变量(总体中个体单位所具有的特征) 样本(总体的一部分) 统计数据类型: 按采取计量尺度,分类数据(定性)、顺序数据(定性)、数值型数据(定量);按统计数据收集方法,观测数据、实验数据; 按被描述对象与时间关系,截面数据、时间序列数据(动态数据) 变量分类: 分类变量,顺序变量,数值型变量; 随机变量(某次试验结果的数值性描述),非随机变量; 经验变量,理论变量。 离散型变量和连续型变量 离散型变量,只能取有限个数值; 连续型变量,取一个或多个区间中任何值; 均值:亦数学期望,是随机变量所有可能取值的一个加权平均 参数估计:用样本统计量去估计总体的参数 估计量:用来估计总体参数的统计量的名称 点估计:用样本估计量的值作为总体参数的估计值 区间估计:在点估计的基础上,给出总体参数估计的一个围 置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间; 置信系数:置信区间中包含总体参数真值的次数所占的比率 评价估计量的标准:无偏性、有效性、一致性; 假设:对总体参数的具体数值所作的述;

假设检验:先对总体参数提出某种假设,然后利用样本信息判断假设假设是否成立的过程。 方差分析:检验多个总体均值是否相等的统计方法 数据的预处理包括哪些容? 数据审核(完整性和准确性;适用性和实效性),数据筛选和数据排序。 直方图和条形图有什么区别? ①条形图使用图形的长度表示各类别频数的多少,其宽度固定,直方图用面积 表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距, ②直方图各矩形连续排列,条形图分开排列, ③条形图主要展示分类数据,直方图主要展示数值型数据。 ④茎叶图和直方图相比有什么优点? 茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。一组数据的分布特征可以从哪几方面进行测度: 一是分布的集中趋势,反映数据向其中心靠拢或聚集的程度; 二是分布的离散程度,反映各数据远离其中心值的趋势; 三是分布的形状,反映数据分布偏斜程度和峰度。 简述众数、中位数、平均数的特点和应用场合。 众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数主要作为分类数据的集中趋势测度值。 中位数是一组数据中间位置上的代表值,不受数据极端值的影响。中位数以及其他分位数主要适合于作为顺序数据的集中趋势测度值。 均值是就数值型数据计算的,具有优良的数学性质,缺点是易受数据极端值的影响。均值主要适合于作为数值型数据的集中趋势测度值。 为什么要计算离散系数。

袁卫《统计学》(第3版)课后习题-数据与统计学(圣才出品)

第二部分课后习题 第1章数据与统计学 1.什么是统计学?怎样理解统计学与统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学,其目的是探索数据内在的数量规律性。 统计学是由收集、整理、显示和分析统计数据的方法组成的,这些方法来源于对统计数据的研究,目的也在于对统计数据的研究。离开了统计数据,统计方法乃至统计学就失去了其存在的意义。 2.试举出日常生活或工作中统计数据及其规律性的例子。 答:(1)对人类性别比例的调查,新生婴儿男女性别比为105:100,如果没有人为的干扰,其规律是婴幼儿时男性略多于女性,中青年时男女人数大致相同,老年时女性又略多于男性。 (2)施肥量与粮食产量之间的数量关系的调查研究,其规律性为某种粮食作物的产量会随某种施肥量的增加而增加。当开始增加施肥量时,产量增加较快。以后增加同样的施肥量,粮食产量的增加量逐渐减少。当施肥量增加到一定数值量,产量不再增加。这时如果再增加肥料,产量反而会减少。 (3)商品广告费用与销售额的关系的调查,其规律性为,随着广告费用的增加,商品的知名度和销售额会相应增加。

3.简要说明统计数据的来源。 答:统计数据的来源大致分为两种,其中来源于直接组织的调查、观察和科学试验的数据,称为第一手数据或直接的数据;来源于已有的数据,称为第二手数据或间接的数据。 4.获取直接统计数据的渠道主要有哪些? 答:(1)对于社会经济管理和决策而言,主要是通过统计调查的方式获取数据,如客户满意度调查、电视收视率调查、家庭收支情况调查、居民闲暇时间利用调查等。 (2)在自然科学和工程的研究领域,通常是通过科学实验的方法获得研究的统计数据。 5.简要说明抽样误差和非抽样误差。 答:(1)抽样误差是利用样本推断总体时产生的误差;抽样误差对任何一个随机样本来讲都是不可避免的。但它又是可以计量的,并且是可以控制的。在坚持随机原则的条件下,一般来讲,样本量越大,抽样误差就越小。 (2)非抽样误差是由于调查过程中各有关环节工作失误造成的。它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差等。非抽样误差在普查、抽样调查中都可能发生。显然,从理论上看,这类误差是可以避免的。 6.一家大型油漆零售商收到了客户关于油漆罐分量不足的许多抱怨。因此,他们开始检查供货商的集装箱,有问题的将其退回。最近的一个集装箱装的是2440加仑的油漆罐。这家零售商抽查了50罐油漆,每一罐的质量精确到4位小数。装满的油漆罐应为4.536kg。要求:

应用统计学(第三版袁卫-庞皓-曾五一-贾俊平主编)各章节课后习题答案

附录1:各章练习题答案第1章绪论(略) 第2章统计数据的描述 2.1 (1)属于顺序数据。 (2)频数分布表如下: 服务质量等级评价的频数分布 服务质量等级家庭数(频率)频率% A1414 B2121 C3232 D1818 E1515 合计100100 (3)条形图(略) 2.2 (1)频数分布表如下: (2)某管理局下属40个企分组表 按销售收入分组(万元)企业数(个)频率(%) 先进企业良好企业一般企业落后企业11 11 9 9 27.5 27.5 22.5 22.5 合计40 100.0 2.3 频数分布表如下: 某百货公司日商品销售额分组表 按销售额分组(万元)频数(天)频率(%) 25~30 30~35 35~40 40~45 45~50 4 6 15 9 6 10.0 15.0 37.5 22.5 15.0 合计40 100.0 直方图(略)。

2.4 (1)排序略。 (2)频数分布表如下: 100只灯泡使用寿命非频数分布 按使用寿命分组(小时)灯泡个数(只)频率(%)650~660 2 2 660~670 5 5 670~680 6 6 680~690 14 14 690~700 26 26 700~710 18 18 710~720 13 13 720~730 10 10 730~740 3 3 740~750 3 3 合计100 100 直方图(略)。 2.5 (1)属于数值型数据。 (2)分组结果如下: 分组天数(天) -25~-20 6 -20~-15 8 -15~-10 10 -10~-5 13 -5~0 12 0~5 4 5~10 7 合计60 (3)直方图(略)。 2.6 (1)直方图(略)。 (2)自学考试人员年龄的分布为右偏。 2.7 (1

相关主题
相关文档
最新文档