史上最详细概念解析:什么是置信区间和置信水平。

2018-05-11来源:
英度教育SAT名师张宇老师今天就给同学们带来史上最详细概念解析:什么是置信区间和置信水平。

新SAT推出已经有2年时间,虽说整体变化相比于老SAT并不大,但是新SAT中增加的一些新概念还是给很多同学带来了不少困扰,尤其是统计学方面的知识,因为这些概念原本是AP统计学里会涉及的,而很多同学备考SAT的时候还没有学AP,或者即使学了也没有选修统计学。为了帮助同学们更好的备考,英度教育SAT名师张宇老师今天就给同学们带来史上最详细概念解析:什么是置信区间和置信水平。

 

让我们先看一个题:

A random sample of 35 four-door passenger vehicles had a mean gas mileage, in miles per gallon (mpg), of 25.9 mpg. The estimate had a margin of error of 2.6 mpg at a 95% confidence level. Of the following, which is most plausible value for the true mean of the mileage of four-door passenger vehicles in general?

A.   24 mpg

B.   29 mpg

C.   32 mpg

D.   35 mpg

 

题目是这样的,我们现在要算一个城市里所有汽车的油耗均值(我的天,鬼知道一个城市有多少汽车,即使知道我们也没办法去测量每辆车的油耗呀?抓狂中….)为了解决这个问题,统计学家想了个办法,就是题中说的我们找了一个样本,这个样本里有35个汽车的油耗数据(注意⚠️:一个样本未必只有一个值!样本是我们用统计学方法得到的一种数据,可以是1个,也可以是很多个),根据这35个数据算出了一个油耗平均值是25.9mpg。而我们的目的是希望通过用这个样本算出来的平均值去尽可能“准确”的“估计”所有汽车的油耗均值,而用什么办法去估计呢?就是后文给出的 “The estimate had a margin of error of 2.6 mpg at a 95% confidence level”这个办法。也就是我们接下来要讲的重点:

 

The estimate had a margin of error of 2.6 mpg at a 95% confidence level这句话的意思是“在95%的置信水平下的边际误差是2.6”。首先我们来看什么是边际误差是2.6?我们现在已经知道了一个样本的油耗均值是25.9mpg,但是因为我们毕竟只是抽了这么一个样本,如果就把这个值当真正的均值未免有些太粗糙太草率了,就好比大家现在玩的微信游戏跳一跳,我只玩了一次,分数是213分(惭愧…),就说所有玩跳一跳的人分数的均值就是213,恐怕说出来都没几个人信。但是如果我查了100000个人的分数,然后算出一个分数范围[132,712],我说真实值会落在这个范围里,这种说法是不是比孤零零的一个213更有说服力?!所以这个边际误差的意思就是我们通过一种算法,在25.9mpg基础上,给出了一个范围,而这个范围就是25.9±2.6,即[23.3,28.5]这个区间,而这个区间就叫置信区间,之所以叫“置信”区间,就是我们“相信”真实的均值很有可能会落在这个范围内。那么到底有多大的可能呢?这就是我们前面说的95%的置信水平(confidence level)。这里我们首先要说明一个同学们最容易理解错误的地方:

错误理解:95%置信区间就是有95%的概率包括真实值

 

很多同学会把95%理解为95%的概率!而95%置信水平的真正意思是:如果我们重新随机选100个样本,按照构造上面这个置信区间(即[23.3,28.5])的方法构造100个置信区间(注意这100个置信区间可能都不一样),会有95个置信区间包含真正的均值,5个不包含真正的均值。

 

这里对于置信区间[23.3,28.5]有2点理解至关重要:

1.置信区间是随机的,会根据样本的不同而变化,我们题目中算出的[23.3,28.5]只是其中的一个“确定”的区间而已,它的作用是来反衬这种方法的。

 

2.这100个置信区间一旦算出来就确定了,而真实的均值也是一个确定的值(只是我们不知道而已,上帝知道),两个都是确定的量,对于这100个区间里的任意一个区间而言,真实的均值要么在这个区间里,要么不在,根本不存在以多大的概率落在区间里。例如真实均值如果是26,那么它就一定在[23.3,28.5]这个区间里,如果均值是30,那么就一定不在[23.3,28.5]里。所以我们不能说置信区间以多大的概率包含真实值。

 

综上所述,对于这个题的正确理解是:我们能根据给的样本均值和边际误差构造一个区间[23.3,28.5],这个区间的构造方法的可信度是95%(也就是说按这个方法构造100个区间,有95个包含真实值),至于[23.3,28.5]这个区间要么包含真实值,要么不包含。

 

既然我们已经算出一个置信区间[23.3,28.5],当然可以说真实值就可能落在这个范围内呀,如果落在这个区间内,那么A选项的24就符合条件,就是它了。当然,有同学可能会问:那真实值也可能不在这个区间内呀?没错,所以题目问的是which is most plausible value for the true mean,注意是“可能值”,因为根据题目我们也只能算出这一个置信区间,当然也只能用它作为“可能”的情况喽。

 

总结一下,对于置信区间以及置信水平的理解有以下2个要点:

1.95%不是概率!我们可以说“we have 95% confidence that the true value is between [a,b]”即我们有95%的信心,真实值会落在这个区间内。但坚决不能说区间有95的probability含真实值。

 

2.题中算出的置信区间的确是“可能”含真实值的,但是这个“可能”的意思是要么含,要么不含!一般做题时我们都默认这个置信区间包含真实值(你懂的,要不还考啥

更多雅思托福提分内容,免费为你解答! 点击报名→
校区地址
小寨校区:长安路38号小寨领秀城8层
电话:029-85253108
高新校区:高新区高新路51号尚中心2层
电话:029-85253108

关注我们

经营许可证编号:陕ICP备17005353号 | 陕IPC证17005353号 | 陕网文17005353号 | 陕公网备17005353号

Copyright 2011-2016 Corporation,All Rignts Reserved