高考考试网
当前位置: 首页 高考资讯

中心极限定理公式例题(中心极限定理的解释和关键假设)

时间:2023-06-02 作者: 小编 阅读量: 6 栏目名: 高考资讯

简单解释中心极限定理指出,只要样本量足够大,任何分布的均值的抽样分布将是正态的。该样本分布的均值将非常接近真实的总体均值。每个平均值都是通过随机抽取100个家庭进行抽样计算得出的。图5显示了Jerry地区10,000个平均值的分布。此外,该抽样分布的均值将近似等于总体均值。显然,该国人口分布不正常。然而,在所有三种情况下,抽样分布都是正态的。

尽管是数据科学中为数不多的基本概念之一,但中心极限定理 (CLT) 仍然被误解。

围绕这些基本统计概念的问题确实会在数据科学面试中出现。 但是一些追求趋势的数据科学家经常将他们的学习时间投入到最新趋势和新算法上,但却因为没有重新审视基本概念而在面试中挂掉了。

这篇文章将帮助您更直观地理解 CLT 定理。 它还将帮助您更好地理解它的重要性以及使用时的关键假设。

简单解释

中心极限定理指出,只要样本量足够大,任何分布的均值的抽样分布将是正态的。

让我们用一个更具体的例子将上面的定义与更简单的词分开。

假设有一个200万家庭的国家,分为两个关键地区:Tom 和 Jerry。为了简单起见,让我们假设有100万家庭生活在Tom地区,100万家庭生活在Jerry地区。。

一家受欢迎的快餐连锁店招募您来帮助他们决定是否应该在该国投资并开设分店。如果他们这样做了,他们应该在 Tom 还是 Jerry 地区开设它。

假设评估每个地区人们现有饮食习惯的一个有用指标是每个家庭每周光顾快餐店的次数。你的任务是为Tom 、Jerry和整个国家解决这些问题。

在我们假设的国家/地区,Tom 每周访问的平均次数为 1.5,其分布如图 1 所示。

Jerry每周平均访问次数为3.5次,分布如图2所示。

总体而言,每周平均访问次数的分布见图3,平均值为2.5

理论上,我们可以探访这个国家每个人的饮食习惯,然后计算出平均每周到访率。然而,这在现实世界的项目中是不可行的。

我们所做的是从总体中“抽样”。所谓“样本”,我们的意思是我们可以从总体中只询问一小部分人(通常是出于良好的理由随机选择的)。

假设我们从Tom区域随机抽取100个家庭,然后计算均值。

如果我们重复同样的实验,我们会得到不同的平均值。如果我们重复同样的实验100次,我们将得到100个不同的(样本)平均值。

然后绘制这些样本均值的分布,它将看起来像一个正态分布。该样本分布的均值将非常接近真实的总体均值。

图4显示了Tom区域10,000个平均值的分布(在R中模拟)。每个平均值都是通过随机抽取100个家庭进行抽样计算得出的。

图 5 显示了Jerry地区 10,000 个平均值的分布。 同样,每个平均值都是通过对 100 个随机选择的家庭进行抽样计算得出的。

图 4 和图 5 中的分布都是正态分布。 在这一点上,您可能认为这些样本分布是正态的,因为总体分布(从中得出这些分布)是正态的。

然而,初学者可能会感到惊讶。

人口(原始)分布是什么并不重要。 如果我们抽样,并且样本足够大,样本均值的最终分布将是正态分布的。 此外,该抽样分布的均值将近似等于总体均值。

你刚刚在上面读到的是简单的 CLT 定理。

让我们使用前面的示例演示 CLT。 让我们从由 Tom 和 Jerry 地区组成的整个国家中随机选择 100 个家庭并计算平均值,并重复相同的实验 100,000 次。 图 6 显示了这 10,000 个平均值的分布。

显然,该国人口分布不正常。 即便如此,抽样分布也是正态分布,均值非常接近总体均值。

这就是 CLT 的魅力所在。 我们不需要知道随机变量的潜在分布是什么。 我们仍然可以通过抽样找出总体的均值,并正确假设抽样分布将近似正态分布。

什么使 CLT 有用?

在大多数有用的现实项目中,由于时间和资源的限制,我们无法出去从整个人群中收集数据。 然而,CLT 使我们能够自信地走出去,从人口的一个子集收集数据,然后使用统计数据得出关于人口的结论。

CLT 是假设检验的基础,这是推理统计的一个分支,可帮助我们仅从具有代表性的数据子集中得出关于总体的结论。

最后的想法

在假设示例中,Tom 和 Jerry 的人口分布是正态的,而整个国家的分布是非正态的(有两个峰值)。 然而,在所有三种情况下,抽样分布都是正态的。 这是中心极限定理的结果。 不管总体分布如何,只要样本足够大,均值的抽样分布是正态分布的。 在大多数实际应用中,通常认为大于 30 的样本量就足够了。

CLT 定理仅在要建模的分布的均值和方差是有限的情况下才有效。 因此,该定理不适用于柯西分布的情况。 如果您想进一步研究,请查看此模拟演练的两个示例,一个适用于 CLT,另一个不适用。

这篇文章中的所有数字都是用 R 生成的。带有注释的代码可以在我的 GitHub 上找到。https://github.com/syedahmar/UnderstandCentralLimitTheorem

作者:Ahmar Shah, PhD

    推荐阅读
  • 野猪能长多大 野生野猪一年长多大

    野猪是一种中型哺乳动物,对环境适应性极强,在适合各地都有分布。最佳答案:一般情况下,野猪能长150kg左右,具体会受到饲养方式、品种等因素影响。比如纯种野猪自然生长状态下一年能长30-70kg左右,如果是人工饲喂的野猪,能长到80kg以上,杂交之后的特种野猪体重可达200kg以上。

  • 年会感言一句话(年会感言精选)

    新的一年,严峻依旧。惟有坚定信心,同心协力才能共度难关。祝福公司再创辉煌,前景无限。2021年,学会珍惜,感激。感激相遇,感恩相伴。2021年,就是人生新的开始,美好的开始。今天,开工大吉,大吉大利;2021,心想事成,万事如意!成功与失败都是暂时的,在成功处跌到便是失败,在失败处勇敢站起就是成功。2021年要继续加油哦!

  • 阑尾炎右下腹有点胀痛(阑尾炎患者一定有右下腹痛吗)

    今年的高考,有一名考生因为考试前天做阑尾炎手术,被协警用担架抬进考场而上了热搜。怀孕的准妈妈们,由于子宫变大,可以将阑尾向上推很远。人吃的食物,从胃到小肠逐渐被消化,变成臭臭的便便,经过大肠达到肛门后排向马桶。便便一路向西,正常的行程是不包括阑尾的。疼痛轻、炎症不重时,阑尾炎也诊断困难。因为很多疾病都是需要鉴别诊断的,尤其是腹部疾病。发烧的温度与阑尾的炎症程度有关。

  • 金丝猴蕨养殖方法(金丝猴蕨如何养殖)

    经常给金丝猴蕨进行翻土处理,有效促进根部的吸收。温度金丝猴蕨适宜生长温度在20~27℃之间,温度适宜,可以促进金丝猴蕨的有效生长。冬季气温降低,需要将金丝猴蕨移放室内养护,避免低温造成叶片被冻伤。施肥金丝猴蕨的生长离不开充足的养分补充,在生长期,需要每个月施加1次有机肥液。肥料多选择腐熟的液肥,为植株提供养分,可以有效促进金丝猴蕨的生长。

  • headway轮胎是啥牌子(headway轮胎是什么牌子)

    但在2018年7月初,恒宇硫化橡胶宣布公布破产重整工作中,而headway这一轮胎知名品牌也继而消退在人们眼下。新车刹车盘生锈表明该辆新车置放时间长,但也应属正常的状况。新车刹车盘生锈与材料有关系,绝大多数机动车的刹车盘是生铁材料,与空气中的水份触碰,在所难免被锈蚀。这时候还可以将汽车刹车片拆装出来后开展打磨抛光,但会减少刹车盘的使用期限,最好拆换新的刹车盘。

  • 保障金融服务服从抗疫大局农行(抗疫有我农行在行动)

    疫情发生以来,农行深圳分行主动走进海吉星等专业市场,积极了解企业需求,及时提供信贷支持。为有效助力小微企业抗击疫情,农行深圳分行推出多项支持抗疫专项贷款产品。截至今年2月末,该行降费政策累计惠及小微企业和个体工商户数量已逾19万户,累计降费金额超2700万元。聚焦社会民生灵活提供金融服务为有效管控疫情传播扩散风险,切实保障人民群众身体健康,农行深圳分行辖内所有网点3月14日至20日停止对外营业。

  • 懑怎么读(懑的意思是什么)

    下面更多详细答案一起来看看吧!王光汉指出,懑当是“愤恨”的意思。

  • 苹果手机快手闪退怎么回事 苹果手机快手闪退怎么解决

    苹果手机快手闪退的原因及解决方法如下:1、该软件缓存较多导致无法正常运行,建议清除软件缓存尝试,在设置中查找应用程序管理器”,清除数据即可。

  • 丰田avalon是啥车(丰田avalon车型)

    亚洲龙是丰田旗下的一款中型轿车,这款车的轴距为2870毫米,长宽高分别是4975毫米,1850毫米,1450毫米。亚洲龙的2.0升自然吸气发动机拥有178马力和210牛米的最大扭矩,这款发动机可以在6600转每分钟时输出最大功率,可以在4400到5200转每分钟时输出最大扭矩。这款发动机搭载了vvt-ie技术和混合喷射技术,并且使用了铝合金缸盖缸体。亚洲龙还有一款混动版车型,混动版车型搭载了2.5升自然吸气发动机。

  • 斯巴达300勇士最后赢了多少(聊聊斯巴达300勇士中那些真实的历史)

    聊聊斯巴达300勇士中那些真实的历史《斯巴达300勇士》改编自黑马公司于1998年出版的战争历史漫画《300》,并非改编自真实历史,说白了这部电影就是一部拍出来让大家过瘾的动作爽片,所以用一部历史剧的标准去要求人家是不公平的300不过爽。