高考考试网
当前位置: 首页 高考资讯

中心极限定理公式例题(中心极限定理的解释和关键假设)

时间:2023-06-02 作者: 小编 阅读量: 3 栏目名: 高考资讯

简单解释中心极限定理指出,只要样本量足够大,任何分布的均值的抽样分布将是正态的。该样本分布的均值将非常接近真实的总体均值。每个平均值都是通过随机抽取100个家庭进行抽样计算得出的。图5显示了Jerry地区10,000个平均值的分布。此外,该抽样分布的均值将近似等于总体均值。显然,该国人口分布不正常。然而,在所有三种情况下,抽样分布都是正态的。

尽管是数据科学中为数不多的基本概念之一,但中心极限定理 (CLT) 仍然被误解。

围绕这些基本统计概念的问题确实会在数据科学面试中出现。 但是一些追求趋势的数据科学家经常将他们的学习时间投入到最新趋势和新算法上,但却因为没有重新审视基本概念而在面试中挂掉了。

这篇文章将帮助您更直观地理解 CLT 定理。 它还将帮助您更好地理解它的重要性以及使用时的关键假设。

简单解释

中心极限定理指出,只要样本量足够大,任何分布的均值的抽样分布将是正态的。

让我们用一个更具体的例子将上面的定义与更简单的词分开。

假设有一个200万家庭的国家,分为两个关键地区:Tom 和 Jerry。为了简单起见,让我们假设有100万家庭生活在Tom地区,100万家庭生活在Jerry地区。。

一家受欢迎的快餐连锁店招募您来帮助他们决定是否应该在该国投资并开设分店。如果他们这样做了,他们应该在 Tom 还是 Jerry 地区开设它。

假设评估每个地区人们现有饮食习惯的一个有用指标是每个家庭每周光顾快餐店的次数。你的任务是为Tom 、Jerry和整个国家解决这些问题。

在我们假设的国家/地区,Tom 每周访问的平均次数为 1.5,其分布如图 1 所示。

Jerry每周平均访问次数为3.5次,分布如图2所示。

总体而言,每周平均访问次数的分布见图3,平均值为2.5

理论上,我们可以探访这个国家每个人的饮食习惯,然后计算出平均每周到访率。然而,这在现实世界的项目中是不可行的。

我们所做的是从总体中“抽样”。所谓“样本”,我们的意思是我们可以从总体中只询问一小部分人(通常是出于良好的理由随机选择的)。

假设我们从Tom区域随机抽取100个家庭,然后计算均值。

如果我们重复同样的实验,我们会得到不同的平均值。如果我们重复同样的实验100次,我们将得到100个不同的(样本)平均值。

然后绘制这些样本均值的分布,它将看起来像一个正态分布。该样本分布的均值将非常接近真实的总体均值。

图4显示了Tom区域10,000个平均值的分布(在R中模拟)。每个平均值都是通过随机抽取100个家庭进行抽样计算得出的。

图 5 显示了Jerry地区 10,000 个平均值的分布。 同样,每个平均值都是通过对 100 个随机选择的家庭进行抽样计算得出的。

图 4 和图 5 中的分布都是正态分布。 在这一点上,您可能认为这些样本分布是正态的,因为总体分布(从中得出这些分布)是正态的。

然而,初学者可能会感到惊讶。

人口(原始)分布是什么并不重要。 如果我们抽样,并且样本足够大,样本均值的最终分布将是正态分布的。 此外,该抽样分布的均值将近似等于总体均值。

你刚刚在上面读到的是简单的 CLT 定理。

让我们使用前面的示例演示 CLT。 让我们从由 Tom 和 Jerry 地区组成的整个国家中随机选择 100 个家庭并计算平均值,并重复相同的实验 100,000 次。 图 6 显示了这 10,000 个平均值的分布。

显然,该国人口分布不正常。 即便如此,抽样分布也是正态分布,均值非常接近总体均值。

这就是 CLT 的魅力所在。 我们不需要知道随机变量的潜在分布是什么。 我们仍然可以通过抽样找出总体的均值,并正确假设抽样分布将近似正态分布。

什么使 CLT 有用?

在大多数有用的现实项目中,由于时间和资源的限制,我们无法出去从整个人群中收集数据。 然而,CLT 使我们能够自信地走出去,从人口的一个子集收集数据,然后使用统计数据得出关于人口的结论。

CLT 是假设检验的基础,这是推理统计的一个分支,可帮助我们仅从具有代表性的数据子集中得出关于总体的结论。

最后的想法

在假设示例中,Tom 和 Jerry 的人口分布是正态的,而整个国家的分布是非正态的(有两个峰值)。 然而,在所有三种情况下,抽样分布都是正态的。 这是中心极限定理的结果。 不管总体分布如何,只要样本足够大,均值的抽样分布是正态分布的。 在大多数实际应用中,通常认为大于 30 的样本量就足够了。

CLT 定理仅在要建模的分布的均值和方差是有限的情况下才有效。 因此,该定理不适用于柯西分布的情况。 如果您想进一步研究,请查看此模拟演练的两个示例,一个适用于 CLT,另一个不适用。

这篇文章中的所有数字都是用 R 生成的。带有注释的代码可以在我的 GitHub 上找到。https://github.com/syedahmar/UnderstandCentralLimitTheorem

作者:Ahmar Shah, PhD

    推荐阅读
  • 执行后多久会终本(知到执行)

    只有在执行过程中,即在执行案件立案之后被执行人注销的,才能追加相应主体。

  • 非法生产专用间谍器材罪既遂通常情况下是怎么判刑的

    非法生产、销售专用间谍器材或者窃听、窃照专用器材的,处三年以下有期徒刑、拘役或者管制,并处或者单处罚金;情节严重的,处三年以上七年以下有期徒刑,并处罚金。单位犯前款罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照前款的规定处罚。

  • 防冻液反正颜色都一样可以加吗(防冻液千万别混加)

    乙醇型,即酒精水溶液型防冻液。目前普遍使用的为乙二醇型防冻液。其降低的程度在一定范围内随乙二醇的含量增加而下降。乙二醇防冻液在使用中易生成酸性物质,对金属有腐蚀作用。乙二醇有毒,但由于其沸点高,不会产生蒸气被人吸入体内而引起中毒。最后,汽车装具网提醒车主特别注意的事:1、尽量使用同一品牌的防冻液。

  • 给芝麻脱皮的方法(怎么给芝麻脱皮)

    下面更多详细答案一起来看看吧!给芝麻脱皮的方法把要去皮的芝麻准备好,再准备一些清水,布袋以及木棍。将芝麻放入自身重2倍的清水中浸泡约30—40分钟。捞出沥水后放入干净的布袋内,把布袋口扎好,放在桌面上。刚小木棍反复拍打,直到芝麻外壳脱落即止,放入清水中洗去外壳,就能得到白净的芝麻仁。

  • 五禽戏发展过程(千年五禽戏受Z世代)

    截至目前,华佗五禽戏在互联网上的浏览量已超2亿次,通过后台数据分析,其中大部分是年轻人。华一介绍,华佗五禽戏的五种动作各有特点、各有侧重。为让华佗五禽戏更好地“走出去”,华一经常参加一些国际性活动,如今她已走遍20多个国家和地区。据了解,华佗五禽戏的发源地安徽省亳州市,中医药文化发展历史悠久,是全球最大的中药材集散中心和价格形成中心,有“中华药都”之称。

  • 免费好用的抠图软件(免费抠图软件推荐)

    很多时候,抠图对于不会PS的人来说,成了一个令人头秃的问题!PS抠图的门槛又高,其他一些抠图软件,可能又要收费,这个时候,一些免费的在线抠图网站的出现则很好的解决了这个问题!所以呢,今天的这篇文章,就给大家介绍3个超好用、而且免费的抠图网站!对了,要提醒的一下的是,PhotoRoom其实还有手机app,IOS和Android两个平台都支持!当然了,如果你不想下载手机软件,直接搜索这个网址打开就好。

  • 泡木耳的最佳方法(如何泡木耳)

    泡木耳的最佳方法根据不同的季节,我们可以使用凉水或者温水来泡发木耳,如果在冬季,我们可以选择用温水来泡发木耳。我们选择泡发木耳的时候,数量不要太多,把它控制在每餐都能够食用完。选用冷水进行泡发木耳,需要花费的时间大概在两个小时左右。如果一下子泡太多的木耳,放在常温之下,是很容易发生腐败变质,吃了也会影响到人体健康。即便我们把泡发好的木耳放在冰箱里面,尽量在当天之内把它食用完。

  • 关于感恩的句子大全(感恩的美好句子分享)

    感恩节,感谢有恩与我们的所有人,祝你们健康快乐开心,幸福一生!在这个感恩节,真心的感谢你,让我可以以坚强的意志和无谓的精神,抗击酷暑严寒,风雨雷电,而不觉疲惫和孤单。

  • 脐橙是那里的特产 脐橙产地有哪些地方

    2、全球有100多个国家和地区生产脐橙,其中主要的有美国、巴西、西班牙、墨西哥、以色列、意大利、南非、阿尔及利亚、澳大利亚和日本,中国脐橙的主要产区是湖北、重庆、江西、湖南和四川等地,广西、福建、浙江、云南、贵州也有脐橙生产。

  • 数学所有单位换算表小学(小学数学常用单位换算汇总)

    1长度单位换算,我来为大家讲解一下关于数学所有单位换算表小学?跟着小编一起来看一看吧!对立体物体的表面的多少的测量一般称表面积。容积,箱子、油桶、仓库等所能容纳物体的体积,通常叫做它们的容积。货币是价值的一般代表,可以购买任何别的商品。(二)常用单位:元角分(三)单位换算1元=10角1角=10分