高考考试网
当前位置: 首页 高考资讯

概率分布初步讲解(每个数据科学家应该知道的概率分布)

时间:2023-07-19 作者: 小编 阅读量: 1 栏目名: 高考资讯

每个数据科学家应该知道的概率分布出品|CDA数据分析研究院,转载须授权概率分布就像3D眼镜它们允许熟练的数据科学家识别其他完全随机变量的模式在某种程度上,大多数其他数据科学或机器学习技能都基于对数据概率分布的某些假设这使得概率知识成。

出品 | CDA数据分析研究院,转载须授权

概率分布就像3D眼镜。它们允许熟练的数据科学家识别其他完全随机变量的模式。

在某种程度上,大多数其他数据科学或机器学习技能都基于对数据概率分布的某些假设。

这使得概率知识成为您作为统计学家构建工具箱的基础。如果您正在寻找如何成为数据科学家的第一步 。

不用多说,让我们切入主题。

什么是概率分布?

在概率论和统计学中, 随机变量 是一个随机值的东西 ,比如“我看到的下一个人的身高”或“我下一个拉面碗里的厨师毛发量”。

给定一个随机变量 X,我们想要一种描述它需要的值的方法。更重要的是,我们想要描述 该变量 获取特定值x的可能性。

例如,如果 X 是“我的女朋友有多少只猫”,那么这个数字可能是1的非零概率。有人可能会认为这个值甚至可能是5或10的非零概率。

然而,没有办法(因此没有可能)一个人会有负面情绪的猫。

因此,我们想要一种明确的数学方法来表达 变量 X 可以采用的每个可能值 x,以及事件(X = x)的可能性 。

为了做到这一点,我们定义函数 P,使得 P(X = x) 是变量X 具有值 x的概率 。

对于间隔而不是离散值,我们也可以要求P(X x)。这将很快变得更加重要。

P 是变量的 密度函数,它表征变量的 分布

随着时间的推移,科学家们开始意识到自然界中的许多事物,现实生活往往 表现相似,变量共享一个分布,或具有相同的密度函数(或类似的函数改变其中的一些常数)。

有趣的是,对于 P 是一个实际的密度函数,有些事情必须适用。

  • 对于任何值 x,P(X = x) <= 1。没有比确定更确定的了。
  • 对于任何值 x,P(X = x)> = 0。事情是不可能的,但不是那么可能。
  • 和最后一个:所有 P(X = x)的概率和对应的 所有可能的值 X 为1

最后一个意味着“X在宇宙中取任何价值的概率,必须加起来为1,因为我们知道它会带来 一些 “价值”。

离散与连续随机变量分布

最后,随机变量可以被认为属于两组:离散连续随机变量。

离散随机变量

离散变量 具有一组离散的可能值,每个值都具有非零概率。

例如,如果我们说,当翻转硬币时

X =“如果硬币1是头,0则是尾巴”

然后 P(X = 1)= P(X = 0)= 0.5

但是请注意,离散集合不必是有限的。

几何分布,被用于建模的一些事件的概率的几率 p 之后发生 ķ 次。

它具有以下密度公式。

其中 k 可以采用具有正概率的任何非负值

注意所有可能值的概率之和如何仍然 加起来为1

连续随机变量

如果你说

X =“从我头上随机拔毛的长度(以毫米为单位)”

X可以 采用哪些可能的值 ?我们都可能都认为负值在这里没有任何意义。

但是,如果你说它只是1毫米,而不是1.1853759 ......或类似的东西,我会怀疑你的测量技巧,或你的测量错误报告。

连续随机变量可以 在给定(连续)间隔中取 任何值

因此,如果我们为其所有可能值分配了 非零概率,则它们的总和 不会加起来为1

为了解决这个问题,如果 X 是连续的,我们 为所有 k设置 P(X = x)= 0,而是为X赋予一个非零的机会 获取某个间隔的值

为了表示在值 ab之间放置X的概率,我们说P(a <X <b)

而不是仅仅在一个密度函数替换值,得到 P(A <X <B)X 连续变量,你会集成 X的密度函数 。

现在您已经知道了概率分布是什么,让我们了解一些最常见的分布!

伯努利概率分布

具有伯努利分布的随机变量是最简单的。

它代表一个 二进制事件:“这件事发生” VS“这种情况没有发生”,并采取了值 p作为其 唯一的参数,它代表的 概率会发生的事件

具有参数p的伯努利分布的 随机变量 B 将具有以下密度函数:

P(B = 1)= p,P(B = 0)=(1-p)

这里 B = 1 表示事件发生,B = 0 表示事件 没发生。

注意两个概率如何加起来为1,因此B的其他值 都不可能。

均匀概率分布

有两种均匀随机变量:离散变量和连续变量。

离散均匀分布 将采取 (有限的) 值的集合 ,和的概率分配 的1 / n ,其中他们每个人,的 Ñ 是在元素的量 小号

这样,如果我的变量 Y 在{1,2,3}中是均匀的,则每个值出现的概率为33%。

骰子中可以找到离散均匀随机变量的典型情况 ,其中典型的骰子具有一组值{1,2,3,4,5,6}。

连续均匀分布,相反,只需要 两个值 a 和 b 作为参数,和相同的密度分配给在每个值 在它们之间的间隔

这意味着Y 在一个区间 (从 cd取值的概率 与其大小 相对于整个区间(ba)的大小成比例

因此,如果 Yab之间均匀分布 ,那么

这样,如果 Y 是1和2之间的均匀随机变量,

P(1 <X <2)= 1P(1 <X <1.5)= 0.5

Python的 random 包的 random 方法在0和1之间采样均匀分布的连续变量。

有趣的是,可以证明, 在给定均匀随机值生成器和一些微积分的情况下,可以对 任何其他分布进行采样 。

正态概率分布

通常分布的变量在自然界中很常见,它们实际上是常态。这实际上就是这个名字的来源。

如果你把所有的同事都围起来并测量他们的高度,或者对它们进行称重并用结果绘制直方图,则可能会接近正态分布。

当我向您展示探索性数据分析示例时,我实际上看到了这种效果 。

还可以证明,如果您 采用 任意随机变量的样本并对 这些度量进行平均,并多次重复该过程,则该平均值也将具有 正态分布。这个事实非常重要,它被称为统计学的基本定理。

通常分布的变量:

  • 对称的,以均值为中心(通常称为 μ)。
  • 可以在真实空间中获取 所有值,但仅在5%的时间内偏离规范的两个sigma。
  • 几乎无处不在

大多数情况下,如果你测量任何经验数据并且它是对称的,假设它是正常的将有点工作。

例如,滚动 K 骰子并将结果相加将分配非常正常。

对数正态概率分布

对数正态概率分布是正常概率分布的较小,较不常见的。

如果变量 Y = log(X) 遵循正态分布, 则称变量 X是对 正态分布的。

当在直方图中绘制时,对数正态概率分布是 不对称的,并且如果它们的标准偏差更大则变得更加如此。

我认为 对数正态分布 值得一提,因为 大多数基于货币的变量都是 这样的。

如果你看一下与钱有关的任何变量的概率分布,比如

  • 在某个银行的最新转账上发送的金额。
  • 华尔街最新交易量。
  • 一组公司在特定季度的季度收益。

它们通常没有正态的概率分布,但会更接近对数正态随机变量。

(对于其他数据科学家:如果你能想到你在工作中遇到的任何其他经验对数正态变量,请参阅评论中的内容!尤其是财务之外的任何事情)

指数概率分布

指数概率分布也 随处可见。

它们与称为泊松过程的概率概念密切相关 。

直接从维基百科窃取, 泊松过程 是“ 事件以恒定的平均速率连续且独立地发生的过程 ”。

所有这些意味着,如果:

  • 你有很多活动。
  • 它们以一定的速率发生( 随时间变化)。
  • 仅仅因为一个发生了另一个发生的机会不改变。

然后你有一个泊松过程。

一些例子可能是来到服务器的请求,在超市中发生的交易,或在某个湖中捕鱼的鸟类。

想象一下频率为λ的泊松过程(比如,事件每秒发生一次)。

指数随机变量模拟事件发生后下一个事件发生所需的时间。

有趣的是,在泊松过程中 ,事件可以在任何时间间隔内发生在0到无穷大之间降低概率)的任何地方。

这意味着 无论您等待多久,事件都不会发生非零事件。这也意味着它可能在很短的时间内发生很多次。

在课堂上,我们常常开玩笑的是巴士到达泊松过程。我认为将WhatsApp消息发送给某些人时的响应时间 也符合标准。

但是,λ参数 调节 事件的频率

它将使 事件实际发生 的 预期时间以某个值为中心

这意味着如果我们知道出租车每隔15分钟通过我们的街区,即使理论上我们 可以 永远等待它,我们也很可能不会等待30分钟。

数据科学中的指数概率分布

这是指数分布随机变量的密度函数:

假设您有一个来自变量的样本,并希望查看它是否可以使用指数分布变量建模。

最佳 λ参数可以很容易地估计 为采样值平均值的倒数。

指数变量非常适合用非常罕见但巨大(和平均值)的异常值对任何概率分布进行建模 。

这是因为它们可以 取任何非负值 但以较小值为中心,随着值的增加频率降低。

在特别是 异常繁重的样本中,您可能希望将λ估计为中 位数而不是平均值,因为中位数对异常值更为 稳健。你的里程可能会有所不同,所以一定要带上一粒盐。

结论

总而言之,作为数据科学家,我认为学习基础知识对我们很重要。

概率和统计可能不像深度学习或 无监督机器学习那样华而不实 ,但它们是数据科学基石。特别是机器学习。

根据我的经验,提供具有功能的机器学习模型,而不知道他们遵循哪种分布,这是一个糟糕的选择。

记住无处不在的指数和正态概率分布以及它们较小的对应物,对数正态分布也是很好的 。

在训练机器学习模型时,了解它们的属性,用途和外观会 改变游戏规则。在进行任何类型的数据分析时,记住它们通常也很好。

英文标题:Probability Distributions Every Data Scientist Should Know

,
    推荐阅读
  • 嘴巴上火能吃海鲜吗 嘴巴上火能吃海鲜吗?

    海鲜属于寒性的食物,一般情况下适量食用的话是不会出现上火症状的,但是因为海鲜中含有较多的蛋白质,而蛋白质比较难消化,对肠胃来说负担比较重。如果食用过多海鲜导致摄入的蛋白质无法被人体肠胃完全消化吸收时,堆积在体内的蛋白质就有可能使人体出现口干舌燥、口舌生疮、大便秘结等上火的症状,因此建议适量食用即可。

  • 科威特的首都是哪个城市(科威特的首都是科威特城)

    以下内容大家不妨参考一二希望能帮到您!科威特城是科威特首都,科威特政治、经济、文化中心和重要港口;也是波斯湾海上贸易的国际通道。位于波斯湾西岸,风光明媚、绚丽多姿,是阿拉伯半岛一颗明珠。年最高气温55℃,最低8℃。面积80平方公里。人口38万,居民信奉伊斯兰教,其中70%以上属逊尼派。官方语言为阿拉伯语,通用英语。科威特城工业有石油化工、化肥、建筑材料、肥皂、海水淡化、电力、食品加工和饮料等。

  • 菠菜_滇南本草(菠菜的产地)

    菠菜,一名红根菜,味甘微辛,性温。祛风明目,开通关窍,伤利肠胃,解酒,通血。

  • 经常走路有什么好处 经常走路有啥好处

    早在上世纪20年代初,美国专家就提出,步行锻炼能预防动脉粥样硬化,并首创了以走路作为心脏病和心梗病人康复治疗的方法,取得了良好效果。不久前,美国一项对1645名65岁以上老人进行的研究发现:与每周步行少于1小时的老人相比,每周步行4小时以上者,其心血管住院费减少69%,死亡率减少73%。此外,据美国专家介绍,与跑步相比,走路不仅对关节的压力小,而且还能延缓关节功能的衰退。减轻体重只有步行最合适。

  • 身份证18位数字含义(常见身份证号码为什么很少见到1开头的)

    首都北京是在华北又是直辖市所以是1开头,第二位数是在各区域的划分后根据建国初期各地区经济水平排序的。具体到各个省份的判断,首先根据省份所在的地区方位确定第一位数字。举例说明,一个身份证号码以42开头,看到4可以确定在中南,看到2,就是建国初期经济排在第二位,然后就可以确定是湖北了。第七到14位代表的是出生日期。

  • 梦幻西游游戏币涨价原因(9.16买多上线十周年庆典暨群星直播粉丝狂欢夜)

    2020年9月16日,买多在郑州总部举办上线十周年庆典活动。本次活动是买多每年一次的周年庆盛典,时逢十周年,买多更是邀请众多明星助阵,现场人声鼎沸、精彩纷呈。这意味着保险板块将成为买多新形业务的又一生力军,年会上还对首批上线保险产品进行了宣导。庆典中,买多的老朋友著名歌星陈少华先生,倾情演唱了成名曲《九月九的酒》,把会场气氛推向高潮,观众纷纷起身合照,欢乐尽在其中。

  • 阳台发豌豆苗的方法(阳台种豌豆苗方法)

    当豌豆苗长到30cm左右,就应该插上竹条利于攀爬。

  • 咖喱怎么吃(咖喱系美食家常做法大全)

    鸡肉、咖喱块50克、牛奶80ml、土豆1个、胡萝卜适量、西蓝花适量。芝士咖喱烤土豆。大土豆2个、盐适量、芝士粉适量、咖喱粉适量、食用油2大勺、泰式酸辣酱2大勺。虾200克、洋葱25克、胡萝卜30克、咖喱15克、蒜末4克、盐2克、牛奶40毫升、鸡精2克。锅中放入食用油,倒入蒜末、胡萝卜丁,大火爆香。加入咖喱、牛奶、虾,翻炒均匀。

  • 黄晓明angelababy相册(万小刀黄晓明和Angelababy的瓜)

    与此同时,未来将会与杨颖产生重要交集的几个男人也陆续登场。当时两人称不上郎才女貌,毕竟当时的baby还没有“破茧成蝶”。与此同时,baby与陈伟霆的恋爱也被媒体曝光。两人不仅被拍到共同出行,甚至还被拍到“爱的纹身”。2010年,21岁的baby与33岁的黄晓明同游照片被曝光,继而传出绯闻。随后,baby成为黄晓明MV《受不了》的女主角。

  • 儿童晚睡有什么危害(小孩子晚睡有什么危害)

    晚睡除了可能造成孩子躁动爱哭闹,个性怯懦,缺乏行动力,意志力薄弱,影响神经系统发育,影响智力发展,还会伤害孩子的心脏,埋下将来发生心血管疾病的种子,也会让孩子长不高,甚至性早熟。情绪一亢奋,血压、呼吸、心跳都会加速,如果经年累月处在过度亢奋的状态下,就会发生心血管疾病。所以放任孩子晚睡或睡眠习惯不良,等同是为孩子埋下心血管疾病的种子,将来到三十五岁以后,这一埋藏的祸因就会爆发成为心血管疾病。