概率分布1
什么是概率分布?这是一个定律,它以数学函数的形式告诉我们在一些实验中不同可能结果的概率。对于每个函数,分布可能有一些参数来调整其行为。
当我们计算硬币投掷事件的相对频率时,我们实际上计算了一个所谓经验概率分布。事实证明,世界上许多不确定的过程可以用概率分布来表述。例如,我们的硬币结果是一个伯努利分布,如果我们想计算一个 n 次试验后硬币正面向上的概率,我们可以使用二项式分布。
引入一个类似于概率环境中的变量的概念会方便很多--随机变量。每个随机变量都具有一定的分布。随机变量默认用大写字母表示,我们可以使用 ~ 符号指定一个分布赋给一个变量。
上式表示随机变量 X 服从成功率(正面向上)为 0.6 的伯努利分布。
连续和离散概率分布
概率分布可分为两种:离散分布用于处理具有有限值的随机变量,如投掷硬币和伯努利分布的情形。离散分布是由所谓的概率质量函数(PMF)定义的,连续分布用于处理连续的(理论上)有无限数量的值的随机变量。想想用声音传感器测量的速度和加速度。连续分布是由概率密度函数(PDF)定义的。
这两种分布类型在数学处理上有所不同:通常连续分布使用积分 ∫ 而离散分布使用求和Σ。以期望值为例:
下面我们将详细介绍各种常见的概率分布类型,正如上所说,概率分布可以分为离散型随机变量分布和连续性随机变量分布。离散型随机变量分布常见的有伯努利分布(Bernoulli Distribution)、二项分布(Binomial Distribution)、泊松分布(Poisson Distribution)等,而常见的连续型随机变量分布包括均匀分布(Uniform Distribution)、指数分布(Exponential Distribution)、正态分布等。
常见的数据类型
在解释各种分布之前,我们先看看常见的数据类型有哪些,数据类型可分为离散型和连续型。
离散型数据:数据只能取特定的值,比如,当你掷一个骰子的时候,可能的结果只有 1,2,3,4,5,6 而不会是 1.5 或者 2.45。
连续型数据:数据可以在给定的范围内取任何值,给定的范围可以是有限的或无限的,比如一个女孩的体重或者身高,或者道路的长度。一个女孩的体重可以是 54 kgs,54.5 kgs,或 54.5436kgs。
分布的类型
伯努利分布
最简单的离散型随机变量分布是伯努利分布,我们从这里开始讨论。
一个伯努利分布只有两个可能的结果,记作 1(成功)和 0(失败),只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X,取值为 1 即成功的概率为 p,取值为 0 即失败的概率为 q 或者 1-p。
若随机变量 X 服从伯努利分布,则概率函数为:
成功和失败的概率不一定要相等。比如当我和一个运动员打架的时候,他的胜算应该更大,在这时候,我的成功概率是 0.15,而失败概率是 0.85。
下图展示了我们的战斗的伯努利分布。
如上图所示,我的成功概率=0.15,失败概率=0.85。期望值是指一个概率分布的平均值,对于随机变量 X,对应的期望值为:E(X) = 1*p + 0*(1-p) = p,而方差为 V(X) = E(X^2) – [E(X)]^2 = p – p^2 = p(1-p)
实际上还有很多关于伯努利分布的例子,比如明天是晴天还是雨天,这场比赛中某一队输还是赢,等等。
二项分布
现在回到掷硬币的案例中,当掷完第一次,我们可以再掷一次,也就是存在多个伯努利试验。第一次为正不代表以后也会为正。那么设一个随机变量 X,它表示我们投掷为正面的次数。X 可能会取什么值呢?在投掷硬币的总次数范围内可以是任何非负整数。
如果存在一组相同的随机事件,即一组伯努利试验,在上例中为连续掷硬币多次。那么某随机事件出现的次数即概率服从于二项分布,也称为多重伯努利分布。
任何一次试验都是互相独立的,前一次试验不会影响当前试验的结果。两个结果概率相同的试验重复 n 次的试验称为多次伯努利试验。二项分布的参数为 n 和 p,n 是试验的总次数,p 是每一次试验的成功概率。
根据以上所述,一个二项分布的性质为:
每一次试验都是独立的;
只有两个可能的结果;
进行 n 次相同的试验;
所有试验中成功率都是相同的,失败的概率也是相同的。
二项分布的数学表达式为:
成功概率和失败概率不相等的二项分布看起来如下图所示:
而成功概率和失败概率相等的二项分布看起来如下图所示:
二项分布的平均值表示为 µ = n*p,而方差可以表示为 Var(X) = n*p*q。
泊松分布
如果你在一个呼叫中心工作,一天内会接到多少次呼叫呢?多少次都可能!在呼叫中心一天能接到多少次呼叫可以用泊松分布建模。这里有几个例子:
一天内医院接到的紧急呼叫次数;
一天内地方接到的偷窃事件报告次数;
一小时内光顾沙龙的人数;
一个特定城市里报告的自杀人数;
书的每一页的印刷错误次数。
现在你可以按相同的方式构造很多其它的例子。泊松分布适用于事件发生的时间和地点随机分布的情况,其中我们只对事件的发生次数感兴趣。泊松分布的主要特点为如下:
任何一个成功事件不能影响其它的成功事件;
经过短时间间隔的成功概率必须等于经过长时间间隔的成功概率;
时间间隔趋向于无穷小的时候,一个时间间隔内的成功概率趋近零。
在泊松分布中定义的符号有:
λ是事件的发生率;
t 是事件间隔的长度;
X 是在一个时间间隔内的事件发生次数。
设 X 是一个泊松随机变量,那么 X 的概率分布称为泊松分布。以µ表示一个时间间隔 t 内平均事件发生的次数,则 µ=λ*t;
X 的概率分布函数为:
泊松分布的概率分布图示如下,其中µ为泊松分布的参数:
下图展示了均值增加时的分布曲线的变化情况:
如上所示,当均值增加时,曲线向右移动。泊松分布的均值和方差为:
均值:E(X) = µ
方差: Var(X) = µ