概率分布2
均匀分布
假设我们在从 a 到 b 的一段线段上等距地选择一个区间的概率是相等的,那么概率在整个区间 [a,b] 上是均匀分布的,概率密度函数也不会随着变量的更改而更改。均匀分布和伯努利分布不同,随机变量的取值都是等概率的,因此概率密度就可以表达为区间长度分之一,如果我们取随机变量一半的可能值,那么其出现的概率就为 1/2。
假定随机变量 X 服从均匀分布,那么概率密度函数为:
均匀分布曲线图如下所示,其中概率密度曲线下面积为随机变量发生的概率:
我们可以看到均匀分布的概率分布图呈现为一个矩形,这也就是均匀分布又称为矩形分布的原因。在均匀分布中,a 和 b 都为参数,也即随机变量的取值范围。
服从均匀分布的随机变量 X 也有均值和方差,它的均值为 E(X) = (a+b)/2,方差为 V(X) = (b-a)^2/12
标准均匀分布的密度函数参数 a 取值为 0,b 取值为 1,因此标准均匀分布的概率密度可以表示为:
指数分布
现在我们再次考虑电话中心案例,那么电话间隔的分布是怎么样的呢?这个分布可能就是指数分布,因为指数分布可以对电话的时间间隔进行建模。其它案例可能还有地铁到达时间的建模和空调设备周期等。
在深度学习中,我们经常会需要一个在 x=0 处取得边界点 (sharp point) 的分布。为了实现这一目的,我们可以使用指数分布(exponential distribution):
指数分布使用指示函数 (indicator function)1x≥0,以使当 x 取负值时的概率为零。
其中 λ
>
0 为概率密度函数的参数。随机变量 X 服从于指数分布,则该变量的均值可表示为 E(X) = 1/λ、方差可以表示为 Var(X) = (1/λ)^2。如下图所示,若λ较大,则指数分布的曲线下降地更大,若λ较小,则曲线越平坦。如下图所示:
以下是由指数分布函数推导而出的简单表达式:
P{X≤x} = 1 – exp(-λx),对应小于 x 的密度函数曲线下面积。
P{X
>
x} = exp(-λx),代表大于 x 的概率密度函数曲线下面积。
P{x1
<
X≤ x2} =exp(-λx1)-exp(-λx2),代表 x1 点和 x2 点之间的概率密度函数曲线下面积。
正态分布(高斯分布)
实数上最常用的分布就是正态分布(normal distribution),也称为高斯分布(Gaussian distribution)。因为该分布的普遍性,尤其是中心极限定理的推广,一般叠加很多较小的随机变量都可以拟合为正态分布。正态分布主要有以下几个特点:
- 所有的变量服从同一均值、方差和分布模式。
- 分布曲线为钟型,并且沿 x=μ对称。
- 曲线下面积的和为 1。
- 该分布左半边的精确值等于右半边。
正态分布和伯努利分布有很大的不同,然而当伯努利试验的次数接近于无穷大时,他们的分布函数基本上是相等的。
若随机变量 X 服从于正态分布,那么 X 的概率密度可以表示为:
随机变量 X 的均值可表示为 E(X) = µ、方差可以表示为 Var(X) = σ^2。其中均值µ和标准差σ为高斯分布的参数。
随机变量 X 服从于正态分布 N (µ, σ),可以表示为:
标准正态分布可以定义为均值为 0、方差为 1 的分布函数,以下展示了标准正态分布的概率密度函数和分布图:
分布之间的关系
伯努利分布和二项分布的关系
二项分布是伯努利分布的单次试验的特例,即单词伯努利试验;
二项分布和伯努利分布的每次试验都只有两个可能的结果;
二项分布每次试验都是互相独立的,每一次试验都可以看作一个伯努利分布。
泊松分布和二项分布的关系
以下条件下,泊松分布是二项分布的极限形式:
试验次数非常大或者趋近无穷,即 n → ∞;
每次试验的成功概率相同且趋近零,即 p →0;
3.np =λ 是有限值。
- 正态分布和二项分布的关系 & 正态分布和泊松分布的关系
以下条件下,正态分布是二项分布的一种极限形式:
- 试验次数非常大或者趋近无穷,即 n → ∞;
2.p 和 q 都不是无穷小。
参数 λ →∞的时候,正态分布是泊松分布的极限形式。
指数分布和泊松分布的关系
如果随机事件的时间间隔服从参数为 λ的指数分布,那么在时间周期 t 内事件发生的总次数服从泊松分布,相应的参数为 λt。
测试
读者可以完成以下简单的测试,检查自己对上述概率分布的理解程度:
- 服从标准正态分布的随机变量计算公式为:
a. (x+µ) / σ
b. (x-µ) / σ
c. (x-σ) / µ
- 在伯努利分布中,计算标准差的公式为:
a. p (1 – p)
b. SQRT(p(p – 1))
c. SQRT(p(1 – p))
- 对于正态分布,均值增大意味着:
a. 曲线向左移
b. 曲线向右移
c. 曲线变平坦
- 假定电池的生命周期服从 λ = 0.05 指数分布,那么电池的最终使用寿命在 10 小时到 15 小时之间的概率为:
a.0.1341
b.0.1540
c.0.0079
结语
在本文中,我们从最基本的随机事件及其概念出发讨论对概率的理解。随后我们讨论了最基本的概率计算方法与概念,比如条件概率和贝叶斯概率等等。文中还讨论了随机变量的独立性和条件独立性。此外,本文更是详细介绍了概率分布,包括离散型随机变量分布和连续型随机变量分布。本文主要讨论了基本的概率定理与概念,其实这些内容在我们大学的概率论与数理统计课程中基本上都有详细的解释。而对于机器学习来说,理解概率和统计学知识对理解机器学习模型十分重要,以它为基础我们也能进一步理解结构化概率等新概念。