http://sobuhu.com/math/2013/06/17/distributions.html
搜不狐
关于互联网、软件开发的热门话题
几个简单数学分布
2013年6月17日1. 概率密度函数
假如我们要预测明天的下雨量,x
表示下雨的量,f(x)
就表示为概率密度,我们随便画一个概率密度,他们的关系如下:
其中概率密度函数f(x)
并不代表概率,只是代表当前x
点的概率密度,类似于速度不代表位移一样,我们把所有可能发生事件概率相加应该为1(上图面积):
其中f(x)>=0
,也可以计算下雨量在某个范围内的概率:
积分后的概率即成为概率分布。
2. 二项分布
抛硬币是典型的二线分布,假设我们抛了5次硬币,设定P(x)
表示有x
次硬币正面朝上的话,我们可以得到一个类似如下的概率分布:
其中x
为正面朝上的次数,离散变量和连续变量的差别可以看下面的泊松分布。
3. 泊松分布
泊松分布是二项分布的极限情况。
假设我们现在要估计某个路口一小时经过k
辆车的概率,第一步我们需要先大量的观察一段时间,获得一个一小时内通过汽车数量的期望λ
。
然后我们把一小时分为60分钟,同时假设每一分钟要么经过一辆车,要么没有车,那么按照二项分布的式子:也就是说,期望除以60分钟(把一小时分成60份)获得每一分钟有一辆车经过的概率。
但是很明显我们不能确保每分钟真的只过一辆,为了更加精确,我们可以把一小时继续分为3600秒或72000个半秒,也就是说分的越多份,越精确。如果我们这么一直分下去,我们就获得了泊松分布,也就是二项分布的极限情况。
如果引入极限和e,泊松分布可以表达为(参考这里):
泊松分布的概率密度和累计概率图像如下:
4. 正态分布
跟泊松分布一样,正态分布其实也是在大量观察现实世界的接触上总结推理出来的,它的概率密度函数为:
f(x)=1 2π − − √ σ e −(x−μ) 2 2σ 2
图像类似:
σ
是样本的标准差,在图上可以表现为向中央的紧缩程度。
正态分布的特点是大自然中很多事件都符合它的描述,比如20岁男子的身高、同一个学校里学生的成绩分布等等。
正态分布还有一个有趣的特点是:
正态分布的特点是左右对称,这个世界也有很多不符合这种分布的情况,比如某个事件的热度,可能会先迅速上升,然后缓慢降低热度,还有发射火箭的速度等等。
Gamma分布的概率密度函数为:
图像类似:
其中μ
为观察到的数据的均值,是期望的一种估计方式,类似上面泊松分布估计用的期望,在图上表示为中心点的位置。
正态分布还有一个有趣的特点是:
- 横轴区间(μ-σ,μ+σ)内的面积(即概率)为68.268949%
- 横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%
- 横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%
5. Gamma分布
正态分布的特点是左右对称,这个世界也有很多不符合这种分布的情况,比如某个事件的热度,可能会先迅速上升,然后缓慢降低热度,还有发射火箭的速度等等。
Gamma分布的概率密度函数为:
其中α
为形状参数,表示分布的形状,β
为尺度参数,表示左右两边的对称情况,数值越大越对称,无限大时区域正态分布。
下图中k=α
,θ=β
:
数据的期望可以表示为:E(X)=α/β
, D(X)=β/(α 2 )
从物理意义上说,Gamma分布表示第α
件事情发生时所需等待的时间.
6. Beta分布
7. Directlet分布
No comments:
Post a Comment