Tuesday, November 5, 2013

poisson01 我们不能确保每分钟真的只过一辆,为了更加精确,我们可以把一小时继续分为3600秒或72000个半秒,也就是说分的越多份,越精确。如果我们这么一直分下去,我们就获得了泊松分布,也就是二项分布的极限情况

但是很明显我们不能确保每分钟真的只过一辆,为了更加精确,我们可以把一小时继续分为3600秒或72000个半秒,也就是说分的越多份,越精确。如果我们这么一直分下去,我们就获得了泊松分布,也就是二项分布的极限情况
http://sobuhu.com/math/2013/06/17/distributions.html

View on GitHub

搜不狐

关于互联网、软件开发的热门话题

几个简单数学分布

2013年6月17日

1. 概率密度函数


假如我们要预测明天的下雨量,x  表示下雨的量,f(x)  就表示为概率密度,我们随便画一个概率密度,他们的关系如下:

其中概率密度函数f(x)  并不代表概率,只是代表当前x  点的概率密度,类似于速度不代表位移一样,我们把所有可能发生事件概率相加应该为1(上图面积):
 +  f(x)dx=1 

其中f(x)>=0  ,也可以计算下雨量在某个范围内的概率:
P(a<x<b)= a b f(x)dx=1 

积分后的概率即成为概率分布。

2. 二项分布


抛硬币是典型的二线分布,假设我们抛了5次硬币,设定P(x)  表示有x  次硬币正面朝上的话,我们可以得到一个类似如下的概率分布:

其中x  为正面朝上的次数,离散变量和连续变量的差别可以看下面的泊松分布。

3. 泊松分布


泊松分布是二项分布的极限情况。
假设我们现在要估计某个路口一小时经过k  辆车的概率,第一步我们需要先大量的观察一段时间,获得一个一小时内通过汽车数量的期望λ 
然后我们把一小时分为60分钟,同时假设每一分钟要么经过一辆车,要么没有车,那么按照二项分布的式子:
P(k)=C k 60 (λ 60  ) k (1λ 60  ) 60k  

也就是说,期望除以60分钟(把一小时分成60份)获得每一分钟有一辆车经过的概率。
但是很明显我们不能确保每分钟真的只过一辆,为了更加精确,我们可以把一小时继续分为3600秒或72000个半秒,也就是说分的越多份,越精确。如果我们这么一直分下去,我们就获得了泊松分布,也就是二项分布的极限情况。
如果引入极限和e,泊松分布可以表达为(参考这里):
P(X=k)=e λ λ k  k!   

泊松分布的概率密度和累计概率图像如下:

4. 正态分布


跟泊松分布一样,正态分布其实也是在大量观察现实世界的接触上总结推理出来的,它的概率密度函数为:
f(x)=1 2π − −   σ  e (xμ) 2  2σ 2     

图像类似:

其中μ  为观察到的数据的均值,是期望的一种估计方式,类似上面泊松分布估计用的期望,在图上表示为中心点的位置。
σ  是样本的标准差,在图上可以表现为向中央的紧缩程度。
正态分布的特点是大自然中很多事件都符合它的描述,比如20岁男子的身高、同一个学校里学生的成绩分布等等。
正态分布还有一个有趣的特点是:
  1. 横轴区间(μ-σ,μ+σ)内的面积(即概率)为68.268949%
  2. 横轴区间(μ-1.96σ,μ+1.96σ)内的面积为95.449974%
  3. 横轴区间(μ-2.58σ,μ+2.58σ)内的面积为99.730020%
正态分布可以通过调整其两个参数能够拟合很多自然界的情况,也可以和其他分布在某些情况下互相转换。

5. Gamma分布


正态分布的特点是左右对称,这个世界也有很多不符合这种分布的情况,比如某个事件的热度,可能会先迅速上升,然后缓慢降低热度,还有发射火箭的速度等等。
Gamma分布的概率密度函数为:

其中α  为形状参数,表示分布的形状,β  为尺度参数,表示左右两边的对称情况,数值越大越对称,无限大时区域正态分布。
下图中k=α  ,θ=β  :


数据的期望可以表示为:E(X)=α/β  , D(X)=β/(α 2 ) 
从物理意义上说,Gamma分布表示第α  件事情发生时所需等待的时间.

6. Beta分布


7. Directlet分布



No comments:

Post a Comment