1.概述
指数分布与泊松分布(泊松过程)有着紧密的关联性,用于预测下一个事件(即成功、失败、到达等)之前的等待时间量。本文结合泊松过程对其进行详细的推导以加深理解。
2.直观解释
例如,我们要预测以下内容,可以采用指数分布:
- 客户完成浏览并在一家商店中实际购买商品的时间(事件成功需要等待的时间)。
- 阿里云的硬件发生故障(失败)之前的无故障工作的持续时间。
- 需要等到公共汽车下一次到达的时间。
首先可以直观看一下指数分布的pdf如下:
根据上述对应的pdf,我们这里有三个疑问:
1. 为什么 就是直到下一个事件发生的时间的PDF呢?
2.通常看到的: 是什么意思?
参数0.25表示0.25 分钟、小时或天,还是0.25 个 事件?
3. 指数参数 λ 和泊松分布中的 λ 一样吗?
首先明确的是 X ~ Exp(0.25),这里的0.25不是持续时间,而是事件发生率,也就是单位时间内事件发生的次数,与泊松过程中的参数 λ 相同。
比如,一个博客每天有 500 位访问者,一小时内到店的顾客数量、每年的地震次数、一周的车祸次数、页面的错别字数等等,反映的都是一个速率的概念,都是rate (λ) ,即单位时间内的数量,也是是泊松分布的参数。
但是,当我们对事件之间的经历时间进行建模时,我们倾向于用时间而不是速率来衡量,例如,计算机可以开机而不会发生故障的年数是10 年(而不是说0.1 次故障/年,即故障率),客户每 10 分钟到达一次,大飓风每 7 年发生一次,等等。而指数分布的“平均值”—1/λ 就是它的意思。
对于术语“衰减参数”,或者在指数分布中经常使用的术语“衰减率”时,就容易产生混淆。衰减参数以时间表示(例如,每 10 分钟、每 7 年等,这里的10、7都是指经过的时间长度),它是泊松速率 (λ)的倒数 (1/λ)。 想一想:如果你每小时有 3 位顾客,这意味着你每 1/3 小时就有一位顾客。
对于 X ~ Exp(0.25), 这意味着泊松率为 0.25,也就是在单位时间内(一分钟、一小时或一年),事件平均发生 0.25 次。将其转换为时间项,假设单位时间是一小时,则事件发生需要4 小时(0.25 的倒数)。
对比指数分布与泊松分布的差异如下:
1. 泊松分布对指定时间或单位时间T内,发生的次数进行建模,pdf 对应发生n次事件的概率
2. 指数分布针对时间建模,pdf对应的发生两次事件之间经过的时间
指数分布具有这样的特性: 超过某个值的概率,随着这个值的增加,按指数递减,对于任意的,
重要提示:,事件发生率,而不是时间,把握了这一点,下面的推导就比较清晰.
3. 指数分布PDF推导
为什么 刚好就是直到下一个事件发生的时间的 PDF呢?
指数分布的定义是泊松过程中事件之间的概率分布。
假定直到下一次事件发生的时间量意味着在等待期间,没有发生任何事件。
换句话说,也就是泊松过程 (X=0)。
当,则
Poisson(X=0) ,这就是指数分布推导的第一步。
关于泊松分布 PDF 要记住的一件事是泊松事件 (X=k) 发生的时间段只是)一个(1)单位时间。
如果想对“在持续时间 t 内没有发生任何事情”的概率分布进行建模,而不仅仅是在一个单位时间内,应该如何做到这一点?
泊松分布假设事件彼此独立发生。因此,我们可以通过将 P( X = 0 在单个时间单位内)乘以 t 次来计算在 t 个单位时间内发生零次的概率。再根据PDF(概率密度函数) 是 CDF(累积概率函数) 的导数,基于指数分布的 CDF,我们可以通过微分得到它的 PDF。
在 时间内发生的次数为0,即对于泊松过程,则对应的CDF为
由此得到指数分布的CDF:
相应的取微分得到PDF:
4.无记忆属性
指数函数的一个重要特性是无记忆性(Memoryless Property)。这表示如果一个随机变量呈指数分布,它的条件概率遵循:
具体的证明过程如下。
使用指数分布对机械设备的寿命进行建模是否合理?
例如,如果设备已经使用了 9 年,那么无记忆意味着它可以再使用 3 年(寿命总共 12 年)的概率与全新机器使用未来 3 年的概率完全相同。 根据经验,设备越旧,故障的可能性就越大。为了模拟这个属性——通过增加风险率——我们可以使用例如Weibull 分布,那么显然指数分布并不适合。
那么到底什么样的情形适合指数分布来建模呢?
比如车祸,如果在过去五个小时内特定路段没有出现车祸,它不会增加或减少发生车祸的机会,这就是为什么λ 通常被称为危险率的直观说明。
指数分布是唯一具有无记忆(或具有恒定故障率)属性的连续概率分布,而几何分布,是唯一具有无记忆的离散概率分布。
5. 应用举例
指数分布常用的应用场景举例主要有等待时间建模、可靠性建模、服务时间(无故障时间)建模等
a) 等待时间建模
指数随机变量的值具有更多的小值和更少的大值。比如正在等待的公共汽车可能会在接下来的 10 分钟内到达,而不是接下来的 60 分钟。
使用指数分布,我们可以回答以下问题。
1. 公共汽车平均每 15 分钟一班。(假设从一辆公共汽车到另一辆公共汽车的时间呈指数分布,这意味着一个小时内到达的公共汽车总数具有泊松分布。)如果只是错过了一班车,比如某位乘客到达的那一刻,司机关上门离开了,而为了保证通勤的准点,必须坐上十分钟内的下一班车,需要预估下一班车不到十分钟内能到来的概率是多少?
2. 百分之九十的公交车在前一班公交车的几分钟内到达?
3. 两辆公交车平均需要等待多长时间?
b) 可靠性(故障)建模
除了可以对成功事件(公共汽车的到来)进行建模,还可以对失败建模——产品持续的时间量?
阿里云硬件无故障运行的小时数呈指数分布,平均为 8,000 小时(大约一年)。
1.如果没有备用服务器,需要不间断运行10,000小时,那么无需重新启动服务器即可完成运行的概率是多少?
2.服务器在12个月到18个月之间不需要重启的概率是多少?
需要注意的是,有时指数分布可能不合适——即当故障率在整个生命周期中发生变化时,也就是使用指数分布的前提是,它具有这种独特的属性——恒定的速率(rate)。
c) 服务时间建模(排队时长建模)
请求的服务时间(例如麦当劳员工做好鸡翅需要多长时间)也可以建模为指数分布的变量。
一个进程的总长度——几个独立任务的序列——遵循Erlang 分布:几个独立的指数分布变量之和的分布。
6. 泊松分布与指数分布之间的关系
如果每单位时间的事件数服从泊松分布,则事件之间的时间量服从指数分布。文章来源:https://uudwc.com/A/gEpg
假设事件之间的时间不受先前事件之间的时间的影响(即它们是独立的),那么每单位时间的事件数遵循泊松分布,速率为λ = 1/μ。文章来源地址https://uudwc.com/A/gEpg