指数分布的推导与理解

1.概述

指数分布与泊松分布（泊松过程）有着紧密的关联性，用于预测下一个事件（即成功、失败、到达等）之前的等待时间量。本文结合泊松过程对其进行详细的推导以加深理解。

2.直观解释

例如，我们要预测以下内容，可以采用指数分布：

客户完成浏览并在一家商店中实际购买商品的时间（事件成功需要等待的时间）。
阿里云的硬件发生故障（失败）之前的无故障工作的持续时间。
需要等到公共汽车下一次到达的时间。

首先可以直观看一下指数分布的pdf如下：

$Exp(x\mid \lambda)=\begin{cases} \lambda e^{-\lambda x} & \text{ if } x\geq 0 \\ 0 & \text{ if } x< 0 \end{cases}$

根据上述对应的pdf，我们这里有三个疑问：

1. 为什么 $\lambda e^{-\lambda t}$ 就是直到下一个事件发生的时间的PDF呢？

2.通常看到的： $X \sim Exp(0.25)$ 是什么意思？

参数0.25表示0.25 分钟、小时或天，还是0.25 个事件？

3. $X \sim Exp(\lambda)$ 指数参数 λ 和泊松分布中的 λ 一样吗？

首先明确的是 X ~ Exp(0.25)，这里的0.25不是持续时间，而是事件发生率，也就是单位时间内事件发生的次数，与泊松过程中的参数 λ 相同。

比如，一个博客每天有 500 位访问者，一小时内到店的顾客数量、每年的地震次数、一周的车祸次数、页面的错别字数等等，反映的都是一个速率的概念，都是rate (λ) ，即单位时间内的数量，也是是泊松分布的参数。

但是，当我们对事件之间的经历时间进行建模时，我们倾向于用时间而不是速率来衡量，例如，计算机可以开机而不会发生故障的年数是10 年（而不是说0.1 次故障/年，即故障率），客户每 10 分钟到达一次，大飓风每 7 年发生一次，等等。而指数分布的“平均值”—1/λ 就是它的意思。

对于术语“衰减参数”，或者在指数分布中经常使用的术语“衰减率”时，就容易产生混淆。衰减参数以时间表示（例如，每 10 分钟、每 7 年等，这里的10、7都是指经过的时间长度），它是泊松速率 (λ)的倒数 (1/λ)。想一想：如果你每小时有 3 位顾客，这意味着你每 1/3 小时就有一位顾客。

对于 X ~ Exp(0.25)，这意味着泊松率为 0.25，也就是在单位时间内（一分钟、一小时或一年），事件平均发生 0.25 次。将其转换为时间项，假设单位时间是一小时，则事件发生需要4 小时（0.25 的倒数）。

对比指数分布与泊松分布的差异如下：

1. 泊松分布对指定时间或单位时间T内，发生的次数进行建模，pdf 对应发生n次事件的概率

2. 指数分布针对时间建模，pdf对应的发生两次事件之间经过的时间

指数分布具有这样的特性： $X$ 超过某个值的概率，随着这个值的增加，按指数递减，对于任意的 $a>0$ ,

$P(X> a)=\int_{a}^{\infty}\lambda e^{-\lambda x} dx=e^{-\lambda a}$

重要提示： ${\color{Red} \lambda}$ ，事件发生率,而不是时间，把握了这一点，下面的推导就比较清晰.

3. 指数分布PDF推导

为什么 $\lambda e^{-\lambda t}$ 刚好就是直到下一个事件发生的时间的 PDF呢？

指数分布的定义是泊松过程中事件之间的概率分布。

假定直到下一次事件发生的时间量意味着在等待期间，没有发生任何事件。

换句话说，也就是泊松过程 (X=0)。

$P(X=k)=\frac{\lambda ^k e^{-\lambda}}{k!}$

当 $X=0$ ，则

$P(X=0)=\frac{\lambda ^0 e^{-\lambda}}{0!}=e^{-\lambda}$

Poisson(X=0) ，这就是指数分布推导的第一步。

关于泊松分布 PDF 要记住的一件事是泊松事件 (X=k) 发生的时间段只是)一个（1）单位时间。

如果想对“在持续时间 t 内没有发生任何事情”的概率分布进行建模，而不仅仅是在一个单位时间内，应该如何做到这一点？

泊松分布假设事件彼此独立发生。因此，我们可以通过将 P( X = 0 在单个时间单位内)乘以 t 次来计算在 t 个单位时间内发生零次的概率。再根据PDF(概率密度函数）是 CDF（累积概率函数）的导数，基于指数分布的 CDF，我们可以通过微分得到它的 PDF。

在 $T>t$ 时间内发生的次数为0，即对于泊松过程 $X=0$ ，则对应的CDF为

$P(T>t)=[e^{-\lambda}]^t=e^{-\lambda t}$

由此得到指数分布的CDF：

$P(T\leq t)=1-P(T > t)=1-e^{-\lambda t}$

相应的取微分得到PDF：

$\frac{\mathrm{d} }{\mathrm{d} t}(CDF)=\frac{\mathrm{d} }{\mathrm{d} t}\left ( 1-e^{-\lambda t} \right )=\lambda e^{-\lambda t}$

4.无记忆属性

指数函数的一个重要特性是无记忆性（Memoryless Property）。这表示如果一个随机变量呈指数分布，它的条件概率遵循：

$Pr(T > s + t \mid T > s) = Pr(T > t)$

具体的证明过程如下。

$\begin{align} & \Pr\left(T > s + t \mid T > s\right) \nonumber \\ &= \frac{\Pr\left(T > s + t \cap T > s\right)}{\Pr\left(T > s\right)} \nonumber \\ &= \frac{\Pr\left(T > s + t \right)}{\Pr\left(T > s\right)} \nonumber \\ &= \frac{e^{-\lambda(s + t)}}{e^{-\lambda s}} \nonumber \\ &= e^{-\lambda t} \nonumber \\[4pt] &= \Pr(T > t) \nonumber \end{align}$

使用指数分布对机械设备的寿命进行建模是否合理？

例如，如果设备已经使用了 9 年，那么无记忆意味着它可以再使用 3 年（寿命总共 12 年）的概率与全新机器使用未来 3 年的概率完全相同。根据经验，设备越旧，故障的可能性就越大。为了模拟这个属性——通过增加风险率——我们可以使用例如Weibull 分布,那么显然指数分布并不适合。

那么到底什么样的情形适合指数分布来建模呢？

比如车祸，如果在过去五个小时内特定路段没有出现车祸，它不会增加或减少发生车祸的机会，这就是为什么λ 通常被称为危险率的直观说明。

指数分布是唯一具有无记忆（或具有恒定故障率）属性的连续概率分布，而几何分布，是唯一具有无记忆的离散概率分布。

5. 应用举例

指数分布常用的应用场景举例主要有等待时间建模、可靠性建模、服务时间（无故障时间）建模等

a）等待时间建模

指数随机变量的值具有更多的小值和更少的大值。比如正在等待的公共汽车可能会在接下来的 10 分钟内到达，而不是接下来的 60 分钟。

使用指数分布，我们可以回答以下问题。

1. 公共汽车平均每 15 分钟一班。（假设从一辆公共汽车到另一辆公共汽车的时间呈指数分布，这意味着一个小时内到达的公共汽车总数具有泊松分布。）如果只是错过了一班车，比如某位乘客到达的那一刻，司机关上门离开了，而为了保证通勤的准点，必须坐上十分钟内的下一班车，需要预估下一班车不到十分钟内能到来的概率是多少？

2. 百分之九十的公交车在前一班公交车的几分钟内到达？

3. 两辆公交车平均需要等待多长时间？

b) 可靠性（故障）建模

除了可以对成功事件（公共汽车的到来）进行建模，还可以对失败建模——产品持续的时间量？

阿里云硬件无故障运行的小时数呈指数分布，平均为 8,000 小时（大约一年）。

1.如果没有备用服务器，需要不间断运行10,000小时，那么无需重新启动服务器即可完成运行的概率是多少？

2.服务器在12个月到18个月之间不需要重启的概率是多少？

需要注意的是，有时指数分布可能不合适——即当故障率在整个生命周期中发生变化时，也就是使用指数分布的前提是，它具有这种独特的属性——恒定的速率（rate）。

c) 服务时间建模（排队时长建模）

请求的服务时间（例如麦当劳员工做好鸡翅需要多长时间）也可以建模为指数分布的变量。

一个进程的总长度——几个独立任务的序列——遵循Erlang 分布：几个独立的指数分布变量之和的分布。

6. 泊松分布与指数分布之间的关系

如果每单位时间的事件数服从泊松分布，则事件之间的时间量服从指数分布。

假设事件之间的时间不受先前事件之间的时间的影响（即它们是独立的），那么每单位时间的事件数遵循泊松分布，速率为λ = 1/μ。文章来源地址https://uudwc.com/A/gEpg