【分布族谱】正态分布和卡方分布的关系

文章目录

- 正态分布
- 卡方分布
- 卡方分布的极限

正态分布

正态分布，最早由棣莫弗在二项分布的渐近公式中得到，而真正奠定其地位的，应是高斯对测量误差的研究，故而又称Gauss分布。。测量是人类定量认识自然界的基础，测量误差的普遍性，使得正态分布拥有广泛的应用场景，或许正因如此，正太分布在分布族谱图中居于核心的位置。

在这里插入图片描述

正态分布 $N(\mu, \sigma)$ 受到期望 $\mu$ 和方差 $\sigma^2$ 的调控，其概率密度函数为

$\frac{1}{\sqrt{2\pi\sigma^2}}\exp[-\frac{(x-\mu)^2}{2\sigma^2}]$

当 $\mu=0$ 而 $\sigma=1$ 时，为标准正态分布 $N (0, 1)$ ，对应概率分布函数为 $\Phi(x)=\frac{1}{\sqrt{2\pi}}\exp[-\frac{x^2}{2}]$ 。

卡方分布

若 $k$ 个互相独立的随机变量 $\xi_1, \xi_2,\cdots,\xi_k$ ，均服从标准正态分布，则这k个随机变量的平方和构成一个新变量，新变量服从 $\chi^2$ 分布。其概率密度函数为

$\rho(x)=\frac{(1/2)^{k/2}}{\Gamma(k/2)}x^{k/2-1}e^{-x/2}$

下面就通过构造 $k$ 个按照正态分布的随机变量，然后将其平方和绘制出来。

import numpy as np
from scipy.stats import norm, chi2
import matplotlib.pyplot as plt

k = 200
xs = [np.sum(norm.rvs(size=200)**2) for _ in range(10000)]
plt.hist(xs, density=True, bins=100, alpha=0.8)

rv = chi2(k)
st, ed = rv.interval(0.995)
xs = np.linspace(st, ed, 200)
plt.plot(xs, rv.pdf(xs))
plt.show()

效果为

在这里插入图片描述

卡方分布的极限

卡方分布的PDF受到 $k$ 的调节，随着 $k$ 值不断增大，卡方分布越来越接近正态分布。而且卡方分布常用的统计特征也与 $k$ 密切相关，其期望为 $k$ ，方差为 $2 k$ ，中位数在 $k-\frac 3 2$ 附近。

下面分别更改 $k$ 值，来生成一组卡方分布的随机数，并与期望为 $k$ 、标准差为 $\sqrt{\frac k2}$ 的正态分布曲线作比较。

fig = plt.figure()
for i,k in enumerate([1,10,100,1000]):
    ax = fig.add_subplot(2,2,i+1)
    chis = chi2(k).rvs(size=10000)        # 卡方分布
    ax.hist(chis, density=True, bins=100, alpha=0.8)
    rv = norm(k, np.sqrt(2*k))
    st, ed = rv.interval(0.995)
    xs = np.linspace(st, ed, 200)
    ax.plot(xs, rv.pdf(xs))
    ax.set_title(f"k={k}")

plt.show()

结果如下，可见随着 $k$ 的逐渐变大，卡方分布越来越趋近于正态分布。

在这里插入图片描述文章来源地址https://uudwc.com/A/GZ