跳转至

特殊函数及参数估计

平均值 \(\bar{X} = \sum_{i=1}^n X_i/n\)

样本方差 \(S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2\)

Motivating Questions

  • \(\bar{X}\) 的期望值和标准差?
  • \(\mathbb{E}[S^2]\) ?
  • \(\bar{X}\) 能用于估计 \(\mu\) 吗?
  • \(S^2\) 能用于估计 \(\sigma^2\) 吗?
  • \(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\) 符合什么分布?
  • \(\frac{\bar{X}-\mu}{S/\sqrt{n}}\) 符合什么分布?
  • \(\frac{(n-1)S^2}{\sigma^2}\) 符合什么分布?

大数定理

  • 平均值收敛于期望值 $$ \lim_{n\to\infty} P(|\bar{X}-\mu|>\epsilon) = 0, \forall \epsilon>0 $$
  • 频率收敛于概率

中心极限定理

任意同分布的随机变量 \(X_i\) 之和,符合正态分布。

\(X_i\) 服从均值 \(\mu\),方差 \(\sigma^2\) 的分布,则

\[ \lim_{n\to\infty} P\left(\frac{Y-n\mu}{\sqrt{n}\sigma}\leq x\right) = \Phi(x) \]

Python 验证

# 指数分布 -> 正态分布
%matplotlib inline
import numpy as np
import scipy.stats as st
import matplotlib.pyplot as plt

alambda=2.
fig,ax = plt.subplots(1,2)
yarr=[]
for n in range(50,1000):
    x=st.expon.rvs(0,alambda,size=n)
    y=(sum(x)-n*alambda)/(np.sqrt(n)*alambda)
    yarr.append(y)
ax[0].hist(x,density=True,bins='auto')
bins = np.histogram_bin_edges(yarr, bins='auto')
ax[1].hist(yarr,bins=bins,density=True)
ax[1].plot(bins,st.norm.pdf(bins))
plt.tight_layout()

统计学三大函数

  • t 分布
  • \(\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}\)
  • 用于估计 \(\mu\)
  • \(\chi^2\) 分布
  • \(\frac{(n-1)S^2}{\sigma^2} \sim \chi^2_{n-1}\)
  • 用于估计 \(\sigma^2\)
  • F 分布
  • \(X_i \sim N(\mu_1,\sigma_1^2), Y_i \sim N(\mu_2,\sigma_2^2)\), 则
\[\left[\sum_{i=1}^m \frac{(Y_i-\mu_2)^2}{(m-1)\sigma_2^2}\right]/\left[\sum_{i=1}^n \frac{(X_i-\mu_1)^2}{(n-1)\sigma_1^2}\right] \sim F_{m-1,n-1}\]

\(\chi^2\) 函数

\[ k_n(x) = \frac{1}{2^{n/2}\Gamma(n/2)}x^{n/2-1}e^{-x/2} \]
  • \(X_i\) 独立同分布,\(X_i \sim N(0,1)\),则 \(Y = \sum_{i=1}^n X_i^2 \sim \chi^2_n\)
  • \(E(Y) = n\)
  • \(\frac{(n-1)S^2}{\sigma^2} = \sum_{i=1}^n \frac{(X_i-\bar{X})^2}{\sigma^2} \sim \chi^2_{n-1}\)
Python 绘图
import scipy.stats as st
import numpy as np
import matplotlib.pyplot as plt

fig,ax = plt.subplots(2,1)

for df in range(2,20,5):
    x = np.linspace(st.chi2.ppf(0.01,df), st.chi2.ppf(0.99,df),100)
    p=ax[0].plot(x, st.chi2.pdf(x, df),
                 #d 整数,:3 占3位, 0 format中的第一个参数
        label='dof={0:3d}'.format(df)) #定义图例
    k=sum(st.norm.rvs(size=[df,1000])**2) #正态随机变量x,生成df x 1000组,计算Y=df个元素的平方和
    ax[0].hist(k,density=True,alpha=0.6,color=p[0].get_color()) #1000组Y的分布
    ax[1].plot(x/df, st.chi2.pdf(x, df)*df,
        label='dof={0:3d}'.format(df)) #chi2/ndf
ax[0].legend()
ax[1].set(xlabel='x/dof')
ax[0].set(xlabel='x')
fig.tight_layout()

t 函数

\[t_n(y) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi}\Gamma\left(\frac{n}{2}\right)}\left(1+\frac{y^2}{n}\right)^{-\frac{n+1}{2}}\]
  • \(X_1,X_2\) 独立,\(X_1 \sim \chi^2_n, X_2 \sim N(0,1)\),则 \(Y = \frac{X_2}{\sqrt{X_1/n}} \sim t_n\)
  • \(\frac{\bar{X}-\mu}{S/\sqrt{n}} \sim t_{n-1}\)