跳转至

拟合优度

拟合优度

检验观察数据和理论预言是否相符

分类数据的理论检验

  • 假设 \(H_0: P(X=a_i) = p_i, i=1,2,...,k\)
  • \(X\) 进行 \(n\) 次观测,得到样本数据 \(x_1,x_2,...,x_n\)\(x = a_i\) 的频数为 \(\nu_i\)
  • \(\nu \sim B(n,p)\),近似为 \(\nu \sim P(np)\)

检验 \(H_0\) 是否成立: - 理论预言:\(a_i\) 的个数为 \(np_i\) - 实际测量:\(a_i\) 的个数为 \(\nu_i\) - \(\left|np_i - \nu_i \right|\) 应该尽可能小

定义

\[Z = \sum_{i=1}^k \frac{(np_i - \nu_i)^2}{np_i}\]

称作 Pearson's \(\chi^2\) Test Statistic

  • \(\nu\) 在一定条件下符合 Poisson 分布
  • \(\frac{np_i - \nu_i}{\sqrt{np_i}} \sim N\)
  • \(\sum_{i=1}^k p_i = 1\),故自由度为 \(k-1\)\(Z \sim \chi^2_{k-1}\)

P-Value

  • \(Z\) 越大,理论与实验越不符
  • \(Z/(k-1)\) 最佳值为 1
  • \(Z > C\),拒绝 \(H_0\). 其中 \(C = \text{chi2.ppf}(1-\alpha,k-1)\)
  • p-value 的含义:z 取值大于 \(z'\) 的概率(比 \(z'\) 更不可能发生)
  • \(P = 1 - \text{chi2.cdf}(z',k-1)\)

拟合优度例子

掷骰子,共掷了 \(6 \times 10^{10}\) 次,每个面的次数分别为 \(10^{10}-10^6,10^{10}+1.5 \times 10^6,10^{10}-2 \times 10^6,10^{10}+4 \times 10^6,10^{10}-3 \times 10^6,10^{10}+0.5 \times 10^6\). 骰子是否均匀?

对列联表 (Contingency Table)

  • 变量 A 分为 \(a\) 类,变量 B 分为 \(b\) 类,数据共分为 \(a \times b\)
  • 总样本数为 \(n\),每一类的样本数为 \(n_{ij}\)
  • 设 A 落入第 \(i\) 个类别的概率为 \(u_i\),B 落入第 \(j\) 个类别的概率为 \(v_j\),则
\[\sum_{i=1}^a u_i = 1, \sum_{j=1}^b v_j = 1\]
  • 若 A,B 独立,则 \(P(A=a_i,B=b_j) = u_i v_j\)