The Misuse of p-value in the Senior High School

高中对于p值的误用

写在最前:

在2022年高考全国I卷中,有这么一个题:

这道题的第一问中,“能否有99%的把握认为患该疾病群体与未患该疾病群体的卫生习惯有差异?“是对p-value的错误使用。原因请往下看。

2005年过审的高中教材

我去找到了我上高中时用的数学教材的电子版,这套教材于2005年初审通过。

在选修2-3中,同样有”我们有99%的把握认为’吸烟与患肺癌有关系“这样的话。

上图里的$K^2$,就是大学数理统计教材里的$\chi^2$。

上图里的$P(K^2 \ge k_0)$,就是大学数理统计教材里的p-value。

值得一提的是,上图用一通错得很离谱的推导得到了(1)式。不过这个错误在新版的教材中得到了更改。

上图中对p-value的解释同样错得很离谱。

p-value的定义是:假设H0成立,出现现有数据或更极端数据的概率

写成数学语言是:$p-value := P(出现现有数据或更极端数据|H0成立)$

上式可以简写为:$p-value := P(data|H0)$

这里解释一下什么是假设检验,什么是H0。

  • 假设检验说白了就是提出一个假设,然后对其做出检验。

    • 比如说,如果我们想探究吸烟和肺癌是否有关,假设可以是“吸烟和肺癌独立”(独立是无关的一种更严谨的数学说法,这里不展开讨论)

    • 比如说,如果我们想探究身高和国家是否有关,假设可以是“身高和国家独立”

    • 再比如说,如果我们想探究弹跳高度和种族是否有关,假设可以是“弹跳高度和种族独立”

  • H0指假设检验中的原假设,比如说“吸烟和肺癌独立”、“身高和国家独立”、“弹跳高度和种族独立”。

  • 如前所述,p-value的定义是,假设H0成立,出现现有数据或更极端数据的概率。

很显然,“p-value = 0.01”和”我们有99%的把握认为H0成立“是不一样的。

在Yves S的专栏《2022新高考数学概率统计大题中的概念问题》中,他举了一个绝妙的例子:

  • 假设一个工厂生产了100万个硬币,其中10个硬币是有问题的,导致掷这些硬币时,正面朝上的概率明显超过1/2。
  • 为了找到这些硬币,我们对每一枚硬币做假设检验:抛它100次,做$\chi ^2$检验,把p-value的阈值设为0.01,把p-value小于0.01的硬币认为是有质量问题的。
  • 阈值为0.01,意味着有1%的出错概率,即在$(10^7-10)$的正常硬币,会有大约1万个硬币的p-value小于0.01。
  • 那么问题来了,按照选修2-3和高考题的说法,这1W个硬币每个硬币都”有99%的把握有质量问题“

正确的说法是:

  • 假设硬币没有问题,出现现有数据或更极端数据的概率是1%
  • 假设患该疾病群体与未患该疾病群体的卫生习惯独立,出现现有数据或更极端数据的概率是1%
  • 假设吸烟和肺癌独立,出现现有数据或更极端数据的概率是1%

用数学语言来说,p-value的真正定义是
$$
p-value := P(出现现有数据或更极端数据|H0成立)
$$

但选修2-3把p-value错误理解成:
$$
p-value=P(H0不成立|出现现有数据)
$$
同时,选修2-3把1-(p-value)错误理解成:
$$
1-(p-value)=P(H0成立|出现现有数据)
$$

2019年过审的高中教材

2019年,高中教材出了新版。

在数学的《选择性必修3》中,有以下进步

  • 那句大错特错的”99%的把握“被去掉了
  • 给出了正确的推导
  • 采用了和大学数理统计教材一样的符号
    • 用$\chi ^2$代替了$K^2$
    • 用了$\alpha$

但是有一句话仍然有一定的问题。这个问题不是错误,但容易引起歧义——当我们用自然语言写”犯错误的概率不超过$\alpha$时,我们容易理解为,$P(H0不成立|出现现有数据) \le \alpha$。

为了避免歧义,我们不能用写”犯错误的概率“,而要写”犯第一类错误的概率”。(统计学家把第一类错误定义成$P(拒绝H0|H0成立)$,把第二类错误定义为$P(接受H0|H0不成立)$。)

下图为陈希孺的《概率论与数理统计》,他的写法是正确的:

传统的频率学派使用假设检验时,如果他发现p-value小于某个给定的值,比如0.01,他就会拒绝H0。在这种做法下:
$$
p-value = P(拒绝H0|H0成立)
$$

总结:
$$
p-value := P(出现现有数据或更极端数据|H0成立) = P(拒绝H0|H0成立) = P(犯第一类错误)
$$

Bayes

——2023-01-05 更新——

以上所写的都是频率学派的假设检验。

接下来我将写一下贝叶斯学派的假设检验。

我们把p-value简记为
$$
p-value := P(出现现有数据或更极端数据|H0成立) = P(data|H0)
$$
利用贝叶斯公式
$$
P(H0|data) = \frac{P(data|H0)P(H0)}{P(data)}
$$
P(H0)被称为先验(prior),P(data|H0)被称为似然(likelihood),P(H0|data)被称为后验(posterior),P(data)可以认为是一个常数。

在频率学派眼里,H0要么成立要么不成立,不可以考虑P(H0),也不可以考虑P(H0|data)。

在贝叶斯学派眼里,H0不是要么成立要么不成立,可以考虑P(H0),也可以考虑P(H0|data)。

如果我们不那么学究,我们可以认为,频率学派 = 贝叶斯学派 + 无信息先验。