用高中生能看懂的话解释什么是学术造假

用高中生能看懂的话解释什么是学术造假

引子:每个人都应该恨学术造假,无论他是不是科研工作者。原因会在本文的后半部分揭晓。

我把学术研究定义为:一种发现客观真理的行为。

我把学术造假定义为:一种伪造客观真理的行为。

上述定义,想必大多数科研工作者都会认可。

生物领域的学术造假,按照严重程度从高到底,主要可以分成3类

  • 数据修改
  • 数据挑选
  • p-hacking

数据修改(高中生能看懂)

定义:直接修改数据

eg: 我发明了一种新药,找1000个患病的被试做实验,800个人治好了,200个人没治好。但是我写论文的时候写:我找了1000个人,1000个人全都治好了。

数据挑选(高中生能看懂)

定义:保留符合预期的数据,丢弃不符合预期的数据

eg: 我发明了一种新药,找1000个患病的被试做实验,800个人治好了,200个人没治好。但是我写论文的时候写:我找了800个人,800个人全都治好了。

注:数据挑选的英文叫cherry-picking

p-hacking(需要学过数理统计才能看懂)

定义:做一些操作,让p-value小于0.05。

我目前知道3种p-hacking的方法。

第一种:增加实验组

第二种:利用cherry-picking去p-hacking

第三种:做许多不同种类的假设检验

第一种:增加实验组

假设现在我有100枚硬币,我希望判断这100枚硬币是否均匀。我可以把每枚硬币都抛1000次,然后做卡方检验。通常,生物领域会把p-value取为0.05。注意,p-value = 0.05的显著性,意思就是,允许5%的出错概率。也就是说,即使这100枚硬币都是均匀的,我最后会得到大约5枚硬币,这5枚硬币的p-value小于0.05。

这个数学事实被某些人用来学术造假:假设现在我有100种药物,我希望判断这100种药物是否有效。我可以找101组人来做实验,其中一组作为对照组。同样地,p-value = 0.05的显著性,意思就是,允许5%的出错概率。也就是说,即使这100种药物全都无效,我最后会得到大约5种药物,这5种药物的p-value小于0.05。

这种学术造假方式在fMRI里特别常用:

  • 神经科学里有个常用的技术叫fMRI。如果你在某个科普文章里看到一个人脑的切片图,上面有红色或者黄色的亮团,那这张图就是fMRI的结果图。
  • fMRI会把大脑分成108000个小立方体,每个小立方体称为一个voxel,体积通常为$27mm^3$,然后测得每个小体积里的BOLD信号(Blood Oxygen Level Dependent,一种和血液中氧气有关的信号)。
  • 随后,神经科学家会把这些voxel组合成脑区。在这一步,脑区的划分有一定的随意性,因为不同脑区的边界并没有严格的定义。
  • 重点来了,人的大脑完全可以分出20个脑区乃至40个脑区,于是乎,若用p-value等于0.05的显著性,很容易挑出一两个脑区达到显著性。

第二种:利用cherry-picking去p-hacking

cherry-picking和p-hacking完全可以结合在一起用。有些人会把最不符合预期、偏离得最远的数据去掉,这样剩下的数据就达到显著性了。

第三种:做许多不同种类的假设检验

有的人会拿GraphPad或者SPSS这样的软件,对着他们的数据做各种各样的离奇的假设检验,而不管这个假设检验到底适不适合他们研究的问题。

这就跟小学生玩电子游戏一样,在软件里一通点来点去,哪个检验出了显著性就报哪个。

这里有一个很好的介绍p-hacking的视频: p-hacking: What it is and how to avoid it! by StatQuest

对学术造假的几点补充

  • 有些人认为p-hacking不是学术造假,这样的说法是不对的。
    • 我们可以把科学研究定义为:一种发现客观真理的行为,把学术造假定义为:一种伪造客观真理的行为。
    • 上述定义,想必大多数科研工作者都会认可。
    • p-hacking伪造了客观真理,因此它就是学术造假。
  • 可重复性是针对学术造假的一把利器。
  • 学术造假几乎无法被发现。
    • 除非造假者进行的数据修改、数据挑选特别剧烈,否则难以被发现。
    • 除非造假者是一个很有名的大教授,否则其它实验室不太可能去重复他的实验。
  • 每个人都应该恨学术造假,无论他是不是科研工作者。
    • 因为每个人都会生病,都需要买药
    • 难道你希望你买的药是通过数据修改、数据挑选、p-hacking得来的吗?