用高中生能看懂的话解释什么是学术造假
用高中生能看懂的话解释什么是学术造假
引子:每个人都应该恨学术造假,无论他是不是科研工作者。原因会在本文的后半部分揭晓。
我把学术研究定义为:一种发现客观真理的行为。
我把学术造假定义为:一种伪造客观真理的行为。
上述定义,想必大多数科研工作者都会认可。
生物领域的学术造假,按照严重程度从高到底,主要可以分成3类
- 数据修改
- 数据挑选
- p-hacking
数据修改(高中生能看懂)
定义:直接修改数据
eg: 我发明了一种新药,找1000个患病的被试做实验,800个人治好了,200个人没治好。但是我写论文的时候写:我找了1000个人,1000个人全都治好了。
数据挑选(高中生能看懂)
定义:保留符合预期的数据,丢弃不符合预期的数据
eg: 我发明了一种新药,找1000个患病的被试做实验,800个人治好了,200个人没治好。但是我写论文的时候写:我找了800个人,800个人全都治好了。
注:数据挑选的英文叫cherry-picking。
p-hacking(需要学过数理统计才能看懂)
定义:做一些操作,让p-value小于0.05。
我目前知道3种p-hacking的方法。
第一种:增加实验组
第二种:利用cherry-picking去p-hacking
第三种:做许多不同种类的假设检验
第一种:增加实验组
假设现在我有100枚硬币,我希望判断这100枚硬币是否均匀。我可以把每枚硬币都抛1000次,然后做卡方检验。通常,生物领域会把p-value取为0.05。注意,p-value = 0.05的显著性,意思就是,允许5%的出错概率。也就是说,即使这100枚硬币都是均匀的,我最后会得到大约5枚硬币,这5枚硬币的p-value小于0.05。
这个数学事实被某些人用来学术造假:假设现在我有100种药物,我希望判断这100种药物是否有效。我可以找101组人来做实验,其中一组作为对照组。同样地,p-value = 0.05的显著性,意思就是,允许5%的出错概率。也就是说,即使这100种药物全都无效,我最后会得到大约5种药物,这5种药物的p-value小于0.05。
这种学术造假方式在fMRI里特别常用:
- 神经科学里有个常用的技术叫fMRI。如果你在某个科普文章里看到一个人脑的切片图,上面有红色或者黄色的亮团,那这张图就是fMRI的结果图。
- fMRI会把大脑分成108000个小立方体,每个小立方体称为一个voxel,体积通常为$27mm^3$,然后测得每个小体积里的BOLD信号(Blood Oxygen Level Dependent,一种和血液中氧气有关的信号)。
- 随后,神经科学家会把这些voxel组合成脑区。在这一步,脑区的划分有一定的随意性,因为不同脑区的边界并没有严格的定义。
- 重点来了,人的大脑完全可以分出20个脑区乃至40个脑区,于是乎,若用p-value等于0.05的显著性,很容易挑出一两个脑区达到显著性。
第二种:利用cherry-picking去p-hacking
cherry-picking和p-hacking完全可以结合在一起用。有些人会把最不符合预期、偏离得最远的数据去掉,这样剩下的数据就达到显著性了。
第三种:做许多不同种类的假设检验
有的人会拿GraphPad或者SPSS这样的软件,对着他们的数据做各种各样的离奇的假设检验,而不管这个假设检验到底适不适合他们研究的问题。
这就跟小学生玩电子游戏一样,在软件里一通点来点去,哪个检验出了显著性就报哪个。
这里有一个很好的介绍p-hacking的视频: p-hacking: What it is and how to avoid it! by StatQuest。
对学术造假的几点补充
- 有些人认为p-hacking不是学术造假,这样的说法是不对的。
- 我们可以把科学研究定义为:一种发现客观真理的行为,把学术造假定义为:一种伪造客观真理的行为。
- 上述定义,想必大多数科研工作者都会认可。
- p-hacking伪造了客观真理,因此它就是学术造假。
- 可重复性是针对学术造假的一把利器。
- 数据修改、数据挑选、p-hacking得出来的实验结果,肯定是无法重复的。
- 2021年1月,中科院监审局道德委某处长指出:可重复性在生命科学中不一定可靠;重复20年前的实验没有意义。
- 对此,我想说:如果超过50%的生物领域的科研工作者都认可这两句话,那么未来生物学将不复存在,至少不再作为一门科学存在。
- 图片误用事件的全部时间线。
- 学术造假几乎无法被发现。
- 除非造假者进行的数据修改、数据挑选特别剧烈,否则难以被发现。
- 除非造假者是一个很有名的大教授,否则其它实验室不太可能去重复他的实验。
- 每个人都应该恨学术造假,无论他是不是科研工作者。
- 因为每个人都会生病,都需要买药
- 难道你希望你买的药是通过数据修改、数据挑选、p-hacking得来的吗?