用高中生能看懂的话解释什么是学术造假

Posted on 2022-09-09 In 2022 , 2022-09 Word count in article: 1.5k Reading time ≈ 5 mins.

用高中生能看懂的话解释什么是学术造假

引子：每个人都应该恨学术造假，无论他是不是科研工作者。原因会在本文的后半部分揭晓。

我把学术研究定义为：一种发现客观真理的行为。

我把学术造假定义为：一种伪造客观真理的行为。

上述定义，想必大多数科研工作者都会认可。

生物领域的学术造假，按照严重程度从高到底，主要可以分成3类

数据修改
数据挑选
p-hacking

数据修改（高中生能看懂）

定义：直接修改数据

eg: 我发明了一种新药，找1000个患病的被试做实验，800个人治好了，200个人没治好。但是我写论文的时候写：我找了1000个人，1000个人全都治好了。

数据挑选（高中生能看懂）

定义：保留符合预期的数据，丢弃不符合预期的数据

eg: 我发明了一种新药，找1000个患病的被试做实验，800个人治好了，200个人没治好。但是我写论文的时候写：我找了800个人，800个人全都治好了。

注：数据挑选的英文叫cherry-picking。

p-hacking（需要学过数理统计才能看懂）

定义：做一些操作，让p-value小于0.05。

我目前知道3种p-hacking的方法。

第一种：增加实验组

第二种：利用cherry-picking去p-hacking

第三种：做许多不同种类的假设检验

第一种：增加实验组

假设现在我有100枚硬币，我希望判断这100枚硬币是否均匀。我可以把每枚硬币都抛1000次，然后做卡方检验。通常，生物领域会把p-value取为0.05。注意，p-value = 0.05的显著性，意思就是，允许5%的出错概率。也就是说，即使这100枚硬币都是均匀的，我最后会得到大约5枚硬币，这5枚硬币的p-value小于0.05。

这个数学事实被某些人用来学术造假：假设现在我有100种药物，我希望判断这100种药物是否有效。我可以找101组人来做实验，其中一组作为对照组。同样地，p-value = 0.05的显著性，意思就是，允许5%的出错概率。也就是说，即使这100种药物全都无效，我最后会得到大约5种药物，这5种药物的p-value小于0.05。

这种学术造假方式在fMRI里特别常用：

神经科学里有个常用的技术叫fMRI。如果你在某个科普文章里看到一个人脑的切片图，上面有红色或者黄色的亮团，那这张图就是fMRI的结果图。
fMRI会把大脑分成108000个小立方体，每个小立方体称为一个voxel，体积通常为$27mm^3$，然后测得每个小体积里的BOLD信号（Blood Oxygen Level Dependent，一种和血液中氧气有关的信号）。
随后，神经科学家会把这些voxel组合成脑区。在这一步，脑区的划分有一定的随意性，因为不同脑区的边界并没有严格的定义。
重点来了，人的大脑完全可以分出20个脑区乃至40个脑区，于是乎，若用p-value等于0.05的显著性，很容易挑出一两个脑区达到显著性。

第二种：利用cherry-picking去p-hacking

cherry-picking和p-hacking完全可以结合在一起用。有些人会把最不符合预期、偏离得最远的数据去掉，这样剩下的数据就达到显著性了。

第三种：做许多不同种类的假设检验

有的人会拿GraphPad或者SPSS这样的软件，对着他们的数据做各种各样的离奇的假设检验，而不管这个假设检验到底适不适合他们研究的问题。

这就跟小学生玩电子游戏一样，在软件里一通点来点去，哪个检验出了显著性就报哪个。

这里有一个很好的介绍p-hacking的视频: p-hacking: What it is and how to avoid it! by StatQuest。

对学术造假的几点补充

有些人认为p-hacking不是学术造假，这样的说法是不对的。
- 我们可以把科学研究定义为：一种发现客观真理的行为，把学术造假定义为：一种伪造客观真理的行为。
- 上述定义，想必大多数科研工作者都会认可。
- p-hacking伪造了客观真理，因此它就是学术造假。
可重复性是针对学术造假的一把利器。
- 数据修改、数据挑选、p-hacking得出来的实验结果，肯定是无法重复的。
- 2021年1月，中科院监审局道德委某处长指出：可重复性在生命科学中不一定可靠；重复20年前的实验没有意义。
- 对此，我想说：如果超过50%的生物领域的科研工作者都认可这两句话，那么未来生物学将不复存在，至少不再作为一门科学存在。
- 图片误用事件的全部时间线。
学术造假几乎无法被发现。
- 除非造假者进行的数据修改、数据挑选特别剧烈，否则难以被发现。
- 除非造假者是一个很有名的大教授，否则其它实验室不太可能去重复他的实验。
每个人都应该恨学术造假，无论他是不是科研工作者。
- 因为每个人都会生病，都需要买药
- 难道你希望你买的药是通过数据修改、数据挑选、p-hacking得来的吗？