【支持耿同学】八种学术造假方法及其破解之道
2026年5月29日,听闻耿同学抖音被举报成功,永久限流。我非常生气,遂作此文。我只是一个普通学生,我能做的就这些。
以下是八种常见的学术造假,越往上越拉跨,越往下越隐晦。
知己知彼,百战不殆。
现在开始吧。
| 被发现的难易程度 | 破解之道 | |
|---|---|---|
| 修改数据/生成数据 | 易 | 检查末位数字分布、重复实验 |
| 修改图片 | 易 | 肉眼观察、重复实验 |
| 修改视频 | 易 | 肉眼观察、重复实验 |
| 挑选数据 | 中 | 检查数据分布、重复实验 |
| p值操纵 | 中 | 预注册、重复实验 |
| 射箭画靶 | 中 | 重复实验 |
| 泄露测试集 | 中 | 用新数据重复实验 |
| 利用自相关 | 难 | 重复实验 |
(1)修改数据/生成数据
拉完了。最容易被发现。
破解之道很简单——分析末尾数字分布、分析倒数第二位数字分布、分析倒数第三位数字分布…。另外,重复实验肯定也是重复不出来的。
贝尔实验室研究员、物理学家 Schön 造假事件 :2002年5月,Bell Labs 成立调查委员会;同年9月调查报告发布——Schön 多篇论文数据伪造。
斯坦福校长、神经科学家 Marc Tessier-Lavigne 造假事件:2022年11月,Stanford Daily 首次集中报道 Tessier-Lavigne 多篇神经科学论文篡改图像与数据。2023年7月,斯坦福校董会调查报告发布,声称未发现他本人有欺诈或伪造数据的行为,是他的手下造假。2023年7月19日他宣布辞职,并将撤回3篇论文。
硅谷资本家 Elizabeth Holmes 造假事件:2015年10月,被《华尔街日报》揭露。Holmes 创立的血液检测公司 Theranos,曾号称能用1滴血完成数百项检测,公司估值一度高达90亿美元。该公司宣称能完成240项检测,但其核心设备至多处理15项,其余均用西门子的仪器完成。
哈佛商学院终身教授、行为学家 Francesca Gino 造假事件 :2023年6月,Data Colada 公开指出 Gino 多篇论文存在数据造假嫌疑;2025年5月,哈佛撤销其终身教职并终止雇佣关系。调查中,Gino坚称清白并提交了一份笔记本电脑中的“原始数据”副本。但哈佛调查人员调查后指出——这份文件是她手动将电脑系统时间回调到2010年伪造的。
哈佛医学院教授、心肌干细胞研究者 Piero Anversa 造假事件:2018年10月,Harvard University 和 Brigham and Women’s Hospital 要求撤回 Piero Anversa 实验室的31篇论文,称这些论文包含伪造和/或捏造数据。该事件重创了“心脏干细胞可以再生心肌”这一研究方向的可信度。STAT 报道 / Harvard Crimson 报道。
哪怕这些人学会使用随机数生成器,这种造假也很容易被发现。自然界产生的数据都是有一定规律的,有的是均匀分布,有的是高斯分布,有的是泊松分布,领域里的高手一眼就能看出假数据。
如果是和时间有关的数据,则需要造假者学会随机过程才能完美造假,但他们如果真的聪明到能学懂随机过程,自然也不会用方法(1),而会用下文提到的高级方法。
(2)修改图片
拉完了。第二容易被发现。
破解之道很简单——肉眼观察。
- 明尼苏达大学副教授、神经科学家 Sylvain Lesné 图像造假事件:2022年7月,Science 发表调查报道,指出 Lesné 作为第一作者的 2006 年 Nature 阿尔茨海默病 Aβ56 论文存在图像篡改嫌疑;2024年,该论文被正式撤回。该论文曾被引用近2500次,是阿尔茨海默病 Aβ56 假说中影响极大的论文之一。Science 调查报道 / Science 撤稿报道
- RIKEN 研究员、生物学家小保方晴子 STAP 细胞造假事件:2014年4月,日本理化学研究所 RIKEN 调查认定小保方晴子在 STAP 细胞论文中存在研究不端;2014年7月,Nature 正式撤回两篇 STAP 细胞论文。调查指出,相关论文存在图像捏造、篡改等问题。RIKEN 调查报告 / Nature 报道。
(3)修改视频
同样拉完了。肉眼就能发现不对劲。
- Google DeepMind 团队 Gemini 演示视频造假事件:2023年12月,Google 发布 Gemini 演示视频后被质疑并非实时交互;随后 Google 承认视频经过剪辑处理,实际演示中使用的是静态图片和文字提示,视频中的延迟被缩短,输出也被压缩。
(4)挑选数据
英文叫 cherry-picking,指的是把蛋糕上最漂亮的樱桃保留,其他部分删除。识别难度中。
破解之道——检查数据分布、检查实验记录本、重复实验。
- 芝加哥大学教授、物理学家、诺贝尔奖得主 Robert Millikan 挑选数据事件:1910年代,Millikan 通过油滴实验测定基本电荷。Millikan 后来长期在 Caltech 任职,曾任 Caltech 校长,他的个人/科研档案保存在加州理工。1978 年,科学史家 Gerald Holton 翻查其实验笔记后发现,他并没有像论文中声称的那样报告全部油滴数据,而是保留了部分“漂亮”的数据点,例如在笔记中标注“Beauty—Publish”。
(5)p值操纵
英文叫 p-hacking。比方法(4)更难识别。具体操作方法有——收数据时一达到显著性就停止;多重假设检验不矫正;和方法(4)联用,摘掉最差的几个数据。
破解之道——预先说好自己要收集多少被试、要用什么假设检验方法、要用什么多重假设检验矫正方法。另外,重复实验——p-hacking 引起的显著性也是重复不出来。
加州大学圣巴巴拉分校博士后、神经科学研究者 Craig Bennett 死鲑鱼 fMRI 讽刺造假:死鲑鱼也能识别人类情感。2009年前后,Bennett 等研究者把一条已经死亡的大西洋鲑鱼放进 fMRI 扫描仪,并给它展示人类社会情境图片。若对大量体素逐一检验而不进行多重假设检验校正,死鱼脑中也会出现“显著激活”。(懿轩注:注意!!!这篇文章不是学术造假!!!是在讽刺学术造假!!!)
康奈尔大学教授、社会心理学家 Daryl Bem “预知未来”事件:2011年,Bem 在 JPSP 发表论文 Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect,声称实验支持人类存在预知未来能力。此论文成为心理学 p-hacking 争议中的标志性案例。Bem 曾在自己的写作指南中传授p-hacking方法。
康奈尔大学教授、食品行为研究者 Brian Wansink 数据按摩事件:2016年,Wansink 在博客中公开描述自己的 p-hacking 方法。2018年,Cornell 调查认定其存在学术不端,Wansink 随后辞职。
(6)射箭画靶
英文叫 Texas sharpshooter fallacy,直译是德州神枪手骗局。p值的定义是P(出现现有数据或更极端数据|原假设)。方法(5)是维持原假设不变、操纵数据。方法(6)是维持数据不变、操纵原假设。比方法(5)更难识别。
英文名的来历是——有个德克萨斯州人,随手往谷仓里打了很多枪,之后把子弹孔最多的地方画上靶子。
破解之道——重复实验。
- 瑞典卡罗林斯卡研究所研究员、流行病学家 Maria Feychting 高压电白血病争议事件:1992年,Feychting 发表研究,调查瑞典高压电线附近居民的健康风险。他们追踪高压电线300米范围内住户长达25年,并对超过800种疾病逐一检验统计差异,最后发现儿童白血病发生率显著升高。问题在于:当研究者同时比较几百种疾病时,哪怕电线完全无害,也很可能随机冒出几个“显著相关”。这就是先射箭再画靶。他们还推动政府为此采取行动。然而,后续的研究再也没有发现电源线和儿童白血病的关系。——所以大家不要以为这些高级的造假方式就真的“高级”,纯特么祸国殃民——它可以把随机噪声包装成公共卫生恐慌,让政策、经费、公众注意力都被错误结论牵着走。
(懿轩注:统计学是上世纪二三十年代由 Pearson, Fisher 等人建立起来的。到了上世纪九十年代,不能用不懂统计学为自己开脱了)
(7)泄露测试集
英文叫 Test Set Leakage。这是一种机器学习兴起后(上世纪七十年代)才出现的全新造假方式。不要以为泄露测试集很弱智,泄露测试集有时候可以以非常隐晦的方式出现,例如:
- 西瓜 EEG 反讽实验:2024年5月,arXiv 上线 Beware of Overestimated Decoding Performance Arising from Temporal Autocorrelations in Electroencephalogram Signals,作者给西瓜戴上脑电帽,让西瓜们做情绪识别任务,随后,有意把同一段连续 EEG 信号的一部分放进训练/验证集,另一部分放进测试集。由于相邻时间点高度相似,模型不是学会了“识别情绪”,而是在利用时间自相关偷看测试集。在这种情况下,西瓜的 EEG 信号也能“完美”完成情感分类任务。(懿轩注:注意!!!这篇文章不是学术造假!!!是在讽刺学术造假!!!)
- Meta 首席 AI 科学家 Yann LeCun 离职后揭露 Llama 4 benchmark 争议事件:2025年4月,Meta 发布 Llama 4 后被质疑存在泄露测试集——提交到排行榜的 Llama 4 Maverick 版本并非普通公开版本,而是针对对话评测优化过的实验版本。可能的方法是——反复使用测试集结果来调超参数、选模型、改提示词或改后训练策略,导致测试集事实上变成训练流程的一部分。2026年初,Yann LeCun 离开 Meta 后接受采访,称 Meta 在 Llama 4 benchmark 上 “fudged a little bit“。
破解之道——用新数据重复实验。LLM领域可以用每年新出的AIME和IMO。EEG领域可以新做一批实验。
(8)利用自相关
夯爆了。八种里最聪明、最隐晦、最难发现的学术造假。
- 伦敦大学学院研究员、神经科学研究者 Cyrille Rossant 小鼠比特币反讽实验:2021年11月,Rossant 在 Peer Community Journal 发表 Neurons in the mouse brain correlate with cryptocurrency price: a cautionary tale,把 Allen Institute 公开的小鼠 Neuropixels 神经元记录数据与 Bitcoin、Ethereum 等加密货币价格进行相关分析。结果非常荒诞:约 4 万个单神经元里,约 70% 与 Bitcoin 或 Ethereum 价格显著相关;即使用很保守的 Bonferroni 多重比较校正,仍有约 35% 神经元显著相关。这当然不是小鼠脑子里有“加密货币价格神经元”,而是因为:当两个信号都随时间缓慢变化、有自相关时,它们之间出现显著相关的概率会大大升高。
(懿轩注:注意!!!这篇文章不是学术造假!!!是在讽刺学术造假!!!)
可惜啊,无论造假者再怎么聪明,哪怕是用了方法(8)——在重复实验面前也依然会暴露无遗。这35%的神经元,在下一次实验里,其中大多数不会和比特币相关。
破解方法——重复实验。
问答
问:方法(5)-(8)不是学术造假吧?
答:
我的看法是——凡是重复不出来的,就是学术造假。
一个人发表文章前,应该重复自己的实验至少三次。否则别去误导他人。
问:越隐晦的方法危害是不是越小?
答:
另外,方法(5)-(8)虽然高级、聪明,但是的的确确产生了很多祸国殃民的后果。不要以为聪明的方法危害就小!——死鲑鱼fMRI,西瓜EEG,小鼠比特币,这些反讽实验,历历在目,言犹在耳。如果科学家们在一些重大领域也耍这些小聪明,如果政策制定者参考了这些论文的结果,危害之大,难以想象。
后记
当年,我对2021年的图片误用处理结果很生气。我的好朋友对我说,你现在只是一个普通学生,或许身居高位者有其他考虑。
作为一个普通学生,我只能给普通学生建议:如果你的老师对重复实验不重视,赶紧跑!!!
总表
| 序号 | 年份 | 案例 | 造假方法 | 是不是反讽 |
|---|---|---|---|---|
| 1 | 2002 | 贝尔实验室研究员、物理学家 Schön 造假事件 | 修改数据/生成数据 | 否 |
| 2 | 2022 | 斯坦福校长、神经科学家 Marc Tessier-Lavigne 造假事件 | 修改数据/生成数据;修改图片 | 否 |
| 3 | 2015 | 硅谷资本家 Elizabeth Holmes 造假事件 | 修改数据/生成数据 | 否 |
| 4 | 2023 | 哈佛商学院终身教授、行为学家 Francesca Gino 造假事件 | 修改数据/生成数据 | 否 |
| 5 | 2018 | 哈佛医学院教授、心肌干细胞研究者 Piero Anversa 造假事件 | 修改数据/生成数据 | 否 |
| 6 | 2022 | 明尼苏达大学副教授、神经科学家 Sylvain Lesné 图像造假事件 | 修改图片 | 否 |
| 7 | 2014 | RIKEN 研究员、生物学家小保方晴子 STAP 细胞造假事件 | 修改图片 | 否 |
| 8 | 2023 | Google DeepMind 团队 Gemini 演示视频造假事件 | 修改视频 | 否 |
| 9 | 1978 | 芝加哥大学教授、物理学家、诺贝尔奖得主 Robert Millikan 挑选数据事件 | 挑选数据 | 否 |
| 10 | 2009 | 加州大学圣巴巴拉分校博士后、神经科学研究者 Craig Bennett 死鲑鱼 fMRI 讽刺造假 | p值操纵 | 是 |
| 11 | 2011 | 康奈尔大学教授、社会心理学家 Daryl Bem “预知未来”事件 | p值操纵 | 否 |
| 12 | 2016 | 康奈尔大学教授、食品行为研究者 Brian Wansink 数据按摩事件 | p值操纵 | 否 |
| 13 | 1992 | 瑞典卡罗林斯卡研究所研究员、流行病学家 Maria Feychting 高压电白血病争议事件 | 射箭画靶 | 否 |
| 14 | 2024 | 西瓜 EEG 反讽实验 | 泄露测试集;利用自相关 | 是 |
| 15 | 2025 | Meta 首席 AI 科学家 Yann LeCun 离职后揭露 Llama 4 benchmark 争议事件 | 泄露测试集 | 否 |
| 16 | 2021 | 伦敦大学学院研究员、神经科学研究者 Cyrille Rossant 小鼠比特币反讽实验 | 利用自相关 | 是 |
参考链接
- https://www.physik.hu-berlin.de/en/qom/lehre/ss09bio/schoen_report.pdf/%40%40download/file/schoen_report.pdf (2002年,Bell Labs对舍恩事件的调查报告)
- https://stanforddaily.com/2022/11/29/stanford-presidents-research-under-investigation-for-scientific-misconduct-university-admits-mistakes/(2022年,Stanford Daily 对 Marc Tessier-Lavigne 论文问题的首篇调查)
- https://www.sec.gov/newsroom/press-releases/2018-41 (2018年,美国证券交易委员会对 Elizabeth Holmes / Theranos 的欺诈指控)
- https://www.thecrimson.com/article/2025/5/27/gino-tenure-revoked/ (2025年,Francesca Gino 被撤销终身教职的报道)
- https://www.statnews.com/2018/10/14/harvard-brigham-retractions-stem-cell/ (2018年,STAT 对 Piero Anversa 心肌干细胞造假事件的报道)
- https://www.science.org/content/article/potential-fabrication-research-images-threatens-key-theory-alzheimers-disease(2022年,Science 对 Sylvain Lesné 造假的报道)
- https://www.riken.jp/en/news_pubs/research_news/pr/2014/20140401_2/ (2014年,RIKEN对于小保方晴子的报道)
- https://www.theverge.com/2023/12/7/23992737/google-gemini-misrepresentation-ai-accusation (2023年,The Verge 报道,Google 的 Gemini 演示视频并非实时语音交互,而是经过多次剪辑处理。)
- https://www.jstor.org/stable/27757478 (1981年,Allan Franklin 对 Millikan 数据挑选的分析)
- https://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf (2009年,死鲑鱼也能识别人类情感)
- https://replicationindex.com/2018/01/05/bem-retraction (2018年,Replicability-Index 文章批评 Daryl Bem 2011 年发表的 “Feeling the Future” 论文并非“预知未来”,而是 p-hacking 导致的。)
- https://news.cornell.edu/stories/2018/09/provost-issues-statement-wansink-academic-misconduct-investigation (2018年,Cornell 官方声明称,调查发现 Wansink 存在 p-hacking 问题)
- https://pubmed.ncbi.nlm.nih.gov/8213751 (1993年,Maria Feychting 和 Anders Ahlbom 在 American Journal of Epidemiology 发表瑞典高压电线儿童癌症研究,报告高压电线磁场暴露与儿童白血病风险升高之间存在统计关联)
- https://arxiv.org/abs/2405.17024(2024年,西瓜EEG)
- https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2
(2026年,Financial Times 采访 Yann LeCun,后者称 Meta 在 Llama 4 benchmark 上 “fudged a little bit”,并使用不同模型跑不同 benchmark 来获得更好结果。) - https://peercommunityjournal.org/articles/10.24072/pcjournal.30/ (2021年11月,小鼠比特币)