【支持耿同学】八种学术造假方法及其破解之道

Posted on 2026-05-29 In 2026 , 2026-05 Word count in article: 4.3k Reading time ≈ 14 mins.

2026年5月29日，听闻耿同学抖音被举报成功，永久限流。我非常生气，遂作此文。我只是一个普通学生，我能做的就这些。

以下是八种常见的学术造假，越往上越拉跨，越往下越隐晦。

知己知彼，百战不殆。

现在开始吧。

	被发现的难易程度	破解之道
修改数据/生成数据	易	检查末位数字分布、重复实验
修改图片	易	肉眼观察、重复实验
修改视频	易	肉眼观察、重复实验
挑选数据	中	检查数据分布、重复实验
p值操纵	中	预注册、重复实验
射箭画靶	中	重复实验
泄露测试集	中	用新数据重复实验
利用自相关	难	重复实验

（1）修改数据/生成数据

拉完了。最容易被发现。

破解之道很简单——分析末尾数字分布、分析倒数第二位数字分布、分析倒数第三位数字分布…。另外，重复实验肯定也是重复不出来的。

贝尔实验室研究员、物理学家 Schön 造假事件 ：2002年5月，Bell Labs 成立调查委员会；同年9月调查报告发布——Schön 多篇论文数据伪造。
斯坦福校长、神经科学家 Marc Tessier-Lavigne 造假事件：2022年11月，Stanford Daily 首次集中报道 Tessier-Lavigne 多篇神经科学论文篡改图像与数据。2023年7月，斯坦福校董会调查报告发布，声称未发现他本人有欺诈或伪造数据的行为，是他的手下造假。2023年7月19日他宣布辞职，并将撤回3篇论文。
硅谷资本家 Elizabeth Holmes 造假事件：2015年10月，被《华尔街日报》揭露。Holmes 创立的血液检测公司 Theranos，曾号称能用1滴血完成数百项检测，公司估值一度高达90亿美元。该公司宣称能完成240项检测，但其核心设备至多处理15项，其余均用西门子的仪器完成。
哈佛商学院终身教授、行为学家 Francesca Gino 造假事件 ：2023年6月，Data Colada 公开指出 Gino 多篇论文存在数据造假嫌疑；2025年5月，哈佛撤销其终身教职并终止雇佣关系。调查中，Gino坚称清白并提交了一份笔记本电脑中的“原始数据”副本。但哈佛调查人员调查后指出——这份文件是她手动将电脑系统时间回调到2010年伪造的。
哈佛医学院教授、心肌干细胞研究者 Piero Anversa 造假事件：2018年10月，Harvard University 和 Brigham and Women’s Hospital 要求撤回 Piero Anversa 实验室的31篇论文，称这些论文包含伪造和/或捏造数据。该事件重创了“心脏干细胞可以再生心肌”这一研究方向的可信度。STAT 报道 / Harvard Crimson 报道。

哪怕这些人学会使用随机数生成器，这种造假也很容易被发现。自然界产生的数据都是有一定规律的，有的是均匀分布，有的是高斯分布，有的是泊松分布，领域里的高手一眼就能看出假数据。

如果是和时间有关的数据，则需要造假者学会随机过程才能完美造假，但他们如果真的聪明到能学懂随机过程，自然也不会用方法(1)，而会用下文提到的高级方法。

（2）修改图片

拉完了。第二容易被发现。

破解之道很简单——肉眼观察。

明尼苏达大学副教授、神经科学家 Sylvain Lesné 图像造假事件：2022年7月，Science 发表调查报道，指出 Lesné 作为第一作者的 2006 年 Nature 阿尔茨海默病 Aβ56 论文存在图像篡改嫌疑；2024年，该论文被正式撤回。该论文曾被引用近2500次，是阿尔茨海默病 Aβ56 假说中影响极大的论文之一。Science 调查报道 / Science 撤稿报道
RIKEN 研究员、生物学家小保方晴子 STAP 细胞造假事件：2014年4月，日本理化学研究所 RIKEN 调查认定小保方晴子在 STAP 细胞论文中存在研究不端；2014年7月，Nature 正式撤回两篇 STAP 细胞论文。调查指出，相关论文存在图像捏造、篡改等问题。RIKEN 调查报告 / Nature 报道。

（3）修改视频

同样拉完了。肉眼就能发现不对劲。

Google DeepMind 团队 Gemini 演示视频造假事件：2023年12月，Google 发布 Gemini 演示视频后被质疑并非实时交互；随后 Google 承认视频经过剪辑处理，实际演示中使用的是静态图片和文字提示，视频中的延迟被缩短，输出也被压缩。

（4）挑选数据

英文叫 cherry-picking，指的是把蛋糕上最漂亮的樱桃保留，其他部分删除。识别难度中。

破解之道——检查数据分布、检查实验记录本、重复实验。

芝加哥大学教授、物理学家、诺贝尔奖得主 Robert Millikan 挑选数据事件：1910年代，Millikan 通过油滴实验测定基本电荷。Millikan 后来长期在 Caltech 任职，曾任 Caltech 校长，他的个人/科研档案保存在加州理工。1978 年，科学史家 Gerald Holton 翻查其实验笔记后发现，他并没有像论文中声称的那样报告全部油滴数据，而是保留了部分“漂亮”的数据点，例如在笔记中标注“Beauty—Publish”。

（5）p值操纵

英文叫 p-hacking。比方法(4)更难识别。具体操作方法有——收数据时一达到显著性就停止；多重假设检验不矫正；和方法(4)联用，摘掉最差的几个数据。

破解之道——预先说好自己要收集多少被试、要用什么假设检验方法、要用什么多重假设检验矫正方法。另外，重复实验——p-hacking 引起的显著性也是重复不出来。

加州大学圣巴巴拉分校博士后、神经科学研究者 Craig Bennett 死鲑鱼 fMRI 讽刺造假：死鲑鱼也能识别人类情感。2009年前后，Bennett 等研究者把一条已经死亡的大西洋鲑鱼放进 fMRI 扫描仪，并给它展示人类社会情境图片。若对大量体素逐一检验而不进行多重假设检验校正，死鱼脑中也会出现“显著激活”。（懿轩注：注意！！！这篇文章不是学术造假！！！是在讽刺学术造假！！！）
康奈尔大学教授、社会心理学家 Daryl Bem “预知未来”事件：2011年，Bem 在 JPSP 发表论文 Feeling the Future: Experimental Evidence for Anomalous Retroactive Influences on Cognition and Affect，声称实验支持人类存在预知未来能力。此论文成为心理学 p-hacking 争议中的标志性案例。Bem 曾在自己的写作指南中传授p-hacking方法。
康奈尔大学教授、食品行为研究者 Brian Wansink 数据按摩事件：2016年，Wansink 在博客中公开描述自己的 p-hacking 方法。2018年，Cornell 调查认定其存在学术不端，Wansink 随后辞职。

（6）射箭画靶

英文叫 Texas sharpshooter fallacy，直译是德州神枪手骗局。p值的定义是P(出现现有数据或更极端数据|原假设)。方法(5)是维持原假设不变、操纵数据。方法(6)是维持数据不变、操纵原假设。比方法(5)更难识别。

英文名的来历是——有个德克萨斯州人，随手往谷仓里打了很多枪，之后把子弹孔最多的地方画上靶子。

破解之道——重复实验。

瑞典卡罗林斯卡研究所研究员、流行病学家 Maria Feychting 高压电白血病争议事件：1992年，Feychting 发表研究，调查瑞典高压电线附近居民的健康风险。他们追踪高压电线300米范围内住户长达25年，并对超过800种疾病逐一检验统计差异，最后发现儿童白血病发生率显著升高。问题在于：当研究者同时比较几百种疾病时，哪怕电线完全无害，也很可能随机冒出几个“显著相关”。这就是先射箭再画靶。他们还推动政府为此采取行动。然而，后续的研究再也没有发现电源线和儿童白血病的关系。——所以大家不要以为这些高级的造假方式就真的“高级”，纯特么祸国殃民——它可以把随机噪声包装成公共卫生恐慌，让政策、经费、公众注意力都被错误结论牵着走。

（懿轩注：统计学是上世纪二三十年代由 Pearson, Fisher 等人建立起来的。到了上世纪九十年代，不能用不懂统计学为自己开脱了）

（7）泄露测试集

英文叫 Test Set Leakage。这是一种机器学习兴起后（上世纪七十年代）才出现的全新造假方式。不要以为泄露测试集很弱智，泄露测试集有时候可以以非常隐晦的方式出现，例如：

西瓜 EEG 反讽实验：2024年5月，arXiv 上线 Beware of Overestimated Decoding Performance Arising from Temporal Autocorrelations in Electroencephalogram Signals，作者给西瓜戴上脑电帽，让西瓜们做情绪识别任务，随后，有意把同一段连续 EEG 信号的一部分放进训练/验证集，另一部分放进测试集。由于相邻时间点高度相似，模型不是学会了“识别情绪”，而是在利用时间自相关偷看测试集。在这种情况下，西瓜的 EEG 信号也能“完美”完成情感分类任务。（懿轩注：注意！！！这篇文章不是学术造假！！！是在讽刺学术造假！！！）
Meta 首席 AI 科学家 Yann LeCun 离职后揭露 Llama 4 benchmark 争议事件：2025年4月，Meta 发布 Llama 4 后被质疑存在泄露测试集——提交到排行榜的 Llama 4 Maverick 版本并非普通公开版本，而是针对对话评测优化过的实验版本。可能的方法是——反复使用测试集结果来调超参数、选模型、改提示词或改后训练策略，导致测试集事实上变成训练流程的一部分。2026年初，Yann LeCun 离开 Meta 后接受采访，称 Meta 在 Llama 4 benchmark 上 “fudged a little bit“。

破解之道——用新数据重复实验。LLM领域可以用每年新出的AIME和IMO。EEG领域可以新做一批实验。

（8）利用自相关

夯爆了。八种里最聪明、最隐晦、最难发现的学术造假。

伦敦大学学院研究员、神经科学研究者 Cyrille Rossant 小鼠比特币反讽实验：2021年11月，Rossant 在 Peer Community Journal 发表 Neurons in the mouse brain correlate with cryptocurrency price: a cautionary tale，把 Allen Institute 公开的小鼠 Neuropixels 神经元记录数据与 Bitcoin、Ethereum 等加密货币价格进行相关分析。结果非常荒诞：约 4 万个单神经元里，约 70% 与 Bitcoin 或 Ethereum 价格显著相关；即使用很保守的 Bonferroni 多重比较校正，仍有约 35% 神经元显著相关。这当然不是小鼠脑子里有“加密货币价格神经元”，而是因为：当两个信号都随时间缓慢变化、有自相关时，它们之间出现显著相关的概率会大大升高。

（懿轩注：注意！！！这篇文章不是学术造假！！！是在讽刺学术造假！！！）

可惜啊，无论造假者再怎么聪明，哪怕是用了方法(8)——在重复实验面前也依然会暴露无遗。这35%的神经元，在下一次实验里，其中大多数不会和比特币相关。

破解方法——重复实验。

问答

问：方法(5)-(8)不是学术造假吧？

答：

我的看法是——凡是重复不出来的，就是学术造假。

一个人发表文章前，应该重复自己的实验至少三次。否则别去误导他人。

问：越隐晦的方法危害是不是越小？

答：

另外，方法(5)-(8)虽然高级、聪明，但是的的确确产生了很多祸国殃民的后果。不要以为聪明的方法危害就小！——死鲑鱼fMRI，西瓜EEG，小鼠比特币，这些反讽实验，历历在目，言犹在耳。如果科学家们在一些重大领域也耍这些小聪明，如果政策制定者参考了这些论文的结果，危害之大，难以想象。

后记

当年，我对2021年的图片误用处理结果很生气。我的好朋友对我说，你现在只是一个普通学生，或许身居高位者有其他考虑。

作为一个普通学生，我只能给普通学生建议：如果你的老师对重复实验不重视，赶紧跑！！！

总表

序号	年份	案例	造假方法	是不是反讽
1	2002	贝尔实验室研究员、物理学家 Schön 造假事件	修改数据/生成数据	否
2	2022	斯坦福校长、神经科学家 Marc Tessier-Lavigne 造假事件	修改数据/生成数据；修改图片	否
3	2015	硅谷资本家 Elizabeth Holmes 造假事件	修改数据/生成数据	否
4	2023	哈佛商学院终身教授、行为学家 Francesca Gino 造假事件	修改数据/生成数据	否
5	2018	哈佛医学院教授、心肌干细胞研究者 Piero Anversa 造假事件	修改数据/生成数据	否
6	2022	明尼苏达大学副教授、神经科学家 Sylvain Lesné 图像造假事件	修改图片	否
7	2014	RIKEN 研究员、生物学家小保方晴子 STAP 细胞造假事件	修改图片	否
8	2023	Google DeepMind 团队 Gemini 演示视频造假事件	修改视频	否
9	1978	芝加哥大学教授、物理学家、诺贝尔奖得主 Robert Millikan 挑选数据事件	挑选数据	否
10	2009	加州大学圣巴巴拉分校博士后、神经科学研究者 Craig Bennett 死鲑鱼 fMRI 讽刺造假	p值操纵	是
11	2011	康奈尔大学教授、社会心理学家 Daryl Bem “预知未来”事件	p值操纵	否
12	2016	康奈尔大学教授、食品行为研究者 Brian Wansink 数据按摩事件	p值操纵	否
13	1992	瑞典卡罗林斯卡研究所研究员、流行病学家 Maria Feychting 高压电白血病争议事件	射箭画靶	否
14	2024	西瓜 EEG 反讽实验	泄露测试集；利用自相关	是
15	2025	Meta 首席 AI 科学家 Yann LeCun 离职后揭露 Llama 4 benchmark 争议事件	泄露测试集	否
16	2021	伦敦大学学院研究员、神经科学研究者 Cyrille Rossant 小鼠比特币反讽实验	利用自相关	是

参考链接

https://www.physik.hu-berlin.de/en/qom/lehre/ss09bio/schoen_report.pdf/%40%40download/file/schoen_report.pdf （2002年，Bell Labs对舍恩事件的调查报告）
https://stanforddaily.com/2022/11/29/stanford-presidents-research-under-investigation-for-scientific-misconduct-university-admits-mistakes/（2022年，Stanford Daily 对 Marc Tessier-Lavigne 论文问题的首篇调查）
https://www.sec.gov/newsroom/press-releases/2018-41 （2018年，美国证券交易委员会对 Elizabeth Holmes / Theranos 的欺诈指控）
https://www.thecrimson.com/article/2025/5/27/gino-tenure-revoked/ （2025年，Francesca Gino 被撤销终身教职的报道）
https://www.statnews.com/2018/10/14/harvard-brigham-retractions-stem-cell/ （2018年，STAT 对 Piero Anversa 心肌干细胞造假事件的报道）
https://www.science.org/content/article/potential-fabrication-research-images-threatens-key-theory-alzheimers-disease（2022年，Science 对 Sylvain Lesné 造假的报道）
https://www.riken.jp/en/news_pubs/research_news/pr/2014/20140401_2/ （2014年，RIKEN对于小保方晴子的报道）
https://www.theverge.com/2023/12/7/23992737/google-gemini-misrepresentation-ai-accusation （2023年，The Verge 报道，Google 的 Gemini 演示视频并非实时语音交互，而是经过多次剪辑处理。）
https://www.jstor.org/stable/27757478 （1981年，Allan Franklin 对 Millikan 数据挑选的分析）
https://prefrontal.org/files/posters/Bennett-Salmon-2009.pdf （2009年，死鲑鱼也能识别人类情感）
https://replicationindex.com/2018/01/05/bem-retraction （2018年，Replicability-Index 文章批评 Daryl Bem 2011 年发表的 “Feeling the Future” 论文并非“预知未来”，而是 p-hacking 导致的。）
https://news.cornell.edu/stories/2018/09/provost-issues-statement-wansink-academic-misconduct-investigation （2018年，Cornell 官方声明称，调查发现 Wansink 存在 p-hacking 问题）
https://pubmed.ncbi.nlm.nih.gov/8213751 （1993年，Maria Feychting 和 Anders Ahlbom 在 American Journal of Epidemiology 发表瑞典高压电线儿童癌症研究，报告高压电线磁场暴露与儿童白血病风险升高之间存在统计关联）
https://arxiv.org/abs/2405.17024（2024年，西瓜EEG）
https://www.ft.com/content/e3c4c2f6-4ea7-4adf-b945-e58495f836c2
（2026年，Financial Times 采访 Yann LeCun，后者称 Meta 在 Llama 4 benchmark 上 “fudged a little bit”，并使用不同模型跑不同 benchmark 来获得更好结果。）
https://peercommunityjournal.org/articles/10.24072/pcjournal.30/ （2021年11月，小鼠比特币）