哈萨比斯传记
我不喜欢个人崇拜,故而也不喜欢看传记,但这书的节选作为历史记录挺有价值,按时间顺序总结如下:
- 2022年11月30日,ChatGPT发布,谷歌深感危机。
- 2024年9月13日,o1发布,谷歌又一次深感危机,召集员工去搞思维链 (Chain of Thinking, CoT)。(毕竟,思维链最早是谷歌提出来的,让别人抢先,岂不恼怒)
- 2024年12月,谷歌发布他们第一个、世界第二个带有思维链的模型——gemini 2.0 Flash thinking。但是第二天openai发布了o3。谷歌又又感到了危机。
- 2025年1月,DeepSeek 发布了DeepSeek R1。这篇文章不仅公开了参数,而且毫无保留地公开了做法。除了数据没公开,啥都公开了。谷歌又又又一次感到危机。anthropic则要求制裁deepseek。
- 2025年春,谷歌新发布 gemini 2.5,免费送学生会员。这是谷歌自从2022年11月以来第一次找到场子。
- 2025年秋,谷歌新发布 gemini 3.0,让openai感到危机。
- 但文章中并没有提2025年12月以来 cli agent 的迅速普及,以及谷歌 cli agent 上落后于anthropic和openai。我估计谷歌现在是又又又又一次感到危机。
- 文章也没有提2026年1月和2月,kimi, qwen, ring, glm, minimax, stepfun, doubao都发新模型,而且没一个拉胯。
综上,这本书应该是2025年秋写的。
原来物理攻击指的是力学攻击
原来物理攻击指的是力学攻击
昨晚突然想明白一件事。当一个人提起物理这俩字,他脑海里想到的图像应是牛顿力学。想到的是“你推一下、我动一下”、“你打我一拳、我打你一拳”和“你打一拳,墙皮脱落一点”。
起因是有人问为什么最近用网页端claude变慢了,评论区有人回答说是因为伊朗对亚马逊服务器发动了物理攻击。
我中学时就一直觉得物理攻击、物理批判、物理腐蚀这三个词很怪。因为不管是英文的nature philosophy还是中文的物理,字面意思都是万事万物的道理。因此所有攻击都是物理攻击。
但其实,这三个词指的是,力学攻击、力学批判、力学腐蚀。。。当一个人提起物理攻击时,他不会想到电磁现象和热现象,更别提更现代的物理学了。
agent有感1:claude code/codex/opencode
最近几天玩了玩三个AI智能体(英文称之为AI Agent)——claude code/codex/opencode,有些体会,作文分享。
推出时间
cc于25年2月推出;codex于25年4月推出;opencode于25年5月推出,是cc/codex的开源平替。
这仨都在25年下半年越来越火。我们可以在 https://www.star-history.com 查看他们走红的时间。
开尔文、大西洋电缆、电缆方程、格林、卡诺
昨晚读到这篇文章,事关大东方号 (Great Eastern) 对于大西洋电缆的贡献,我想起一个和文章主题不相关的事。
对大西洋电缆的居功至伟的人中,有一个我们的老朋友:开尔文 (1824) 。
我觉得开尔文是个值得尊敬的人。原因有二。
第一,他不会像有的人一样坐而论道,而是确实把自己所学应用到了现实生活中。后来,神经科学的电缆方程也是从开尔文的电缆方程上略加改动得到的。
第二,当年,是他重新发现了格林 (1793) 、卡诺 (1796) 的著作,把它们重新介绍给世人。我相信有的人会把它们据为己有,而不是归于原作者——我甚至不确定牛顿、高斯是否会如此正直。
如何和LLM协作?
不切实际的期待
现在已经是2025年12月了,距离ChatGPT-3.5发布已经过去了36个月,距离ChatGPT-o1发布也已经过去15个月。然而,在和LLM协作这件事上,我却停滞不前,甚至有些退步——我使用LLM时常常感到疲惫和愤怒。
曾经,我会因为 ChatGPT-3.5 写出一篇小作文而欣喜和兴奋,现在我在SIDER或者Cherry Studio里后宫佳丽三千人,却不再因为它们的作文而兴奋。
曾经,我会因为 ChatGPT-3.5 能够五分钟写完五种SVM的实现方法而震撼,会因为只需要在它的代码基础上改一改而开心好几天。现在却已平淡如水,并且会因为LLM没有立刻写出正确的code而生气。
曾经,我会心花怒放地和 ChatGPT-o1 聊数学、物理、统计,以及一切可以用数学语言描述的现象。我惊讶于LLM不仅掌握了编程语言和自然语言,现在甚至掌握了数学语言。但是现在我会因为LLM没有立刻写出正确的推导过程而生气。
AI真的能击败Dota顶级职业选手吗?
今天突然好奇——AI已经能击败象棋和围棋顶级职业选手,但它们能击败DOTA和LOL,CSGO和PUBG的顶级职业选手吗?
我找到两个不错的参考资料:
- 一个很不错的博客,总结了几个有名的AI打游戏的工作——AlphaGO, OPENAI FIVE, 绝悟等。
- 一个非常不错的自媒体,他在2022年11月30日chatgpt推出前就做了很多AI的科普工作。他最近出了一个训练AI玩csgo的视频。
结论:
- 号称击败DOTA2顶级职业选手的OpenAI FIVE只能用17个英雄。OPENAI宣传时刻意忽略了这点。
- AI想打赢DOTA2, LOL, CSGO, PUBG的顶级队伍现在还做不到,哪怕已经有了ChatGPT。我认为经过1-2年的努力后可以。就看公司们有没有意愿了。
- AI打赢上述职业战队,难度仅仅是略小于自动驾驶,但获得的收益远小于自动驾驶。
遗忘是常态,流传是奇迹
今年英雄联盟世界赛改成了全局bp,感觉很有趣,于是时隔多年又关注了,的确精彩,以前翻来覆去就是那些英雄。
有人说中国俱乐部再不拿冠军,英雄联盟热度就更低了。但其实它本来入坑就越来越难。英雄越来越多,新手上来就要面对170个,怎么搞。没有新人加入,它终究会冷寂、停服、被遗忘。
我忍不住想,将来我们的下一代还会玩这些游戏吗。
我回忆起从小玩的那些,即时战略、赛车、横版闯关、爆破、生化、三国杀、类dota、吃鸡、自走棋、搜打撤,但实在找不出它们能流传很久的理由。
没玩过的人压根看不懂,这限制了传播性。问了几个朋友,没玩过lol基本没人看。足球则是一项不会踢的也能看懂的。
玩法不够简洁有力,这限制了美感。上述玩法的确都是很有想象力的发明,但都很冗长。做得最好的是围棋,以及数学。
白话文和书面文
去滕王阁玩,背滕王阁序免票,于是我就背了背。
我发觉——古人说话,并不可能真的像滕王阁序一样。
今天的网络用语,正像过去的书面文,感觉很快会消亡。
物理学的困境
早上看到一只小蚂蚁在努力地搬动几十倍体积于自己的食物。心中忿忿。人类真的比蚂蚁厉害很多吗?蚂蚁无法离开地球,人类无法离开太阳系。
从托勒密的时代开始,物理学最火的研究领域经历过多次变迁:从天文学,到力学,到热学,到电磁学,到原子分子物理,到粒子物理,到凝聚态。
最后一个转变我想大家都清楚。上世纪六七十年代,物理学家分裂成两派,一派认为the party is over,人类已经没钱造加速器了。另一派认为人类应该努力造。2016年杨振宁和丘成桐的辩论即为此(两人的文章发表在知识分子,如此重要的东西首发于微信公众号,极为罕见)。从今天往回看,历史基本延续了前一派的预测,物理学的重心变到了凝聚态,去研究固体、液体、导体、玻璃的性质。凝聚态不那么费钱,也几乎立刻就能对人类有帮助。
悲伤的是,我觉得,如果没有更大的加速器的话,人类永远也理解不了暗物质和暗能量,也永远不知道量子力学的众多诠释(哥本哈根、德布罗意-波姆、多世界)谁对谁错,也永远不可能实现星际旅行。
但是,我依然是认可杨振宁的想法的。有人说,造大加速器也就能花个几百亿美元,一个恒大欠了几千亿美元,王者荣耀一年的收入有几十亿美元,摩根大通的年收入有一千多亿美元,Harvard每年的收入也有几十亿美元。
死神来了
和爸爸一起看了死神来了6
- 家庭:兄弟姐妹之情、夫妻之情、父母子女之情。
- 概率:剧中的事情都是有一定概率发生的,尽管概率很小。
- 玻尔兹曼的统计物理,给了很多现象(不止热现象)微观解释。但是,统计物理给出的结论只是“很可能”成立的,而不是“一直”成立的。
- 有一定概率(你可以让 deepseek 计算一下这个概率),房间里的气体分子会瞬间全部跑到房间的一角,那里的人就会被压死,其它地方的人会窒息而死。
- 在那时,人们只接受一直成立的结论,几乎一直成立的结论是不被接受的。所以,玻尔兹曼一直郁郁寡欢。
- 预测:剧中人渴望预测死神的行为,剧外人渴望预测自然界的现象。
- 拉普拉斯曾说,给我初始条件和之后受力的情况,我可以预测整个宇宙。
- 可惜自然界并不像他想得那么简单,现在至少有三种不可预测的现象:1 足够小的粒子时必须考虑量子力学(双峰干涉),2 足够多的单体组成的复杂系统(你懂得),3 非线性微分方程的不稳定性(蝴蝶效应)。
- MRI:我的朋友,一想,正在CMRR研究11.5T的MRI。
GPT-5在数学和幻觉上的表现
北京时间2025年8月8日凌晨1点,加州时间2025年8月7日上午10点,GPT-5终于发布了。
我关注了两点——数学和幻觉。
数学
GPT-5
之前的流言说:非推理版的 GPT-5 在AIME 2025(美国IMO国家队选拔赛试题)上拿下100分。但这是假的。
新视频 | 除了网页版外,我经常用的AI工具
除了网页版外,我经常用的AI工具
- github copilot/cursor (2023秋):编程时的副驾驶。VS, PyCharm, R Studio, MATLAB 均已加入。
- sider/monica (2024秋):浏览器上的副驾驶。
- zotero (2025春):生产力时的副驾驶。
- cherry studio(2025春):自己配的Sider/Monica。
- 其他类似软件中,chathub, chatbox 需要收费。
偶尔用
ragflow (2025春):我的工作不太需要RAG。
- 在自然科学领域,好的东西是很少的。
- 不过人文社科很需要这东西。
Google AI Studio/Doubao/GPT-4o (2024春):打语音和视频电话。
Gamma/AiPPT (2025春):AI帮你做幻灯片。
我还缺少什么?
Grok-4发布
自24年9月13日OpenAI的o1发布、展示出惊人的数理能力后,DS的R1是第一个赶上的(25年1月),随后是
R1面世时世界只有惊艳。后四者中,羊驼不及预期,Grok差强人意,剩下两个都非常强悍,特别是Gemini 2.5 Pro,似乎已经重新让谷歌回到了它失去了三年的AI王座。
今天,仅仅过了5个月,xAI又发布了Grok 4,迭代速度真是惊人。
我的缺点
上午聊天,聊到我的优点和缺点。其实我还是有蛮多缺点的。
- 冲动:现在的我已经比本科冷静很多,但偶尔依旧急躁。比如和表妹自习时。
- 处事不够成熟:虽然已进步很多,但我依然觉得我称不上擅长处理人际关系,特别是和上级的关系。这点是我非常想要改变的。
- 与社会脱节、喜宏大叙事:我太热衷宏大叙事、太依赖互联网、在象牙塔里待太久、对社会太不了解。这点亦是我非常想要改变的。
以上都是从小到大都有的缺点,以下是以前没有、读硕士这三年才有的。
- 焦虑:23年初起,我开始掉头发。24年初至今,心脏时不时地揪。我经常思考未来要干什么,却没有享受当前的生活,也没有利用空闲时间水滴石穿。今年五月我依旧有些焦虑。
- 刻薄:或多或少受某人影响,我对于”愚蠢”的问题和“反应慢”的学生非常刻薄。这当然是不对的,因为没有任何一个问题是愚蠢的。它可能看上去愚蠢,但是背后可能有深刻的内涵。学生或许看上去反应慢,但是他们可能想到了我没有想到的东西。本来,24年秋当助教时候,我已经变得非常不刻薄了,但25春给表妹辅导时,还是挺刻薄的。所以这个缺点可能还要伴随我一会儿。
主要就是这些,剩下的,偶尔熬夜、偶尔拖延、偶尔吹牛,等等,皆为次要。
过去三年内人类最重要的两天
第一个日期是2022年11月30日(北京时间),OpenAI放出ChatGPT-3.5。
第二个日期是2024年09月13日(北京时间),OpenAI放出ChatGPT-o1。
24年6月和25年6月的对比
中国高考:2024年6月最高者勉强及格、2025年6月最高接近满分。
AIME数据集也类似。
为什么我选择物理学
当你约会:那些星星是距离我们几十、几千、甚至几十万光年的恒星。几十万年后,今天的我们将在那里再次相遇。
当你恋爱:心有灵犀,幽灵般的超距作用。
当你狂妄:人类历史螺旋上升。科学家负责上升,政治家负责螺旋。
当你沉沦:所有有序结构终将消散。
听Bengio和Sutton的两席话
今天在2025年智源大会上听了Bengio和Sutton的讲座。虽然是线上,但是两位老哥都非常有热情,明显是认真准备了。Bengio先,Sutton后。
Bengio
Bengio的讲座和他两周前的TED讲座主旨类似,但细节更加丰富。
2023年,Hinton表示:我从未听说过高级智能会被低级智能控制住。
Bengio表示:吾有一计。真正危险的是Agentic AI,而Chat AI的威胁并不大。那么,我们可以用Chat AI监督Agentic AI。言下之意——他大概是觉得光靠人类自己是限制不了Agentic AI了。
泛舟
惊夜鹭而群飞,访枯树以寻古。
叹人生之短暂,欲留名于史书。