
重写AI格局的18个月:2025年1月至2026年5月完整时间线
2025年1月:DeepSeek冲击波
2025年1月20日,一家名为DeepSeek的中国AI实验室发布了一款名为R1的开源推理模型。七天之内,它登上了美中两国苹果应用商店的榜首,用户数量突破1亿。
令业界震惊的数字:DeepSeek声称R1的训练成本约为600万美元——这一数字尚未经过独立核实。OpenAI的GPT-4据广泛报道,训练成本在数千万至数亿美元之间。如果这两者之间的效率差距即使只有一半是准确的,也意味着"前沿AI需要巨额计算投入"这一假设可能被高估了。
市场立即作出反应。英伟达股价单日下跌18%——据广泛报道,市值蒸发约5930亿美元,是美国股市历史上单日市值损失最大的事件之一。
技术意义:DeepSeek R1比西方实验室更激进地使用了一种叫做混合专家(MoE)的技术,每次查询只激活一小部分参数。结合训练数据效率和强化学习方面的创新,它以极低的成本实现了与OpenAI o1相当的性能。"谁掌控算力谁掌控AI"这一假设的影响,至今仍在被重新评估。

2025年2月:Anthropic的扩展思考
2025年2月24日,Anthropic发布了带有"扩展思考"新功能的Claude 3.7 Sonnet——这是一种可视化的思维链模式,允许模型在生成回答之前对问题进行推理。用户可以实时观看思考过程展开。
在GPQA Diamond测试中——由物理、化学和生物学领域博士设计的题目,人类领域专家平均得分约65%——Claude 3.7 Sonnet得分84.8%。这让它在发布时领先所有公开可用的模型。
Anthropic同时推出了Claude Code,一款旨在异步处理复杂多步骤编程任务的智能体编程工具。这标志着Anthropic首次认真进入"AI智能体"产品领域——这一领域将主导此后整年的行业焦点。
2025年3月:Gemini 2.5 Pro登顶
谷歌于2025年3月发布了Gemini 2.5 Pro Experimental。发布后数日内,它登上了LMSYS聊天机器人竞技场——最大的公共AI一对一评估平台——以约40个Elo分领先GPT-4.5。在一个10至15分通常代表有意义能力差距的排行榜上,这个差距被认为相当显著。
Gemini 2.5 Pro引入了"深度思考"推理模式和100万token上下文窗口。在AI聚合平台Poe上,它在发布后六周内占据了约30%的推理查询量。
3月也是AI互操作性的转折点。Anthropic的模型上下文协议(MCP)——一个连接AI模型与外部工具的开放标准——在OpenAI的ChatGPT宣布支持该协议后获得了主流采用。谷歌于4月确认支持。MCP现已成为AI工具集成的行业标准。
2025年4至5月:Meta与OpenAI扩展战线
Meta于2025年4月发布了Llama 4,包含两个变体:Scout(效率优先)和Maverick(推理优先)。两者都是开源权重模型,意味着参数可供公开下载。Llama 4 Maverick在多项基准测试中与GPT-4.5竞争,是当时发布的最强开源权重模型。
OpenAI随后在4月推出o3和o4-mini——其推理模型系列的下一代——以及专注于指令遵循和降低延迟的GPT-4.1更新。发布的节奏已经加快到这样的程度:业界基本上已经不再将单个模型发布视为里程碑事件,而是将其视为常规更新。
2025年5月,Anthropic发布了Claude 4,包括Opus 4.5和Sonnet 4.5。Opus变体被定位为文档分析和企业研究模型,在长上下文任务和多步骤推理方面较前代有显著提升。

2025年7月:AI赢得IMO金牌
2025年7月,OpenAI的推理模型和谷歌DeepMind的Gemini Deep Think,在同一届国际数学奥林匹克竞赛中——独立地——均达到了金牌水平。Gemini Deep Think在标准时限内用自然语言完成了所有题目,达到金牌水平。谷歌DeepMind公布的得分为35分(满分42分)。
背景信息:IMO是全球最负盛名的高中数学竞赛。人类金牌得主是当今世界数学天赋最高的人群之一。两个独立的AI系统在同一年、使用根本不同的架构达到这一标准,表明这并非偶然。
同月,这两个系统还在国际大学生程序设计竞赛(ICPC)中取得了顶级名次。这些结果标志着AI越过了从"与优秀人类数学家竞争"到"与最顶尖人类竞争"的门槛。
2025年8月:GPT-5与欧盟AI法案
OpenAI于2025年8月7日发布GPT-5。该模型引入了动态"思考模式"——允许用户在快速响应和扩展推理之间选择——OpenAI报告称幻觉率相比GPT-4有大幅降低。它原生处理文本、图像和结构化数据。
同月具有监管意义:2025年8月2日,欧盟AI法案中管理通用人工智能(GPAI)模型的条款正式生效。这是世界上第一部综合性AI法律。根据GPAI规则,高能力基础模型的提供商在部署前必须进行对抗性测试、维护技术文档、遵守欧盟版权法,并发布训练数据摘要。
欧盟的执法已经积极展开。据报道,2026年第一季度欧盟成员国发出了数十张罚单,总额达数亿欧元,主要针对GPAI违规行为。爱尔兰——大多数美国主要科技公司的欧洲总部所在地——据报道处理了大多数案件。
2025年9至11月:年末冲刺
DeepSeek于2025年9月发表了一篇登上《自然》杂志封面的研究论文——《自然》是一本同行评审科学期刊,封面位置被认为是研究重要性的最高标志之一。这是AI公司的技术发表首次获得这一待遇。
年末几个月产生了一连串旗舰模型发布:
11月12日:OpenAI发布GPT-5.1,在延迟、工具使用和指令遵循方面有所改进。
11月17日:xAI发布Grok 4.1。
11月18日:谷歌发布Gemini 3 Pro——首个在Artificial Analysis智能指数上登顶的谷歌模型,也是首个在LMSYS聊天机器人竞技场上超过1500 Elo的模型。
12月11日:OpenAI发布GPT-5.2,据报道是首批在ARC-AGI-1上得分超过90%的模型之一——这是一个专门测试新颖推理而非模式记忆的基准。它还在AIME 2025上取得满分。伴随模型发布,OpenAI推出了Codex,一款旨在以最少人工监督处理完整工程任务的自主编程智能体。

2026年:前沿继续推进
2026年头几个月加快了而非放缓了发展节奏。
Anthropic首席执行官达里奥·阿莫迪在2026年1月的达沃斯世界经济论坛上表示,AGI级别的系统很可能"在几年内"实现——指向2027年作为可能的时间节点。DeepMind联合创始人谢恩·莱格给出了2028年前"最小AGI"的50%概率。这些并非边缘预测,而是来自正在构建这些系统的人。
2026年4月,Anthropic发布了Claude Mythos 5——一个拥有10万亿参数、专注于网络安全和高级编程的模型。谷歌发布了Gemini 3.1,具备实时语音和图像分析能力,其Flash-Lite变体运行速度是前代的2.5倍。
2026年4月23日,OpenAI发布GPT-5.5,内部代号"Spud"——自GPT-4.5以来首个完全重新训练的基础模型。它在ARC-AGI-2上得分85%,据报道在Artificial Analysis智能指数上登顶。在OSWorld-Verified——测试AI自主操作真实计算机环境的能力——上得分据公开报告达到70%以上。
白宫于2026年3月20日发布了《人工智能国家政策框架》,提供了统一治理的立法建议。美国目前尚无综合性联邦AI法律,而加利福尼亚、科罗拉多、纽约、伊利诺伊和犹他州各自已颁布或提出了自己的立法——形成了科技行业认为极难规划合规的碎片化监管环境。
贯穿始终的主线
在这18个月中,几个模式是清晰的。
第一,效率叙事改变了。DeepSeek证明了最先进的性能不需要最先进的计算预算。这对谁能构建前沿AI有影响——不只是拥有数十亿美元基础设施的三四家美国实验室,还有能够获得更高效训练技术的小型团队。
第二,推理成为竞争的主轴。从"模型能输出什么"到"它能多好地思考困难问题"的转变,定义了2025至2026年这一时期。扩展思考、思维链和来自人类反馈的强化学习共同产生了IMO和ARC-AGI的结果。
第三,智能体AI从研究走向产品。Claude Code、OpenAI Codex和Google Jules不是研究原型——它们是工程团队今天正在使用的部署工具。2026年及以后的问题不是AI能否完成复杂任务,而是这些任务实际上需要多少人类监督。
第四,监管到来了。欧盟AI法案正在产生真实的罚款。美国各州法律不断增多。中国修订的《网络安全法》已生效。治理层面正在追赶能力层面,尽管它将如何在未来几年塑造发展仍存在真正的不确定性。
不确定的是:变化的速度。无论你上次关注AI时情况如何,它几乎肯定已经改变了。
