重写AI格局的18个月：2025年1月至2026年5月完整时间线

2025年1月：DeepSeek冲击波

2025年1月20日，一家名为DeepSeek的中国AI实验室发布了一款名为R1的开源推理模型。七天之内，它登上了美中两国苹果应用商店的榜首，用户数量突破1亿。

令业界震惊的数字：DeepSeek声称R1的训练成本约为600万美元——这一数字尚未经过独立核实。OpenAI的GPT-4据广泛报道，训练成本在数千万至数亿美元之间。如果这两者之间的效率差距即使只有一半是准确的，也意味着"前沿AI需要巨额计算投入"这一假设可能被高估了。

市场立即作出反应。英伟达股价单日下跌18%——据广泛报道，市值蒸发约5930亿美元，是美国股市历史上单日市值损失最大的事件之一。

技术意义：DeepSeek R1比西方实验室更激进地使用了一种叫做混合专家（MoE）的技术，每次查询只激活一小部分参数。结合训练数据效率和强化学习方面的创新，它以极低的成本实现了与OpenAI o1相当的性能。"谁掌控算力谁掌控AI"这一假设的影响，至今仍在被重新评估。

2025年2月：Anthropic的扩展思考

2025年2月24日，Anthropic发布了带有"扩展思考"新功能的Claude 3.7 Sonnet——这是一种可视化的思维链模式，允许模型在生成回答之前对问题进行推理。用户可以实时观看思考过程展开。

在GPQA Diamond测试中——由物理、化学和生物学领域博士设计的题目，人类领域专家平均得分约65%——Claude 3.7 Sonnet得分84.8%。这让它在发布时领先所有公开可用的模型。

Anthropic同时推出了Claude Code，一款旨在异步处理复杂多步骤编程任务的智能体编程工具。这标志着Anthropic首次认真进入"AI智能体"产品领域——这一领域将主导此后整年的行业焦点。

2025年3月：Gemini 2.5 Pro登顶

谷歌于2025年3月发布了Gemini 2.5 Pro Experimental。发布后数日内，它登上了LMSYS聊天机器人竞技场——最大的公共AI一对一评估平台——以约40个Elo分领先GPT-4.5。在一个10至15分通常代表有意义能力差距的排行榜上，这个差距被认为相当显著。

Gemini 2.5 Pro引入了"深度思考"推理模式和100万token上下文窗口。在AI聚合平台Poe上，它在发布后六周内占据了约30%的推理查询量。

3月也是AI互操作性的转折点。Anthropic的模型上下文协议（MCP）——一个连接AI模型与外部工具的开放标准——在OpenAI的ChatGPT宣布支持该协议后获得了主流采用。谷歌于4月确认支持。MCP现已成为AI工具集成的行业标准。

2025年4至5月：Meta与OpenAI扩展战线

Meta于2025年4月发布了Llama 4，包含两个变体：Scout（效率优先）和Maverick（推理优先）。两者都是开源权重模型，意味着参数可供公开下载。Llama 4 Maverick在多项基准测试中与GPT-4.5竞争，是当时发布的最强开源权重模型。

OpenAI随后在4月推出o3和o4-mini——其推理模型系列的下一代——以及专注于指令遵循和降低延迟的GPT-4.1更新。发布的节奏已经加快到这样的程度：业界基本上已经不再将单个模型发布视为里程碑事件，而是将其视为常规更新。

2025年5月，Anthropic发布了Claude 4，包括Opus 4.5和Sonnet 4.5。Opus变体被定位为文档分析和企业研究模型，在长上下文任务和多步骤推理方面较前代有显著提升。

2025年7月：AI赢得IMO金牌

2025年7月，OpenAI的推理模型和谷歌DeepMind的Gemini Deep Think，在同一届国际数学奥林匹克竞赛中——独立地——均达到了金牌水平。Gemini Deep Think在标准时限内用自然语言完成了所有题目，达到金牌水平。谷歌DeepMind公布的得分为35分（满分42分）。

背景信息：IMO是全球最负盛名的高中数学竞赛。人类金牌得主是当今世界数学天赋最高的人群之一。两个独立的AI系统在同一年、使用根本不同的架构达到这一标准，表明这并非偶然。

同月，这两个系统还在国际大学生程序设计竞赛（ICPC）中取得了顶级名次。这些结果标志着AI越过了从"与优秀人类数学家竞争"到"与最顶尖人类竞争"的门槛。

2025年8月：GPT-5与欧盟AI法案

OpenAI于2025年8月7日发布GPT-5。该模型引入了动态"思考模式"——允许用户在快速响应和扩展推理之间选择——OpenAI报告称幻觉率相比GPT-4有大幅降低。它原生处理文本、图像和结构化数据。

同月具有监管意义：2025年8月2日，欧盟AI法案中管理通用人工智能（GPAI）模型的条款正式生效。这是世界上第一部综合性AI法律。根据GPAI规则，高能力基础模型的提供商在部署前必须进行对抗性测试、维护技术文档、遵守欧盟版权法，并发布训练数据摘要。

欧盟的执法已经积极展开。据报道，2026年第一季度欧盟成员国发出了数十张罚单，总额达数亿欧元，主要针对GPAI违规行为。爱尔兰——大多数美国主要科技公司的欧洲总部所在地——据报道处理了大多数案件。

2025年9至11月：年末冲刺

DeepSeek于2025年9月发表了一篇登上《自然》杂志封面的研究论文——《自然》是一本同行评审科学期刊，封面位置被认为是研究重要性的最高标志之一。这是AI公司的技术发表首次获得这一待遇。

年末几个月产生了一连串旗舰模型发布：

11月12日：OpenAI发布GPT-5.1，在延迟、工具使用和指令遵循方面有所改进。

11月17日：xAI发布Grok 4.1。

11月18日：谷歌发布Gemini 3 Pro——首个在Artificial Analysis智能指数上登顶的谷歌模型，也是首个在LMSYS聊天机器人竞技场上超过1500 Elo的模型。

12月11日：OpenAI发布GPT-5.2，据报道是首批在ARC-AGI-1上得分超过90%的模型之一——这是一个专门测试新颖推理而非模式记忆的基准。它还在AIME 2025上取得满分。伴随模型发布，OpenAI推出了Codex，一款旨在以最少人工监督处理完整工程任务的自主编程智能体。

2026年：前沿继续推进

2026年头几个月加快了而非放缓了发展节奏。

Anthropic首席执行官达里奥·阿莫迪在2026年1月的达沃斯世界经济论坛上表示，AGI级别的系统很可能"在几年内"实现——指向2027年作为可能的时间节点。DeepMind联合创始人谢恩·莱格给出了2028年前"最小AGI"的50%概率。这些并非边缘预测，而是来自正在构建这些系统的人。

2026年4月，Anthropic发布了Claude Mythos 5——一个拥有10万亿参数、专注于网络安全和高级编程的模型。谷歌发布了Gemini 3.1，具备实时语音和图像分析能力，其Flash-Lite变体运行速度是前代的2.5倍。

2026年4月23日，OpenAI发布GPT-5.5，内部代号"Spud"——自GPT-4.5以来首个完全重新训练的基础模型。它在ARC-AGI-2上得分85%，据报道在Artificial Analysis智能指数上登顶。在OSWorld-Verified——测试AI自主操作真实计算机环境的能力——上得分据公开报告达到70%以上。

白宫于2026年3月20日发布了《人工智能国家政策框架》，提供了统一治理的立法建议。美国目前尚无综合性联邦AI法律，而加利福尼亚、科罗拉多、纽约、伊利诺伊和犹他州各自已颁布或提出了自己的立法——形成了科技行业认为极难规划合规的碎片化监管环境。

贯穿始终的主线

在这18个月中，几个模式是清晰的。

第一，效率叙事改变了。DeepSeek证明了最先进的性能不需要最先进的计算预算。这对谁能构建前沿AI有影响——不只是拥有数十亿美元基础设施的三四家美国实验室，还有能够获得更高效训练技术的小型团队。

第二，推理成为竞争的主轴。从"模型能输出什么"到"它能多好地思考困难问题"的转变，定义了2025至2026年这一时期。扩展思考、思维链和来自人类反馈的强化学习共同产生了IMO和ARC-AGI的结果。

第三，智能体AI从研究走向产品。Claude Code、OpenAI Codex和Google Jules不是研究原型——它们是工程团队今天正在使用的部署工具。2026年及以后的问题不是AI能否完成复杂任务，而是这些任务实际上需要多少人类监督。

第四，监管到来了。欧盟AI法案正在产生真实的罚款。美国各州法律不断增多。中国修订的《网络安全法》已生效。治理层面正在追赶能力层面，尽管它将如何在未来几年塑造发展仍存在真正的不确定性。

不确定的是：变化的速度。无论你上次关注AI时情况如何，它几乎肯定已经改变了。