AIを書き換えた18か月：2025年1月から2026年5月までの完全タイムライン

2025年1月：DeepSeekショック

2025年1月20日、DeepSeekという中国のAI研究所が、R1というオープンウェイトの推論モデルをリリースした。7日以内に、米国と中国の両方でApple App Storeのチャートのトップに立ち、1億人以上のユーザーを集めた。

業界を驚かせた数字：DeepSeekはR1のトレーニング費用が約600万ドルだったと主張した——これは独立して検証されていない数字である。OpenAIのGPT-4のトレーニング費用は、数千万ドルから数億ドルの範囲であると広く報告されていた。効率性の差がわずかでも正確であれば、フロンティアAIに大規模な計算投資が必要だという前提が誇張されていた可能性を示唆する。効率性の主張が精査に耐えるなら、フロンティアAIに数百億ドルの計算投資が必要だという前提が誤りだった可能性を示唆する。

市場はすぐに反応した。Nvidiaの株価は1日で18%下落し——その損失は市場価値にして約5930億ドルと広く報告された——米国株式市場史上最大の1日の時価総額下落の一つとなった。

技術的な意義：DeepSeek R1は、西洋の研究所よりも積極的にMixture of Experts（MoE）と呼ばれる技術を使用し、クエリごとにパラメータのほんの一部しか活性化しなかった。トレーニングデータの効率性と強化学習の革新と組み合わせることで、OpenAIのo1に匹敵するパフォーマンスをわずかなコストで達成した。「計算を制する者がAIを制する」という前提への示唆は、まだ解明されている最中だ。

株式市場はDeepSeekのリリースに激しく反応した——Nvidiaは1日で約5930億ドルを失った

2025年2月：AnthropicのExtended Thinking

2025年2月24日、AnthropicはExtended Thinking（拡張思考）という新しい機能を備えたClaude 3.7 Sonnetをリリースした——これは、モデルが応答を生成する前に問題を推論できる、可視化された思考の連鎖モードである。ユーザーはリアルタイムで思考プロセスが展開されるのを見ることができる。

GPQA Diamond——物理学、化学、生物学の博士号を持つ科学者が設計した質問で構築されたベンチマークで、人間のドメイン専門家の平均は約65%——において、Claude 3.7 Sonnetは84.8%を記録した。これはリリース時点で、他のすべての公開モデルを上回る結果だった。

Anthropicは同時に、複雑な多段階のコーディングタスクを非同期で処理するよう設計されたエージェント型プログラミングツール、Claude Codeを立ち上げた。これは、その年の残りを支配することになる「AIエージェント」製品空間へのAnthropicの最初の本格的な参入を示した。

2025年3月：Gemini 2.5 Proがトップへ

GoogleはGemini 2.5 Pro Experimentalを2025年3月にリリースした。リリースから数日以内に、最大の公開AI対戦評価プラットフォームであるLMSYS Chatbot Arenaでトップの座を獲得し、GPT-4.5を約40 Eloポイント差で破った。このマージンは、10〜15ポイントの差が通常、意味のある能力差を示すリーダーボードにおいて、相当な差と見なされている。

Gemini 2.5 Proは「Deep Think」推論モードと100万トークンのコンテキストウィンドウを導入した。AIアグリゲーターPlatformであるPoeでは、ローンチから6週間以内に、すべての推論クエリボリュームの約30%を獲得した。

3月はAIの相互運用性における転換点ともなった。Anthropicのモデルコンテキストプロトコル（MCP）——AIモデルを外部ツールに接続するためのオープンスタンダード——は、OpenAIのChatGPTがプロトコルへのサポートを発表したことで、主流の採用を得た。Googleは4月にサポートを確認した。MCPは現在、AIツール統合の業界標準として実質的に機能している。

2025年4月〜5月：MetaとOpenAIがフィールドを拡大

MetaはLlama 4を2025年4月にリリースし、Scout（効率性向け）とMaverick（推論向け）の2つのバリアントを提供した。どちらもオープンウェイトモデルであり、パラメータが公開ダウンロード可能であることを意味した。Llama 4 Maverickは複数のベンチマークでGPT-4.5と競合し、それまでにリリースされた最も高性能なオープンウェイトモデルを代表した。

OpenAIは4月にo3とo4-mini——推論モデルシリーズの次世代——とともに、命令追従と低遅延に焦点を当てたアップデートであるGPT-4.1をリリースした。リリースのペースは加速し、業界は個々のモデルローンチをランドマークイベントとして扱うことを概ねやめ、ルーティンアップデートとして扱い始めた。

2025年5月、AnthropicはOpus 4.5とSonnet 4.5を含むClaude 4をリリースした。Opusバリアントは、文書分析とエンタープライズリサーチモデルとして位置付けられた。長文コンテキストタスクと多段階推論において、前身モデルを大幅に改善した。

高度な数学——AIは2025年7月の国際数学オリンピックで金メダルレベルに達した

2025年7月：AIがIMOで優勝

2025年7月、OpenAIの推論モデルとGoogle DeepMindのGemini Deep Thinkの両方が、国際数学オリンピック（IMO）で金メダル相当のパフォーマンスを達成した——独立して、同じ競技サイクルで。Gemini Deep Thinkは金メダル相当のレベルで、標準的な制限時間内にすべての問題を自然言語で解いた。Google DeepMindは得点を、可能な42点中35点と報告した。

文脈として：IMOは世界で最も権威ある高校数学コンクールである。人間の金メダリストは、世界で最も数学的に優秀な人々の中に入る。2つの別々のAIシステムが、根本的に異なるアーキテクチャを使用して同じ年にこの水準を達成したという事実は、これが幸運な結果ではなかったことを示唆する。

同じ月、両システムは国際大学対抗プログラミングコンテスト（ICPC）でもトップの成績を収めた。これらの結果は、AIが「強力な人間の数学者と競争できる」から「最高の人々と競争できる」という閾値を越えた瞬間を示した。

2025年8月：GPT-5とEU AI法

OpenAIは2025年8月7日にGPT-5をリリースした。このモデルは動的な「思考モード」を導入し——ユーザーが素早い応答と拡張推論の間で選択できるようにした——OpenAIはGPT-4と比較してハルシネーション率が大幅に低下したと報告した。テキスト、画像、構造化データをネイティブに処理した。

同月には規制上の重要性があった：2025年8月2日は、EU AI法の下で汎用AI（GPAI）モデルを規制する規定が正式に発効した日を示した。これは世界初の包括的なAI法だ。GPAIルールの下では、高性能な基盤モデルのプロバイダーは、展開前に敵対的テストを実施し、技術文書を維持し、EU著作権法を遵守し、トレーニングデータの概要を公開しなければならない。

EUの執行はすでに活発だ。2026年第1四半期に、EU加盟国が主にGPAI非準拠を理由に、総額数億ユーロに上る数十件の罰金を科したと報告された。大半の主要な米国テクノロジー企業の欧州本部を抱えるアイルランドが、ケースの大部分を処理したと報告された。

2025年9月〜11月：年末スプリント

DeepSeekは2025年9月に研究論文を発表し、それがNatureの表紙に掲載された——査読付き科学誌の表紙掲載は、研究の重要性の最高の証の一つと見なされる。AI企業の技術出版物がその栄誉を得たのは初めてだった。

その年の最後の数ヶ月は、フラッグシップモデルリリースの連鎖を生み出した：

11月12日：OpenAIはGPT-5.1をリリースし、レイテンシ、ツール使用、命令追従において改善を行った。

11月17日：xAIのGrok 4.1がリリースされた。

11月18日：GoogleはGemini 3 Proをリリースした——Artificial Analysis Intelligence Indexでトップの座を主張した最初のGoogleモデルであり、どのラボのモデルも初めてLMSYS Chatbot Arenaで1,500 Eloを超えた。

12月11日：OpenAIはGPT-5.2をリリースし、ARC-AGI-1で90%以上を記録した最初のモデルの一つと報告された——このベンチマークは、パターン再現ではなく新規の推論をテストするために特別に設計されている。AIME 2025でも満点を達成した。モデルとともに、OpenAIはCodexを立ち上げた——人間の監督を最小限にして完全なエンジニアリングタスクを処理するよう設計された自律型プログラミングエージェントだ。

2026年：フロンティアは動き続ける

2026年の最初の数ヶ月は、開発のペースを遅らせるどころか加速させた。

AnthropicのCEOであるダリオ・アモデイは、2026年1月のダボスでの世界経済フォーラムで、AGIレベルのシステムは「数年以内」に実現する可能性が高いと述べ、2027年を妥当な地平線として示した。DeepMindの共同創設者シェーン・レッグは、2028年までに「最小限のAGI」が実現する確率を50%と見積もった。これらは辺縁的な予測ではない——システムを構築している人々からの言葉だ。

2026年4月、AnthropicはClaude Mythos 5をリリースした——サイバーセキュリティと高度なコーディングに焦点を当てた10兆パラメータのモデルだ。GoogleはGemini 3.1をリリースし、リアルタイム音声・画像分析機能と、前身の2.5倍の速度で動作するFlash-Liteバリアントを提供した。

2026年4月23日、OpenAIはGPT-5.5をリリースした——内部コードネームは「Spud」で、GPT-4.5以来初めて完全に再トレーニングされたベースモデルだ。ARC-AGI-2（より難しい後継ベンチマーク）で85%を記録し、Artificial Analysis Intelligence Indexのトップに立ったと報告された。実際のコンピュータ環境を自律的に操作するAIの能力をテストするベンチマーク、OSWorld-Verifiedでは、公開されたレポートによると70%台後半のスコアを記録した。

ホワイトハウスは2026年3月20日に人工知能に関する国家政策フレームワークを発表し、統一的なガバナンスのための立法勧告を提供した。米国にはまだ包括的な連邦AI法が存在せず、カリフォルニア州、コロラド州、ニューヨーク州、イリノイ州、ユタ州はそれぞれ独自の法律を制定または提案しており——テクノロジー業界がコンプライアンス計画を極めて困難にすると主張する断片化された規制環境を生み出している。

通底するテーマ

18ヶ月を通じて、いくつかのパターンが明確だ。

第一に、効率性の物語が変わった。DeepSeekは、最先端のパフォーマンスに最先端の計算予算が必要ではないことを実証した。これは、フロンティアAIを構築できる主体に影響を与える——数十億ドルのインフラを持つ3〜4の米国研究所だけでなく、より効率的なトレーニング技術にアクセスできる小規模チームにも。

第二に、推論が競争の主要な軸となった。「モデルが何を出力できるか」から「難しい問題をどれだけ上手く考えられるか」への移行が、2025〜2026年の時代を定義する。拡張思考、思考の連鎖、人間のフィードバックからの強化学習が組み合わさって、IMOとARC-AGIの結果を生み出した。

第三に、エージェント型AIが研究から製品へ移行した。Claude Code、OpenAI Codex、Google Julesは研究プロトタイプではない——エンジニアリングチームが今日使用している展開済みのツールだ。2026年以降の問題は、AIが複雑なタスクを実行できるかどうかではなく、それらのタスクが実際にどれだけの人間の監督を必要とするかだ。

第四に、規制が到来した。EU AI法は実際の罰金を生み出している。米国の州レベルの法律が増殖している。中国の改正サイバーセキュリティ法が施行されている。ガバナンス層が能力層に追いついているが、それが今後数年間の開発をどのように形成するかは、依然として真に不確かだ。

不確かではないこと：変化の速度。最後に確認したときのAIの状態がどうであれ、それ以来ほぼ確実に変化している。