
AIと人間の認知 2026年:機械が勝る分野、まだ人間がリードする分野
スコアはあなたが思うものではない
2025年7月、Google DeepMindのGemini Deep Thinkモデルは——比喩的に——国際数学オリンピックに挑戦するために腰を下ろした。4.5時間の制限時間内に自然言語で6問すべてに答え、35点を獲得した:金メダル相当である。一年前、同じベンチマークは銀メダルに終わっていた。人間の金メダリストは通常35点から42点の間を獲得する。
この見出しは判決として読まれがちだ:AIが私たちを打ち負かした。事件終結。
しかし、今年4月に発表されたスタンフォード2026 AIインデックスは、より複雑な話を伝えている。IMOを制覇しているその同じシステムが、アナログ時計を正しく読めるのはわずか50.1%の確率にすぎない。報告書はこれを「ギザギザのフロンティア」と呼んでいる——これが実際の状況に関する最も正直な要約だ。
以下は、検証済みのベンチマークデータを使用した分野別の内訳だ:AIが今や人間をリードしている分野、人間がまだ優位を保っている分野、そしてこれらすべてがAIHumanBenchのようなプラットフォームで訓練する認知スキルにとって何を意味するか。

AIが人間のパフォーマンスを明確に上回った分野
数学
IMOの金メダルはデータポイントのひとつに過ぎない。AIME 2025——米国オリンピックチームの候補者を選ぶ米国高校数学コンテスト——では、GPT-5.2(2025年12月11日リリース)が完璧な100%スコアを達成した。人間の競技者の中央値は15問中約4〜6問に答えられる。AIはもはや中央値レベルで競争しておらず、構造化された数学的課題における人間の専門家パフォーマンスの上限近くで動作している。
GPT-5.2はFrontierMathでも40.3%を獲得した——これは専門数学者でさえ非常に困難と感じる未発表の研究レベルの問題から構築されたベンチマークだ。その数字は単独では控えめに見えるが、わずか2年前のほぼゼロからの飛躍を表している。

コーディングとソフトウェアエンジニアリング
SWE-bench Verified——実際のコードベースで実際のオープンなGitHub問題を解決するようにモデルに求める——では、スタンフォード2026 AIインデックスによると、2025年だけで約60%から100%近くにパフォーマンスが上昇した。GPT-4oエージェントは時間制限のある条件で実際のGitHub問題の67%を解決したのに対し、同じ制約の下で働く人間の開発者は22%だった。
注意事項は重要だ:2時間の予算で短く明確に定義されたタスクでは、トップAIは人間の専門家よりも約4倍高いスコアを出す。しかし32時間のホライズン——持続的な判断、適応、創造性を必要とするタスク——では、人間はAIを2対1のマージンで上回る。AIのコーディング優位性は、制限された問題での速度と精度に集中しており、オープンエンドのエンジニアリング判断ではない。
ワーキングメモリ
2024年の研究(arXiv: 2410.07391)は、フロンティア言語モデルを標準的なワーキングメモリタスクにおける人間の規範データと比較した。結果:ほとんどのトップモデルは人間集団の99.5パーセンタイル以上でパフォーマンスを発揮する。AIHumanBenchのワーキングメモリテストにあるような数字スパンとn-backタスクでは、AIは実質的に人間のパフォーマンス分布の上限を飽和させている。
これはAIが人間のように「考える」ことを意味しない——ワーキングメモリテストが測定するように設計された特定の計算タスクは、AIが容易に処理するものだということを意味する。アーキテクチャは異なる;スコアはそうではない。
読解力と言語理解
AIはGLUEとSuperGLUE(標準化された英語言語ベンチマーク)で平均的な人間のパフォーマンスを2019〜2021年という早い時期に上回った。2026年には、平均的な人間レベルでの差は非常に大きくなり、意味のある比較ではなくなった。フロンティアはより難しいターゲットに移動した:博士レベルの科学的推論、新しいインコンテキスト学習、そしてパターンマッチングではなく本物の理解を必要とするタスク。

人間がまだリードしている分野
マルチモーダルな現実世界の推論
MMMU——実際の画像、チャート、図を使用して大学レベルの分野にわたるマルチモーダル理解をテストするベンチマーク——では、OpenAIのo1が約83%の人間ベースラインに対して78.2%を獲得した。これはAIがまだ追いついていない唯一の主要な標準化された分野であり、より広いパターンを指している:物理的な常識と抽象的な推論を統合することを必要とするタスクでAIは苦戦する。
スタンフォードレポートのアナログ時計の例は示唆的だ。アナログ時計を読む際の50.1%の精度率——8歳の子どもなら自動的にこなせるタスク——は、AIの印象的なベンチマークスコアが、具体化された現実世界の知覚における驚くべきギャップと共存できることを明らかにしている。
長期複雑タスク
上で引用したRE-Benchデータはこの話を明確に語っている:32時間のタスクホライズンでは、人間の専門家がAIを2対1で上回る。タスクが長く、オープンエンドであるほど、持続的な判断、文脈的適応、創造的な問題フレーミングにおける人間の優位性が発揮される。
この発見は、AIツールが最も生産的に使用される方法に直接的な意味を持つ。それらは制限されたサブタスクのアクセラレーターとして優れているが、延長された不確かなプロジェクトにわたる人間の判断の自律的な代替品としてではない。
真の創造性と新しい推論
ARC-AGI——記憶を抵抗し、真の新しい推論をテストするために特別に設計されたベンチマーク——はAIにとって持続的な課題だった。GPT-5.2はARC-AGI-1で90%を超えた最初のモデルの中にあると報告された。2026年4月23日にリリースされたGPT-5.5は、より難しいARC-AGI-2で85%を達成した。これらは注目すべき数字だが、ベンチマークは人間の一般知能を定義するような流動的で転移可能な推論の種類を近似するように設計された。フロンティアモデルがようやくそこに近づいている——制限のない現実世界の問題解決においてではなく、慎重に制御されたテストで——という事実は依然として重要だ。
2026年1月の10万人以上の参加者を含む研究では、AIシステムが発散的連想タスクで平均的な人間を上回る一方で、人間の創造的思考者の上位10%は、オープンエンドの創造的作業——詩、ナラティブ、クロスドメインのアイデア生成——においてより豊かで驚くべき成果を依然として生み出すことがわかった。
社会的・感情的知能
いかなるフロンティアモデルも、非構造化された現実世界の文脈で信頼できる心の理論、対人ダイナミクスの微妙な読み取り、または真の感情的応答性を示していない。AIは標準化された感情認識ベンチマークでは良いパフォーマンスを発揮するが、タスクが新しい状況での感情的な手がかりと社会的文脈の統合を必要とする場合には悪いパフォーマンスを発揮する——これはまさにAIHumanBenchの感情認識テストが調べるタスクの種類だ。
あなたが受けるテストに対する意味
上記のベンチマークは広い景観を理解するのに役立つが、AIHumanBenchで練習する認知スキルと同じではない。各テストカテゴリについてデータが何を言い、何を言っていないかを正確に述べよう。
反応時間:AI推論は人間のニューラル処理よりもアーキテクチャ的に速い——ミリ秒対200〜250msの平均的な人間の応答時間。しかしAIの「反応時間」はハードウェアとネットワーク遅延に完全に依存している。制御されたソフトウェアテストでは、AIが勝つ。あなたの反応時間スコアは、いかなるベンチマークも再現できない神経系についての何かを反映している。
ワーキングメモリ:AIは標準タスクで人間の99.5パーセンタイル以上でテストする。しかし人間の意味でのワーキングメモリは、注意、感情、長期記憶と動的に相互作用する限られた容量のシステムだ。AIHumanBenchでのワーキングメモリスコアは、学習、プレッシャー下での推論、日常的なパフォーマンスに重要な本物の認知能力を反映している——AIができることやできないことに関係なく。
パターン認識と抽象的推論:これらはAIが強く、より強くなっている分野だ。しかしこのカテゴリのAIHumanBenchテストは人間集団の規範に対してキャリブレーションされており、あなたのスコアは他の人間に対してどこに立っているかを教えてくれる——AIのパフォーマンスに関係なく完全に意味のある比較。
創造性と言語流暢さ:人間の優位性。研究は、オープンエンドのタスクでトップデシルの人間の創造的パフォーマンスがAIより優れていることを明確に示している。これらは開発する価値のあるスキルだ。
正直な要約
AIは金メダルレベルの数学、制限されたタスクでの完璧に近いコーディング、そして人間スケールを飽和させるワーキングメモリパフォーマンスを達成した。5年前にほとんどの人が予測したよりも速くそれをしたのだ。
それはまた、時間の半分でアナログ時計を正しく読み、数時間を超えるタスクで人間の専門家に負けている。
スタンフォード2026 AIインデックスの「ギザギザのフロンティア」フレーミングは正しい。これはAIの一様な優位性や人間の例外主義が全般的に持続する話ではない。真に、具体的に不均一な能力の話だ——そしてその不均一さが、自分自身の認知プロファイルを理解することが依然として重要な理由だ。
あなたがどこで強く、どこに成長の余地があるか、そしてあなたのパフォーマンスが人口規範とどのように比較されるかを知ることは貴重な情報だ。それが認知テストがあなたに与えるものだ——そして次の四半期にどんなAIベンチマークが言おうとも、それは価値があり続ける。
