2026年AI与人类认知能力全面对比：机器赢在哪里，人类又守住了什么

成绩并不是你以为的那样

2025年7月，谷歌DeepMind的Gemini Deep Think模型参加了国际数学奥林匹克竞赛（IMO）。它在4.5小时内用自然语言解答了全部六道题，得分35分——相当于金牌水平。一年前，同一基准测试的成绩还只是银牌。人类金牌选手通常得分在35至42分之间。

这条新闻往往被解读为最终裁决：AI已经击败了我们，案件终结。

但今年4月发布的斯坦福2026年AI指数报告，讲述的是一个更为复杂的故事。那些在IMO上所向披靡的同一系统，正确识别模拟时钟的概率只有50.1%。报告将此称为"锯齿状前沿"——这是对现状最诚实的描述。

以下是基于可验证基准数据的逐领域分析：AI目前在哪些方面超越了人类，人类在哪些方面仍然占有优势，以及这一切对你在AIHumanBench等平台上训练的认知技能意味着什么。

AI已明确超越人类的领域

数学

IMO金牌只是一个数据点。在AIME 2025——用于选拔美国奥林匹克国家队成员的高中数学竞赛——GPT-5.2（2025年12月11日发布）取得了满分100%的成绩。普通参赛选手在15道题中大约能答对4至6道。AI已不再在普通水平上竞争，而是在结构化数学任务上接近人类专家的顶端。

GPT-5.2在FrontierMath上也得到了40.3%的分数——这是一个由未发表的研究级题目构成的基准，即使是职业数学家也觉得极为困难。这个数字单独看来并不起眼，但相比两年前接近于零的成绩，已是巨大的飞跃。

编程与软件工程

在SWE-bench Verified测试中——要求模型解决真实代码库中的实际GitHub问题——根据斯坦福2026年AI指数，整个2025年间，性能从约60%飙升至接近100%。GPT-4o智能体在限时条件下解决了67%的真实GitHub问题，而在相同约束下人类开发者只能解决22%。

但有个重要的注意点：在两小时预算的短期、定义明确的任务中，顶尖AI的得分约是人类专家的四倍。然而在32小时时间范围内——需要持续判断、适应和创造力的任务——人类以2:1的优势超越AI。AI的编程优势集中在有边界问题上的速度和精度，而非开放式工程判断。

工作记忆

2024年的一项一项研究（arXiv: 2410.07391）将前沿语言模型与人类规范数据进行了工作记忆基准对比，发现顶尖模型的表现处于人类总体分布的较高区间。在AIHumanBench工作记忆测试中常见的数字广度和N-back任务上，AI实际上已经达到人类表现分布的上限。

这并不意味着AI以人类的方式"思考"——它意味着工作记忆测试所设计衡量的特定计算任务，是AI能轻松处理的。架构不同，得分相似。

阅读理解与语言理解

AI在GLUE和SuperGLUE（标准化英语语言基准）上超越人类平均水平，最早可追溯到2019至2021年。到2026年，在普通人类水平上的差距已经太大，不再是有意义的比较。前沿已经移向更难的目标：博士级科学推理、新颖情境学习，以及需要真正理解而非模式匹配的任务。

人类仍然领先的领域

多模态现实世界推理

在MMMU测试中——使用真实图像、图表和图示进行大学水平多学科多模态理解——OpenAI的o1模型得分78.2%，而人类基准约为83%。这是AI尚未赶上的唯一重要标准化领域，它指向一个更广泛的规律：当任务需要将物理常识与抽象推理结合时，AI会遇到困难。

斯坦福报告中的模拟时钟例子颇具说明性。50.1%的正确识别率——一项任何八岁孩子都能自动完成的任务——揭示了AI令人印象深刻的基准分数，可以与具身现实世界感知中的惊人缺口共存。

长期复杂任务

上文引用的RE-Bench数据清楚地说明了这一点：在32小时任务范围内，人类专家以2:1的优势超越AI。任务越长、越开放，人类在持续判断、情境适应和创造性问题框架方面的优势就越明显。

这一发现对AI工具的高效使用有直接影响。它们在有边界子任务上表现卓越，但并不能自主替代人类在长期、不确定项目中的判断。

真正的创造力与新颖推理

ARC-AGI——专门设计来抵抗记忆并测试真正新颖推理的基准——一直是AI持续面临的挑战。GPT-5.2据报道是首批在ARC-AGI-1上超过90%的模型之一。2026年4月23日发布的GPT-5.5在更难的ARC-AGI-2上达到85%。这些数字相当可观，但该基准旨在近似定义人类通用智能的那种流动性、可迁移推理。前沿模型现在才在受控测试中接近它——而非在不受约束的现实问题解决中——这一事实仍然具有重要意义。

2026年1月一项涉及超过10万参与者的研究发现，虽然AI系统在发散联想任务上优于普通人类，但在开放式创意工作中，人类最具创造力的前10%仍然产出更丰富、更令人惊喜的成果——诗歌、叙事、跨领域创意生成。

社会与情感智能

目前没有任何前沿模型在非结构化现实世界情境中展现出可靠的心智理论、人际动态细腻解读或真正的情感响应。AI在标准化情绪识别基准上表现良好，但当任务需要在新颖情境中将情感线索与社会背景整合时，表现很差——这正是AIHumanBench情绪识别测试所探测的那类任务。

这对你的测试意味着什么

上面的基准对于理解整体格局很有用，但它们与你在AIHumanBench上训练的认知技能并不相同。让我们精确说明数据对每个测试类别说明了什么，以及没有说明什么。

反应时间：AI推理在架构上比人类神经处理更快——毫秒级对比人类平均200至250毫秒的响应时间。但AI的"反应时间"完全取决于硬件和网络延迟。在受控软件测试中，AI获胜。你的反应时间分数反映了关于你神经系统的真实信息，这是任何基准都无法复制的。

工作记忆：AI在标准任务上的测试处于人类99.5百分位数以上。但人类意义上的工作记忆是一个有限容量的系统，与注意力、情感和长期记忆动态交互。你在AIHumanBench上的工作记忆分数反映了真正的认知能力，对学习、压力下的推理和日常表现都很重要。

模式识别与抽象推理：这些是AI强大且不断增强的领域。但AIHumanBench在此类别中的测试是根据人类总体规范校准的，这意味着你的分数告诉你相对于其他人类的位置——无论AI表现如何，这种比较仍然完全有意义。

创造力与语言流利度：人类优势。研究明确表明，在开放式任务上，顶尖人类的创造力表现仍然领先于AI。这些值得培养的技能。

诚实的总结

AI已经获得了数学奥林匹克金牌、有边界任务上接近完美的编程成绩，以及饱和人类量表的工作记忆表现。它做到这一切的速度，比五年前几乎所有人预测的都要快。

同时，它正确识别模拟时钟的概率只有一半，并且在超过几小时的任务上败给人类专家。

斯坦福2026年AI指数报告的"锯齿状前沿"定性是正确的。这不是一个AI全面优越或人类例外主义全面守住阵地的故事。这是一个能力真实且具体地参差不齐的故事——而这种参差不齐，正是理解你自己的认知特征仍然重要的原因。

了解你的强项在哪里、你有多少成长空间，以及你的表现与总体规范的比较——这是有价值的信息。这正是认知测试给你的东西——无论下个季度任何AI基准说什么，它都将保持价值。