ИИ против человеческого познания в 2026 году: где побеждают машины, где мы всё ещё лидируем

Оценка — Не То, Что Вы Думаете

В июле 2025 года модель Gemini Deep Think от Google DeepMind — метафорически говоря — села за решение задач Международной математической олимпиады. Она ответила на все шесть задач на естественном языке в пределах временного ограничения 4,5 часа и набрала 35 баллов: эквивалент золотой медали. Годом ранее тот же бенчмарк дал серебряную медаль. Люди — золотые медалисты — обычно набирают от 35 до 42 баллов.

Эта заголовок имеет тенденцию читаться как вердикт: ИИ нас победил. Дело закрыто.

Но Индекс ИИ Стэнфорда 2026 года, опубликованный в апреле этого года, рассказывает более сложную историю. Те же системы, доминирующие на ММО, правильно читают аналоговые часы лишь 50,1% времени. Отчёт называет это «неровной границей» — и это наиболее честное резюме того, где на самом деле всё стоит.

Ниже приведён разбор по областям, с использованием проверенных данных бенчмарков, где ИИ теперь ведёт среди людей, где люди ещё сохраняют преимущество, и что всё это означает для когнитивных навыков, которые вы развиваете на таких платформах, как AIHumanBench.

Шахматы — область, где ИИ достиг сверхчеловеческой производительности более двух десятилетий назад

Где ИИ явно превзошёл производительность людей

Математика

Золото ММО — лишь одна точка данных. На AIME 2025 — американском соревновании по математике среди школьников, отбирающем кандидатов в олимпийскую сборную США — GPT-5.2 (выпущен 11 декабря 2025 года) достиг идеального результата 100%. Медианный участник-человек отвечает приблизительно на 4–6 из 15 задач. ИИ больше не конкурирует на медианном уровне; он работает вблизи потолка производительности экспертов-людей в структурированных математических задачах.

GPT-5.2 также набрал 40,3% на FrontierMath — бенчмарке, созданном из неопубликованных задач исследовательского уровня, которые даже профессиональные математики находят крайне сложными. Это число выглядит скромно в изоляции, но представляет собой скачок от почти нуля всего два года назад.

Разработка программного обеспечения — ИИ теперь решает реальные задачи GitHub с показателями, превышающими разработчиков-людей в задачах с ограничением по времени

Программирование и Разработка ПО

На SWE-bench Verified — который просит модели решать реальные открытые задачи GitHub в реальных кодовых базах — производительность выросла примерно с 60% до почти 100% в течение 2025 года, согласно Индексу ИИ Стэнфорда 2026. Агенты GPT-4o решили 67% реальных задач GitHub в условиях с ограничением по времени, по сравнению с 22% для разработчиков-людей, работающих в тех же условиях.

Оговорка важна: в коротких, чётко определённых задачах с двухчасовым бюджетом, лучший ИИ набирает примерно в четыре раза выше, чем эксперты-люди. Но при 32-часовых горизонтах — задачах, требующих устойчивого суждения, адаптации и творчества — люди превосходят ИИ с соотношением 2 к 1. Преимущество ИИ в программировании сосредоточено в скорости и точности в ограниченных задачах, а не в открытом инженерном суждении.

Рабочая Память

Исследование 2024 года (arXiv: 2410.07391) сравнило передовые языковые модели с нормативными данными людей в стандартных задачах рабочей памяти. Результат: большинство лучших моделей работают на уровне или выше 99,5-го процентиля человеческого населения. В задачах на объём цифр и n-back, которые вы найдёте в тесте рабочей памяти AIHumanBench, ИИ фактически насытил верхний конец распределения производительности людей.

Это не означает, что ИИ «думает» так, как думают люди — это означает, что специфические вычислительные задачи, для измерения которых предназначены тесты рабочей памяти, — это те, с которыми ИИ справляется легко. Архитектура различна; оценка — нет.

Понимание Прочитанного и Понимание Языка

ИИ превзошёл среднюю производительность людей на GLUE и SuperGLUE (стандартизированные бенчмарки английского языка) ещё в 2019–2021 годах. В 2026 году разрыв на среднем человеческом уровне настолько велик, что это перестало быть значимым сравнением. Граница переместилась к более сложным целям: научное мышление на уровне докторантуры, новое внутриконтекстное обучение и задачи, требующие подлинного понимания, а не сопоставления с образцом.

Человеческое восприятие и социальный интеллект остаются областями, где ИИ отстаёт

Где люди ещё лидируют

Мультимодальное Рассуждение в Реальном Мире

На MMMU — бенчмарке, тестирующем мультимодальное понимание в дисциплинах уровня колледжа с использованием реальных изображений, графиков и диаграмм — o1 от OpenAI набрал 78,2% против базовой линии людей около 83%. Это единственная крупная стандартизированная область, в которой ИИ ещё не догнал, и это указывает на более широкую закономерность: ИИ испытывает трудности, когда задача требует интеграции физического здравого смысла с абстрактным мышлением.

Пример аналоговых часов из доклада Стэнфорда показателен. Уровень точности 50,1% при чтении аналоговых часов — задача, с которой любой восьмилетний ребёнок справляется автоматически — показывает, что впечатляющие результаты бенчмарков ИИ могут сосуществовать с удивительными пробелами в воплощённом восприятии реального мира.

Сложные Задачи с Длинным Горизонтом

Данные RE-Bench, уже упомянутые выше, рассказывают эту историю ясно: при 32-часовых горизонтах задач эксперты-люди превосходят ИИ 2 к 1. Чем длиннее и открытее задача, тем больше проявляются человеческие преимущества в устойчивом суждении, контекстной адаптации и творческом формулировании проблем.

Это открытие имеет прямые последствия для того, как инструменты ИИ используются наиболее продуктивно. Они превосходны как ускорители для ограниченных подзадач, но не как автономные заменители человеческого суждения в длительных, неопределённых проектах.

Подлинное Творчество и Новаторское Мышление

ARC-AGI — бенчмарк, специально разработанный для противодействия запоминанию и тестирования истинного нового мышления — был постоянной проблемой для ИИ. Сообщалось, что GPT-5.2 был среди первых моделей, превысивших 90% на ARC-AGI-1. GPT-5.5, выпущенный 23 апреля 2026 года, достиг 85% на более сложном ARC-AGI-2. Это примечательные цифры, но бенчмарк был разработан для приближения к типу свободного, переносимого мышления, определяющего общий человеческий интеллект. Тот факт, что передовые модели лишь сейчас приближаются к нему — в тщательно контролируемом тесте, а не в неограниченном решении реальных задач — остаётся значимым.

Исследование января 2026 года с участием более 100 000 участников показало, что, хотя системы ИИ превосходят среднестатистических людей в задачах дивергентных ассоциаций, лучшие 10% творческих мыслителей-людей всё ещё создают более богатые, более удивительные результаты в открытой творческой работе — поэзии, нарративе, генерации идей между областями.

Социальный и Эмоциональный Интеллект

Ни одна передовая модель не продемонстрировала надёжную теорию разума, тонкое чтение межличностной динамики или подлинную эмоциональную отзывчивость в неструктурированных контекстах реального мира. ИИ хорошо работает на стандартизированных бенчмарках распознавания эмоций, но плохо — когда задача требует интеграции эмоциональных сигналов с социальным контекстом в новых ситуациях — именно такой тип задач исследует тест Распознавания Эмоций AIHumanBench.

Что Это Означает для Тестов, Которые Вы Проходите

Приведённые выше бенчмарки полезны для понимания широкой картины, но они не совпадают с когнитивными навыками, которые вы упражняете на AIHumanBench. Давайте точно определим, что данные говорят и не говорят о каждой категории теста.

Время Реакции: Вывод ИИ архитектурно быстрее, чем нейронная обработка людей — миллисекунды против 200–250 мс среднего времени ответа человека. Но «время реакции» ИИ полностью зависит от аппаратного обеспечения и сетевой задержки. В контролируемых программных тестах ИИ выигрывает. Ваш показатель времени реакции отражает нечто реальное о вашей нервной системе, что ни один бенчмарк не может воспроизвести.

Рабочая Память: ИИ тестируется на 99,5+ процентиле людей в стандартных задачах. Но рабочая память в человеческом понимании — это система ограниченной ёмкости, которая динамически взаимодействует с вниманием, эмоциями и долгосрочной памятью. Ваш показатель рабочей памяти на AIHumanBench отражает подлинную когнитивную способность, важную для обучения, мышления под давлением и повседневной производительности — независимо от того, что ИИ может или не может делать.

Распознавание Образов и Абстрактное Мышление: Это области, где ИИ силён и становится сильнее. Но тесты AIHumanBench в этой категории откалиброваны по нормам человеческого населения, что означает, что ваш результат говорит вам, где вы стоите относительно других людей — сравнение, которое остаётся полностью значимым независимо от производительности ИИ.

Творчество и Вербальная Беглость: Преимущество людей. Исследования однозначно показывают, что творческая производительность людей верхнего дециля опережает ИИ в открытых задачах. Это навыки, которые стоит развивать.

Честное Резюме

ИИ достиг золотомедальной математики, почти идеального программирования в ограниченных задачах и производительности рабочей памяти, насыщающей человеческую шкалу. Он сделал это быстрее, чем предсказывал почти кто-либо пять лет назад.

Он также правильно читает аналоговые часы половину времени и проигрывает экспертам-людям в задачах, выходящих за пределы нескольких часов.

Формулировка «неровной границы» в Индексе ИИ Стэнфорда 2026 верна. Это не история о единообразном превосходстве ИИ или о человеческом исключительности, твёрдо держащемся на всех фронтах. Это история способностей, которые подлинно, конкретно неравномерны — и именно эта неравномерность является точной причиной, почему понимание вашего собственного когнитивного профиля по-прежнему важно.

Знание того, где вы сильны, где у вас есть место для роста, и как ваша производительность соотносится с нормами населения, является ценной информацией. Это то, что вам даёт когнитивное тестирование — и оно останется ценным независимо от того, что скажет любой бенчмарк ИИ в следующем квартале.