AI를 다시 쓴 18개월: 2025년 1월부터 2026년 5월까지의 완전한 타임라인

2025년 1월: DeepSeek 충격

2025년 1월 20일, DeepSeek이라는 중국의 AI 연구소가 R1이라는 오픈 웨이트 추론 모델을 출시했다. 7일 이내에 미국과 중국 양쪽에서 Apple App Store 차트 1위를 차지했고 1억 명 이상의 사용자를 모았다.

업계를 놀라게 한 수치: DeepSeek은 R1이 약 600만 달러에 훈련되었다고 주장했다 — 이는 독립적으로 검증되지 않은 수치다. OpenAI의 GPT-4 훈련 비용은 수천만 달러에서 수억 달러 범위로 널리 보고되었다. 효율성 격차가 조금이라도 정확하다면, 프론티어 AI에 막대한 컴퓨팅 투자가 필요하다는 가정이 과장되었을 수 있음을 시사한다. 효율성 주장이 면밀한 검토를 견뎌낸다면, 프론티어 AI에 수백억 달러의 컴퓨팅 투자가 필요하다는 가정이 틀렸을 수 있음을 시사한다.

시장은 즉시 반응했다. Nvidia 주가는 하루 만에 18% 하락했다 — 시가총액으로 약 5,930억 달러에 달하는 손실로 널리 보고되었으며, 이는 미국 주식 시장 역사상 가장 큰 단일 거래일 시가총액 하락 중 하나다.

기술적 의의: DeepSeek R1은 서양 연구소보다 더 공격적으로 Mixture of Experts(MoE)라는 기법을 사용하여 쿼리당 파라미터의 일부만 활성화했다. 훈련 데이터 효율성과 강화 학습의 혁신과 결합하여, OpenAI의 o1에 필적하는 성능을 훨씬 낮은 비용으로 달성했다. "컴퓨팅을 통제하는 자가 AI를 통제한다"는 가정에 대한 함의는 여전히 분석 중이다.

주식 시장은 DeepSeek 출시에 급격히 반응했다 — Nvidia는 단 하루 만에 약 5,930억 달러를 잃었다

2025년 2월: Anthropic의 확장 사고

2025년 2월 24일, Anthropic은 Extended Thinking(확장 사고)이라는 새로운 기능을 갖춘 Claude 3.7 Sonnet을 출시했다 — 이는 모델이 응답을 생성하기 전에 문제를 추론할 수 있게 해주는 가시적인 사고 연쇄 모드다. 사용자는 실시간으로 사고 과정이 전개되는 것을 볼 수 있다.

GPQA Diamond — 물리학, 화학, 생물학 박사 과학자들이 설계한 문제로 구성된 벤치마크로, 인간 도메인 전문가의 평균은 약 65% — 에서 Claude 3.7 Sonnet은 84.8%를 기록했다. 이는 출시 당시 다른 모든 공개 모델보다 앞선 결과였다.

Anthropic은 동시에 Claude Code를 출시했는데, 이는 복잡한 다단계 코딩 작업을 비동기로 처리하도록 설계된 에이전틱 프로그래밍 도구다. 이는 그해 남은 기간을 지배할 "AI 에이전트" 제품 공간에 Anthropic이 처음으로 진지하게 뛰어든 것을 나타냈다.

2025년 3월: Gemini 2.5 Pro가 선두를 차지하다

Google은 2025년 3월에 Gemini 2.5 Pro Experimental을 출시했다. 출시 며칠 만에 최대 공개 AI 직접 대결 평가 플랫폼인 LMSYS Chatbot Arena에서 1위를 차지했으며, GPT-4.5를 약 40 Elo 포인트 차이로 이겼다. 이 격차는 10~15포인트 차이가 일반적으로 의미 있는 능력 격차를 나타내는 리더보드에서 상당한 차이로 간주된다.

Gemini 2.5 Pro는 "Deep Think" 추론 모드와 100만 토큰 컨텍스트 창을 도입했다. AI 집계 플랫폼인 Poe에서, 출시 6주 이내에 모든 추론 쿼리 볼륨의 약 30%를 차지했다.

3월은 또한 AI 상호 운용성의 전환점이 되었다. Anthropic의 Model Context Protocol(MCP) — AI 모델을 외부 도구에 연결하기 위한 오픈 스탠다드 — 은 OpenAI의 ChatGPT가 이 프로토콜을 지원한다고 발표하면서 주류 채택을 얻었다. Google은 4월에 지원을 확인했다. MCP는 이제 AI 도구 통합의 업계 표준으로 자리잡았다.

2025년 4월~5월: Meta와 OpenAI가 분야를 확장하다

Meta는 2025년 4월에 Llama 4를 두 가지 변형으로 출시했다: Scout(효율성용)와 Maverick(추론용). 두 모델 모두 오픈 웨이트 모델로, 파라미터를 공개적으로 다운로드할 수 있었다. Llama 4 Maverick은 여러 벤치마크에서 GPT-4.5와 경쟁했으며 그 시점까지 출시된 가장 유능한 오픈 웨이트 모델을 대표했다.

OpenAI는 4월에 o3와 o4-mini — 추론 모델 시리즈의 차세대 — 와 함께 명령 수행 및 지연 시간 감소에 초점을 맞춘 업데이트인 GPT-4.1을 출시했다. 출시 속도가 가속화되어 업계는 개별 모델 출시를 랜드마크 이벤트로 취급하는 것을 대체로 중단하고 정기 업데이트로 취급하기 시작했다.

2025년 5월, Anthropic은 Opus 4.5와 Sonnet 4.5를 포함한 Claude 4를 출시했다. Opus 변형은 문서 분석 및 기업 연구 모델로 포지셔닝되었다. 긴 컨텍스트 작업과 다단계 추론에서 이전 모델보다 크게 개선되었다.

고급 수학 — AI는 2025년 7월 국제 수학 올림피아드에서 금메달 수준에 도달했다

2025년 7월: AI가 IMO를 석권하다

2025년 7월, OpenAI의 추론 모델과 Google DeepMind의 Gemini Deep Think 모두 국제 수학 올림피아드(IMO)에서 금메달 수준의 성과를 달성했다 — 독립적으로, 같은 대회 주기에서. Gemini Deep Think는 금메달 수준으로 모든 문제를 표준 제한 시간 내에 자연어로 완성했다. Google DeepMind는 점수를 최대 42점 중 35점으로 보고했다.

맥락으로: IMO는 세계에서 가장 권위 있는 고등학교 수학 대회다. 인간 금메달리스트들은 살아 있는 사람들 중 수학적으로 가장 재능 있는 사람들에 속한다. 두 개의 별개 AI 시스템이 근본적으로 다른 아키텍처를 사용하여 같은 해에 이 수준을 달성했다는 사실은 이것이 운 좋은 결과가 아니었음을 시사한다.

같은 달, 두 시스템 모두 국제 대학생 프로그래밍 경시대회(ICPC)에서도 최상위권을 차지했다. 이러한 결과들은 AI가 "강한 인간 수학자들과 경쟁할 수 있는" 수준에서 "최고의 사람들과 경쟁할 수 있는" 수준으로 임계값을 넘은 순간을 표시했다.

2025년 8월: GPT-5와 EU AI법

OpenAI는 2025년 8월 7일에 GPT-5를 출시했다. 이 모델은 동적인 "사고 모드"를 도입하여 — 사용자가 빠른 응답과 확장 추론 사이에서 선택할 수 있게 했다 — OpenAI는 GPT-4에 비해 환각 발생률이 크게 감소했다고 보고했다. 텍스트, 이미지, 구조화된 데이터를 네이티브로 처리했다.

같은 달은 규제적 의미가 있었다: 2025년 8월 2일은 EU AI법에 따른 범용 AI(GPAI) 모델을 규율하는 조항이 공식적으로 발효된 날을 표시했다. 이는 세계 최초의 포괄적인 AI 법이다. GPAI 규정에 따라, 고성능 기반 모델 제공자는 배포 전 적대적 테스트를 실시하고, 기술 문서를 유지하며, EU 저작권법을 준수하고, 훈련 데이터 요약을 공개해야 한다.

EU의 집행은 이미 활발하다. 2026년 1분기에 EU 회원국들이 주로 GPAI 미준수를 이유로 수억 유로에 달하는 수십 건의 벌금을 부과한 것으로 보고되었다. 대부분의 주요 미국 기술 기업의 유럽 본사를 보유한 아일랜드가 대부분의 사례를 처리한 것으로 보고되었다.

2025년 9월~11월: 연말 스프린트

DeepSeek은 2025년 9월에 연구 논문을 발표했는데, 이것이 Nature의 표지를 장식했다 — 표지 게재가 연구 중요성의 가장 높은 표식 중 하나로 간주되는 동료 심사 과학 저널. AI 기업의 기술 출판물이 그 자리를 받은 것은 처음이었다.

그 해의 마지막 몇 달은 플래그십 모델 출시의 연쇄를 만들어냈다:

11월 12일: OpenAI는 지연 시간, 도구 사용, 명령 수행에 대한 개선을 담은 GPT-5.1을 출시했다.

11월 17일: xAI의 Grok 4.1이 출시되었다.

11월 18일: Google은 Gemini 3 Pro를 출시했다 — Artificial Analysis Intelligence Index에서 1위를 차지한 최초의 Google 모델이자 LMSYS Chatbot Arena에서 1,500 Elo를 초과한 어떤 연구소의 첫 번째 모델.

12월 11일: OpenAI는 GPT-5.2를 출시했는데, 패턴 회상이 아닌 새로운 추론을 테스트하기 위해 특별히 설계된 벤치마크인 ARC-AGI-1에서 90% 이상을 기록한 최초의 모델 중 하나로 보고되었다. AIME 2025에서도 만점을 달성했다. 모델과 함께 OpenAI는 최소한의 인간 감독으로 전체 엔지니어링 작업을 처리하도록 설계된 자율 프로그래밍 에이전트인 Codex를 출시했다.

AI 규제 — EU AI법이 2026년 초에 실제 벌금을 생성하기 시작했다

2026년: 프론티어는 계속 나아간다

2026년의 첫 몇 달은 개발 속도를 늦추기는커녕 가속화했다.

Anthropic의 CEO인 다리오 아모데이는 2026년 1월 다보스 세계경제포럼에서 AGI 수준의 시스템이 "몇 년 내에" 등장할 가능성이 높다고 말했다 — 2027년을 그럴듯한 지평선으로 지목하면서. DeepMind의 공동 창립자 셰인 레그는 2028년까지 "최소 AGI"의 50% 확률을 제시했다. 이것들은 주변부 예측이 아니다; 시스템을 만드는 사람들에게서 나온 것이다.

2026년 4월, Anthropic은 Claude Mythos 5를 출시했다 — 사이버 보안과 고급 코딩에 초점을 맞춘 10조 파라미터 모델이다. Google은 실시간 음성 및 이미지 분석 기능과 전임자의 2.5배 속도로 작동하는 Flash-Lite 변형을 갖춘 Gemini 3.1을 출시했다.

2026년 4월 23일, OpenAI는 내부 코드명 "Spud"인 GPT-5.5를 출시했다 — GPT-4.5 이후 처음으로 완전히 재훈련된 기반 모델이다. ARC-AGI-2(더 어려운 후속 벤치마크)에서 85%를 기록했고 Artificial Analysis Intelligence Index 1위를 차지한 것으로 보고되었다. 실제 컴퓨터 환경을 자율적으로 작동하는 AI의 능력을 테스트하는 벤치마크인 OSWorld-Verified에서 공개된 보고서에 따르면 70% 후반대를 기록했다.

백악관은 2026년 3월 20일에 통일된 거버넌스를 위한 입법 권고안을 담은 인공 지능 국가 정책 프레임워크를 발표했다. 미국에는 아직 포괄적인 연방 AI 법이 존재하지 않으며, 캘리포니아, 콜로라도, 뉴욕, 일리노이, 유타주는 각각 자체 법률을 제정하거나 제안했다 — 기술 업계가 규정 준수 계획을 극히 어렵게 만든다고 주장한 단편적인 규제 환경을 만들고 있다.

관통하는 주제

18개월에 걸쳐 몇 가지 패턴이 명확하다.

첫째, 효율성 이야기가 바뀌었다. DeepSeek은 최첨단 성능에 최첨단 컴퓨팅 예산이 필요하지 않다는 것을 입증했다. 이는 프론티어 AI를 구축할 수 있는 주체에 영향을 미친다 — 수십억 달러 규모의 인프라를 갖춘 3~4개의 미국 연구소만이 아니라, 더 효율적인 훈련 기술에 접근할 수 있는 더 작은 팀들도 포함된다.

둘째, 추론이 경쟁의 지배적인 축이 되었다. "모델이 무엇을 출력할 수 있는가"에서 "어려운 문제를 얼마나 잘 생각할 수 있는가"로의 전환이 2025~2026년 시기를 정의한다. 확장 사고, 사고 연쇄, 인간 피드백으로부터의 강화 학습이 결합하여 IMO와 ARC-AGI 결과를 만들어냈다.

셋째, 에이전틱 AI가 연구에서 제품으로 이동했다. Claude Code, OpenAI Codex, Google Jules는 연구 프로토타입이 아니다 — 엔지니어링 팀이 오늘날 사용하고 있는 배포된 도구들이다. 2026년 이후의 질문은 AI가 복잡한 작업을 수행할 수 있는지가 아니라 그러한 작업에 실제로 얼마나 많은 인간의 감독이 필요한지다.

넷째, 규제가 도래했다. EU AI법은 실제 벌금을 생성하고 있다. 미국의 주 수준 법률이 증가하고 있다. 중국의 개정 사이버보안법이 시행 중이다. 거버넌스 층이 능력 층을 따라잡고 있지만, 그것이 향후 몇 년 동안 개발을 어떻게 형성할지는 진정으로 불확실한 채로 남아 있다.

불확실하지 않은 것: 변화의 속도. 마지막으로 확인했을 때 AI의 상태가 어떠했든, 그 이후로 거의 확실히 변했을 것이다.