Os 18 Meses que Reescreveram a IA: Uma Cronologia Completa de Janeiro de 2025 a Maio de 2026

Janeiro de 2025: O choque do DeepSeek

Em 20 de janeiro de 2025, um laboratório de IA chinês chamado DeepSeek lançou um modelo de raciocínio de pesos abertos chamado R1. Em sete dias, estava no topo das paradas da Apple App Store nos Estados Unidos e na China, tendo acumulado mais de 100 milhões de usuários.

Os números que chocaram a indústria: o DeepSeek afirmou que o R1 foi treinado por aproximadamente 6 milhões de dólares — um número que não foi verificado de forma independente. O custo de treinamento do GPT-4 da OpenAI foi amplamente reportado como estando na faixa de dezenas a centenas de milhões de dólares. Se a lacuna de eficiência for mesmo próxima da realidade, sugere que a suposição de que a IA de fronteira requer investimento massivo em computação pode ter sido superestimada. Se a afirmação de eficiência resistir ao escrutínio, ela sugere que a suposição de que a IA de fronteira requer dezenas de bilhões em investimento de computação pode ter sido errada.

Os mercados reagiram imediatamente. As ações da Nvidia caíram 18% em um único dia — uma perda amplamente reportada em aproximadamente 593 bilhões de dólares em capitalização de mercado — uma das maiores quedas de capitalização de mercado em um único dia na história do mercado de ações dos EUA.

O significado técnico: o DeepSeek R1 usou uma técnica chamada Mixture of Experts (MoE) de forma mais agressiva do que os laboratórios ocidentais, ativando apenas uma fração de seus parâmetros por consulta. Combinado com inovações na eficiência de dados de treinamento e aprendizado por reforço, alcançou desempenho comparável ao o1 da OpenAI a uma fração do custo. As implicações para a suposição de "quem controla o poder computacional controla a IA" ainda estão sendo analisadas.

Os mercados de ações reagiram fortemente ao lançamento do DeepSeek — a Nvidia perdeu ~593 bilhões de dólares em um único dia

Fevereiro de 2025: O Pensamento Estendido da Anthropic

Em 24 de fevereiro de 2025, a Anthropic lançou o Claude 3.7 Sonnet com uma nova capacidade chamada Extended Thinking (Pensamento Estendido) — um modo de cadeia de pensamento visível que permite ao modelo raciocinar sobre os problemas antes de gerar uma resposta. Os usuários podem assistir ao processo de pensamento se desenvolver em tempo real.

No GPQA Diamond — um benchmark construído a partir de perguntas elaboradas por cientistas com doutorado em física, química e biologia, onde especialistas humanos do domínio têm média de cerca de 65% — o Claude 3.7 Sonnet obteve 84,8%. Isso o colocou à frente de todos os outros modelos disponíveis publicamente no momento do lançamento.

A Anthropic lançou simultaneamente o Claude Code, uma ferramenta de programação agêntica projetada para lidar com tarefas de codificação complexas e de múltiplas etapas de forma assíncrona. Isso marcou a primeira entrada séria da Anthropic no espaço de produtos de "agente de IA" que dominaria o restante do ano.

Março de 2025: Gemini 2.5 Pro assume a liderança

O Google lançou o Gemini 2.5 Pro Experimental em março de 2025. Em dias após o lançamento, reivindicou o primeiro lugar na LMSYS Chatbot Arena — a maior plataforma pública de avaliação de IA em confronto direto — superando o GPT-4.5 por aproximadamente 40 pontos Elo. Essa margem é considerada substancial em um ranking onde diferenças de 10 a 15 pontos normalmente sinalizam lacunas de capacidade significativas.

O Gemini 2.5 Pro introduziu um modo de raciocínio "Deep Think" e uma janela de contexto de 1 milhão de tokens. No Poe, a plataforma agregadora de IA, captou aproximadamente 30% de todo o volume de consultas de raciocínio nas seis semanas após o lançamento.

Março também marcou um ponto de inflexão para a interoperabilidade da IA. O Model Context Protocol (MCP) da Anthropic — um padrão aberto para conectar modelos de IA a ferramentas externas — ganhou adoção mainstream quando o ChatGPT da OpenAI anunciou suporte ao protocolo. O Google confirmou o suporte em abril. O MCP é agora efetivamente o padrão da indústria para integração de ferramentas de IA.

Abril–Maio de 2025: Meta e OpenAI expandem o campo

A Meta lançou o Llama 4 em abril de 2025, com duas variantes: Scout (para eficiência) e Maverick (para raciocínio). Ambos eram modelos de pesos abertos, o que significa que os parâmetros eram publicamente disponíveis para download. O Llama 4 Maverick competiu com o GPT-4.5 em vários benchmarks e representou o modelo de pesos abertos mais capaz lançado até aquele momento.

A OpenAI seguiu em abril com o o3 e o o4-mini — a próxima geração de sua série de modelos de raciocínio — junto com o GPT-4.1, uma atualização focada em seguimento de instruções e latência reduzida. O ritmo dos lançamentos estava acelerando ao ponto em que a indústria havia amplamente parado de tratar lançamentos individuais de modelos como eventos marcantes e começado a tratá-los como atualizações de rotina.

Em maio de 2025, a Anthropic lançou o Claude 4, incluindo Opus 4.5 e Sonnet 4.5. A variante Opus foi posicionada como um modelo de análise de documentos e pesquisa empresarial. Melhorou significativamente em relação ao seu predecessor em tarefas de longo contexto e raciocínio de múltiplas etapas.

Matemática avançada — a IA atingiu nível de medalha de ouro na Olimpíada Internacional de Matemática em julho de 2025

Julho de 2025: A IA vence a OIM

Em julho de 2025, tanto o modelo de raciocínio da OpenAI quanto o Gemini Deep Think do Google DeepMind alcançaram desempenho equivalente a medalha de ouro na Olimpíada Internacional de Matemática — independentemente, no mesmo ciclo de competição. O Gemini Deep Think pontuou em um nível equivalente a medalha de ouro, completando todos os problemas em linguagem natural dentro do limite de tempo padrão. O Google DeepMind reportou a pontuação como 35 pontos de um possível 42.

Para contexto: a OIM é a competição de matemática do ensino médio mais prestigiosa do mundo. Os medalhistas de ouro humanos estão entre os indivíduos matematicamente mais talentosos vivos. O fato de que dois sistemas de IA separados atingiram esse padrão no mesmo ano, usando arquiteturas fundamentalmente diferentes, sugere que este não foi um resultado de sorte.

No mesmo mês, ambos os sistemas também alcançaram as primeiras colocações no Concurso Internacional de Programação Universitária (ICPC). Esses resultados marcaram o momento em que a IA cruzou o limiar de "competitiva com fortes matemáticos humanos" para "competitiva com os melhores".

Agosto de 2025: GPT-5 e a Lei de IA da UE

A OpenAI lançou o GPT-5 em 7 de agosto de 2025. O modelo introduziu "modos de pensamento" dinâmicos — permitindo aos usuários selecionar entre respostas rápidas e raciocínio estendido — e a OpenAI reportou que ele tinha uma taxa de alucinação significativamente reduzida em comparação com o GPT-4. Ele tratou texto, imagens e dados estruturados nativamente.

O mesmo mês teve significado regulatório: 2 de agosto de 2025 marcou a data em que as disposições que regem os modelos de IA de Propósito Geral (GPAI) sob a Lei de IA da UE entraram formalmente em vigor. Esta é a primeira lei abrangente de IA do mundo. Sob as regras de GPAI, os provedores de modelos de fundação de alta capacidade devem realizar testes adversariais antes da implantação, manter documentação técnica, cumprir a lei de direitos autorais da UE e publicar resumos dos dados de treinamento.

A fiscalização da UE já está ativa. No primeiro trimestre de 2026, foi reportado que os estados-membros da UE emitiram dezenas de multas totalizando centenas de milhões de euros, principalmente por não conformidade com o GPAI. A Irlanda, que abriga as sedes europeias da maioria das principais empresas de tecnologia dos EUA, foi reportada como tendo tratado a maioria dos casos.

Setembro–Novembro de 2025: O sprint do fim do ano

O DeepSeek publicou um artigo de pesquisa em setembro de 2025 que apareceu na capa da Nature — uma revista científica revisada por pares cuja colocação na capa é considerada uma das maiores marcas de relevância científica. Foi a primeira vez que a publicação técnica de uma empresa de IA recebeu essa distinção.

Os últimos meses do ano produziram uma cascata de lançamentos de modelos principais:

12 de novembro: A OpenAI lançou o GPT-5.1, com melhorias em latência, uso de ferramentas e seguimento de instruções.

17 de novembro: O Grok 4.1 da xAI foi lançado.

18 de novembro: O Google lançou o Gemini 3 Pro — o primeiro modelo do Google a reivindicar a primeira posição no Artificial Analysis Intelligence Index e o primeiro modelo de qualquer laboratório a superar 1.500 Elo na LMSYS Chatbot Arena.

11 de dezembro: A OpenAI lançou o GPT-5.2, que foi reportado como um dos primeiros modelos a pontuar acima de 90% no ARC-AGI-1 — um benchmark especificamente projetado para testar raciocínio novel em vez de recordação de padrões. Também alcançou pontuação perfeita no AIME 2025. Junto ao modelo, a OpenAI lançou o Codex, um agente de programação autônomo projetado para lidar com tarefas de engenharia inteiras com supervisão humana mínima.

Regulamentação de IA — a Lei de IA da UE começou a gerar multas reais no início de 2026

2026: A fronteira continua avançando

Os primeiros meses de 2026 aceleraram em vez de desacelerar o ritmo do desenvolvimento.

Dario Amodei, CEO da Anthropic, disse ao Fórum Econômico Mundial em Davos em janeiro de 2026 que sistemas em nível de AGI eram provavelmente "dentro de alguns anos" — apontando para 2027 como um horizonte plausível. Shane Legg, co-fundador da DeepMind, deu uma probabilidade de 50% de "AGI Mínima" até 2028. Estas não são previsões marginais; elas vêm das pessoas que estão construindo os sistemas.

Em abril de 2026, a Anthropic lançou o Claude Mythos 5 — um modelo de 10 trilhões de parâmetros com foco em segurança cibernética e codificação avançada. O Google lançou o Gemini 3.1 com capacidades de análise de voz e imagem em tempo real e uma variante Flash-Lite rodando 2,5 vezes a velocidade de seu predecessor.

Em 23 de abril de 2026, a OpenAI lançou o GPT-5.5, com o codinome interno "Spud" — o primeiro modelo base completamente retreinado desde o GPT-4.5. Pontuou 85% no ARC-AGI-2 (um benchmark sucessor mais difícil) e foi reportado como tendo liderado o Artificial Analysis Intelligence Index. No OSWorld-Verified, um benchmark que testa a capacidade da IA de operar ambientes de computador reais de forma autônoma, pontuou na faixa de 70% elevado de acordo com relatórios publicados.

A Casa Branca lançou um Marco de Política Nacional para Inteligência Artificial em 20 de março de 2026, oferecendo recomendações legislativas para governança unificada. Ainda não existe uma lei federal abrangente de IA nos Estados Unidos, enquanto Califórnia, Colorado, Nova York, Illinois e Utah promulgaram ou propuseram sua própria legislação — criando um ambiente regulatório fragmentado que a indústria de tecnologia argumentou tornar o planejamento de conformidade extremamente difícil.

O fio condutor

Ao longo de 18 meses, alguns padrões são claros.

Primeiro, a história da eficiência mudou. O DeepSeek demonstrou que o desempenho de ponta não requer orçamentos de computação de ponta. Isso tem implicações para quem pode construir IA de fronteira — não apenas os três ou quatro laboratórios americanos com infraestrutura de bilhões de dólares, mas também equipes menores com acesso a técnicas de treinamento mais eficientes.

Segundo, o raciocínio tornou-se o eixo dominante da competição. A mudança de "o que o modelo pode produzir" para "quão bem ele consegue pensar através de problemas difíceis" define o período 2025–2026. Pensamento estendido, cadeia de pensamento e aprendizado por reforço a partir de feedback humano se combinaram para produzir os resultados da OIM e do ARC-AGI.

Terceiro, a IA agêntica passou da pesquisa para o produto. Claude Code, OpenAI Codex e Google Jules não são protótipos de pesquisa — são ferramentas implantadas que equipes de engenharia estão usando hoje. A questão para 2026 e além não é se a IA pode realizar tarefas complexas, mas quanto de supervisão humana essas tarefas realmente exigem.

Quarto, a regulamentação chegou. A Lei de IA da UE está gerando multas reais. Leis estaduais nos EUA estão se proliferando. A Lei de Segurança Cibernética revisada da China está em vigor. A camada de governança está alcançando a camada de capacidade, embora exatamente como ela moldará o desenvolvimento nos próximos anos ainda seja genuinamente incerto.

O que não é incerto: a taxa de mudança. Qualquer que seja o estado da IA quando você verificou pela última vez, quase certamente mudou desde então.