Los 18 Meses que Reescribieron la IA: Una Cronología Completa de Enero 2025 a Mayo 2026
Noticias de IA05-15

Los 18 Meses que Reescribieron la IA: Una Cronología Completa de Enero 2025 a Mayo 2026

Enero de 2025: El shock de DeepSeek

El 20 de enero de 2025, un laboratorio de IA chino llamado DeepSeek lanzó un modelo de razonamiento de pesos abiertos llamado R1. En siete días, encabezó las listas de la App Store de Apple tanto en Estados Unidos como en China y acumuló más de 100 millones de usuarios.

Las cifras que sacudieron a la industria: DeepSeek afirmó que R1 fue entrenado por aproximadamente 6 millones de dólares — una cifra que no ha sido verificada de forma independiente. Se informó ampliamente que el entrenamiento de GPT-4 de OpenAI costó entre decenas y cientos de millones de dólares. Si la brecha de eficiencia es siquiera aproximada, sugiere que la suposición de que la IA de frontera requiere una inversión masiva en cómputo puede haber sido exagerada. Si la afirmación de eficiencia se sostiene bajo escrutinio, sugiere que la suposición de que la IA de frontera requiere decenas de miles de millones en inversión de cómputo puede haber sido errónea.

Los mercados reaccionaron de inmediato. Las acciones de Nvidia cayeron un 18% en un solo día — una pérdida ampliamente reportada en aproximadamente 593 mil millones de dólares en capitalización de mercado — una de las mayores caídas de capitalización de mercado en un solo día en la historia del mercado de valores de EE. UU.

La relevancia técnica: DeepSeek R1 utilizó una técnica llamada Mezcla de Expertos (MoE) de forma más agresiva que los laboratorios occidentales, activando solo una fracción de sus parámetros por consulta. Combinado con innovaciones en la eficiencia de datos de entrenamiento y el aprendizaje por refuerzo, logró un rendimiento comparable al o1 de OpenAI a una fracción del costo. Las implicaciones para la suposición de "quien controla el cómputo controla la IA" aún se están analizando.

Los mercados bursátiles reaccionaron drásticamente ante el lanzamiento de DeepSeek — Nvidia perdió ~593 mil millones de dólares en un solo día
Los mercados bursátiles reaccionaron drásticamente ante el lanzamiento de DeepSeek — Nvidia perdió ~593 mil millones de dólares en un solo día

Febrero de 2025: El pensamiento extendido de Anthropic

El 24 de febrero de 2025, Anthropic lanzó Claude 3.7 Sonnet con una nueva capacidad llamada Pensamiento Extendido — un modo de cadena de pensamiento visible que permite al modelo razonar sobre los problemas antes de generar una respuesta. Los usuarios pueden ver el proceso de pensamiento en tiempo real.

En GPQA Diamond — un benchmark construido con preguntas diseñadas por científicos con doctorado en física, química y biología, donde los expertos humanos del dominio promedian alrededor del 65% — Claude 3.7 Sonnet obtuvo un 84,8%. Eso lo colocó por delante de todos los demás modelos disponibles públicamente en el momento del lanzamiento.

Anthropic lanzó simultáneamente Claude Code, una herramienta de programación agéntica diseñada para manejar tareas de codificación complejas y de múltiples pasos de forma asíncrona. Esto marcó el primer movimiento serio de Anthropic en el espacio de productos de "agente de IA" que dominaría el resto del año.

Marzo de 2025: Gemini 2.5 Pro toma la delantera

Google lanzó Gemini 2.5 Pro Experimental en marzo de 2025. En días después del lanzamiento, reclamó el primer puesto en LMSYS Chatbot Arena — la plataforma de evaluación de IA cara a cara más grande del mundo — superando a GPT-4.5 por aproximadamente 40 puntos Elo. Ese margen se considera sustancial en una clasificación donde las diferencias de 10–15 puntos típicamente señalan brechas de capacidad significativas.

Gemini 2.5 Pro introdujo un modo de razonamiento "Deep Think" y una ventana de contexto de 1 millón de tokens. En Poe, la plataforma agregadora de IA, capturó aproximadamente el 30% de todo el volumen de consultas de razonamiento dentro de las seis semanas del lanzamiento.

Marzo también marcó un punto de inflexión para la interoperabilidad de la IA. El Protocolo de Contexto de Modelo (MCP) de Anthropic — un estándar abierto para conectar modelos de IA con herramientas externas — ganó adopción generalizada cuando ChatGPT de OpenAI anunció soporte para el protocolo. Google confirmó el soporte en abril. MCP es ahora efectivamente el estándar de la industria para la integración de herramientas de IA.

Abril–Mayo de 2025: Meta y OpenAI amplían el campo

Meta lanzó Llama 4 en abril de 2025, con dos variantes: Scout (para eficiencia) y Maverick (para razonamiento). Ambos eran modelos de pesos abiertos, lo que significa que los parámetros eran descargables públicamente. Llama 4 Maverick compitió con GPT-4.5 en varios benchmarks y representó el modelo de pesos abiertos más capaz lanzado hasta ese momento.

OpenAI siguió en abril con o3 y o4-mini — la próxima generación de su serie de modelos de razonamiento — junto con GPT-4.1, una actualización enfocada en el seguimiento de instrucciones y la reducción de la latencia. El ritmo de los lanzamientos se estaba acelerando hasta el punto en que la industria había dejado en gran medida de tratar los lanzamientos individuales de modelos como eventos históricos y había comenzado a tratarlos como actualizaciones rutinarias.

En mayo de 2025, Anthropic lanzó Claude 4, incluyendo Opus 4.5 y Sonnet 4.5. La variante Opus fue posicionada como un modelo de análisis de documentos e investigación empresarial. Mejoró significativamente respecto a su predecesor en tareas de contexto largo y razonamiento de múltiples pasos.

Matemáticas avanzadas — la IA alcanzó el nivel de medalla de oro en la Olimpiada Internacional de Matemáticas en julio de 2025
Matemáticas avanzadas — la IA alcanzó el nivel de medalla de oro en la Olimpiada Internacional de Matemáticas en julio de 2025

Julio de 2025: La IA gana la OIM

En julio de 2025, tanto el modelo de razonamiento de OpenAI como el Gemini Deep Think de Google DeepMind lograron un rendimiento equivalente a medalla de oro en la Olimpiada Internacional de Matemáticas — de forma independiente, en el mismo ciclo de competencia. Gemini Deep Think obtuvo un nivel equivalente a medalla de oro, completando todos los problemas en lenguaje natural dentro del límite de tiempo estándar. Google DeepMind reportó la puntuación como 35 puntos de un máximo posible de 42.

Para contexto: la OIM es la competencia de matemáticas de secundaria más prestigiosa del mundo. Los medallistas de oro humanos están entre los individuos matemáticamente más dotados que existen. El hecho de que dos sistemas de IA separados lograran este estándar en el mismo año, usando arquitecturas fundamentalmente diferentes, sugiere que este no fue un resultado fortuito.

El mismo mes, ambos sistemas también lograron los primeros puestos en el Concurso Internacional de Programación Universitaria (ICPC). Estos resultados marcaron el momento en que la IA cruzó el umbral de "competitiva con matemáticos humanos fuertes" a "competitiva con los mejores".

Agosto de 2025: GPT-5 y la Ley de IA de la UE

OpenAI lanzó GPT-5 el 7 de agosto de 2025. El modelo introdujo "modos de pensamiento" dinámicos — permitiendo a los usuarios seleccionar entre respuestas rápidas y razonamiento extendido — y OpenAI informó que tenía una tasa de alucinaciones significativamente reducida en comparación con GPT-4. Manejó texto, imágenes y datos estructurados de forma nativa.

El mismo mes tuvo relevancia regulatoria: el 2 de agosto de 2025 marcó la fecha en que las disposiciones que rigen los modelos de IA de Propósito General (GPAI) bajo la Ley de IA de la UE entraron formalmente en vigor. Esta es la primera ley integral de IA del mundo. Bajo las reglas de GPAI, los proveedores de modelos fundacionales de alta capacidad deben realizar pruebas adversariales antes del despliegue, mantener documentación técnica, cumplir con la ley de derechos de autor de la UE y publicar resúmenes de los datos de entrenamiento.

La aplicación de la UE ya está activa. En el primer trimestre de 2026, se informó que los estados miembros de la UE habían emitido docenas de multas por un total de cientos de millones de euros, principalmente por incumplimiento de GPAI. Se informó que Irlanda, que alberga las sedes europeas de la mayoría de las principales empresas tecnológicas estadounidenses, había manejado la mayoría de los casos.

Septiembre–Noviembre de 2025: El sprint de fin de año

DeepSeek publicó un artículo de investigación en septiembre de 2025 que apareció en la portada de Nature — una revista científica revisada por pares cuya colocación en portada se considera uno de los mayores indicadores de relevancia investigadora. Fue la primera vez que la publicación técnica de una empresa de IA recibió esa distinción.

Los últimos meses del año produjeron una cascada de lanzamientos de modelos insignia:

12 de noviembre: OpenAI lanzó GPT-5.1, con mejoras en latencia, uso de herramientas y seguimiento de instrucciones.

17 de noviembre: Se lanzó Grok 4.1 de xAI.

18 de noviembre: Google lanzó Gemini 3 Pro — el primer modelo de Google en reclamar la primera posición en el Índice de Inteligencia de Análisis Artificial y el primer modelo de cualquier laboratorio en superar los 1.500 Elo en LMSYS Chatbot Arena.

11 de diciembre: OpenAI lanzó GPT-5.2, que según se informó fue uno de los primeros modelos en obtener más del 90% en ARC-AGI-1 — un benchmark diseñado específicamente para probar el razonamiento novedoso en lugar del recuerdo de patrones. También logró una puntuación perfecta en AIME 2025. Junto al modelo, OpenAI lanzó Codex, un agente de programación autónomo diseñado para manejar tareas de ingeniería completas con supervisión humana mínima.

Regulación de la IA — la Ley de IA de la UE comenzó a generar multas reales a principios de 2026
Regulación de la IA — la Ley de IA de la UE comenzó a generar multas reales a principios de 2026

2026: La frontera sigue avanzando

Los primeros meses de 2026 aceleraron en lugar de desacelerar el ritmo del desarrollo.

Dario Amodei, CEO de Anthropic, le dijo al Foro Económico Mundial en Davos en enero de 2026 que los sistemas a nivel de AGI eran probablemente "cuestión de pocos años" — apuntando a 2027 como un horizonte plausible. Shane Legg, cofundador de DeepMind, dio una probabilidad del 50% de una "AGI Mínima" para 2028. Estas no son predicciones marginales; provienen de las personas que construyen los sistemas.

En abril de 2026, Anthropic lanzó Claude Mythos 5 — un modelo de 10 billones de parámetros con enfoque en ciberseguridad y codificación avanzada. Google lanzó Gemini 3.1 con capacidades de análisis de voz e imagen en tiempo real y una variante Flash-Lite que funciona a 2,5 veces la velocidad de su predecesor.

El 23 de abril de 2026, OpenAI lanzó GPT-5.5, con el nombre en clave interno "Spud" — el primer modelo base completamente reentrenado desde GPT-4.5. Obtuvo un 85% en ARC-AGI-2 (un benchmark sucesor más difícil) y se informó que encabezó el Índice de Inteligencia de Análisis Artificial. En OSWorld-Verified, un benchmark que prueba la capacidad de la IA para operar de forma autónoma entornos informáticos reales, obtuvo un rango del 70% alto según los informes publicados.

La Casa Blanca publicó un Marco de Política Nacional para la Inteligencia Artificial el 20 de marzo de 2026, ofreciendo recomendaciones legislativas para una gobernanza unificada. Aún no existe una ley federal integral de IA en Estados Unidos, mientras que California, Colorado, Nueva York, Illinois y Utah han promulgado o propuesto su propia legislación — creando un entorno regulatorio fragmentado que la industria tecnológica ha argumentado que hace que la planificación de cumplimiento sea extremadamente difícil.

El hilo conductor

A lo largo de 18 meses, algunos patrones son claros.

Primero, la narrativa de la eficiencia cambió. DeepSeek demostró que el rendimiento de vanguardia no requiere presupuestos de cómputo de vanguardia. Esto tiene implicaciones para quién puede construir IA de frontera — no solo los tres o cuatro laboratorios estadounidenses con infraestructura de miles de millones de dólares, sino también equipos más pequeños con acceso a técnicas de entrenamiento más eficientes.

Segundo, el razonamiento se convirtió en el eje dominante de la competencia. El cambio de "qué puede producir el modelo" a "qué tan bien puede pensar a través de problemas difíciles" define el período 2025–2026. El pensamiento extendido, la cadena de pensamiento y el aprendizaje por refuerzo a partir de retroalimentación humana se combinaron para producir los resultados de la OIM y ARC-AGI.

Tercero, la IA agéntica pasó de la investigación al producto. Claude Code, OpenAI Codex y Google Jules no son prototipos de investigación — son herramientas desplegadas que los equipos de ingeniería están usando hoy. La pregunta para 2026 y más allá no es si la IA puede realizar tareas complejas, sino cuánta supervisión humana requieren realmente esas tareas.

Cuarto, llegó la regulación. La Ley de IA de la UE está generando multas reales. Las leyes estatales en EE. UU. están proliferando. La Ley de Ciberseguridad enmendada de China está en vigor. La capa de gobernanza está alcanzando a la capa de capacidad, aunque exactamente cómo dará forma al desarrollo en los próximos años sigue siendo genuinamente incierto.

Lo que no es incierto: la tasa de cambio. Cualquiera que sea el estado de la IA cuando lo revisaste por última vez, casi con certeza ha cambiado desde entonces.