Les 18 Mois qui ont Réécrit l'IA : Une Chronologie Complète de Janvier 2025 à Mai 2026
Actualités IA05-15

Les 18 Mois qui ont Réécrit l'IA : Une Chronologie Complète de Janvier 2025 à Mai 2026

Janvier 2025 : Le choc DeepSeek

Le 20 janvier 2025, un laboratoire d'IA chinois appelé DeepSeek a publié un modèle de raisonnement à poids ouverts appelé R1. En sept jours, il avait atteint le sommet des classements de l'Apple App Store aux États-Unis et en Chine, et avait accumulé plus de 100 millions d'utilisateurs.

Les chiffres qui ont stupéfié l'industrie : DeepSeek a affirmé que R1 avait été entraîné pour environ 6 millions de dollars — un chiffre qui n'a pas été vérifié indépendamment. Le coût d'entraînement de GPT-4 d'OpenAI a été largement rapporté comme se situant entre des dizaines et des centaines de millions de dollars. Si l'écart d'efficacité est même proche de la réalité, cela suggère que l'hypothèse selon laquelle l'IA de pointe nécessite des investissements massifs en calcul pourrait avoir été surestimée. Si l'affirmation d'efficacité résiste à l'examen, elle suggère que l'hypothèse selon laquelle l'IA de pointe nécessite des dizaines de milliards en investissements de calcul pourrait avoir été erronée.

Les marchés ont réagi immédiatement. L'action Nvidia a chuté de 18 % en une seule journée — une perte largement rapportée à environ 593 milliards de dollars de capitalisation boursière — l'une des plus grandes baisses de capitalisation boursière en une seule journée de l'histoire du marché boursier américain.

La signification technique : DeepSeek R1 a utilisé une technique appelée Mixture of Experts (MoE) de manière plus agressive que les laboratoires occidentaux, n'activant qu'une fraction de ses paramètres par requête. Combiné avec des innovations dans l'efficacité des données d'entraînement et l'apprentissage par renforcement, il a atteint des performances comparables à o1 d'OpenAI à une fraction du coût. Les implications pour l'hypothèse « celui qui contrôle le calcul contrôle l'IA » sont encore en cours d'évaluation.

Les marchés boursiers ont réagi vivement à la publication de DeepSeek — Nvidia a perdu ~593 Mds$ en une seule journée
Les marchés boursiers ont réagi vivement à la publication de DeepSeek — Nvidia a perdu ~593 Mds$ en une seule journée

Février 2025 : La pensée étendue d'Anthropic

Le 24 février 2025, Anthropic a publié Claude 3.7 Sonnet avec une nouvelle capacité appelée Extended Thinking — un mode de chaîne de pensée visible qui permet au modèle de raisonner sur les problèmes avant de générer une réponse. Les utilisateurs peuvent regarder le processus de réflexion se dérouler en temps réel.

Sur GPQA Diamond — un benchmark construit à partir de questions conçues par des scientifiques titulaires d'un doctorat en physique, chimie et biologie, où les experts humains du domaine obtiennent en moyenne environ 65 % — Claude 3.7 Sonnet a obtenu 84,8 %. Cela l'a placé devant tous les autres modèles disponibles publiquement au moment de la publication.

Anthropic a simultanément lancé Claude Code, un outil de programmation agentique conçu pour gérer des tâches de codage complexes et multi-étapes de manière asynchrone. Cela a marqué la première incursion sérieuse d'Anthropic dans l'espace produit "agent IA" qui allait dominer le reste de l'année.

Mars 2025 : Gemini 2.5 Pro prend la tête

Google a publié Gemini 2.5 Pro Experimental en mars 2025. En quelques jours après sa publication, il a revendiqué la première place sur LMSYS Chatbot Arena — la plus grande plateforme publique d'évaluation IA en face-à-face — battant GPT-4.5 d'environ 40 points Elo. Cette marge est considérée comme substantielle dans un classement où des différences de 10 à 15 points signalent généralement des écarts de capacité significatifs.

Gemini 2.5 Pro a introduit un mode de raisonnement "Deep Think" et une fenêtre de contexte de 1 million de tokens. Sur Poe, la plateforme agrégateur d'IA, il a capturé environ 30 % de tout le volume de requêtes de raisonnement dans les six semaines suivant son lancement.

Mars a également marqué un tournant pour l'interopérabilité de l'IA. Le Model Context Protocol (MCP) d'Anthropic — un standard ouvert pour connecter les modèles d'IA aux outils externes — a gagné une adoption grand public lorsque ChatGPT d'OpenAI a annoncé la prise en charge du protocole. Google a confirmé sa prise en charge en avril. MCP est désormais effectivement le standard industriel pour l'intégration des outils d'IA.

Avril–Mai 2025 : Meta et OpenAI élargissent le champ

Meta a publié Llama 4 en avril 2025, avec deux variantes : Scout (pour l'efficacité) et Maverick (pour le raisonnement). Les deux étaient des modèles à poids ouverts, ce qui signifie que les paramètres étaient téléchargeables publiquement. Llama 4 Maverick a rivalisé avec GPT-4.5 sur plusieurs benchmarks et a représenté le modèle à poids ouverts le plus capable publié jusqu'alors.

OpenAI a suivi en avril avec o3 et o4-mini — la prochaine génération de sa série de modèles de raisonnement — ainsi que GPT-4.1, une mise à jour axée sur le suivi des instructions et la réduction de la latence. Le rythme des publications s'accélérait au point où l'industrie avait largement cessé de traiter les lancements individuels de modèles comme des événements marquants et avait commencé à les traiter comme des mises à jour de routine.

En mai 2025, Anthropic a publié Claude 4, incluant Opus 4.5 et Sonnet 4.5. La variante Opus a été positionnée comme un modèle d'analyse de documents et de recherche d'entreprise. Elle s'est considérablement améliorée par rapport à son prédécesseur sur les tâches à long contexte et le raisonnement multi-étapes.

Mathématiques avancées — l'IA a atteint le niveau de médaille d'or à l'Olympiade Internationale de Mathématiques en juillet 2025
Mathématiques avancées — l'IA a atteint le niveau de médaille d'or à l'Olympiade Internationale de Mathématiques en juillet 2025

Juillet 2025 : L'IA remporte l'OIM

En juillet 2025, le modèle de raisonnement d'OpenAI et Gemini Deep Think de Google DeepMind ont tous deux atteint des performances équivalentes à une médaille d'or à l'Olympiade Internationale de Mathématiques — indépendamment, dans le même cycle de compétition. Gemini Deep Think a atteint un niveau équivalent à une médaille d'or, complétant tous les problèmes en langage naturel dans le délai standard. Google DeepMind a rapporté le score comme étant de 35 points sur un maximum possible de 42.

Pour le contexte : l'OIM est la compétition de mathématiques du secondaire la plus prestigieuse au monde. Les médaillés d'or humains comptent parmi les personnes les plus douées mathématiquement vivantes. Le fait que deux systèmes d'IA séparés aient atteint ce standard la même année, en utilisant des architectures fondamentalement différentes, suggère que ce n'était pas un résultat chanceux.

Le même mois, les deux systèmes ont également atteint les premières places au Concours International de Programmation Universitaire (ICPC). Ces résultats ont marqué le moment où l'IA a franchi le seuil de "compétitive avec de forts mathématiciens humains" à "compétitive avec les tout meilleurs".

Août 2025 : GPT-5 et la loi européenne sur l'IA

OpenAI a publié GPT-5 le 7 août 2025. Le modèle a introduit des "modes de pensée" dynamiques — permettant aux utilisateurs de choisir entre des réponses rapides et un raisonnement étendu — et OpenAI a rapporté qu'il avait un taux d'hallucination significativement réduit par rapport à GPT-4. Il gérait le texte, les images et les données structurées de manière native.

Le même mois avait une signification réglementaire : le 2 août 2025 a marqué la date à laquelle les dispositions régissant les modèles d'IA à usage général (GPAI) dans le cadre de la loi européenne sur l'IA sont officiellement entrées en vigueur. C'est la première loi globale sur l'IA au monde. Selon les règles GPAI, les fournisseurs de modèles fondamentaux à haute capacité doivent effectuer des tests adversariaux avant le déploiement, maintenir une documentation technique, se conformer au droit d'auteur européen et publier des résumés des données d'entraînement.

L'application de l'UE est déjà active. Au premier trimestre 2026, il a été rapporté que les États membres de l'UE avaient émis des dizaines d'amendes totalisant des centaines de millions d'euros, principalement pour non-conformité GPAI. L'Irlande, qui héberge les sièges européens de la plupart des grandes entreprises technologiques américaines, aurait traité la majorité des cas.

Septembre–Novembre 2025 : Le sprint de fin d'année

DeepSeek a publié un article de recherche en septembre 2025 qui est apparu en couverture de Nature — une revue scientifique évaluée par les pairs dont le placement en couverture est considéré comme l'un des plus hauts indicateurs de l'importance de la recherche. C'était la première fois que la publication technique d'une entreprise d'IA recevait cette distinction.

Les derniers mois de l'année ont produit une cascade de publications de modèles phares :

12 novembre : OpenAI a publié GPT-5.1, avec des améliorations en matière de latence, d'utilisation des outils et de suivi des instructions.

17 novembre : Grok 4.1 de xAI a été publié.

18 novembre : Google a publié Gemini 3 Pro — le premier modèle Google à revendiquer la première position sur l'Artificial Analysis Intelligence Index et le premier modèle de tout laboratoire à dépasser 1 500 Elo sur LMSYS Chatbot Arena.

11 décembre : OpenAI a publié GPT-5.2, qui a été rapporté comme l'un des premiers modèles à dépasser 90 % sur ARC-AGI-1 — un benchmark spécifiquement conçu pour tester le raisonnement novel plutôt que le rappel de motifs. Il a également obtenu un score parfait sur AIME 2025. Parallèlement au modèle, OpenAI a lancé Codex, un agent de programmation autonome conçu pour gérer des tâches d'ingénierie entières avec une supervision humaine minimale.

Réglementation de l'IA — la loi européenne sur l'IA a commencé à générer de vraies amendes début 2026
Réglementation de l'IA — la loi européenne sur l'IA a commencé à générer de vraies amendes début 2026

2026 : La frontière continue d'avancer

Les premiers mois de 2026 ont accéléré plutôt que ralenti le rythme du développement.

Dario Amodei, PDG d'Anthropic, a déclaré au Forum Économique Mondial de Davos en janvier 2026 que les systèmes de niveau AGI étaient probablement "à quelques années" — pointant vers 2027 comme horizon plausible. Shane Legg, co-fondateur de DeepMind, a donné une probabilité de 50 % pour une "AGI Minimale" d'ici 2028. Ce ne sont pas des prédictions marginales ; elles viennent des personnes qui construisent les systèmes.

En avril 2026, Anthropic a publié Claude Mythos 5 — un modèle à 10 billions de paramètres axé sur la cybersécurité et le codage avancé. Google a publié Gemini 3.1 avec des capacités d'analyse vocale et d'image en temps réel et une variante Flash-Lite fonctionnant à 2,5 fois la vitesse de son prédécesseur.

Le 23 avril 2026, OpenAI a publié GPT-5.5, dont le nom de code interne était "Spud" — le premier modèle de base entièrement ré-entraîné depuis GPT-4.5. Il a obtenu 85 % sur ARC-AGI-2 (un benchmark successeur plus difficile) et aurait été en tête de l'Artificial Analysis Intelligence Index. Sur OSWorld-Verified, un benchmark testant la capacité de l'IA à opérer de manière autonome dans de vrais environnements informatiques, il a obtenu un score dans la fourchette des 70 % élevés selon les rapports publiés.

La Maison Blanche a publié un Cadre de Politique Nationale pour l'Intelligence Artificielle le 20 mars 2026, offrant des recommandations législatives pour une gouvernance unifiée. Il n'existe pas encore de loi fédérale globale sur l'IA aux États-Unis, tandis que la Californie, le Colorado, New York, l'Illinois et l'Utah ont chacun promulgué ou proposé leur propre législation — créant un environnement réglementaire fragmenté que l'industrie technologique a soutenu rend la planification de la conformité extrêmement difficile.

Le fil conducteur

Sur 18 mois, quelques tendances sont claires.

Premièrement, l'histoire de l'efficacité a changé. DeepSeek a démontré que les performances de pointe ne nécessitent pas des budgets de calcul de pointe. Cela a des implications pour qui peut construire une IA de pointe — pas seulement les trois ou quatre laboratoires américains avec une infrastructure à milliards de dollars, mais aussi des équipes plus petites ayant accès à des techniques d'entraînement plus efficaces.

Deuxièmement, le raisonnement est devenu l'axe dominant de la compétition. Le passage de "ce que le modèle peut produire" à "à quel point il peut réfléchir à des problèmes difficiles" définit la période 2025–2026. La pensée étendue, la chaîne de pensée et l'apprentissage par renforcement à partir de retours humains combinés pour produire les résultats de l'OIM et d'ARC-AGI.

Troisièmement, l'IA agentique est passée de la recherche au produit. Claude Code, OpenAI Codex et Google Jules ne sont pas des prototypes de recherche — ce sont des outils déployés que les équipes d'ingénierie utilisent aujourd'hui. La question pour 2026 et au-delà n'est pas de savoir si l'IA peut accomplir des tâches complexes, mais combien de supervision humaine ces tâches nécessitent réellement.

Quatrièmement, la réglementation est arrivée. La loi européenne sur l'IA génère de vraies amendes. Les lois étatiques aux États-Unis se multiplient. La loi chinoise amendée sur la cybersécurité est en vigueur. La couche de gouvernance rattrape la couche de capacité, bien que la manière exacte dont elle façonnera le développement au cours des prochaines années reste genuinement incertaine.

Ce qui n'est pas incertain : le taux de changement. Quel que soit l'état de l'IA lors de votre dernière vérification, il a presque certainement changé depuis.