Die 18 Monate, die die KI neu schrieben: Eine vollständige Zeitleiste von Januar 2025 bis Mai 2026

Januar 2025: Der DeepSeek-Schock

Am 20. Januar 2025 veröffentlichte ein chinesisches KI-Labor namens DeepSeek ein Open-Weight-Reasoning-Modell namens R1. Innerhalb von sieben Tagen stand es an der Spitze der Apple App Store Charts sowohl in den USA als auch in China und sammelte über 100 Millionen Nutzer an.

Die Zahlen, die die Branche erschütterten: DeepSeek behauptete, R1 sei für etwa 6 Millionen Dollar trainiert worden — eine Zahl, die nicht unabhängig verifiziert wurde. Es wurde weithin berichtet, dass das Training von OpenAIs GPT-4 irgendwo im Bereich von zehn bis Hunderten von Millionen Dollar kostete. Wenn die Effizienzlücke auch nur annähernd zutreffend ist, deutet dies darauf hin, dass die Annahme, dass KI an der Frontier massive Rechenkapazitätsinvestitionen erfordert, möglicherweise übertrieben war. Wenn die Effizienzbehauptung einer Überprüfung standhält, deutet sie darauf hin, dass die Annahme, dass Frontier-KI Zehner Milliarden an Rechenkapazitätsinvestitionen benötigt, möglicherweise falsch war.

Die Märkte reagierten sofort. Die Aktie von Nvidia fiel an einem einzigen Tag um 18 % — ein Verlust, der weithin auf etwa 593 Milliarden Dollar an Marktkapitalisierung beziffert wurde — einer der größten eintägigen Marktkapitalisierungsverluste in der Geschichte des US-Aktienmarkts.

Die technische Bedeutung: DeepSeek R1 verwendete eine Technik namens Mixture of Experts (MoE) aggressiver als westliche Labore und aktivierte pro Anfrage nur einen Bruchteil seiner Parameter. In Kombination mit Innovationen bei der Effizienz von Trainingsdaten und Reinforcement Learning erzielte es eine Leistung, die mit OpenAIs o1 zu einem Bruchteil der Kosten vergleichbar ist. Die Auswirkungen auf die Annahme "Wer die Rechenkapazität kontrolliert, kontrolliert die KI" werden noch untersucht.

Die Aktienmärkte reagierten scharf auf DeepSeeks Veröffentlichung — Nvidia verlor ~593 Mrd. $ an einem einzigen Tag

Februar 2025: Anthropics erweitertes Denken

Am 24. Februar 2025 veröffentlichte Anthropic Claude 3.7 Sonnet mit einer neuen Fähigkeit namens Extended Thinking — einem sichtbaren Chain-of-Thought-Modus, der es dem Modell ermöglicht, Probleme zu durchdenken, bevor es eine Antwort generiert. Nutzer können den Denkprozess in Echtzeit verfolgen.

Beim GPQA Diamond — einem Benchmark, der aus Fragen von Wissenschaftlern mit Doktortitel in Physik, Chemie und Biologie erstellt wurde, wo menschliche Fachexperten im Durchschnitt etwa 65 % erzielen — erreichte Claude 3.7 Sonnet 84,8 %. Das stellte es vor alle anderen öffentlich verfügbaren Modelle zum Zeitpunkt der Veröffentlichung.

Anthropic startete gleichzeitig Claude Code, ein agentisches Programmierwerkzeug, das für die asynchrone Bewältigung komplexer, mehrstufiger Codierungsaufgaben entwickelt wurde. Dies markierte Anthropics ersten ernsthaften Vorstoß in den Produktbereich "KI-Agent", der den Rest des Jahres dominieren sollte.

März 2025: Gemini 2.5 Pro übernimmt die Führung

Google veröffentlichte Gemini 2.5 Pro Experimental im März 2025. Innerhalb von Tagen nach der Veröffentlichung beanspruchte es den ersten Platz in der LMSYS Chatbot Arena — der größten öffentlichen KI-Bewertungsplattform für direkte Vergleiche — und schlug GPT-4.5 um etwa 40 Elo-Punkte. Diese Marge gilt als erheblich in einem Leaderboard, wo Unterschiede von 10–15 Punkten typischerweise auf bedeutende Fähigkeitslücken hinweisen.

Gemini 2.5 Pro führte einen "Deep Think"-Reasoning-Modus und ein 1-Millionen-Token-Kontextfenster ein. Auf Poe, der KI-Aggregator-Plattform, erfasste es innerhalb von sechs Wochen nach dem Start etwa 30 % des gesamten Reasoning-Abfragevolumens.

März markierte auch einen Wendepunkt für KI-Interoperabilität. Anthropics Model Context Protocol (MCP) — ein offener Standard zur Verbindung von KI-Modellen mit externen Werkzeugen — gewann breite Akzeptanz, als OpenAIs ChatGPT die Unterstützung des Protokolls ankündigte. Google bestätigte die Unterstützung im April. MCP ist nun effektiv der Industriestandard für die Integration von KI-Werkzeugen.

April–Mai 2025: Meta und OpenAI erweitern das Feld

Meta veröffentlichte Llama 4 im April 2025 mit zwei Varianten: Scout (für Effizienz) und Maverick (für Reasoning). Beide waren Open-Weight-Modelle, was bedeutet, dass die Parameter öffentlich herunterladbar waren. Llama 4 Maverick konkurrierte mit GPT-4.5 bei mehreren Benchmarks und stellte das bis dahin leistungsfähigste Open-Weight-Modell dar.

OpenAI folgte im April mit o3 und o4-mini — der nächsten Generation seiner Reasoning-Modellserie — zusammen mit GPT-4.1, einem Update mit Fokus auf Anweisungsausführung und reduzierter Latenz. Das Veröffentlichungstempo beschleunigte sich so weit, dass die Branche weitgehend aufgehört hatte, einzelne Modellveröffentlichungen als Meilensteine zu behandeln, und begann, sie als Routine-Updates zu betrachten.

Im Mai 2025 veröffentlichte Anthropic Claude 4, einschließlich Opus 4.5 und Sonnet 4.5. Die Opus-Variante wurde als Modell für Dokumentenanalyse und Unternehmensforschung positioniert. Es verbesserte sich gegenüber seinem Vorgänger bei Aufgaben mit langem Kontext und mehrstufigem Reasoning erheblich.

Fortgeschrittene Mathematik — KI erreichte Goldmedaillen-Niveau bei der Internationalen Mathematikolympiade im Juli 2025

Juli 2025: KI gewinnt die IMO

Im Juli 2025 erzielten sowohl OpenAIs Reasoning-Modell als auch Google DeepMinds Gemini Deep Think eine goldmedaillenäquivalente Leistung bei der Internationalen Mathematikolympiade — unabhängig voneinander, im selben Wettbewerbszyklus. Gemini Deep Think erreichte ein goldmedaillenäquivalentes Niveau und löste alle Probleme in natürlicher Sprache innerhalb der Standardzeitbegrenzung. Google DeepMind meldete das Ergebnis mit 35 Punkten von maximal 42.

Zum Kontext: Die IMO ist der prestigeträchtigste Mathematikwettbewerb für Schüler weltweit. Menschliche Goldmedaillengewinner gehören zu den mathematisch begabtesten Personen der Welt. Die Tatsache, dass zwei separate KI-Systeme diesen Standard im gleichen Jahr mit grundlegend unterschiedlichen Architekturen erreichten, deutet darauf hin, dass dies kein Zufallsergebnis war.

Im selben Monat erzielten beide Systeme auch Spitzenplatzierungen beim International Collegiate Programming Contest (ICPC). Diese Ergebnisse markierten den Moment, in dem KI die Schwelle von "wettbewerbsfähig mit starken menschlichen Mathematikern" zu "wettbewerbsfähig mit den Allerbesten" überschritt.

August 2025: GPT-5 und der EU AI Act

OpenAI veröffentlichte GPT-5 am 7. August 2025. Das Modell führte dynamische "Denkmodi" ein — die es Nutzern ermöglichen, zwischen schnellen Antworten und erweitertem Reasoning zu wählen — und OpenAI berichtete, dass es eine erheblich reduzierte Halluzinationsrate im Vergleich zu GPT-4 hatte. Es verarbeitete Text, Bilder und strukturierte Daten nativ.

Derselbe Monat hatte regulatorische Bedeutung: Der 2. August 2025 markierte das Datum, an dem Bestimmungen zur Regulierung von General Purpose AI (GPAI)-Modellen unter dem EU AI Act formell in Kraft traten. Dies ist das erste umfassende KI-Gesetz der Welt. Unter den GPAI-Regeln müssen Anbieter von hochleistungsfähigen Basismodellen adversariale Tests vor der Bereitstellung durchführen, technische Dokumentation pflegen, das EU-Urheberrecht einhalten und Zusammenfassungen der Trainingsdaten veröffentlichen.

Die Durchsetzung der EU ist bereits aktiv. Im ersten Quartal 2026 wurde berichtet, dass EU-Mitgliedstaaten Dutzende von Bußgeldern in Höhe von Hunderten von Millionen Euro verhängt haben, hauptsächlich wegen GPAI-Nichteinhaltung. Irland, das die europäischen Hauptquartiere der meisten großen US-Technologieunternehmen beherbergt, soll die Mehrheit der Fälle bearbeitet haben.

September–November 2025: Der Jahresend-Sprint

DeepSeek veröffentlichte im September 2025 ein Forschungspapier, das auf dem Cover von Nature erschien — einer begutachteten Wissenschaftszeitschrift, deren Cover-Platzierung als eines der höchsten Zeichen wissenschaftlicher Bedeutung gilt. Es war das erste Mal, dass die technische Publikation eines KI-Unternehmens diese Auszeichnung erhielt.

Die letzten Monate des Jahres brachten eine Kaskade von Flagship-Modellveröffentlichungen:

12. November: OpenAI veröffentlichte GPT-5.1 mit Verbesserungen bei Latenz, Werkzeugnutzung und Anweisungsausführung.

17. November: Grok 4.1 von xAI wurde veröffentlicht.

18. November: Google veröffentlichte Gemini 3 Pro — das erste Google-Modell, das den Spitzenplatz im Artificial Analysis Intelligence Index beanspruchte, und das erste Modell eines Labors, das 1.500 Elo in der LMSYS Chatbot Arena überschritt.

11. Dezember: OpenAI veröffentlichte GPT-5.2, das Berichten zufolge zu den ersten Modellen gehörte, die auf ARC-AGI-1 über 90 % erzielten — einem Benchmark, der speziell für das Testen von neuartigem Reasoning statt Mustererinnerung entwickelt wurde. Es erzielte auch eine perfekte Punktzahl bei AIME 2025. Zusammen mit dem Modell startete OpenAI Codex, einen autonomen Programmieragenten, der für die Bearbeitung gesamter Ingenieuraufgaben mit minimaler menschlicher Aufsicht entwickelt wurde.

KI-Regulierung — der EU AI Act begann Anfang 2026, echte Bußgelder zu verhängen

2026: Die Frontier bewegt sich weiter

Die ersten Monate des Jahres 2026 beschleunigten das Entwicklungstempo, anstatt es zu verlangsamen.

Dario Amodei, CEO von Anthropic, sagte beim Weltwirtschaftsforum in Davos im Januar 2026, dass AGI-Level-Systeme wahrscheinlich "innerhalb weniger Jahre" zu erwarten seien — und deutete auf 2027 als plausiblen Horizont hin. Shane Legg, Mitgründer von DeepMind, gab eine 50-prozentige Wahrscheinlichkeit für "Minimale AGI" bis 2028. Das sind keine Randvorhersagen; sie kommen von den Menschen, die die Systeme bauen.

Im April 2026 veröffentlichte Anthropic Claude Mythos 5 — ein 10-Billionen-Parameter-Modell mit Fokus auf Cybersicherheit und fortgeschrittenes Coding. Google veröffentlichte Gemini 3.1 mit Echtzeit-Sprach- und Bildanalyse-Fähigkeiten und einer Flash-Lite-Variante, die mit 2,5-facher Geschwindigkeit seines Vorgängers läuft.

Am 23. April 2026 veröffentlichte OpenAI GPT-5.5, intern mit dem Codenamen "Spud" — das erste vollständig neu trainierte Basismodell seit GPT-4.5. Es erzielte 85 % auf ARC-AGI-2 (einem schwierigeren Nachfolge-Benchmark) und soll den Artificial Analysis Intelligence Index angeführt haben. Bei OSWorld-Verified, einem Benchmark, der die Fähigkeit der KI testet, echte Computerumgebungen autonom zu bedienen, erzielte es laut veröffentlichten Berichten einen Wert im hohen 70-%-Bereich.

Das Weiße Haus veröffentlichte am 20. März 2026 einen Nationalen Politikrahmen für Künstliche Intelligenz mit Gesetzgebungsempfehlungen für eine einheitliche Governance. In den Vereinigten Staaten existiert noch kein umfassendes Bundes-KI-Gesetz, während Kalifornien, Colorado, New York, Illinois und Utah jeweils eigene Gesetze erlassen oder vorgeschlagen haben — was ein fragmentiertes regulatorisches Umfeld schafft, das die Technologiebranche als eine extreme Erschwerung der Compliance-Planung bezeichnet hat.

Der rote Faden

Über 18 Monate hinweg sind einige Muster erkennbar.

Erstens hat sich die Effizienzgeschichte verändert. DeepSeek demonstrierte, dass Spitzenleistungen keine Spitzenrechenbudgets erfordern. Das hat Auswirkungen darauf, wer Frontier-KI bauen kann — nicht nur die drei oder vier US-Labore mit milliardenschwerer Infrastruktur, sondern auch kleinere Teams mit Zugang zu effizienteren Trainingstechniken.

Zweitens wurde Reasoning zur dominanten Wettbewerbsachse. Der Wandel von "was kann das Modell ausgeben" zu "wie gut kann es schwierige Probleme durchdenken" prägt den Zeitraum 2025–2026. Erweitertes Denken, Chain-of-Thought und Reinforcement Learning aus menschlichem Feedback kombinierten sich, um die IMO- und ARC-AGI-Ergebnisse zu erzeugen.

Drittens wechselte agentische KI von der Forschung zum Produkt. Claude Code, OpenAI Codex und Google Jules sind keine Forschungsprototypen — es sind eingesetzte Werkzeuge, die Engineering-Teams heute nutzen. Die Frage für 2026 und darüber hinaus ist nicht, ob KI komplexe Aufgaben erledigen kann, sondern wie viel menschliche Aufsicht diese Aufgaben tatsächlich erfordern.

Viertens kam die Regulierung. Der EU AI Act generiert echte Bußgelder. Staatsgesetze in den USA proliferieren. Chinas geändertes Cybersicherheitsgesetz ist in Kraft. Die Governance-Schicht holt die Fähigkeitsschicht ein, obwohl genau wie sie die Entwicklung in den nächsten Jahren prägen wird, noch echte Unsicherheit besteht.

Was nicht unsicher ist: die Veränderungsrate. Wie auch immer der Stand der KI aussah, als Sie zuletzt nachgesehen haben — er hat sich seitdem mit ziemlicher Sicherheit verändert.