Das LLM-Quartal, das alles verschob — Januar bis April 2026

Apr 17, 2026By Holger von Ellerts
Holger von Ellerts

Der Kontext: ein Quartal wie ein Jahr



Wer im Januar 2026 eine Roadmap für sein KI-Produkt plante, musste sie im April neu schreiben. In nur 106 Tagen haben die drei führenden Labore — Anthropic, OpenAI, Google DeepMind — jeweils zwei Frontier-Releases ausgeliefert, während die Open-Source-Ecke mit DeepSeek, Qwen und Llama in praktisch allen Benchmarks zum Closed Frontier aufgeschlossen hat. Der qualitative Sprung ist weniger spektakulär als 2023; die ökonomische Konsequenz ist grösser: Reasoning ist günstig geworden, Kontext ist riesig geworden, und Agenten funktionieren zum ersten Mal zuverlässig.

Dieser Artikel ordnet die wichtigsten Releases, erklärt, warum Opus 4.7 aus meiner Sicht der interessanteste Punkt im Quartal ist, und zeigt, was das für Agentic Commerce konkret bedeutet.


Januar 2026 — Open Source bleibt der Druckfaktor


Das Quartal begann leise. DeepSeek arbeitete öffentlich sichtbar an V3.2, Qwen hielt mit 3.5 stabil mit, und Meta bereitete Llama 4 vor. Die zentrale Linie: Die Lücke zwischen offenen Gewichten und geschlossenen Frontier-Modellen ist in den praxisrelevanten Benchmarks (HumanEval, SWE-bench Verified, GPQA Diamond) nicht mehr 12–18 Monate, sondern 2–4 Monate. Qwen 3.5 erreicht mit 88.4 auf GPQA Diamond einen Wert, der den besten proprietären Modellen ebenbürtig ist; DeepSeek V3.2 liefert 89.3 auf AIME 2025.

Für die Industrie heisst das: Wer Reasoning braucht, muss nicht mehr zwingend Frontier-API kaufen. Der Lock-in verschiebt sich von Modellqualität zu Tooling, Context-Management und Agent-Infrastruktur.


Februar 2026 — der Claude-Sprung und Gemini 3.1 Pro


Anthropic veröffentlichte in diesem Monat Claude Opus 4.6 und Sonnet 4.6 als Hauptarbeitspferde für Coding und lang laufende Agenten. Opus 4.6 wurde zur Default-Wahl für Claude Code und setzte einen neuen Standard bei OSWorld (72.7 %+ auf dem Computer-Use-Benchmark). Das war der erste Release, bei dem Computer Use kein Demo-Feature mehr war, sondern produktiv benutzbar — mit Session-Längen jenseits einer Stunde und Error-Recovery, die nicht in Sackgassen führt.


Am 19. Februar zog Google DeepMind mit Gemini 3.1 Pro nach. Die Variante übertrifft Gemini 3 Pro in nahezu allen Reasoning- und Multimodal-Benchmarks, behält aber die Kern-Differenzierung des Gemini-Stacks: native Multimodalität (Text, Bild, Video, Audio, Code) in einem einzigen Modell, statt separate Pipelines. Dazu kam Gemini 3 Deep Think als spezialisierter Reasoning-Modus für Forschung und Engineering sowie Gemini 3 Flash mit Pro-Reasoning bei Flash-Kosten.

___

Insight 
Die Flash-Linie ist ökonomisch die unterschätzte Nachricht: Reasoning-Leistung, die vor einem Jahr 15 $/1M kostete, liegt jetzt bei unter 1 $/1M. Das verschiebt die Break-even-Schwelle für Agent-Architekturen dramatisch — viele Tasks, die heute noch manuell laufen, werden ökonomisch automatisierbar.
___


März 2026 — GPT-5.4 und die Token-Effizienz-Wende


Am 5. März veröffentlichte OpenAI GPT-5.4. Kernbotschaft war nicht ein neuer Benchmark-Rekord, sondern Token-Effizienz: GPT-5.4 löst Probleme mit deutlich weniger Tokens als GPT-5.2 und bietet als erstes Allzweck-Modell native, State-of-the-Art Computer-Use-Fähigkeit. Dazu 1M Token Context in Codex und API.

Parallel führte OpenAI in 5.2 und 5.4 die fünfte Reasoning-Effort-Stufe xhigh ein — zwischen "high" und "max" — für Aufgaben, bei denen Qualität vor Kosten geht. Das ist ein Muster, das Anthropic einen Monat später übernehmen sollte.

Die praktische Verschiebung im März: Agent-Workflows, die vorher aus Kostengründen nur mit Sonnet-Klasse-Modellen liefen, wurden mit den neuen Preisen auf Opus-Klasse hochgezogen. Qualität schlug Preis, weil der Preis nicht mehr das Argument war.


April 2026 — die Flut



Der April gilt schon jetzt als einer der dichtesten LLM-Monate überhaupt:

  • 2. April — Google Gemma 4: vier Varianten unter Apache 2.0, darunter ein 31B Dense und eine MoE-Variante. Google signalisiert damit, dass es das Open-Weight-Feld nicht vollständig DeepSeek und Meta überlassen will.
  • 14. April — OpenAI GPT-6 (intern "Spud"): +40 % gegenüber GPT-5.4 auf Coding, Reasoning und Agent-Tasks. HumanEval > 95 %, MATH ≈ 85 %, Agent-Task-Completion von 62 % auf ~87 %. 2M Token Context — doppelt so gross wie der bisherige Standard!
  • 16. April — Anthropic Claude Opus 4.7: Der eigentliche Fokus dieses Artikels. Anthropic kündigte parallel den intern entwickelten Claude Mythos Preview an — mit dramatischen Zahlen (93.9 % auf SWE-bench Verified, 94.6 % auf GPQA Diamond, Entdeckung tausender Zero-Day-Vulnerabilities in Betriebssystemen und Browsern). Mythos ist bewusst nicht öffentlich verfügbar und wird nach Anthropic-Messaging aus Safety-Gründen zurückgehalten. Opus 4.7 ist dagegen die produktive, "weniger riskante" Version derselben Forschungslinie.


Claude Opus 4.7 im Detail


Opus 4.7 ist ein Hybrid-Reasoning-Modell mit 1M Token Context zu Standard-API-Preisen (5 $/1M Input, 25 $/1M Output — kein Long-Context-Aufschlag mehr). Das ist der kommerziell wichtigste Punkt: 1M Kontext ohne Preisaufschlag heisst, dass ganze Codebases, Vertragspakete oder Produktkataloge als Prompt-Input machbar werden, ohne Retrieval-Pipelines.

Die messbaren Verbesserungen gegenüber 4.6:


DimensionVerbesserung
Coding-Benchmarks+13%
Produktions-Tasks gelöst
3× mehr
Visionbis 3.75 Megapixel (vorher ~2 MP)
Tokenizerneu, effizienter
Reasoning-Effortneue Stufe xhigh zwischen high und max


Die neue xhigh-Stufe ist in der Praxis das Interessanteste: Sie erlaubt kontrolliertes Vertiefen der Reasoning-Chain, ohne die offene Token-Obergrenze von "max". Für Agent-Loops — wo man verhindern will, dass ein einzelner Denkprozess das gesamte Budget verbraucht — ist xhigh oft die wirtschaftliche Sweet-Spot-Wahl.

Max Reasoning bleibt verfügbar: keine Einschränkung des Denk-Token-Budgets pro Antwort, tiefe mehrstufige Reflexion, bevor überhaupt Output erzeugt wird. Sinnvoll für Strategiepapiere, Code-Reviews mit hoher Tragweite, formale Verifikation — nicht sinnvoll für Routine-Tasks.


___

Insight 
Warum das für Agent-Infrastruktur entscheidend ist: Mit fünf diskreten Effort-Stufen (low, medium, high, xhigh, max) lässt sich ein Agent-Graph jetzt pro Knoten kalibrieren. Klassifikation? low. Routing? medium. Strategieentscheidung? xhigh. Das war bis 2025 eine Preisfrage; 2026 ist es ein Design-Freiheitsgrad.
___


Was heisst das für Agentic Commerce?


Für ein Produkt wie das von uns entwickelte Nexbid — das Agent-Native Discovery und Commerce-Infrastruktur baut — verschieben die Q1-Releases drei Parameter:

Context als Standard, nicht als Premium. 1M Token ohne Aufpreis bei Opus 4.7 und GPT-5.4 heisst: ganze Advertiser/Publisher-Kataloge können pro Request in den Context. Retrieval wird nicht obsolet, aber die Notwendigkeit, aggressiv zu chunken, sinkt. Für den Unified Data Layer eines Agent-Centric Hub ist das die wichtigste Entwicklung des Quartals.


Computer Use ist produktionsreif. Mit 72%+ auf OSWorld können Agenten Checkout-Flows, Formulare und Multi-Site-Navigation ohne Protokoll-Integration bedienen. Das drückt Closed Protocols wie OpenAI ACP oder Google UCP — weil ein offener Agent mit Computer-Use-Fähigkeit an jeder Shopify-Installation vorbei ans Checkout kommt.


Reasoning-Effort als Kostendimension. Enriched-Snippet-Pricing lässt sich jetzt an Reasoning-Effort koppeln: Ein Produktvergleich mit xhigh hat anderen Wert als eine Basisabfrage mit low. Das Billing-Modell kann entsprechend granularer werden.


Ausblick — was für den Rest des Jahres zählt


Drei Linien sind zu beobachten:

Mythos-Freigabe-Entscheid bei Anthropic: Wenn das 93.9%-SWE-Verified-Modell öffentlich wird, rutscht das Coding-Frontier ein weiteres Stück.


GPT-6-Computer-Use-Performance in freier Wildbahn: Die angekündigten 87% Agent-Completion sind Benchmark-Wert. Die Produktivzahlen sehen wir erst in Q2.


Open-Weight-Kontext-Skalierung: Llama 4 mit 10M Token Context ist bereits angekündigt. Wenn das in Q2 stabil landet, fällt das letzte Proprietary-Argument — Context-Länge — weg.


Für Produktentscheidungen heisst das: Nicht auf das Quartal optimieren. Die Modelle, die im April 2026 Frontier sind, werden im Juli 2026 Commodity sein.

Die Infrastruktur, die darauf aufbaut — Protokolle, Hubs, Billing — ist das, was bleibt.