Lab · Scrollytelling Edition 04 · 2026

Wie KI
skaliert.

Erst limitiert Hardware. Dann werden gute menschliche Daten knapp. Danach übernehmen Synthetic Data, Reasoning und neue GPU-Generationen. Scrolle langsam, die Kurven bauen sich auf.

Compute
500×
Rack-Compute von V100 bis Rubin Ultra
Real Data
25T
Real-Data-Plateau in der GPT-5-Generation
Synthetic
60%+
Geschätzter Synthetic-Anteil bei Mythos
Intelligence Index
60
GPT-5.5 in den Ausgangsdaten
Scrolle
Live Chart
Hardware × Daten × Intelligence
Hardware wird sichtbar 2020
Intelligence Index
Compute · Tokens · Anteil
Data Wall · 2026 bis 2028
GPU · LLM Timeline bestätigt berichtet spekulativ
Hardware Compute Reale Trainingsdaten Synthetic Data Intelligence Index
012020 · V100

Erst ist Compute der Engpass.

GPT-3 entsteht auf rund 10'000 V100 GPUs. Die Logik ist damals einfach: mehr Hardware, grössere Modelle, bessere Ergebnisse.

Hardware startet unten links. Ab hier beginnt der erste Beschleunigungsbogen.

10k V100 · 175B Parameter
022021 bis 2024 · A100, H100

Die GPU-Flotte wird industriell.

GPT-4 trainiert laut SemiAnalysis-Leak auf ~25'000 A100. Llama 3.1 405B nutzt 24'576 H100. xAI spricht später von 100'000 H100.

KI-Training wird zur Infrastrukturfrage.

100k H100 · xAI Cluster
03Der zweite Engpass

Dann wird Text knapp.

GPT-3 nutzt etwa 300 Milliarden Tokens. GPT-4 springt auf 13 Billionen. Llama 3 liegt bei rund 15 Billionen.

Die Kurve steigt steil und wird dann flach. Gute menschliche Web-Daten wachsen nicht exponentiell mit.

15T Tokens · Llama 3
042026 bis 2028 · Data Wall

Die Data Wall ist kein Hype-Wort.

Epoch AI schätzt grosse Mengen verwertbarer Internet-Tokens. Hochqualitative Daten werden zum Nadelöhr. Plateau bei 20 bis 25T Tokens.

Hier wechseln die Labore die Strategie.

~25T Plateau · Epoch AI
05Synthetic Data

Modelle bauen ihr eigenes Futter.

Instruction-Daten, Code-Generierung, Reasoning-Traces, Self-Play, Model-zu-Model-Pipelines. Trainingsmaterial wird nicht mehr nur gesammelt, sondern erzeugt.

Der violette Bereich wächst dort, wo die orange Kurve abflacht.

+40pp Synth-Anteil 24 → 26
06Mythos · GPT-5.5 · Blackwell

Blackwell trifft Synthetic Data.

GB200, GB300 und die Frontier-Modelle: GPT-5.2 / 5.3 Codex auf GB200, GPT-5.5 co-designed mit GB200 / GB300 NVL72, Mythos berichtet auf Blackwell.

Nicht mehr nur „mehr GPUs". Mehr GPUs plus bessere Datenproduktion.

NVL72 co-designed
07Intelligence Index

Die Scores steigen weiter.

Die helle Kurve steigt von 5 bei GPT-3 auf 60 bei GPT-5.5. Sie steigt weiter, obwohl Real Data nicht mehr stark mitskaliert.

Die Zusatzleistung kommt aus Reasoning-Compute, Architekturen, Tooling, Kontext und synthetischen Signalen.

5 → 60 in 6 Jahren
08Rubin · Feynman

Die Roadmap bleibt brutal.

Vera Rubin NVL144 zielt auf 1.2 EF FP8 pro Rack. Rubin Ultra auf 5 EF FP8 und 15 EF FP4. Feynman steht 2028 als nächste Generation in der Timeline.

Compute wächst weiter. Die offene Frage: Womit füttert man ihn?

15 EF FP4 · Rubin Ultra
09Die These

Die neue Scaling Law hat drei Achsen.

Hardware liefert den Druck. Reale Daten setzen die Grenze. Synthetic Data baut die Brücke. Intelligence entsteht aus der Kombination.

KI skaliert nicht mehr entlang einer Linie, sondern entlang eines Systems.

Quellenlage

Was in den Daten steckt.

Bestätigt

Primärquellen

NVIDIA Datasheets und Roadmaps, Meta Llama 3 Paper, OpenAI- und NVIDIA-Aussagen zur GPT-5-Familie, Anthropic Multi-Hardware-Hinweise, AWS Project Rainier.

Berichtet

Branchenberichte

GPT-4-GPU-Zahlen aus SemiAnalysis, Claude Opus / CoreWeave-Zuordnung, Mythos-Blackwell-Training und Modell-zu-Hardware-Zuordnungen aus Branchenberichten.

Spekulativ

Plausibles Szenario

GPT-6 auf Rubin, künftige Frontier-Modelle auf Rubin Ultra / Feynman und exakte Synthetic-Data-Anteile. Plausibles Szenario, keine harte Tatsache.

Aus dem Lab in die Academy

Was im Lab entsteht, fliesst in die Academy.

Diese Scaling-These ist ab September 2026 Teil von AI Superpowers, als Lektion 12 unter „Was Compute heute kann".

Quellen & Berechnungsgrundlagen

Intelligence Index

Zwei separate Benchmarks, weil keiner ueber den ganzen Zeitraum 2020-2026 sauber misst.

MMLU (Massive Multitask Language Understanding): Hendrycks et al. 2020, arXiv:2009.03300. Werte alle offiziell publiziert. GPT-3 (2020): 43.9%. GPT-4 (2023): 86.4%. GPT-4o (2024): 88.7%. GPT-5.4 (2026): ~92%. Saettigung bei ~93%, da rund 6.5% der MMLU-Fragen bekannte Fehler enthalten. Seit 2024 reportieren Labore kaum noch MMLU-Scores, weil die Differenzierung verloren geht. Quellen: vals.ai, klu.ai/llm-leaderboard, tokenmix.ai/blog/mmlu-benchmark-leaderboard.

Artificial Analysis Intelligence Index v4.0: artificialanalysis.ai/methodology/intelligence-benchmarking. Composite aus 10 Benchmarks zu vier Kategorien a 25% Gewichtung: Agents (GDPval-AA, tau2-Bench Telecom, Terminal-Bench Hard), Coding (SciCode), General (AA-LCR, AA-Omniscience, IFBench), Scientific Reasoning (Humanity's Last Exam, GPQA Diamond, CritPt). Pass@1 Scoring, 95%-CI <+-1%. Aktuelle Spitze (April 2026): GPT-5.5 = 60, Claude Opus 4.7 = 57, Gemini 3.1 Pro = 57.

Hardware-Performance pro Rack

NVIDIA Datasheets, GTC-Keynotes 2024/2025, SemiAnalysis. Werte sind FP16-Aequivalent fuer Pre-Blackwell (DGX-Konfiguration), FP8 fuer Blackwell+ (NVL72/144/576-Racks). V100 (~10 PF) -> A100 (~30 PF) -> H100 (~80 PF) -> GB200 NVL72 (240 PF FP8) -> GB300 NVL72 (360 PF) -> Vera Rubin NVL144 (1'200 PF, H2 2026) -> Rubin Ultra NVL576 (5'000 PF, H2 2027). Steigerung 2020 -> 2027: ca. 500x pro Rack.

Trainings-Daten

Epoch AI, "Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data", peer-reviewed ICML 2024, arXiv:2211.04325. Geschaezter effektiver Stock an hochqualitativem oeffentlichem Web-Text: 300 Billionen Tokens (90%-CI: 100T - 1'000T). Erschoepfung erwartet zwischen 2026 (fruehestens) und 2032. Konkrete Trainings-Datenmengen: GPT-3 (2020) 300 Mrd. Tokens, GPT-4 (2023) 13 Bio. Tokens, Llama 3.1 405B (2024) 15.6 Bio. Tokens. Quellen: OpenAI GPT-3 Paper, SemiAnalysis GPT-4 Architecture Leak (Juli 2023), Meta Llama 3 Paper.

Synthetic Data Anteile

Schaetzungen aus Branchenberichten - Labore publizieren keine genauen Aufteilungen. Sam Altman (UN-Event 2024) hat oeffentlich bestaetigt, dass OpenAI mit grossen Mengen synthetischer Daten experimentiert. Microsoft Phi-3 wurde explizit als "synthetic-first" Modell beworben. Dario Amodei (Anthropic) beziffert das Risiko einer datenbedingten Stagnation auf 10%.

Hardware <-> Intelligence Korrelation

Hardware skaliert 500x von 2020 bis 2027 (log-linear). MMLU steigt von 44% auf 92% (~2x absolut, aber naehert sich Saettigung). AA Index steigt von 42 (Dezember 2024) auf 60 (April 2026), also ~43% in 16 Monaten. Hardware-Wachstum ist exponentiell und kontinuierlich, Intelligenz-Wachstum dagegen wird zunehmend von Architektur (Reasoning-Modelle, MoE) und Synthetic Data getrieben, nicht mehr nur von Compute.

Disclaimer

GPU-Trainingszahlen fuer GPT-4 (~25k A100, 90-100 Tage) basieren auf SemiAnalysis-Leak Juli 2023, nicht auf offizieller OpenAI-Bestaetigung. Claude-Trainingshardware: Anthropic publiziert keine Modell-spezifischen Details, nutzt nachweislich heterogen NVIDIA + AWS Trainium + Google TPU (Anthropic Postmortem September 2025). Mythos-Daten zu Synthetic-Anteil und Blackwell-Training basieren auf Sekundaerberichten, nicht auf offizieller Anthropic-Bestaetigung.