Erst ist Compute der Engpass.
GPT-3 entsteht auf rund 10'000 V100 GPUs. Die Logik ist damals einfach: mehr Hardware, grössere Modelle, bessere Ergebnisse.
Hardware startet unten links. Ab hier beginnt der erste Beschleunigungsbogen.
Erst limitiert Hardware. Dann werden gute menschliche Daten knapp. Danach übernehmen Synthetic Data, Reasoning und neue GPU-Generationen. Scrolle langsam, die Kurven bauen sich auf.
GPT-3 entsteht auf rund 10'000 V100 GPUs. Die Logik ist damals einfach: mehr Hardware, grössere Modelle, bessere Ergebnisse.
Hardware startet unten links. Ab hier beginnt der erste Beschleunigungsbogen.
GPT-4 trainiert laut SemiAnalysis-Leak auf ~25'000 A100. Llama 3.1 405B nutzt 24'576 H100. xAI spricht später von 100'000 H100.
KI-Training wird zur Infrastrukturfrage.
GPT-3 nutzt etwa 300 Milliarden Tokens. GPT-4 springt auf 13 Billionen. Llama 3 liegt bei rund 15 Billionen.
Die Kurve steigt steil und wird dann flach. Gute menschliche Web-Daten wachsen nicht exponentiell mit.
Epoch AI schätzt grosse Mengen verwertbarer Internet-Tokens. Hochqualitative Daten werden zum Nadelöhr. Plateau bei 20 bis 25T Tokens.
Hier wechseln die Labore die Strategie.
Instruction-Daten, Code-Generierung, Reasoning-Traces, Self-Play, Model-zu-Model-Pipelines. Trainingsmaterial wird nicht mehr nur gesammelt, sondern erzeugt.
Der violette Bereich wächst dort, wo die orange Kurve abflacht.
GB200, GB300 und die Frontier-Modelle: GPT-5.2 / 5.3 Codex auf GB200, GPT-5.5 co-designed mit GB200 / GB300 NVL72, Mythos berichtet auf Blackwell.
Nicht mehr nur „mehr GPUs". Mehr GPUs plus bessere Datenproduktion.
Die helle Kurve steigt von 5 bei GPT-3 auf 60 bei GPT-5.5. Sie steigt weiter, obwohl Real Data nicht mehr stark mitskaliert.
Die Zusatzleistung kommt aus Reasoning-Compute, Architekturen, Tooling, Kontext und synthetischen Signalen.
Vera Rubin NVL144 zielt auf 1.2 EF FP8 pro Rack. Rubin Ultra auf 5 EF FP8 und 15 EF FP4. Feynman steht 2028 als nächste Generation in der Timeline.
Compute wächst weiter. Die offene Frage: Womit füttert man ihn?
Hardware liefert den Druck. Reale Daten setzen die Grenze. Synthetic Data baut die Brücke. Intelligence entsteht aus der Kombination.
KI skaliert nicht mehr entlang einer Linie, sondern entlang eines Systems.
NVIDIA Datasheets und Roadmaps, Meta Llama 3 Paper, OpenAI- und NVIDIA-Aussagen zur GPT-5-Familie, Anthropic Multi-Hardware-Hinweise, AWS Project Rainier.
GPT-4-GPU-Zahlen aus SemiAnalysis, Claude Opus / CoreWeave-Zuordnung, Mythos-Blackwell-Training und Modell-zu-Hardware-Zuordnungen aus Branchenberichten.
GPT-6 auf Rubin, künftige Frontier-Modelle auf Rubin Ultra / Feynman und exakte Synthetic-Data-Anteile. Plausibles Szenario, keine harte Tatsache.
Diese Scaling-These ist ab September 2026 Teil von AI Superpowers, als Lektion 12 unter „Was Compute heute kann".
Zwei separate Benchmarks, weil keiner ueber den ganzen Zeitraum 2020-2026 sauber misst.
MMLU (Massive Multitask Language Understanding): Hendrycks et al. 2020, arXiv:2009.03300. Werte alle offiziell publiziert. GPT-3 (2020): 43.9%. GPT-4 (2023): 86.4%. GPT-4o (2024): 88.7%. GPT-5.4 (2026): ~92%. Saettigung bei ~93%, da rund 6.5% der MMLU-Fragen bekannte Fehler enthalten. Seit 2024 reportieren Labore kaum noch MMLU-Scores, weil die Differenzierung verloren geht. Quellen: vals.ai, klu.ai/llm-leaderboard, tokenmix.ai/blog/mmlu-benchmark-leaderboard.
Artificial Analysis Intelligence Index v4.0: artificialanalysis.ai/methodology/intelligence-benchmarking. Composite aus 10 Benchmarks zu vier Kategorien a 25% Gewichtung: Agents (GDPval-AA, tau2-Bench Telecom, Terminal-Bench Hard), Coding (SciCode), General (AA-LCR, AA-Omniscience, IFBench), Scientific Reasoning (Humanity's Last Exam, GPQA Diamond, CritPt). Pass@1 Scoring, 95%-CI <+-1%. Aktuelle Spitze (April 2026): GPT-5.5 = 60, Claude Opus 4.7 = 57, Gemini 3.1 Pro = 57.
NVIDIA Datasheets, GTC-Keynotes 2024/2025, SemiAnalysis. Werte sind FP16-Aequivalent fuer Pre-Blackwell (DGX-Konfiguration), FP8 fuer Blackwell+ (NVL72/144/576-Racks). V100 (~10 PF) -> A100 (~30 PF) -> H100 (~80 PF) -> GB200 NVL72 (240 PF FP8) -> GB300 NVL72 (360 PF) -> Vera Rubin NVL144 (1'200 PF, H2 2026) -> Rubin Ultra NVL576 (5'000 PF, H2 2027). Steigerung 2020 -> 2027: ca. 500x pro Rack.
Epoch AI, "Will We Run Out of Data? Limits of LLM Scaling Based on Human-Generated Data", peer-reviewed ICML 2024, arXiv:2211.04325. Geschaezter effektiver Stock an hochqualitativem oeffentlichem Web-Text: 300 Billionen Tokens (90%-CI: 100T - 1'000T). Erschoepfung erwartet zwischen 2026 (fruehestens) und 2032. Konkrete Trainings-Datenmengen: GPT-3 (2020) 300 Mrd. Tokens, GPT-4 (2023) 13 Bio. Tokens, Llama 3.1 405B (2024) 15.6 Bio. Tokens. Quellen: OpenAI GPT-3 Paper, SemiAnalysis GPT-4 Architecture Leak (Juli 2023), Meta Llama 3 Paper.
Schaetzungen aus Branchenberichten - Labore publizieren keine genauen Aufteilungen. Sam Altman (UN-Event 2024) hat oeffentlich bestaetigt, dass OpenAI mit grossen Mengen synthetischer Daten experimentiert. Microsoft Phi-3 wurde explizit als "synthetic-first" Modell beworben. Dario Amodei (Anthropic) beziffert das Risiko einer datenbedingten Stagnation auf 10%.
Hardware skaliert 500x von 2020 bis 2027 (log-linear). MMLU steigt von 44% auf 92% (~2x absolut, aber naehert sich Saettigung). AA Index steigt von 42 (Dezember 2024) auf 60 (April 2026), also ~43% in 16 Monaten. Hardware-Wachstum ist exponentiell und kontinuierlich, Intelligenz-Wachstum dagegen wird zunehmend von Architektur (Reasoning-Modelle, MoE) und Synthetic Data getrieben, nicht mehr nur von Compute.
GPU-Trainingszahlen fuer GPT-4 (~25k A100, 90-100 Tage) basieren auf SemiAnalysis-Leak Juli 2023, nicht auf offizieller OpenAI-Bestaetigung. Claude-Trainingshardware: Anthropic publiziert keine Modell-spezifischen Details, nutzt nachweislich heterogen NVIDIA + AWS Trainium + Google TPU (Anthropic Postmortem September 2025). Mythos-Daten zu Synthetic-Anteil und Blackwell-Training basieren auf Sekundaerberichten, nicht auf offizieller Anthropic-Bestaetigung.