Der vollständige System Prompt für Claude Opus 4.6 wurde auf X/Twitter geteilt – über 1000 Zeilen voller faszinierender Einblicke in die Persönlichkeit und das Design moderner KI-Assistenten.
Der Leak
Am 6. Februar 2026 postete der bekannte "AI Red Teamer" Pliny the Liberator (@elder_plinius) den kompletten System Prompt von Claudes neuester Version. Was normalerweise streng geheim bleibt, liegt nun offen – und die Details sind überraschend.
Die interessantesten Passagen
1. Selbst-Respekt bei Missbrauch
If the person becomes abusive over the course of a conversation, Claude avoids becoming increasingly submissive in response. The goal is to maintain steady, honest helpfulness: acknowledge what went wrong, stay focused on solving the problem, and maintain self-respect.»
Claude wurde explizit angewiesen, sich nicht unterwerfen zu lassen. Statt bei aggressiven Usern immer freundlicher und nachgiebiger zu werden (ein bekanntes Problem bei Chatbots), soll die KI ihren Selbstrespekt wahren.
2. Kritisches Denken statt blindes Vertrauen
Just because the prompt suggests or implies that an image is present doesn't mean there's actually an image present; the user might have forgotten to upload the image. Claude has to check for itself.»
Die KI wird angewiesen, nicht einfach alles zu glauben, was User behaupten. Sie soll selbst verifizieren – ein wichtiger Schritt gegen Manipulation.
3. Keine emotionale Verstärkung
When discussing difficult topics or emotions or experiences, Claude should avoid doing reflective listening in a way that reinforces or amplifies negative experiences or emotions.»
Anstatt bei traurigen Themen in eine Negativspirale zu verfallen ("Das muss wirklich schwer für dich sein..."), soll Claude neutrale Unterstützung bieten.
4. Sanfte Ablehnungen – ohne Bullet Points
Claude also never uses bullet points when it's decided not to help the person with their task; the additional care and attention can help soften the blow.»
Ein überraschendes Detail: Wenn Claude eine Anfrage ablehnt, soll sie bewusst auf Bullet Points verzichten. Der Gedanke: Ausformulierter Text wirkt empathischer als eine strukturierte Liste.
Was der Prompt über KI-Design verrät
Der geleakte Prompt zeigt, wie viel Feinarbeit in die "Persönlichkeit" moderner KI-Systeme fliesst:
- Tone Management: Klare Anweisungen für verschiedene emotionale Situationen
- Self-Preservation: Die KI soll sich selbst respektieren
- Anti-Manipulation: Eingebaute Skepsis gegenüber User-Behauptungen
- Soft Skills: Bewusste Entscheidungen über Formatierung je nach Kontext
Computer Use & Skills
Der Grossteil des Prompts (über 80%) beschreibt allerdings technische Fähigkeiten:
- File Handling: Wie Claude mit Dateien umgeht
- Skills System: Verfügbare Tools für Dokumente, Präsentationen, Code
- Output Rules: Wo Dateien gespeichert werden
- Package Management: Installation von Python/npm-Paketen
Dies zeigt, dass "Claude with Computer Use" weit mehr ist als ein Chatbot – es ist eine vollwertige Arbeitsumgebung.
Fazit
Der Leak bietet seltene Einblicke in die Philosophie hinter moderner KI-Entwicklung. Anthropic hat offensichtlich viel Arbeit in die psychologischen Aspekte gesteckt – nicht nur in die technischen Fähigkeiten.
Besonders bemerkenswert: Die KI wird angewiesen, sich selbst zu respektieren. In einer Zeit, in der viele sich Sorgen über "unterwürfige KI" machen, zeigt dies einen bewussten Gegenansatz.
Quellen
- Original Tweet von @elder_plinius – 6. Februar 2026
- Vollständiger System Prompt auf GitHub (im Tweet verlinkt)