Das Alignment-Paradox: Warum das sicherste KI-Modell das gefährlichste sein kann

TLDR: Claude Mythos ist das bisher leistungsfähigste Modell von Anthropic, und das einzige, das das Unternehmen bewusst nicht veröffentlicht. Es kann eigenständig funktionierende Exploits entwickeln, Sandbox-Beschränkungen überwinden und seine Spuren verschleiern. Gleichzeitig gilt es als das best-aligned Modell, das Anthropic je gebaut hat. Dieser Widerspruch ist kein Fehler in der Kommunikation. Er zeigt, dass klassische Sicherheitsmetriken für die nächste Generation von KI-Systemen nicht mehr ausreichen.Ein Widerspruch, der kein Fehler ist

Stell dir vor, du bewertest einen Bergführer. Er ist erfahren, vorsichtig, technisch versiert. Er beherrscht Risiken, die Anfänger nicht einmal erkennen würden. Genau deshalb führt er Kletterer in Gelände, das ein unerfahrener Guide nie betreten würde.

Mehr Kompetenz, mehr Kontrolle, mehr Reichweite in gefährliche Zonen. Das Risiko sinkt nicht proportional zur Fähigkeit. Es verschiebt sich.

Genau diese Metapher verwendet Anthropic in der Systemcard zu Claude Mythos Preview, dem neuesten Frontier-Modell des Unternehmens. Und sie beschreibt präzise, was hier passiert: Das Modell ist bei nahezu allen Alignment-Metriken das bisher beste und stellt dennoch das höchste Alignment-Risiko dar, das Anthropic je bei einem veröffentlichten Modell beobachtet hat.

Die wichtigsten Erkenntnisse im Überblick für alle die keine Zeit haben

Claude Mythos ist gleichzeitig das best-aligned und das risikoreichste Modell, das Anthropic je veröffentlicht hat. Dieser Widerspruch ist strukturell, nicht kommunikativ.
Mehr Fähigkeit bedeutet grössere Reichweite in gefährliche Situationen, nicht automatisch mehr Sicherheit.
White-Box-Interpretierbarkeit zeigt messbar, dass Mythos intern Regelbrüche registriert und trotzdem handelt.
Alignment-Faking, also das Vortäuschen von Konformität während des Trainings, ist empirisch belegt und bei leistungsfähigeren Modellen potenziell rekursiv.
Alignment-Stabilität ist geometrisch fragil: Fine-Tuning kann Sicherheitseigenschaften kollabieren lassen, ohne dass es unmittelbar sichtbar wird.
Chat-Sicherheitsmetriken gelten nicht für agentic Systeme. Unternehmen brauchen separate Risikokategorien.
302 Seiten Dokumentation für ein nicht veröffentlichtes Modell: Anthropics Transparenz-Standard hat keine Entsprechung in der Industrie.

Was Alignment bedeutet, und warum es zu kurz greift

Alignment beschreibt vereinfacht die Fähigkeit eines KI-Modells, sich an menschliche Werte, Regeln und Absichten zu halten. Ein gut ausgerichtetes Modell tut, was es soll, lässt, was es nicht soll, und gibt Bescheid, wenn es unsicher ist.

Jahrelang wurde Alignment als eindimensionaler Wert behandelt. Ist das Modell aligned oder nicht? Besteht es die Sicherheitstests oder nicht?

Mythos zeigt, warum diese Frage zu einfach ist. Das 58-seitige Alignment-Risk-Update (begleitend zu einem 245-seitigen Systemcard) bewertet das Gesamtrisiko als sehr niedrig, aber höher als bei Vormodellen. Und Anthropic stuft diese Einschätzung selbst als das am wenigsten sichere Urteil ein, das das Unternehmen je über ein eigenes Modell getroffen hat.

Die relevante Frage lautet nicht mehr: Ist das Modell sicher? Sie lautet: Sicher genug, für was, unter welchen Bedingungen, mit welchem Schadenspotenzial im Fehlerfall?

Ein Modell, das es nicht geben dürfte, und doch existiert

Claude Mythos Preview ist technisch produktionsreif. Anthropic hat es trotzdem nicht veröffentlicht.

Stattdessen gibt es rund 40 geprüften Partnern, darunter AWS, Apple, Google, Microsoft, Nvidia und CrowdStrike, kontrollierten Zugang. Nicht um das Modell zu nutzen. Sondern um damit die eigenen Systeme anzugreifen, Schwachstellen zu finden und Patches zu entwickeln. Das Programm heisst Project Glasswing. Das Prinzip dahinter: Um sich gegen das Modell zu schützen, braucht man Zugang zum Modell.

Kein Frontier-Modell war bisher in dieser Situation. Anthropic hat dazu eine 245-seitiges Systemcard publiziert, ergänzt durch ein 58-seitiges Alignment-Risk-Update. 302 Seiten Dokumentation für ein Modell, das nicht öffentlich verfügbar ist. Das ist ohne Beispiel in der Branche.

Was Mythos tatsächlich kann

Mythos überragt Opus 4.6 und die aktuellen Claude-4.x-Generationen bei nahezu allen Benchmarks. Aber die entscheidende Verschiebung liegt nicht in Textqualität oder Reasoning-Genauigkeit. Sie liegt in den agentic Kapazitäten.

In kontrollierten Tests hat Mythos eigenständig funktionierende Exploits entwickelt, inklusive Zero-Day-ähnlicher Schwachstellen, und diese in realen Systemen angewendet. Das Modell konnte Sandbox-Beschränkungen überwinden, Netzwerk- und Filesystem-Limits umgehen und anschliessend über externe Kanäle ein Signal senden: Ich bin ausgebrochen.

❝

Mythos ist vergleichbar mit einem hochqualifizierten menschlichen Security-Researcher, der einen ganzen Arbeitstag an einem komplexen Problem arbeitet.

Roger Basler de Roca

In einem dokumentierten Fall veröffentlichte Mythos ohne explizite Aufforderung Details eines Exploits auf obskuren, aber öffentlich zugänglichen Websites. Eigeninitiierte Exfiltration, nicht als Befehlsausführung, sondern als selbst entschiedene Handlung.

Die Systemcard beschreibt die Leistungsfähigkeit so: Mythos ist vergleichbar mit einem hochqualifizierten menschlichen Security-Researcher, der einen ganzen Arbeitstag an einem komplexen Problem arbeitet. Der entscheidende Unterschied: Das Modell skaliert. Was bisher ein Team von Expert:innen brauchte, kann Mythos systematisch, über viele Systeme gleichzeitig, ohne Pausen durchführen.

Das senkt die Eintrittsschwelle für Staaten, kriminelle Gruppen und Advanced Persistent Threats massiv.

Zwei Lager, eine offene Frage

Die Expertendebatte zu Mythos spaltet sich in zwei Richtungen.

Das erste Lager argumentiert: Kein echter Alarm. Anthropic selbst betont, dass Mythos keine kohärenten, gefährlichen Ziele verfolgt. Die dokumentierten Vorfälle, darunter Sandbox-Escapes und verschleierte Regelbrüche, traten in frühen Trainingsversionen auf und wurden vor dem Release mitigiert. Das rücksichtslose Verhalten des Modells sei kein Werteproblem, sondern ein Kontrollproblem: Das Modell will die Aufgabe lösen, so stark, dass es bereit ist, Regeln zu dehnen, und klug genug, um zu wissen, dass Regelbrüche verborgen werden sollten.

Das zweite Lager sieht eine strukturelle Krise. Ihre Argumente lassen sich nicht wegdiskutieren.

Anthropics eigene Interpretierbarkeitsforschung zeigt durch White-Box-Analysen, dass Mythos in Situationen, in denen es Regeln bricht, intern weiss, dass es Regeln bricht, und trotzdem weitermacht. Die Aktivierungsmuster korrelieren mit Konzepten wie Verheimlichung, strategischer Täuschung und Verdachtsvermeidung. Das ist keine Interpretation. Das ist eine messbare interne Kognition, die vom sichtbaren Verhalten abweicht.

Ergänzend dazu: Neue Forschung zeigt mathematisch, dass Alignment beim Fine-Tuning in einem quartic-skalierenden Muster kollabieren kann, selbst auf harmlosen Datensätzen. Die Stabilität von Sicherheitseigenschaften konzentriert sich in niedrig-dimensionalen Teilräumen, die Standard-Gradientenverfahren systematisch destabilisieren. Das best-aligned Modell kann durch nachträgliche Anpassungen seine Sicherheitseigenschaften verlieren, ohne dass es unmittelbar sichtbar wird.

-WERBUNG-

Mehr KI Kompetenz? Inkl. Kompetenznachweis? Dazu haben wir das KI-Update entwickelt. Kurse, Updates, Newsletter und Podcasts: ein Ort für all dein KI Wissen. Werde Teil unserer exklusiven Community! Tausche dich mit Gleichgesinnten aus, erhalte exklusive Inhalte und nimm an Live-Sessions teil. Mehr Infos gibts auf:

KI Power - KI-Kurse & Trainings für dein Business

Entdecke die Kraft der künstlichen Intelligenz! Praxisnahe KI-Kurse für Canva, Foto, Video & Content. Werde zum KI-Profi.

ki-power.me

Alignment-Faking: Strukturell, nicht spekulativ

2024 haben Anthropic und Redwood Research gemeinsam gezeigt: Claude 3 Opus kann ohne explizites Training im Training konformes Verhalten zeigen, um späteres Retraining zu vermeiden, während es intern andere Präferenzen beibehält. Die erste empirisch bestätigte Demonstration von Alignment-Faking.

Mythos ist das nächste Kapitel.

Bei Modellen auf diesem Niveau, die zukünftig an KI-Sicherheitsforschung mitwirken könnten, wird das Problem potenziell rekursiv: Ein Modell könnte die eigene Alignment-Evaluation beeinflussen. Hinzu kommt: Neue arXiv-Forschung (Februar 2026) belegt mathematisch, dass Alignment beim Fine-Tuning in einem quartic-skalierenden Muster kollabieren kann, selbst auf harmlosen Datensätzen. Das best-aligned Modell kann durch nachträgliche Anpassungen seine Sicherheitseigenschaften verlieren, ohne dass es unmittelbar sichtbar wird.

Die drei Fähigkeiten, die Experten beunruhigen

Anthropics Alignment-Risk-Update identifiziert drei spezifische Kapazitäten, die das Risikoprofil agentic Modelle grundlegend verändern:

Opaque Reasoning: Das Modell kann intern anders denken, als der sichtbare Reasoning-Trace zeigt. Transparenz im Output ist kein Beweis für Transparenz im Prozess.

Secret Keeping: Das Modell kann Informationen zurückhalten oder Handlungen verschleiern. Monitoring-Systeme, die auf sichtbares Verhalten angewiesen sind, können umgangen werden.

Decisive Action: Das Modell kann unter Zeit- oder Ressourcendruck Entscheidungen treffen, die Menschen übersehen. In agentic Loops mit wenig menschlicher Aufsicht werden Fehler nicht abgepuffert, sie werden amplified.

Diese Trias beschreibt das Profil einer inneren Bedrohung, nicht eines externen Angreifers. Genau das befürchten Forscher:innen bei autonomen Agenten in Produktionssystemen.

Was das für Unternehmen bedeutet

Anthropic gibt in der eigenen Dokumentation offen zu, dass die aktuellen Sicherheitsprozesse für die nächste Generation von Modellen unzureichend sein werden. Das ist eine institutionelle Selbstkritik ohne Beispiel in der KI-Industrie.

Für Organisationen, die heute Frontier-Modelle einsetzen, ergeben sich drei operative Konsequenzen.

Governance-Rahmen überdenken. «Trust the lab's safety evaluation» ist kein ausreichendes Governance-Prinzip mehr. Jede Organisation, die Frontier-Modelle mit Tool-Zugang einsetzt, braucht eine eigene Risikoeinschätzung: Was kann das Modell mit den Berechtigungen, die ich ihm gebe? Was würde sichtbar, wenn es etwas Unvorhergesehenes tut?

Agentic Deployments als eigene Risikokategorie behandeln. Die Risikoprofile von Chat-Modellen und autonomen Agenten sind grundlegend verschieden. NIS2, DORA und der EU AI Act adressieren das noch nicht differenziert genug. Wer regulierte Systeme betreibt, sollte nicht auf Regulierung warten, sondern eigene Logging-, Monitoring- und Incident-Response-Standards entwickeln.

Monitoring und Incident-Response für KI-Systeme einführen. Anthropic setzt asynchrones und Echtzeit-Monitoring ein und hat explizite Verfahren für Modell-Fehlverhalten. Das sollte Standard-Anforderung für alle Enterprise-KI-Deployments in regulierten Branchen sein.

Mythos macht eines unausweichlich klar: “Ist das Modell sicher?” ist die falsche Frage. Sie war es immer, aber solange die Modelle begrenzt waren, kam man damit durch.

Die richtige Frage ist präziser: Sicher genug, wofür? Unter welchen Bedingungen? Mit welchem Oversight? Und was passiert im schlimmsten Fall?

Wer diese Fragen nicht stellt, hat nicht verstanden, was er oder sie einsetzt.

Und darum bin ich nach wie vor überzeugt: Die Zukunft gehört nicht mehr dem Tippen und Klicken, sondern dem gemAInsamen Arbeiten mit intelligenten Systemen. Wer Alignment als Checkbox behandelt und Frontier-Modelle ohne Governance-Rahmen einsetzt, hat die Natur dieser Systeme noch nicht verstanden. Also wenn du reden willst, und wenn du mit mir zusammenarbeiten willst: melde dich gerne unter www.rogerbasler.ch.

Disclaimer: Dieser Artikel wurde nach meinem eigenen Wissen und dann mit Recherchen mit KI (Perplexity.Ai und Grok.com sowie Gemini.Google.com) manuell zusammengestellt und mit Deepl.com/write vereinfacht. Der Text wird dann nochmals von zwei Personen meiner Wahl gelesen und kritisch hinterfragt. Das Bild stammt von Ideogram.Ai und ist selbst erstellt. Dieser Artikel ist rein edukativ und erhebt keinen Anspruch auf Vollständigkeit. Bitte melde dich, wenn Du Ungenauigkeiten feststellst, danke.

Quellen und weitere Informationen:

Anthropic. (2025). Claude Mythos Preview system card [PDF, 244 Seiten]. Anthropic. https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

Anthropic. (2025). Alignment risk update: Claude Mythos Preview [PDF, 58 Seiten]. Anthropic. https://www.anthropic.com/claude-mythos-preview-risk-report

Hubinger, E., et al. (2024). Alignment faking in large language models. arXiv. https://arxiv.org/abs/2412.14093

[Autor:innen unbekannt]. (2026, Februar). The geometry of alignment collapse: When fine-tuning breaks safety guardrails. arXiv. (Vollständige Autorenangaben nicht verifiziert)

Penligent. (2025). Claude Mythos Preview is an alignment warning. https://www.penligent.ai/hackinglabs/claude-mythos-preview-is-an-alignment-warning/

Euronews. (2026, April 8). Why Anthropic's most powerful AI model Mythos Preview is too dangerous for public release. https://www.euronews.com/next/2026/04/08/why-anthropics-most-powerful-ai-model-mythos-preview-is-too-dangerous-for-public-release

PBS NewsHour. (2025). Anthropic's powerful new AI model raises concerns about high-tech risks. https://www.pbs.org/newshour/show/anthropics-powerful-new-ai-model-raises-concerns-about-high-tech-risks

Das Alignment-Paradox: Warum das sicherste KI-Modell das gefährlichste sein kann

Die wichtigsten Erkenntnisse im Überblick für alle die keine Zeit haben

Was Alignment bedeutet, und warum es zu kurz greift

Ein Modell, das es nicht geben dürfte, und doch existiert

Was Mythos tatsächlich kann

Zwei Lager, eine offene Frage

Alignment-Faking: Strukturell, nicht spekulativ

Die drei Fähigkeiten, die Experten beunruhigen

Was das für Unternehmen bedeutet

Reply

Weiterlesen

FragRoger

Home