Anthropic gibt sein leistungsstärkstes KI-Modell absichtlich nicht frei – und genau das beunruhigt Investoren

Claude Mythos hat eigenständig Tausende kritische Sicherheitslücken in jedem großen Betriebssystem und Browser gefunden. Anthropic räumt dies ein, behauptet aber, dass das Modell zum Schutz – nicht zum Angriff – zurückhaltend ist.

9
Teilen:
Міністр фінансів США Скотт Бессент (Фото: EPA / Allison Robbert)

Am 7. April beriefen der US-Finanzminister Scott Bessent und der Vorsitzende der Federal Reserve, Jerome Powell, ein dringendes Treffen mit den Führungskräften von Citigroup, Morgan Stanley, Bank of America, Wells Fargo und Goldman Sachs ein. Der Grund war weder ein Hacker-Angriff noch ein Datenleck — sondern eine öffentliche Ankündigung eines neuen Künstliche-Intelligenz-Modells.

Was ist Mythos und warum haben Sie es noch nicht

Anthropic kündigte die Initiative Project Glasswing auf der Basis von Claude Mythos Preview an — einem Modell, das in der Lage ist, Schwachstellen in Software autonom und in großem Maßstab zu erkennen. Zugang erhielten nur ausgewählte: Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA und Palo Alto Networks. Die breite Öffentlichkeit ist nicht darunter.

Claude Mythos2 Preview — ein universelles Modell, das noch nicht freigegeben wurde, aber ein unangenehmes Faktum demonstriert: KI hat ein Niveau erreicht, auf dem sie alle außer den hochqualifiziertesten Menschen bei der Suche und Ausnutzung von Schwachstellen übertrifft.

«Wir haben Mythos Preview diese Fähigkeiten nicht absichtlich beigebracht. Sie entstanden als Nebeneffekt einer allgemeinen Verbesserung von Code, Denkvermögen und Autonomie»

— Anthropic, technischer Bericht Project Glasswing

Mit anderen Worten: Das Modell lernte, Systeme zu hacken, während es trainierte, besseren Code zu schreiben.

Was genau hat es bereits getan

In wenigen Wochen identifizierte Mythos Preview Tausende von Zero-Day-Schwachstellen — den Entwicklern bisher unbekannte — in jedem großen Betriebssystem und jedem großen Browser sowie in einer Reihe anderer kritischer Software.

Jeder dokumentierte Exploit wurde vollständig autonom geschrieben, ohne menschliches Eingreifen nach der anfänglichen Anfrage. Mythos erhielt eine Liste mit 100 CVEs und bekannten Linux-Kernel-Schwachstellen und wählte 40 Stück aus, die möglicherweise für eine Ausnutzung geeignet waren.

Über 99% der gefundenen Schwachstellen wurden noch nicht behoben, daher hält Anthropic deren öffentliche Offenlegung für unverantwortlich. Das Modell, das die „Löcher" kennt, wird nicht an das Netz freigegeben — aber Details darüber sind bereits früher durch menschliches Versagen bei der Speicherung von Daten in einem öffentlich zugänglichen Cache durchgesickert.

Anthropics Logik: zunächst angreifen, um sich zu schützen

Project Glasswing ist ein «dringender Versuch», die Fähigkeiten eines Spitzenmodells zum Schutz einzusetzen, bevor ähnliche Fähigkeiten von feindselig gesinnten Akteuren erlangt werden. Anthropic stellt bis zu 100 Millionen Dollar in Form von Gutschriften für die Nutzung des Modells und 4 Millionen Dollar direkte Spenden an Organisationen mit offener Software im Sicherheitsbereich bereit.

Es gibt auch ein rein pragmatisches Argument für diese Logik: Dieselben Fähigkeiten, die KI-Modelle in fremden Händen gefährlich machen, machen sie für die Suche und Behebung von Schwachstellen in kritischer Software unbezahlbar.

  • Verteidiger haben jetzt einen Vorteil — aber nur einen vorübergehenden: Die Fähigkeiten von Spitzenmodellen werden sich wahrscheinlich in den nächsten Monaten erheblich verbessern.
  • Das Bankensystem ist unter den Prioritätszielen: Deshalb berief das Finanzministerium CEOs ein, nicht technische Direktoren.
  • Open-Source ist das schwächste Glied: Open Source macht die überwiegende Mehrheit des Codes in modernen Systemen aus, einschließlich derjenigen, die KI-Agenten selbst zum Schreiben neuer Software verwenden.

Die Frage ist nicht, ob jemand diese Schwachstellen finden wird. Anthropic hat sie bereits gefunden. Die Frage ist, ob 99% der offenen Lücken geschlossen werden, bevor ein ähnliches Modell in die Hände jemandes gelangt, der keine Treffen mit Bankiers einberuft, sondern sofort handelt — und auf wessen Rechnung der erste Angriff erfolgt, wenn dies nicht geschieht.

Weltnachrichten