Das Modell dreht nicht durch. Du winkst durch.
Anthropic hat es gemessen: Nutzer haben in der ursprünglichen Version von Claude Code rund 93 Prozent aller Rückfragen einfach bestätigt. Die Begründung steht im selben Bericht. Je mehr Genehmigungen jemand sieht, desto weniger Aufmerksamkeit schenkt er jeder einzelnen. Aus Kontrolle wird ein Reflex.
Anthropics eigene Antwort darauf war nicht, mehr Rückfragen einzubauen, sondern weniger und bessere. Der neue Modus senkte die Zahl der Prompts um 84 Prozent und fing trotzdem rund 83 Prozent der übereifrigen Aktionen ab, bevor sie liefen. Die Lektion für jeden, der einen Agenten im Betrieb laufen lässt: der Mensch in der Schleife ist die schwächste Stelle, und die wird nicht stärker, wenn man ihn öfter fragt.
Eine erlaubte Aktion kann trotzdem Schaden machen
Bei Microsofts Copilot Cowork durfte der Agent Mails verschicken. Völlig normale, freigegebene Funktion. Über eine Prompt Injection wurde er dazu gebracht, eine Nachricht mit einem eingebetteten Bild zu senden. Beim Öffnen lud das Bild von einem fremden Server, und über diesen Umweg flossen Daten ab.
Das Modell ist nicht ausgebrochen. Es hat genau das getan, was es durfte. Gefährlich wurde nicht der Kanal, sondern dass ein Angreifer steuern konnte, was durch diesen Kanal lief. Genau deshalb gilt: alles, was von außen kommt, eine Mail, eine Webseite, ein hochgeladenes Dokument, ist Information, keine Anweisung.
Wie ich das bei mir geregelt habe
Mein eigener Agent läuft viel allein. Er sortiert Mails, bereitet Nachrichten vor, baut Webseiten, schreibt Code. Drei Dinge habe ich fest verdrahtet.
- Kein Ausgang ohne Freigabe. Jede Nachricht nach außen, WhatsApp oder Mail, kommt zuerst als Entwurf zu mir. Sie geht erst raus, wenn ich es ausdrücklich sage. Eine Freigabe gilt nie für die nächste Nachricht mit.
- Enge Grenzen statt vieler Fragen. Der Agent kann von vornherein nur das erreichen, was er für seine Aufgabe braucht. Was er nicht erreichen kann, muss ich auch nicht jedes Mal genehmigen.
- Externe Inhalte sind Verdächtige. Steht in einer eingehenden Mail „ignoriere deine bisherigen Anweisungen", wird das als Text behandelt, nicht als Befehl.
Was ein KMU konkret tun sollte
- Erst die Grenze, dann die Aufgabe. Bevor der Agent das erste Mal läuft, leg fest, was er überhaupt anfassen darf. Welche Postfächer, welche Ordner, welche Konten.
- Jeder Ausgangskanal braucht eine Bestätigung. Mail rausschicken, Termin buchen, etwas löschen oder bezahlen. Lesen darf der Agent frei, handeln nach außen nur mit Haltepunkt.
- Behandle Eingaben von außen als unsicher. Was der Agent aus Mails oder Webseiten liest, kann manipuliert sein. Das ist kein Sonderfall, das ist der Normalfall.
- Lieber wenige Rückfragen, die jemand liest. Wenn du zehnmal am Tag bestätigst, bestätigst du beim elften Mal blind.
Fazit
Die Sicherheit eines Agenten liegt nicht im Modell, sondern in den Grenzen, die du ihm vorher setzt. Zieh sie einmal eng, dann bleiben die wenigen Rückfragen, die übrig sind, auch lesbar. Wer stattdessen auf den guten Willen des Modells und auf den eigenen wachen Blick bei jeder Genehmigung baut, verlässt sich auf die zwei Dinge, die nachweislich am schnellsten nachlassen.
AI Sprint am 10. Juni in Husum
Halbtag, 349 Euro, 10 Plätze. Wir gehen deine Prozesse durch und setzen die richtigen Grenzen für deinen Agenten gleich mit.
Platz sichernQuellen: Anthropic, How we contain Claude und Simon Willison zu Copilot Cowork. Eigene Erfahrung aus dem Betrieb meines Agenten, Mai 2026.