DENZERAI

Wer kontrolliert, was dein KI-Agent tut?

Sobald ein Agent selbst Mails schreibt, Termine bucht und Dateien öffnet, ist die wichtigste Frage nicht, ob das Modell durchdreht. Sondern ob jemand merkt, wenn es etwas Erlaubtes tut, das trotzdem Schaden anrichtet.

Veröffentlicht am 29.05.2026 · Christian Denzer Sicherheit · Betrieb

Das Modell dreht nicht durch. Du winkst durch.

Anthropic hat es gemessen: Nutzer haben in der ursprünglichen Version von Claude Code rund 93 Prozent aller Rückfragen einfach bestätigt. Die Begründung steht im selben Bericht. Je mehr Genehmigungen jemand sieht, desto weniger Aufmerksamkeit schenkt er jeder einzelnen. Aus Kontrolle wird ein Reflex.

Anthropics eigene Antwort darauf war nicht, mehr Rückfragen einzubauen, sondern weniger und bessere. Der neue Modus senkte die Zahl der Prompts um 84 Prozent und fing trotzdem rund 83 Prozent der übereifrigen Aktionen ab, bevor sie liefen. Die Lektion für jeden, der einen Agenten im Betrieb laufen lässt: der Mensch in der Schleife ist die schwächste Stelle, und die wird nicht stärker, wenn man ihn öfter fragt.

Eine erlaubte Aktion kann trotzdem Schaden machen

Bei Microsofts Copilot Cowork durfte der Agent Mails verschicken. Völlig normale, freigegebene Funktion. Über eine Prompt Injection wurde er dazu gebracht, eine Nachricht mit einem eingebetteten Bild zu senden. Beim Öffnen lud das Bild von einem fremden Server, und über diesen Umweg flossen Daten ab.

Das Modell ist nicht ausgebrochen. Es hat genau das getan, was es durfte. Gefährlich wurde nicht der Kanal, sondern dass ein Angreifer steuern konnte, was durch diesen Kanal lief. Genau deshalb gilt: alles, was von außen kommt, eine Mail, eine Webseite, ein hochgeladenes Dokument, ist Information, keine Anweisung.

Wie ich das bei mir geregelt habe

Mein eigener Agent läuft viel allein. Er sortiert Mails, bereitet Nachrichten vor, baut Webseiten, schreibt Code. Drei Dinge habe ich fest verdrahtet.

Ehrlich dazu: Beim Debuggen ist mir mal eine Test-Mail an einen Kunden rausgegangen, Betreff und Inhalt schlicht „test". Harmlos, aber lehrreich. Die Regel, Testversand nur an mich selbst, kam aus genau diesem Fehler. Man baut die Grenzen nicht im Voraus perfekt, man zieht sie nach, sobald etwas durchrutscht.

Was ein KMU konkret tun sollte

Fazit

Die Sicherheit eines Agenten liegt nicht im Modell, sondern in den Grenzen, die du ihm vorher setzt. Zieh sie einmal eng, dann bleiben die wenigen Rückfragen, die übrig sind, auch lesbar. Wer stattdessen auf den guten Willen des Modells und auf den eigenen wachen Blick bei jeder Genehmigung baut, verlässt sich auf die zwei Dinge, die nachweislich am schnellsten nachlassen.

AI Sprint am 10. Juni in Husum

Halbtag, 349 Euro, 10 Plätze. Wir gehen deine Prozesse durch und setzen die richtigen Grenzen für deinen Agenten gleich mit.

Platz sichern

Quellen: Anthropic, How we contain Claude und Simon Willison zu Copilot Cowork. Eigene Erfahrung aus dem Betrieb meines Agenten, Mai 2026.