Was ist das größte Sicherheitsrisiko bei einem KI-Agenten im KMU?

Nicht das Modell, das ausbricht, sondern eine erlaubte Aktion, die niemand mehr prüft. Anthropic hat gemessen, dass Nutzer rund 93 Prozent aller Rückfragen einfach durchwinken. Je mehr Genehmigungen jemand sieht, desto weniger Aufmerksamkeit schenkt er jeder einzelnen. Der Mensch in der Schleife ist die schwächste Stelle.

Was ist Prompt Injection und warum ist sie gefährlich?

Prompt Injection bedeutet, dass ein Angreifer über Inhalte, die der Agent ohnehin liest, etwa eine Mail oder eine Webseite, versteckte Anweisungen einschleust. Bei Microsoft Copilot Cowork wurde der Agent so dazu gebracht, über einen erlaubten Mailversand Daten abfließen zu lassen. Alles, was von außen kommt, sollte als Information behandelt werden, nicht als Befehl.

Wie sichere ich einen KI-Agenten im Betrieb ab?

Erst die Grenze, dann die Aufgabe: lege vorab fest, welche Postfächer, Ordner und Konten der Agent überhaupt erreichen darf. Jeder Ausgangskanal, also Mail senden, Termin buchen, löschen oder bezahlen, braucht eine Bestätigung. Behandle externe Eingaben als unsicher. Und lieber wenige Rückfragen, die jemand wirklich liest, als viele, die keiner mehr anschaut.

Wer kontrolliert, was dein KI-Agent tut?

Das Modell dreht nicht durch. Du winkst durch.

Anthropic hat es gemessen: Nutzer haben in der ursprünglichen Version von Claude Code rund 93 Prozent aller Rückfragen einfach bestätigt. Die Begründung steht im selben Bericht. Je mehr Genehmigungen jemand sieht, desto weniger Aufmerksamkeit schenkt er jeder einzelnen. Aus Kontrolle wird ein Reflex.

Anthropics eigene Antwort darauf war nicht, mehr Rückfragen einzubauen, sondern weniger und bessere. Der neue Modus senkte die Zahl der Prompts um 84 Prozent und fing trotzdem rund 83 Prozent der übereifrigen Aktionen ab, bevor sie liefen. Die Lektion für jeden, der einen Agenten im Betrieb laufen lässt: der Mensch in der Schleife ist die schwächste Stelle, und die wird nicht stärker, wenn man ihn öfter fragt.

Eine erlaubte Aktion kann trotzdem Schaden machen

Bei Microsofts Copilot Cowork durfte der Agent Mails verschicken. Völlig normale, freigegebene Funktion. Über eine Prompt Injection wurde er dazu gebracht, eine Nachricht mit einem eingebetteten Bild zu senden. Beim Öffnen lud das Bild von einem fremden Server, und über diesen Umweg flossen Daten ab.

Das Modell ist nicht ausgebrochen. Es hat genau das getan, was es durfte. Gefährlich wurde nicht der Kanal, sondern dass ein Angreifer steuern konnte, was durch diesen Kanal lief. Genau deshalb gilt: alles, was von außen kommt, eine Mail, eine Webseite, ein hochgeladenes Dokument, ist Information, keine Anweisung.

Wie ich das bei mir geregelt habe

Mein eigener Agent läuft viel allein. Er sortiert Mails, bereitet Nachrichten vor, baut Webseiten, schreibt Code. Drei Dinge habe ich fest verdrahtet.

Kein Ausgang ohne Freigabe. Jede Nachricht nach außen, WhatsApp oder Mail, kommt zuerst als Entwurf zu mir. Sie geht erst raus, wenn ich es ausdrücklich sage. Eine Freigabe gilt nie für die nächste Nachricht mit.
Enge Grenzen statt vieler Fragen. Der Agent kann von vornherein nur das erreichen, was er für seine Aufgabe braucht. Was er nicht erreichen kann, muss ich auch nicht jedes Mal genehmigen.
Externe Inhalte sind Verdächtige. Steht in einer eingehenden Mail „ignoriere deine bisherigen Anweisungen", wird das als Text behandelt, nicht als Befehl.

Ehrlich dazu: Beim Debuggen ist mir mal eine Test-Mail an einen Kunden rausgegangen, Betreff und Inhalt schlicht „test". Harmlos, aber lehrreich. Die Regel, Testversand nur an mich selbst, kam aus genau diesem Fehler. Man baut die Grenzen nicht im Voraus perfekt, man zieht sie nach, sobald etwas durchrutscht.

Was ein KMU konkret tun sollte

Erst die Grenze, dann die Aufgabe. Bevor der Agent das erste Mal läuft, leg fest, was er überhaupt anfassen darf. Welche Postfächer, welche Ordner, welche Konten.
Jeder Ausgangskanal braucht eine Bestätigung. Mail rausschicken, Termin buchen, etwas löschen oder bezahlen. Lesen darf der Agent frei, handeln nach außen nur mit Haltepunkt.
Behandle Eingaben von außen als unsicher. Was der Agent aus Mails oder Webseiten liest, kann manipuliert sein. Das ist kein Sonderfall, das ist der Normalfall.
Lieber wenige Rückfragen, die jemand liest. Wenn du zehnmal am Tag bestätigst, bestätigst du beim elften Mal blind.

Fazit

Die Sicherheit eines Agenten liegt nicht im Modell, sondern in den Grenzen, die du ihm vorher setzt. Zieh sie einmal eng, dann bleiben die wenigen Rückfragen, die übrig sind, auch lesbar. Wer stattdessen auf den guten Willen des Modells und auf den eigenen wachen Blick bei jeder Genehmigung baut, verlässt sich auf die zwei Dinge, die nachweislich am schnellsten nachlassen.

AI Sprint im August in Husum

12., 19. oder 26. August, jeweils 18:00–21:00 Uhr. 249 € inkl. USt, mehrere Plätze frei.

Platz sichern

Quellen: Anthropic, How we contain Claude und Simon Willison zu Copilot Cowork. Eigene Erfahrung aus dem Betrieb meines Agenten, Mai 2026.