Was kosten die KI-Modelle pro Monat?

Im Chat-Abo zahlst du pauschal 20 bis 30 Euro pro Nutzer. Wer per API arbeitet, zahlt nach Verbrauch: Top-Modelle liegen pro Million Token bei 15 bis 75 US-Dollar, mittlere Modelle bei 3 bis 15, Light-Modelle bei unter einem Dollar. Wer intensiv baut, sieht den Unterschied direkt auf der Rechnung.

Wann lohnt sich das teuerste Modell wirklich?

Wenn ein Agent autonom über viele Schritte hinweg arbeitet, lange Codebasen oder Verträge verarbeitet oder echte Recherche mit Quellenkette braucht. Für Texte, Mails, Zusammenfassungen oder klare Klassifikationen reicht das mittlere Modell und ist Faktor 5 bis 10 günstiger.

Soll ich mich auf einen Anbieter festlegen?

Nein. Wer ernsthaft baut, hat im Werkzeugkasten Claude und GPT, manchmal Gemini. Jedes Modell hat Stärken: Claude für Text, GPT für agentische Coding-Aufgaben, Gemini für lange Dokumente. Anbieter-Lock-in ist die teurere Variante.

Welches KI-Modell reicht für ein KMU?

Q: Welches KI-Modell reicht für ein KMU?

Für die meisten Aufgaben reicht das mittlere Modell: Claude Sonnet, GPT-5.5 oder Gemini Flash. Das Top-Modell, etwa Claude Opus oder GPT-5 Pro, ist nur bei wirklich komplexen Aufgaben sein Geld wert, die über mehrere Tools laufen oder lange Dokumente strukturiert verarbeiten.

Die Rechnung als Wecker

An einem Samstagabend schaute ich auf den API-Bericht und las 607 Euro für den laufenden Monat, davon 174 Euro allein an dem Tag. Geahnt hatte ich es, aber gesehen ist gesehen. Mein Setup nutzt Claude über die API, hängt an mehreren Jobs, schreibt Code, baut Webseiten, sortiert Mails. Ich hatte fast alles auf Opus laufen, dem teuersten Modell, weil ich davon ausgegangen bin: agentische Arbeit braucht das beste Werkzeug.

Stimmt nicht. Genauer: stimmt für ein Zehntel der Aufgaben.

Drei Stufen, drei Anbieter

Bei den großen Anbietern findest du jeweils drei Klassen, und sie verhalten sich grob parallel.

Top-Modell

Claude Opus 4.7, OpenAI GPT-5, Google Gemini 3 Pro. Das sind die Modelle, die in Benchmarks vorne liegen und für die Schlagzeilen gemacht werden. Sie können lange Aufgabenketten autonom verfolgen, finden komplexe Bugs, strukturieren ganze Verträge. Auf der API zahlst du pro Million ausgegebener Token zwischen 15 und 75 US-Dollar, je nach Modell und Modus. Im Chat-Abo sind sie ab dem Pro-Tier dabei, ungefähr 20 Euro pro Monat und Nutzer.

Mittleres Modell

Claude Sonnet 4.6, OpenAI GPT-5.5, Google Gemini 3 Flash. Können das meiste, was das Top-Modell kann, oft so gut, dass du den Unterschied bei einer normalen Aufgabe nicht siehst. Auf der API zwischen 3 und 15 US-Dollar pro Million Output-Token, also Faktor fünf bis zehn günstiger. Im Chat sind sie der Default.

Light-Modell

Claude Haiku 4.5, OpenAI GPT-5 Mini, Google Gemini 3 Flash Lite. Schnell, billig, brauchbar für klare Aufgaben mit kurzem Kontext. Klassifizieren, kurze Antworten, Vorsortieren. Unter einem Dollar pro Million Token. Im Chat selten direkt verfügbar, aber im Hintergrund vieler Apps verbaut.

Wo das Top-Modell sein Geld wert ist

Nicht jede Aufgabe profitiert von der teuren Klasse. Diese hier schon.

Agent läuft autonom über viele Schritte. Zwölf Tool-Aufrufe in Folge, jeder baut auf dem vorigen auf. Wenn ein Schritt schief geht, kippt die ganze Kette. Hier zahlst du gerne mehr für ein Modell, das verlässlich plant.
Lange Dokumente strukturiert verarbeiten. Ein Vertrag mit 80 Seiten, eine Codebase mit 50 Dateien, ein medizinischer Befund mit Querverweisen. Top-Modelle halten den Faden, mittlere verlieren ihn ab einer gewissen Länge.
Echtes Reasoning mit Begründungspflicht. Wenn die Antwort die Begründung mittragen muss, etwa bei juristischer Vorprüfung oder bei einer technischen Diagnose, sieht man den Unterschied. Das mittlere Modell rät, das Top-Modell denkt nach.
Bug-Suche und Refactoring. Auf Code unter Last sind Top-Modelle spürbar präziser. Wer Software baut, merkt das im Wochenrückblick.

Wo das mittlere Modell reicht

Der Großteil dessen, was im normalen KMU-Alltag anfällt, fällt in diese Liste.

Mails zusammenfassen, beantworten, sortieren
Angebote und Texte aus Stichpunkten ausformulieren
Standard-Recherchen, Marktüberblicke, Quellen-Sammeln
Tabellen aus Bildern oder PDFs lesen
Klassifizieren, etwa Tickets oder Anfragen vorsortieren
Übersetzen, Lektorieren, Tonalität anpassen

Ich nutze für diese Aufgaben jetzt Sonnet, und für reines Code-Bauen schicke ich es parallel zu GPT-5.5 über Codex. Die Kosten sind seither ungefähr ein Drittel von dem, was sie waren, und die Ergebnisse für Texte und Standard-Recherche sind nicht schlechter geworden.

Faustregel: starte mit dem mittleren Modell. Steig nur dort auf das Top hoch, wo du den Unterschied im Ergebnis wirklich siehst. Genau dieses Stück Vergleich ist das, was im Workshop schnell geht und alleine selten gemacht wird.

Was das für dich heißt

Drei Dinge, die ich aus meiner Rechnung mitgenommen habe.

Im Chat-Abo zählt es weniger als gedacht. Bei 20 Euro pauschal pro Nutzer kannst du das Modell wechseln ohne Kostenangst. Wer dort sitzt, soll ruhig oben anfangen. Der Geldhebel liegt erst bei API-Nutzung.
Sobald du programmatisch arbeitest, prüf die Klasse. Wenn ein Custom Agent oder ein Automatisierungs-Workflow im Hintergrund läuft, addieren sich Cent pro Aufruf schnell auf. Ein einzelner falsch klassifizierter Lauf am Tag gegen das Top-Modell ist im Monat dreistellig.
Anbieter mischen. Wer ernsthaft baut, hat Claude und GPT im Werkzeugkasten, manchmal Gemini. Festlegen kostet mehr, als es spart. Wenn ein Modell heute hinten liegt, kann es in vier Wochen vorn sein, und umgekehrt. Wichtig ist, dass du den Wechsel in deinem Workflow leicht machen kannst.

Fazit

Das teuerste Modell ist eine Versicherung gegen Modell-Schwächen, die du oft gar nicht hast. Mittleres Modell als Standard, Top für die wenigen Aufgaben, bei denen du den Unterschied siehst, Light für reines Sortieren. Im Chat egal, in der API entscheidend.

Falls du gerade dabei bist zu entscheiden, in welcher Liga du startest: schreib mir kurz, ich hab den Vergleich für die typischen KMU-Aufgaben jetzt frisch in den Fingern.

AI Sprint im August in Husum

12., 19. oder 26. August, jeweils 18:00–21:00 Uhr. 249 € inkl. USt, mehrere Plätze frei.

Platz sichern

Quelle für Preise und Modell-Stufen: Anthropic Pricing. Eigene Erfahrung aus dem Mai 2026.