Die Rechnung als Wecker
An einem Samstagabend schaute ich auf den API-Bericht und las 607 Euro für den laufenden Monat, davon 174 Euro allein an dem Tag. Geahnt hatte ich es, aber gesehen ist gesehen. Mein Setup nutzt Claude über die API, hängt an mehreren Jobs, schreibt Code, baut Webseiten, sortiert Mails. Ich hatte fast alles auf Opus laufen, dem teuersten Modell, weil ich davon ausgegangen bin: agentische Arbeit braucht das beste Werkzeug.
Stimmt nicht. Genauer: stimmt für ein Zehntel der Aufgaben.
Drei Stufen, drei Anbieter
Bei den großen Anbietern findest du jeweils drei Klassen, und sie verhalten sich grob parallel.
Top-Modell
Claude Opus 4.7, OpenAI GPT-5, Google Gemini 3 Pro. Das sind die Modelle, die in Benchmarks vorne liegen und für die Schlagzeilen gemacht werden. Sie können lange Aufgabenketten autonom verfolgen, finden komplexe Bugs, strukturieren ganze Verträge. Auf der API zahlst du pro Million ausgegebener Token zwischen 15 und 75 US-Dollar, je nach Modell und Modus. Im Chat-Abo sind sie ab dem Pro-Tier dabei, ungefähr 20 Euro pro Monat und Nutzer.
Mittleres Modell
Claude Sonnet 4.6, OpenAI GPT-5.5, Google Gemini 3 Flash. Können das meiste, was das Top-Modell kann, oft so gut, dass du den Unterschied bei einer normalen Aufgabe nicht siehst. Auf der API zwischen 3 und 15 US-Dollar pro Million Output-Token, also Faktor fünf bis zehn günstiger. Im Chat sind sie der Default.
Light-Modell
Claude Haiku 4.5, OpenAI GPT-5 Mini, Google Gemini 3 Flash Lite. Schnell, billig, brauchbar für klare Aufgaben mit kurzem Kontext. Klassifizieren, kurze Antworten, Vorsortieren. Unter einem Dollar pro Million Token. Im Chat selten direkt verfügbar, aber im Hintergrund vieler Apps verbaut.
Wo das Top-Modell sein Geld wert ist
Nicht jede Aufgabe profitiert von der teuren Klasse. Diese hier schon.
- Agent läuft autonom über viele Schritte. Zwölf Tool-Aufrufe in Folge, jeder baut auf dem vorigen auf. Wenn ein Schritt schief geht, kippt die ganze Kette. Hier zahlst du gerne mehr für ein Modell, das verlässlich plant.
- Lange Dokumente strukturiert verarbeiten. Ein Vertrag mit 80 Seiten, eine Codebase mit 50 Dateien, ein medizinischer Befund mit Querverweisen. Top-Modelle halten den Faden, mittlere verlieren ihn ab einer gewissen Länge.
- Echtes Reasoning mit Begründungspflicht. Wenn die Antwort die Begründung mittragen muss, etwa bei juristischer Vorprüfung oder bei einer technischen Diagnose, sieht man den Unterschied. Das mittlere Modell rät, das Top-Modell denkt nach.
- Bug-Suche und Refactoring. Auf Code unter Last sind Top-Modelle spürbar präziser. Wer Software baut, merkt das im Wochenrückblick.
Wo das mittlere Modell reicht
Der Großteil dessen, was im normalen KMU-Alltag anfällt, fällt in diese Liste.
- Mails zusammenfassen, beantworten, sortieren
- Angebote und Texte aus Stichpunkten ausformulieren
- Standard-Recherchen, Marktüberblicke, Quellen-Sammeln
- Tabellen aus Bildern oder PDFs lesen
- Klassifizieren, etwa Tickets oder Anfragen vorsortieren
- Übersetzen, Lektorieren, Tonalität anpassen
Ich nutze für diese Aufgaben jetzt Sonnet, und für reines Code-Bauen schicke ich es parallel zu GPT-5.5 über Codex. Die Kosten sind seither ungefähr ein Drittel von dem, was sie waren, und die Ergebnisse für Texte und Standard-Recherche sind nicht schlechter geworden.
Was das für dich heißt
Drei Dinge, die ich aus meiner Rechnung mitgenommen habe.
- Im Chat-Abo zählt es weniger als gedacht. Bei 20 Euro pauschal pro Nutzer kannst du das Modell wechseln ohne Kostenangst. Wer dort sitzt, soll ruhig oben anfangen. Der Geldhebel liegt erst bei API-Nutzung.
- Sobald du programmatisch arbeitest, prüf die Klasse. Wenn ein Custom Agent oder ein Automatisierungs-Workflow im Hintergrund läuft, addieren sich Cent pro Aufruf schnell auf. Ein einzelner falsch klassifizierter Lauf am Tag gegen das Top-Modell ist im Monat dreistellig.
- Anbieter mischen. Wer ernsthaft baut, hat Claude und GPT im Werkzeugkasten, manchmal Gemini. Festlegen kostet mehr, als es spart. Wenn ein Modell heute hinten liegt, kann es in vier Wochen vorn sein, und umgekehrt. Wichtig ist, dass du den Wechsel in deinem Workflow leicht machen kannst.
Fazit
Das teuerste Modell ist eine Versicherung gegen Modell-Schwächen, die du oft gar nicht hast. Mittleres Modell als Standard, Top für die wenigen Aufgaben, bei denen du den Unterschied siehst, Light für reines Sortieren. Im Chat egal, in der API entscheidend.
Falls du gerade dabei bist zu entscheiden, in welcher Liga du startest: schreib mir kurz, ich hab den Vergleich für die typischen KMU-Aufgaben jetzt frisch in den Fingern.
AI Sprint am 10. Juni in Husum
Halbtag, 349 Euro, 10 Plätze. Wir nehmen deine Prozesse durch und du gehst mit einem laufenden Tool und der richtigen Modell-Wahl nach Hause.
Platz sichernQuelle für Preise und Modell-Stufen: Anthropic Pricing. Eigene Erfahrung aus dem Mai 2026.