Warum die Frage überhaupt kommt
Wenn ein Steuerberater Mandantenzahlen in ein Chat-Tool tippt, eine Praxis Patientenbriefe formulieren lässt oder eine Personalabteilung Bewerbungen sortiert, dann gehen diese Daten an einen Server, meist in den USA. Für viele Fälle ist das mit einem ordentlichen Auftragsverarbeitungsvertrag sauber lösbar, und für die meisten KMU ist die Cloud weiterhin der einfachere, stärkere Weg. Aber es gibt Daten, die schlicht nicht raus dürfen, weil ein Mandantengeheimnis, eine Schweigepflicht oder eine interne Vorgabe das verbietet.
Bisher hieß meine Antwort in genau diesen Fällen: dann eben keine KI, oder nur für die unkritischen Teile. Lokale Modelle waren entweder zu schwach, um nützlich zu sein, oder brauchten teure Spezialhardware. Das hat sich in den letzten Monaten verschoben.
Was sich gerade geändert hat
Anfang Juni hat Google Gemma 4 12B veröffentlicht, ein offenes Modell, das genau in die Lücke zielt. Die Zahlen, die es interessant machen:
- Es läuft mit 16 GB RAM, also auf einem normalen Laptop oder einem kleinen Mac Mini, ohne Grafikkarte für tausende Euro.
- Es versteht Text, Bild und Audio direkt im selben Modell. Du kannst es ein Dokument lesen, ein Foto beschreiben oder eine Sprachnotiz auswerten lassen.
- Die Lizenz ist Apache 2.0, also auch im Betrieb kommerziell nutzbar, ohne juristisches Kleingedrucktes.
- In gängigen Tests kommt es nah an ein doppelt so großes Modell heran und schlägt die ältere, deutlich größere Vorgängergeneration.
Wichtig ist die Erwartung. Ein lokales 12B-Modell ist nicht so klug wie das beste, was ChatGPT oder Claude in der Cloud anbieten. Bei kniffligem Schlussfolgern, langen Verträgen und echten Fachfragen merkt man den Abstand. Aber für Standardarbeit, also Texte glätten, zusammenfassen, sortieren, erste Entwürfe, ist es gut genug, und das auf Hardware, die viele ohnehin im Haus haben.
Wann lokal sinnvoll ist, wann nicht
Die Entscheidung ist keine Glaubensfrage, sondern hängt an der Art der Daten und der Aufgabe.
Lokal lohnt sich, wenn
- die Daten aus rechtlichen oder vertraglichen Gründen das Haus nicht verlassen dürfen, etwa Mandanten-, Patienten- oder Personaldaten;
- oft an einem festen Ort gearbeitet wird, an dem das Internet wackelt oder bewusst nicht genutzt werden soll;
- die Aufgaben Standard sind und sich wiederholen, sodass das schwächere Modell trotzdem reicht.
Die Cloud bleibt besser, wenn
- die Daten ohnehin unkritisch sind und ein Auftragsverarbeitungsvertrag den Datenschutz abdeckt;
- du die volle Stärke für schwierige Analysen, lange Dokumente oder anspruchsvolle Texte brauchst;
- niemand im Haus die Zeit hat, sich um Einrichtung und Updates zu kümmern.
So fängst du klein an
Du musst dafür nichts kaufen und niemanden beauftragen. Ein Nachmittag reicht, um zu sehen, ob es für dich trägt.
- Gerät prüfen. Ein Rechner mit 16 GB RAM genügt. Ein aktueller Mac Mini ist dafür der günstigste saubere Einstieg, ein vorhandener Business-Laptop tut es auch.
- Ollama oder LM Studio installieren. Beides ist kostenlos. LM Studio hat eine Oberfläche zum Klicken, Ollama läuft schlank im Hintergrund. Für den ersten Versuch nimm LM Studio.
- Gemma 4 12B laden. In der App nach dem Modell suchen, herunterladen, fertig. Ab jetzt läuft alles offline.
- Mit einer echten, sensiblen Aufgabe testen. Nimm genau den Fall, den du bisher aus Datenschutzgründen nicht in die Cloud gegeben hast, und schau, ob das Ergebnis für deinen Zweck reicht.
Wenn der Test überzeugt, lohnt sich der nächste Schritt: das Modell fest in einen Ablauf einbauen, statt jedes Mal von Hand zu fragen. Wenn nicht, hast du einen Nachmittag investiert und weißt sicher, dass für deinen Fall die Cloud mit sauberem Vertrag der richtige Weg ist. Beides ist ein gutes Ergebnis.
Fazit
Lokale KI ist von der Demo zum Werkzeug geworden. Für die meisten Aufgaben bleibt die Cloud die einfachere und stärkere Wahl, daran ändert sich nichts. Aber für die Daten, die wirklich nicht raus dürfen, gibt es jetzt zum ersten Mal eine Antwort, die nicht "dann eben nicht" lautet. Mein Rat: trenne sauber zwischen sensibel und unkritisch, probier den lokalen Weg an einem konkreten Fall aus, und entscheide danach. Ich bin selbst noch dabei zu lernen, wo genau die Grenze für den Alltag liegt, aber dass die Option ernst geworden ist, steht für mich fest.
AI Sprint am 10. Juni in Husum
Halbtag, 349 Euro, 10 Plätze. Wir schauen deine Abläufe an, klären welche Daten in die Cloud dürfen und welche lokal bleiben, und nehmen einen Fall mit, der danach läuft.
Platz sichernQuelle: Gemma 4 12B, multimodal und lokal auf handelsüblicher Hardware (the decoder, Juni 2026). Werkzeuge: Ollama, LM Studio. Eigene Erfahrung aus Workshops und Kunden-Setups, 2026.