Kann ich KI lokal ohne Cloud betreiben?

Ja. Offene Modelle wie Gemma 4 12B laufen mit 16 GB RAM auf einem normalen Laptop oder einem kleinen Mac Mini, komplett lokal. Werkzeuge wie Ollama oder LM Studio machen die Installation zu einer Sache von Minuten. Die Daten verlassen das Gerät dabei nicht.

Ist lokale KI so gut wie ChatGPT oder Claude?

Nein, nicht ganz. Ein lokales 12B-Modell kommt für viele Alltagsaufgaben erstaunlich weit, aber bei komplexem Schlussfolgern, langen Dokumenten und schwierigen Fachfragen bleiben die großen Cloud-Modelle deutlich überlegen. Lokale KI ist gut genug für Standardarbeit mit sensiblen Daten, kein Ersatz für die Spitze.

Wann lohnt sich lokale KI für ein KMU?

Lokale KI lohnt sich, wenn Daten aus rechtlichen oder vertraglichen Gründen das Haus nicht verlassen dürfen, etwa Mandanten-, Patienten- oder Personaldaten, oder wenn an Orten ohne stabiles Internet gearbeitet wird. Für die meisten anderen Aufgaben ist die Cloud mit ordentlichem Auftragsverarbeitungsvertrag einfacher und stärker.

KI ohne Cloud: wann sich lokale Modelle für ein KMU lohnen

Warum die Frage überhaupt kommt

Wenn ein Steuerberater Mandantenzahlen in ein Chat-Tool tippt, eine Praxis Patientenbriefe formulieren lässt oder eine Personalabteilung Bewerbungen sortiert, dann gehen diese Daten an einen Server, meist in den USA. Für viele Fälle ist das mit einem ordentlichen Auftragsverarbeitungsvertrag sauber lösbar, und für die meisten KMU ist die Cloud weiterhin der einfachere, stärkere Weg. Aber es gibt Daten, die schlicht nicht raus dürfen, weil ein Mandantengeheimnis, eine Schweigepflicht oder eine interne Vorgabe das verbietet.

Bisher hieß meine Antwort in genau diesen Fällen: dann eben keine KI, oder nur für die unkritischen Teile. Lokale Modelle waren entweder zu schwach, um nützlich zu sein, oder brauchten teure Spezialhardware. Das hat sich in den letzten Monaten verschoben.

Was sich gerade geändert hat

Anfang Juni hat Google Gemma 4 12B veröffentlicht, ein offenes Modell, das genau in die Lücke zielt. Die Zahlen, die es interessant machen:

Es läuft mit 16 GB RAM, also auf einem normalen Laptop oder einem kleinen Mac Mini, ohne Grafikkarte für tausende Euro.
Es versteht Text, Bild und Audio direkt im selben Modell. Du kannst es ein Dokument lesen, ein Foto beschreiben oder eine Sprachnotiz auswerten lassen.
Die Lizenz ist Apache 2.0, also auch im Betrieb kommerziell nutzbar, ohne juristisches Kleingedrucktes.
In gängigen Tests kommt es nah an ein doppelt so großes Modell heran und schlägt die ältere, deutlich größere Vorgängergeneration.

Wichtig ist die Erwartung. Ein lokales 12B-Modell ist nicht so klug wie das beste, was ChatGPT oder Claude in der Cloud anbieten. Bei kniffligem Schlussfolgern, langen Verträgen und echten Fachfragen merkt man den Abstand. Aber für Standardarbeit, also Texte glätten, zusammenfassen, sortieren, erste Entwürfe, ist es gut genug, und das auf Hardware, die viele ohnehin im Haus haben.

Wann lokal sinnvoll ist, wann nicht

Die Entscheidung ist keine Glaubensfrage, sondern hängt an der Art der Daten und der Aufgabe.

Lokal lohnt sich, wenn

die Daten aus rechtlichen oder vertraglichen Gründen das Haus nicht verlassen dürfen, etwa Mandanten-, Patienten- oder Personaldaten;
oft an einem festen Ort gearbeitet wird, an dem das Internet wackelt oder bewusst nicht genutzt werden soll;
die Aufgaben Standard sind und sich wiederholen, sodass das schwächere Modell trotzdem reicht.

Die Cloud bleibt besser, wenn

die Daten ohnehin unkritisch sind und ein Auftragsverarbeitungsvertrag den Datenschutz abdeckt;
du die volle Stärke für schwierige Analysen, lange Dokumente oder anspruchsvolle Texte brauchst;
niemand im Haus die Zeit hat, sich um Einrichtung und Updates zu kümmern.

Der Reflex, alles aus Datenschutzangst lokal zu betreiben, ist genauso falsch wie der Reflex, alles in die Cloud zu kippen. Trenne deine Aufgaben in sensibel und unkritisch. Das Sensible bleibt lokal, der Rest läuft in der Cloud, die dort einfach stärker ist.

So fängst du klein an

Du musst dafür nichts kaufen und niemanden beauftragen. Ein Nachmittag reicht, um zu sehen, ob es für dich trägt.

Gerät prüfen. Ein Rechner mit 16 GB RAM genügt. Ein aktueller Mac Mini ist dafür der günstigste saubere Einstieg, ein vorhandener Business-Laptop tut es auch.
Ollama oder LM Studio installieren. Beides ist kostenlos. LM Studio hat eine Oberfläche zum Klicken, Ollama läuft schlank im Hintergrund. Für den ersten Versuch nimm LM Studio.
Gemma 4 12B laden. In der App nach dem Modell suchen, herunterladen, fertig. Ab jetzt läuft alles offline.
Mit einer echten, sensiblen Aufgabe testen. Nimm genau den Fall, den du bisher aus Datenschutzgründen nicht in die Cloud gegeben hast, und schau, ob das Ergebnis für deinen Zweck reicht.

Wenn der Test überzeugt, lohnt sich der nächste Schritt: das Modell fest in einen Ablauf einbauen, statt jedes Mal von Hand zu fragen. Wenn nicht, hast du einen Nachmittag investiert und weißt sicher, dass für deinen Fall die Cloud mit sauberem Vertrag der richtige Weg ist. Beides ist ein gutes Ergebnis.

Fazit

Lokale KI ist von der Demo zum Werkzeug geworden. Für die meisten Aufgaben bleibt die Cloud die einfachere und stärkere Wahl, daran ändert sich nichts. Aber für die Daten, die wirklich nicht raus dürfen, gibt es jetzt zum ersten Mal eine Antwort, die nicht "dann eben nicht" lautet. Mein Rat: trenne sauber zwischen sensibel und unkritisch, probier den lokalen Weg an einem konkreten Fall aus, und entscheide danach. Ich bin selbst noch dabei zu lernen, wo genau die Grenze für den Alltag liegt, aber dass die Option ernst geworden ist, steht für mich fest.

AI Sprint am 10. Juni in Husum

Halbtag, 349 Euro, 10 Plätze. Wir schauen deine Abläufe an, klären welche Daten in die Cloud dürfen und welche lokal bleiben, und nehmen einen Fall mit, der danach läuft.

Platz sichern

Quelle: Gemma 4 12B, multimodal und lokal auf handelsüblicher Hardware (the decoder, Juni 2026). Werkzeuge: Ollama, LM Studio. Eigene Erfahrung aus Workshops und Kunden-Setups, 2026.