Gemma 4 lokal

Google bringt mit Gemma 4 das bislang leistungsstärkste Open-Source-Modell heraus, das auf nahezu jeder Hardware läuft: Vom Raspberry Pi über Smartphones und Tablets bis hin zu High-End-PCs.

Gemma 4 ist Google Deepminds neue Familie offener Modelle: Sie gliedern sich in E2B, E4B, 26B-A4B, und 31B. Mehrere Dinge heben Gemma aus der breiten Masse der KI-Modelle hervor. Es lässt sich auf dem eigenen Rechner installieren und steht unter der großzügigen Lizenz Apache 2.0; komplett kostenlos, komplett lokal. Kein Abo, keine API-Keys, keine Daten in der Cloud. Alle Modelle sind multimodal. Selbst das kleinste verarbeitet Text, Bilder, Videos und Audio. Das ist bei lokalen Modellen eher selten. Die meisten beschränken sich auf reinen Text. Gemma 4 hat mit 128.000 Token (E2B/E4B) und 256.000 Token (26B A4B/31B) ein ordentliches Kontext-Fenster und verfügt zudem über Reasoning-Fähigkeiten.

Der Artikel beleuchtet, wie gut sich Gemma 4 für Schlussfolgerungen, Coding, Text-Arbeit, und multimodale Aufgaben eignet. Die kleineren Varianten E2B und E4B sind für Smartphones und Laptops gedacht, während die größeren Modelle auf Systeme mit mittlerer bis hoher CPU-Leistung und RAM-Kapazität abzielen. E2B steht für „Effective 2 Billion“ – das Modell verhält sich in Bezug auf Qualität und Geschwindigkeit wie ein Modell mit zwei Milliarden Parametern. E4B ist die Variante „Effective 4 Billion“. Beide akzeptieren multimodale Eingaben, Text, Bilder, Video und anders als die beiden großen Modelle auch Audio. Das Modell 26B-A4B unterscheidet sich von den anderen. Es nutzt die Technik Mixture of Experts und setzt jeweils nur 3,8 Milliarden Parameter ein. Sie bekommen also die Geschwindigkeit eines kleinen Modells aber eine Leistungsfähigkeit, die nahe an das Flaggschiff 31B mit 31 Milliarden Parametern heranreicht. Das Modell 26B-A4B soll nachfolgend als Beispiel dienen. […]

Fachartikel für Chip