
Open Source dominiert die AI-Woche: Google veröffentlicht Gemma 4 für On-Device-AI, Meta öffnet Llama 4 Scout für die Community, und Mistral überrascht mit Magistral Small — einem kompakten Reasoning-Modell, das proprietäre Alternativen herausfordert. Willkommen in KW 15.
🔥 Top-Story: Google Gemma 4 — Open-Source-AI für Smartphones und Edge Devices

Google hat am 9. April Gemma 4 vorgestellt — die vierte Generation seiner Open-Source-Modellreihe, optimiert für On-Device-Inference. Die Modelle kommen in drei Größen: Gemma 4 1B, 4B und 12B Parameter.
Der Fokus liegt klar auf Edge-AI: Das 4B-Modell läuft auf aktuellen Smartphones mit unter 3 GB RAM und erreicht dabei laut Google 92% der Performance des deutlich größeren Gemini 2.0 Flash-Lite bei Alltagsaufgaben wie Zusammenfassungen, Übersetzungen und einfachem Reasoning.
Technisch setzt Gemma 4 auf eine neue Shared-Vocabulary-Architektur: Alle drei Modellgrößen teilen sich denselben Tokenizer und können damit nahtlos in einer Pipeline kombiniert werden — erst das 1B-Modell für Klassifikation, dann das 12B-Modell nur bei Bedarf. Das spart Compute und Akku.
Warum das interessant ist: On-Device-AI ist der nächste große Markt. Gemma 4 ist das erste Open-Source-Modell, das bei dieser Größe wirklich praxistauglich auf dem Smartphone läuft — ohne Cloud-Roundtrip, ohne Latenz, ohne Datenschutz-Bedenken.
Quellen: Google Blog: Gemma 4 | Google AI Dev: Gemma Core Docs
Neue Modelle & Releases
Meta Llama 4 Scout: 109B-Parameter-Modell mit 10M Token Kontext
Meta hat Llama 4 Scout veröffentlicht — ein Mixture-of-Experts-Modell mit 17B aktiven Parametern bei 109B Gesamtparametern. Das Besondere: Ein Kontextfenster von 10 Millionen Tokens, das längste aller Open-Source-Modelle.
Scout nutzt eine neue interleaved attention-Architektur, die den KV-Cache um 88% reduziert. Damit passt das volle 10M-Token-Fenster auf eine einzelne H100-GPU. Auf Benchmarks wie MMLU-Pro und LiveCodeBench schlägt Scout laut Meta sowohl Gemma 3 27B als auch Qwen 2.5 72B.
Warum das interessant ist: 10 Millionen Tokens Kontext in einem Open-Source-Modell eröffnet völlig neue Anwendungen — von Codebase-weitem Reasoning bis hin zu Langzeit-Agenten, die hunderte Dokumente gleichzeitig verarbeiten können.
Quellen: Meta AI Blog: Llama 4 Scout & Maverick
Mistral Magistral Small: Kompaktes Reasoning zum Bruchteil der Kosten
Mistral hat mit Magistral Small ein Reasoning-Modell mit 24B Parametern vorgestellt. Das Modell nutzt Chain-of-Thought-Reasoning und erreicht auf MATH-500 96,4% Accuracy — auf dem Niveau von GPT-5.4 Thinking, aber bei einem Bruchteil der Kosten.
Magistral Small ist unter der Apache 2.0 Lizenz verfügbar und läuft lokal auf Consumer-Hardware mit 16 GB VRAM. Mistral positioniert es explizit als Alternative für Teams, die Reasoning-Fähigkeiten brauchen, aber kein Budget für proprietäre API-Calls haben.
Warum das interessant ist: Reasoning-Modelle waren bisher eine Domäne der großen proprietären Anbieter. Magistral Small zeigt, dass kompakte Open-Source-Modelle bei mathematischem und logischem Reasoning mithalten können.
Quellen: Mistral AI: Magistral Small
Open Source & Infrastructure
Hugging Face Inference Endpoints: Neue GPU-Tiers und Auto-Scaling
Hugging Face hat seine Inference Endpoints überarbeitet: Neue GPU-Tiers mit L40S und H200, automatisches Scale-to-Zero (zahle nur bei Nutzung), und native Unterstützung für quantisierte Modelle (GGUF, AWQ, GPTQ) ohne manuelle Konfiguration.
Für kleinere Teams besonders relevant: Der neue Serverless Tier ab $0,10/Stunde für Modelle bis 7B Parameter — inklusive automatischem Batching und Rate-Limiting.
Warum das interessant ist: Die Einstiegshürde für selbst-gehostete Open-Source-Modelle sinkt weiter. Wer bisher zwischen „teurer API" und „eigener GPU-Server" wählen musste, bekommt jetzt einen praktikablen Mittelweg.
Quellen: Hugging Face Blog: Inference Endpoints Update
vLLM 0.9: Multi-Node-Inference und Hardware-Agnostik
Das Open-Source-Inference-Framework vLLM hat Version 0.9 veröffentlicht. Die Highlights: Native Multi-Node-Inference über mehrere Maschinen hinweg, Unterstützung für AMD MI300X und Intel Gaudi 3, und ein neues Disaggregated Prefill/Decode-System, das Latenz und Throughput gleichzeitig optimiert.
Warum das interessant ist: vLLM wird zum de-facto Standard für Open-Source-LLM-Serving. Multi-Node-Support macht es jetzt auch für große Modelle (70B+) praktikabel, ohne auf proprietäre Lösungen wie TensorRT-LLM angewiesen zu sein.
Quellen: vLLM Blog: v0.9 Release
Community-Highlight
Browser Use: Open-Source-Agent steuert den Browser autonom
Browser Use hat diese Woche die 70.000-Star-Marke auf GitHub geknackt. Das Python-Framework verbindet LLMs mit einem echten Browser und ermöglicht autonome Web-Navigation — Formulare ausfüllen, Recherche durchführen, Daten extrahieren.
Neu in der aktuellen Version: Multi-Tab-Support, Vision-basierte Element-Erkennung (statt reinem DOM-Parsing), und ein Replay-System, das alle Agent-Aktionen als Video aufzeichnet — ideal für Debugging und Compliance-Nachweise.
Quelle: GitHub: browser-use
Fazit
KW 15 steht ganz im Zeichen von Open Source: Gemma 4 bringt praxistaugliche AI aufs Smartphone, Llama 4 Scout setzt neue Maßstäbe beim Kontextfenster, und Magistral Small demokratisiert Reasoning. Die Infrastruktur zieht nach — mit vLLM 0.9 und Hugging Face Endpoints wird das Deployment offener Modelle immer zugänglicher. Der Trend ist klar: Die besten AI-Tools sind nicht mehr zwangsläufig die teuersten.
Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.


