AI News KW 15: Gemma 4, Llama 4 Scout & Magistral Small

Open Source dominiert die AI-Woche: Google veröffentlicht Gemma 4 für On-Device-AI, Meta öffnet Llama 4 Scout für die Community, und Mistral überrascht mit Magistral Small — einem kompakten Reasoning-Modell, das proprietäre Alternativen herausfordert. Willkommen in KW 15.

🔥 Top-Story: Google Gemma 4 — Open-Source-AI für Smartphones und Edge Devices

Google Gemma 4: On-Device-AI für Smartphones und Edge Devices

Google hat am 9. April Gemma 4 vorgestellt — die vierte Generation seiner Open-Source-Modellreihe, optimiert für On-Device-Inference. Die Modelle kommen in drei Größen: Gemma 4 1B, 4B und 12B Parameter.

Der Fokus liegt klar auf Edge-AI: Das 4B-Modell läuft auf aktuellen Smartphones mit unter 3 GB RAM und erreicht dabei laut Google 92% der Performance des deutlich größeren Gemini 2.0 Flash-Lite bei Alltagsaufgaben wie Zusammenfassungen, Übersetzungen und einfachem Reasoning.

Technisch setzt Gemma 4 auf eine neue Shared-Vocabulary-Architektur: Alle drei Modellgrößen teilen sich denselben Tokenizer und können damit nahtlos in einer Pipeline kombiniert werden — erst das 1B-Modell für Klassifikation, dann das 12B-Modell nur bei Bedarf. Das spart Compute und Akku.

Warum das interessant ist: On-Device-AI ist der nächste große Markt. Gemma 4 ist das erste Open-Source-Modell, das bei dieser Größe wirklich praxistauglich auf dem Smartphone läuft — ohne Cloud-Roundtrip, ohne Latenz, ohne Datenschutz-Bedenken.

Quellen: Google Blog: Gemma 4 | Google AI Dev: Gemma Core Docs

Neue Modelle & Releases

Meta Llama 4 Scout: 109B-Parameter-Modell mit 10M Token Kontext

Meta hat Llama 4 Scout veröffentlicht — ein Mixture-of-Experts-Modell mit 17B aktiven Parametern bei 109B Gesamtparametern. Das Besondere: Ein Kontextfenster von 10 Millionen Tokens, das längste aller Open-Source-Modelle.

Scout nutzt eine neue interleaved attention-Architektur, die den KV-Cache um 88% reduziert. Damit passt das volle 10M-Token-Fenster auf eine einzelne H100-GPU. Auf Benchmarks wie MMLU-Pro und LiveCodeBench schlägt Scout laut Meta sowohl Gemma 3 27B als auch Qwen 2.5 72B.

Warum das interessant ist: 10 Millionen Tokens Kontext in einem Open-Source-Modell eröffnet völlig neue Anwendungen — von Codebase-weitem Reasoning bis hin zu Langzeit-Agenten, die hunderte Dokumente gleichzeitig verarbeiten können.

Quellen: Meta AI Blog: Llama 4 Scout & Maverick

Mistral Magistral Small: Kompaktes Reasoning zum Bruchteil der Kosten

Mistral hat mit Magistral Small ein Reasoning-Modell mit 24B Parametern vorgestellt. Das Modell nutzt Chain-of-Thought-Reasoning und erreicht auf MATH-500 96,4% Accuracy — auf dem Niveau von GPT-5.4 Thinking, aber bei einem Bruchteil der Kosten.

Magistral Small ist unter der Apache 2.0 Lizenz verfügbar und läuft lokal auf Consumer-Hardware mit 16 GB VRAM. Mistral positioniert es explizit als Alternative für Teams, die Reasoning-Fähigkeiten brauchen, aber kein Budget für proprietäre API-Calls haben.

Warum das interessant ist: Reasoning-Modelle waren bisher eine Domäne der großen proprietären Anbieter. Magistral Small zeigt, dass kompakte Open-Source-Modelle bei mathematischem und logischem Reasoning mithalten können.

Quellen: Mistral AI: Magistral Small

Open Source & Infrastructure

Hugging Face Inference Endpoints: Neue GPU-Tiers und Auto-Scaling

Hugging Face hat seine Inference Endpoints überarbeitet: Neue GPU-Tiers mit L40S und H200, automatisches Scale-to-Zero (zahle nur bei Nutzung), und native Unterstützung für quantisierte Modelle (GGUF, AWQ, GPTQ) ohne manuelle Konfiguration.

Für kleinere Teams besonders relevant: Der neue Serverless Tier ab $0,10/Stunde für Modelle bis 7B Parameter — inklusive automatischem Batching und Rate-Limiting.

Warum das interessant ist: Die Einstiegshürde für selbst-gehostete Open-Source-Modelle sinkt weiter. Wer bisher zwischen „teurer API" und „eigener GPU-Server" wählen musste, bekommt jetzt einen praktikablen Mittelweg.

Quellen: Hugging Face Blog: Inference Endpoints Update

vLLM 0.9: Multi-Node-Inference und Hardware-Agnostik

Das Open-Source-Inference-Framework vLLM hat Version 0.9 veröffentlicht. Die Highlights: Native Multi-Node-Inference über mehrere Maschinen hinweg, Unterstützung für AMD MI300X und Intel Gaudi 3, und ein neues Disaggregated Prefill/Decode-System, das Latenz und Throughput gleichzeitig optimiert.

Warum das interessant ist: vLLM wird zum de-facto Standard für Open-Source-LLM-Serving. Multi-Node-Support macht es jetzt auch für große Modelle (70B+) praktikabel, ohne auf proprietäre Lösungen wie TensorRT-LLM angewiesen zu sein.

Quellen: vLLM Blog: v0.9 Release

Community-Highlight

Browser Use: Open-Source-Agent steuert den Browser autonom

Browser Use hat diese Woche die 70.000-Star-Marke auf GitHub geknackt. Das Python-Framework verbindet LLMs mit einem echten Browser und ermöglicht autonome Web-Navigation — Formulare ausfüllen, Recherche durchführen, Daten extrahieren.

Neu in der aktuellen Version: Multi-Tab-Support, Vision-basierte Element-Erkennung (statt reinem DOM-Parsing), und ein Replay-System, das alle Agent-Aktionen als Video aufzeichnet — ideal für Debugging und Compliance-Nachweise.

Quelle: GitHub: browser-use

Fazit

KW 15 steht ganz im Zeichen von Open Source: Gemma 4 bringt praxistaugliche AI aufs Smartphone, Llama 4 Scout setzt neue Maßstäbe beim Kontextfenster, und Magistral Small demokratisiert Reasoning. Die Infrastruktur zieht nach — mit vLLM 0.9 und Hugging Face Endpoints wird das Deployment offener Modelle immer zugänglicher. Der Trend ist klar: Die besten AI-Tools sind nicht mehr zwangsläufig die teuersten.

Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.

AI News KW 15: Gemma 4, Llama 4 Scout & Magistral Small

🔥 Top-Story: Google Gemma 4 — Open-Source-AI für Smartphones und Edge Devices

Neue Modelle & Releases

Meta Llama 4 Scout: 109B-Parameter-Modell mit 10M Token Kontext

Mistral Magistral Small: Kompaktes Reasoning zum Bruchteil der Kosten

Open Source & Infrastructure

Hugging Face Inference Endpoints: Neue GPU-Tiers und Auto-Scaling

vLLM 0.9: Multi-Node-Inference und Hardware-Agnostik

Community-Highlight

Browser Use: Open-Source-Agent steuert den Browser autonom

Fazit

Tags

Teilen

Weitere Artikel

Tech News KW 14: TypeScript 6.0 als letzte JS-Version, Ingress-NGINX am Ende, und Atlassian baut 1.600 Stellen ab

AI News KW 14: LiteLLM-Backdoor, Sora-Ende & Capybara