
Letzte Woche hat sich der Open-Weight-Markt um eine Größe erweitert, die für DACH-Unternehmen mehr verändert als jede Closed-Source-Roadmap der nächsten sechs Monate. Mistral hat mit Medium 3.5 das erste europäische 128-Milliarden-Parameter-Modell mit 256K-Context und kommerziell freundlicher Lizenz veröffentlicht — und am gleichen Tag eine eigene Coding-Agent-Cloud um Vibe Coding herum aufgemacht. Parallel hat DeepSeek mit V4PLUS die Token-Preise nach unten korrigiert, vLLM v0.20.1 hat eine CVE-Welle gefangen, und in Brüssel wird gerade verhandelt, ob die High-Risk-Pflichten des AI Act um 16 Monate verschoben werden. Hier ist, was in KW 19 wirklich relevant war.
Top-Story: Mistral Medium 3.5 — drei Modelle, 256K Context, 4 GPUs
Mistral hat am 29. April Medium 3.5 veröffentlicht — ein dichtes 128-Milliarden-Parameter-Modell mit 256K-Token-Context, das die bisherigen Mistral-Familien Devstral 2 (Coding), Magistral (Reasoning) und Medium 3.1 (Instruction-Following) in einem einzigen Stack konsolidiert. Laut Mistral erreicht das Modell auf SWE-Bench Verified 77,6 Prozent und liegt damit in einer Liga, die bisher Closed-Source-Modellen vorbehalten war.
Der Hebel sitzt aber nicht auf dem Benchmark, sondern in der Hardware-Anforderung: Self-hosted ab 4 H100/H200-Karten für die Standard-Inferenz, mit 4-Bit-Quantisierung auf einem einzelnen H200-Knoten realistisch. Das ist die Hardware-Klasse, die mittelständische DACH-Unternehmen sich entweder selbst hinstellen oder als Service einkaufen — kein hyperskaliertes Cluster mehr, sondern eine planbare Investition.
Mistral hat zur Premiere zusätzlich den Vibe Cloud Coding Agent angekündigt, der über die hauseigene API GitHub-PRs autonom öffnet und schließt. Wer den Agent nicht in die Cloud auslagern will, kann das gleiche Pattern lokal mit Cline oder Roo Code gegen einen vLLM-Endpoint fahren — wir kommen am Freitag im Agentic-Engineering-Deep-Dive ausführlich darauf zurück. API-Preis: 1,50 US-Dollar pro 1 Million Input-Tokens und 7,50 US-Dollar Output. Die Lizenz für Self-Hosting bleibt Mistral Research License + Apache-2.0-Variante für kommerzielle Nutzung über die offizielle Distributoren-Schiene — also nicht ganz so offen wie MIT, aber für DACH-Mittelstand und Behörden direkt nutzbar.
Quelle: Mistral News
DeepSeek V4PLUS — 2,65 US-Dollar pro 100 Millionen Tokens
Am 27. April hat DeepSeek mit V4PLUS ein inkrementelles Update zu V4 nachgelegt, das vor allem an einer Stelle interessant ist: dem Preis. 2,65 US-Dollar für 100 Millionen Tokens — laut LLM Stats AI News und mehreren Reposts auf r/LocalLLaMA der bisher niedrigste Wert auf Frontier-Niveau. Architektur und Lizenz bleiben unverändert: V4 Pro mit 1,6 Billionen Mixture-of-Experts-Parametern und 49 Milliarden aktiv, V4 Flash mit 284 Milliarden total und 13 Milliarden aktiv, beide unter MIT.
Praktisch heißt das: Wer Cloud-Inferenz über die DeepSeek-API einkauft, fährt gegen die Hyperscaler-Preise einen Faktor 5 bis 10 günstiger. Wer self-hosted, profitiert vom unverändert MIT-lizenzierten Open-Weight — mit der Einschränkung, dass V4 Pro auf einem kleinen Cluster operiert und V4 Flash auf einem Single-H100-Knoten lauffähig bleibt. vLLM v0.20.0 unterstützt beide Day-Zero.
Quelle: DeepSeek GitHub · LLM Stats AI News · vLLM v0.20.0 Release
vLLM v0.20.1 — Patch für protobuf-CVE und NVFP4 Blackwell
vLLM hat am 3. Mai v0.20.1 als Patch-Release nachgeschoben. Wichtigster Punkt: ein Fix für CVE-2026-0994 in der protobuf-Dependency sowie Transformers-v5-Kompatibilität. Außerdem wurde das Bitblas-/Marlin-24-Backend entfernt, und für RTX-Blackwell-Hardware kamen NVFP4-MoE-Kernel-Fixes dazu — relevant für alle, die V4 Flash oder Mistral Medium 3.5 auf einem RTX-PRO-6000-Workstation-Setup fahren.
Die eigentliche Substanz steckt aber in der vorausgegangenen v0.20.0 (Ende April, 752 Commits, 320 Beitragende, davon 123 neu). TurboQuant 2-Bit KV Cache verspricht laut Latent Space bis zu 4-fache Kapazität pro VRAM-Einheit gegenüber 8-Bit, FA4 ist Default-MLA-Prefill auf SM90+, und die vLLM IR Foundation legt den Grundstein für eine portable Inference-Repräsentation jenseits CUDA. Mit DeepSeek V4 Pro und Hunyuan v3 Preview Support hat das Release außerdem zwei neue Frontier-Architekturen Day-Zero im Programm.
Quelle: vLLM v0.20.1 Release · vLLM v0.20.0 Release · Latent Space Coverage
Ollama v0.23.0 — Claude Desktop direkt aus der CLI
Ollama hat am 3. Mai v0.23.0 veröffentlicht, mit zwei Neuerungen, die sofort spürbar sind. Erstens Claude Desktop Support in ollama launch — also ollama launch claude startet die Desktop-App, inklusive Claude Cowork und Claude Code im Claude Desktop App. Zweitens server-driven Model Recommendations: Die Modell-Auswahl in der CLI lässt sich jetzt aktualisieren, ohne dass eine neue Ollama-Version benötigt wird.
Dazu kommt ein aktualisierter Gemma-4-Renderer für Thinking + Tool Calling, ein Fix für den OpenClaw-Gateway-Timeout auf Windows (IPv4-Loopback-Edge-Case) und gehärtete Metal-Initialisierung. Das macht Ollama auf Apple Silicon bei der ersten Modell-Ladung etwas robuster — ein nützlicher Fix für Mac-Studio-Workstations.
Quelle: Ollama Releases · Ollama Changelog v0.23.0
EU AI Act Omnibus — Trilog am 13. Mai entscheidet über Verschiebung
In Brüssel laufen seit dem 28. April Trilog-Verhandlungen zur Digital AI Omnibus, die für DACH-Mittelstand direkt relevant sind. Kernpunkt: Die High-Risk-Pflichten des EU AI Act sollen vom 2. August 2026 auf den 2. Dezember 2027 verschoben werden — eine 16-Monats-Verlängerung, die für Compliance-Teams in Industrie, Behörden und KI-Anbietern den Druck reduziert. Der nächste Trilog ist für den 13. Mai angesetzt, finale Entscheidung wird im Mai/Juni erwartet.
Parallel arbeitet die Kommission am Code on Marking and Labelling of AI-Generated Content — also der konkreten Umsetzung der Kennzeichnungspflichten. 32 Organisationen warnen laut Netzpolitik vor Schlupflöchern in den Bereichen Medizinprodukte, Spielzeug und Funkanlagen, weil die Verschiebung zu einer Lücke in der Produktsicherheits-Regulierung führen könnte. Wer im DACH-Raum eine KI-Plattform für High-Risk-Use-Cases (Verwaltung, Gesundheit, kritische Infrastruktur) plant, sollte den 13. Mai im Kalender markieren — und die Sovereign-Tech-Standards-Network-Pilotinitiative im Auge behalten, die parallel als DACH-Antwort gestartet wurde.
Quelle: Netzpolitik EU AI Act Coverage · EU-Kommission Code on AI Content
Olmo 3.1 Think 32B — vollständig offen, vollständig nachvollziehbar
Das Allen Institute (AI2) hat in der vergangenen Woche Olmo 3.1 Think 32B als "stärkstes vollständig offenes Thinking-Modell" positioniert — und das Adjektiv "vollständig" trägt hier mehr Gewicht als üblich. Veröffentlicht werden nicht nur die Gewichte, sondern alle Trainings-Checkpoints, das komplette Datenset und sämtliche Dependencies. Das macht das Modell für akademische Reproduzierbarkeit und für regulierte DACH-Branchen interessant, in denen der vollständige Trainings-Audit-Trail Teil der Compliance-Anforderung ist.
Turing Post ordnet Olmo 3.1 in einen breiteren Kontext ein: Geopolitik wird zur dritten Variable in Modellauswahl-Pipelines neben Performance und Kosten. Chinesische Open-Weight-Modelle wie DeepSeek, Qwen und MiniMax dominieren auf der Effizienz-Seite, US-amerikanische Open-Weights bleiben rar (Olmo, Llama). Für europäische Teams, die "Souveräne KI" konkret bauen müssen, bietet Olmo eine echte Alternative — auch wenn die reine Performance noch hinter Mistral Medium 3.5 oder DeepSeek V4 zurückbleibt.
Quelle: Allen Institute Olmo
MCP Protocol — 10.000+ Enterprise Server, 97 Millionen SDK-Downloads
Anthropic hat in der vergangenen Woche neue Adoption-Zahlen für das Model Context Protocol genannt, die das Ausmaß sichtbar machen: mehr als 10.000 produktive Enterprise-MCP-Server und 97 Millionen SDK-Downloads seit dem Release im November 2024. Appian und Snowflake haben ihre Partnerschaft für Unified-Metadata-Pipelines vorgestellt, Google rollt MCP in das gesamte Gemini-Ökosystem aus, und Salesforce hat MCP-Native Datasets in Data Cloud angekündigt.
Was in der Diskussion auf The New Stack auffiel: MCP wird vom "Anthropic-Standard" zum branchenübergreifenden Default für Agent-Tooling. Wer noch eine eigene Tool-Calling-Schnittstelle baut, sollte sich gut überlegen, warum. Für unsere AI-OpenStack-Lösung hat das praktische Konsequenzen: Wir bauen MCP-Server konsequent als ersten Integrationspunkt, weil das Protokoll inzwischen breit unterstützt wird — von Cline über Claude Desktop bis Gemini Enterprise.
Quelle: Anthropic MCP Documentation · The New Stack on Agentic AI · Salesforce Data Cloud MCP
CNCF AI Survey — wie Cloud-Native und KI verschmelzen
Die Cloud Native Computing Foundation hat am 29. April den ersten State of AI in CNCF projects veröffentlicht — eine Survey unter 133 Respondents aus rund 100 CNCF-Projekten zur Frage, wie KI in Cloud-Native-Open-Source-Projekte einzieht. Die Survey läuft noch bis 18. Mai, der Zwischenstand zeigt aber schon ein klares Bild: KI ist bei den meisten Projekten weniger Endprodukt als Infrastruktur — Code-Review-Bots, Issue-Triage, automatisierte Doku-Generierung dominieren.
Parallel zeichnet sich eine zweite Welle ab: AI-First Internal Developer Platforms. Mit OpenChoreo 1.0 hat in der vergangenen Woche ein neues Projekt die CNCF-Sandbox erreicht, das genau diese Richtung markiert. Für Teams, die Kubernetes 1.36 "Haru" mit Workload-Aware Scheduling für AI/ML produktiv ausrollen wollen, ist das die strategische Klammer — und ein Hinweis, dass die nächste Plattform-Generation nicht nur Container orchestriert, sondern auch Modell-Inference und Agent-Workflows als regulierte First-Class-Bürger behandelt.
Quelle: CNCF Blog · Kubernetes 1.36 Release Notes
Kurz notiert
- Anthropic erwägt laut TheSequence Radar #853 eine neue Funding-Runde mit Bewertung über 900 Milliarden US-Dollar — die größte je dokumentierte Bewertung für ein KI-Lab. Im gleichen Issue: NVIDIA Nemotron als neues Modell-Release und ein zunehmender Trend zu "Software gebaut für AI-Agenten statt für Menschen". Quelle: TheSequence.
- Poolside hat mit Laguna XS.2 das erste öffentliche Modell publiziert — ein 33-Milliarden-MoE-Coding-Modell mit 3 Milliarden aktiven Parametern unter Apache 2.0, lauffähig auf einer einzelnen GPU. Quelle: Latent Space.
- Simon Willison hat am 29. April LLM 0.32a0 als größeren, rückwärtskompatiblen Refactor veröffentlicht — sein CLI/Python-Tool für LLMs ist damit bereit für die nächste Modell-Generation. Quelle: Simon Willison Blog.
- Bundesministerium für Digitales und Staatsmodernisierung startet 18 Pilotprojekte für KI-Agenten in 17 deutschen Kommunen mit zehn Startups — gefiltert aus rund 400 Startups und 200 Kommunen, die Interesse bekundet hatten. Der "Agentic AI Hub" ist Teil des breiteren KI-Behörden-Plans für 2026. Quelle: eGovernment Computing.
- GPT-5.5 wurde am 23. April von OpenAI als erstes vollständig neutrainiertes Basismodell seit GPT-4.5 veröffentlicht. Spitzenwert auf Terminal-Bench 2.0 mit 82,7 Prozent, Claude Opus 4.7 führt aber weiterhin auf GPQA, HLE, SWE-Bench Pro, MCP Atlas und FinanceAgent v1.1. Quelle: LLM Stats.
Fazit
KW 19 zementiert ein Bild, das sich seit März abzeichnet: Open-Weight-Modelle sind im Coding-Bereich nicht mehr "fast so gut wie", sondern in vielen praktischen Use-Cases gleichwertig oder besser — und mit Mistral Medium 3.5 hat Europa zum ersten Mal seit DeepSeek V3 ein Modell, das in dieser Liga mitspielen kann und gleichzeitig für DACH-Behörden und Mittelstand kommerziell akzeptabel lizenziert ist. Auf der Cost-Side hat DeepSeek V4PLUS die Schmerzgrenze nochmal nach unten verschoben, und vLLM v0.20.1 zeigt, dass die Inference-Tooling-Seite mit dem Modell-Wettlauf inzwischen Schritt hält. Daneben verhandelt Brüssel über die Verschiebung der High-Risk-Pflichten des AI Act um 16 Monate — was Atempause bringt, aber auch neue Unsicherheit, weil das Sovereign-Tech-Standards-Network parallel zur Realität wird. Wer jetzt eine eigene KI-Infrastruktur plant, hat in dieser Woche ein neues Set Optionen bekommen — und einen Blick auf den 13. Mai im Brüsseler Kalender solltest du dir reservieren.
Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.


