[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-content-weekly-ai-news-kw19":3},"\u003Cp>Letzte Woche hat sich der Open-Weight-Markt um eine Größe erweitert, die für DACH-Unternehmen mehr verändert als jede Closed-Source-Roadmap der nächsten sechs Monate. Mistral hat mit Medium 3.5 das erste europäische 128-Milliarden-Parameter-Modell mit 256K-Context und kommerziell freundlicher Lizenz veröffentlicht — und am gleichen Tag eine eigene Coding-Agent-Cloud um Vibe Coding herum aufgemacht. Parallel hat DeepSeek mit V4PLUS die Token-Preise nach unten korrigiert, vLLM v0.20.1 hat eine CVE-Welle gefangen, und in Brüssel wird gerade verhandelt, ob die High-Risk-Pflichten des AI Act um 16 Monate verschoben werden. Hier ist, was in KW 19 wirklich relevant war.\u003C\u002Fp>\n\n\u003Ch2>Top-Story: Mistral Medium 3.5 — drei Modelle, 256K Context, 4 GPUs\u003C\u002Fh2>\n\u003Cp>Mistral hat am 29. April \u003Ca href=\"https:\u002F\u002Fmistral.ai\u002Fnews\" target=\"_blank\" rel=\"noopener noreferrer\">Medium 3.5\u003C\u002Fa> veröffentlicht — ein dichtes 128-Milliarden-Parameter-Modell mit 256K-Token-Context, das die bisherigen Mistral-Familien Devstral 2 (Coding), Magistral (Reasoning) und Medium 3.1 (Instruction-Following) in einem einzigen Stack konsolidiert. Laut Mistral erreicht das Modell auf SWE-Bench Verified 77,6 Prozent und liegt damit in einer Liga, die bisher Closed-Source-Modellen vorbehalten war.\u003C\u002Fp>\n\u003Cp>Der Hebel sitzt aber nicht auf dem Benchmark, sondern in der Hardware-Anforderung: \u003Cstrong>Self-hosted ab 4 H100\u002FH200-Karten\u003C\u002Fstrong> für die Standard-Inferenz, mit 4-Bit-Quantisierung auf einem einzelnen H200-Knoten realistisch. Das ist die Hardware-Klasse, die mittelständische DACH-Unternehmen sich entweder selbst hinstellen oder als Service einkaufen — kein hyperskaliertes Cluster mehr, sondern eine planbare Investition.\u003C\u002Fp>\n\u003Cp>Mistral hat zur Premiere zusätzlich den \u003Ca href=\"https:\u002F\u002Fmistral.ai\u002Fnews\" target=\"_blank\" rel=\"noopener noreferrer\">Vibe Cloud Coding Agent\u003C\u002Fa> angekündigt, der über die hauseigene API GitHub-PRs autonom öffnet und schließt. Wer den Agent nicht in die Cloud auslagern will, kann das gleiche Pattern lokal mit Cline oder Roo Code gegen einen vLLM-Endpoint fahren — wir kommen am Freitag im \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fagentic-engineering-2026-dsgvo-mistral-vllm-cline\">Agentic-Engineering-Deep-Dive\u003C\u002Fa> ausführlich darauf zurück. API-Preis: 1,50 US-Dollar pro 1 Million Input-Tokens und 7,50 US-Dollar Output. Die Lizenz für Self-Hosting bleibt \u003Cstrong>Mistral Research License + Apache-2.0-Variante für kommerzielle Nutzung über die offizielle Distributoren-Schiene\u003C\u002Fstrong> — also nicht ganz so offen wie MIT, aber für DACH-Mittelstand und Behörden direkt nutzbar.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fmistral.ai\u002Fnews\" target=\"_blank\" rel=\"noopener noreferrer\">Mistral News\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Cfigure>\n\u003Cimg src=\"\u002Fimages\u002Fblog\u002Fweekly-ai-news-kw19-mistral-stack.webp\" alt=\"Drei neuronale Netze konvergieren zu einem dichten Kern — Mistral Medium 3.5 Stack-Konsolidierung\" loading=\"lazy\">\n\u003C\u002Ffigure>\n\n\u003Ch2>DeepSeek V4PLUS — 2,65 US-Dollar pro 100 Millionen Tokens\u003C\u002Fh2>\n\u003Cp>Am 27. April hat DeepSeek mit \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\" target=\"_blank\" rel=\"noopener noreferrer\">V4PLUS\u003C\u002Fa> ein inkrementelles Update zu V4 nachgelegt, das vor allem an einer Stelle interessant ist: dem Preis. \u003Cstrong>2,65 US-Dollar für 100 Millionen Tokens\u003C\u002Fstrong> — laut \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">LLM Stats AI News\u003C\u002Fa> und mehreren Reposts auf \u003Ca href=\"https:\u002F\u002Fwww.reddit.com\u002Fr\u002FLocalLLaMA\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">r\u002FLocalLLaMA\u003C\u002Fa> der bisher niedrigste Wert auf Frontier-Niveau. Architektur und Lizenz bleiben unverändert: V4 Pro mit 1,6 Billionen Mixture-of-Experts-Parametern und 49 Milliarden aktiv, V4 Flash mit 284 Milliarden total und 13 Milliarden aktiv, beide unter MIT.\u003C\u002Fp>\n\u003Cp>Praktisch heißt das: Wer Cloud-Inferenz über die DeepSeek-API einkauft, fährt gegen die Hyperscaler-Preise einen Faktor 5 bis 10 günstiger. Wer self-hosted, profitiert vom unverändert MIT-lizenzierten Open-Weight — mit der Einschränkung, dass V4 Pro auf einem kleinen Cluster operiert und V4 Flash auf einem Single-H100-Knoten lauffähig bleibt. vLLM v0.20.0 unterstützt beide \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">Day-Zero\u003C\u002Fa>.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\" target=\"_blank\" rel=\"noopener noreferrer\">DeepSeek GitHub\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">LLM Stats AI News\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM v0.20.0 Release\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>vLLM v0.20.1 — Patch für protobuf-CVE und NVFP4 Blackwell\u003C\u002Fh2>\n\u003Cp>vLLM hat am 3. Mai \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.1\" target=\"_blank\" rel=\"noopener noreferrer\">v0.20.1\u003C\u002Fa> als Patch-Release nachgeschoben. Wichtigster Punkt: ein Fix für \u003Cstrong>CVE-2026-0994 in der protobuf-Dependency\u003C\u002Fstrong> sowie Transformers-v5-Kompatibilität. Außerdem wurde das Bitblas-\u002FMarlin-24-Backend entfernt, und für RTX-Blackwell-Hardware kamen NVFP4-MoE-Kernel-Fixes dazu — relevant für alle, die V4 Flash oder Mistral Medium 3.5 auf einem RTX-PRO-6000-Workstation-Setup fahren.\u003C\u002Fp>\n\u003Cp>Die eigentliche Substanz steckt aber in der vorausgegangenen \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">v0.20.0\u003C\u002Fa> (Ende April, 752 Commits, 320 Beitragende, davon 123 neu). \u003Cstrong>TurboQuant 2-Bit KV Cache\u003C\u002Fstrong> verspricht laut \u003Ca href=\"https:\u002F\u002Fwww.latent.space\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Latent Space\u003C\u002Fa> bis zu 4-fache Kapazität pro VRAM-Einheit gegenüber 8-Bit, \u003Cstrong>FA4 ist Default-MLA-Prefill auf SM90+\u003C\u002Fstrong>, und die vLLM IR Foundation legt den Grundstein für eine portable Inference-Repräsentation jenseits CUDA. Mit DeepSeek V4 Pro und Hunyuan v3 Preview Support hat das Release außerdem zwei neue Frontier-Architekturen Day-Zero im Programm.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.1\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM v0.20.1 Release\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM v0.20.0 Release\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fwww.latent.space\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Latent Space Coverage\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Ollama v0.23.0 — Claude Desktop direkt aus der CLI\u003C\u002Fh2>\n\u003Cp>Ollama hat am 3. Mai \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Follama\u002Follama\u002Freleases\" target=\"_blank\" rel=\"noopener noreferrer\">v0.23.0\u003C\u002Fa> veröffentlicht, mit zwei Neuerungen, die sofort spürbar sind. Erstens \u003Cstrong>Claude Desktop Support in \u003Ccode>ollama launch\u003C\u002Fcode>\u003C\u002Fstrong> — also \u003Ccode>ollama launch claude\u003C\u002Fcode> startet die Desktop-App, inklusive Claude Cowork und Claude Code im Claude Desktop App. Zweitens \u003Cstrong>server-driven Model Recommendations\u003C\u002Fstrong>: Die Modell-Auswahl in der CLI lässt sich jetzt aktualisieren, ohne dass eine neue Ollama-Version benötigt wird.\u003C\u002Fp>\n\u003Cp>Dazu kommt ein aktualisierter \u003Cstrong>Gemma-4-Renderer für Thinking + Tool Calling\u003C\u002Fstrong>, ein Fix für den OpenClaw-Gateway-Timeout auf Windows (IPv4-Loopback-Edge-Case) und gehärtete Metal-Initialisierung. Das macht Ollama auf Apple Silicon bei der ersten Modell-Ladung etwas robuster — ein nützlicher Fix für Mac-Studio-Workstations.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Follama\u002Follama\u002Freleases\" target=\"_blank\" rel=\"noopener noreferrer\">Ollama Releases\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Follama\u002Follama\u002Freleases\u002Ftag\u002Fv0.23.0\" target=\"_blank\" rel=\"noopener noreferrer\">Ollama Changelog v0.23.0\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>EU AI Act Omnibus — Trilog am 13. Mai entscheidet über Verschiebung\u003C\u002Fh2>\n\u003Cp>In Brüssel laufen seit dem 28. April \u003Ca href=\"https:\u002F\u002Fnetzpolitik.org\" target=\"_blank\" rel=\"noopener noreferrer\">Trilog-Verhandlungen zur Digital AI Omnibus\u003C\u002Fa>, die für DACH-Mittelstand direkt relevant sind. Kernpunkt: Die \u003Cstrong>High-Risk-Pflichten des EU AI Act sollen vom 2. August 2026 auf den 2. Dezember 2027 verschoben werden\u003C\u002Fstrong> — eine 16-Monats-Verlängerung, die für Compliance-Teams in Industrie, Behörden und KI-Anbietern den Druck reduziert. Der nächste Trilog ist für den \u003Cstrong>13. Mai\u003C\u002Fstrong> angesetzt, finale Entscheidung wird im Mai\u002FJuni erwartet.\u003C\u002Fp>\n\u003Cp>Parallel arbeitet die Kommission am \u003Ca href=\"https:\u002F\u002Fec.europa.eu\" target=\"_blank\" rel=\"noopener noreferrer\">Code on Marking and Labelling of AI-Generated Content\u003C\u002Fa> — also der konkreten Umsetzung der Kennzeichnungspflichten. \u003Cstrong>32 Organisationen warnen laut Netzpolitik vor Schlupflöchern\u003C\u002Fstrong> in den Bereichen Medizinprodukte, Spielzeug und Funkanlagen, weil die Verschiebung zu einer Lücke in der Produktsicherheits-Regulierung führen könnte. Wer im DACH-Raum eine KI-Plattform für High-Risk-Use-Cases (Verwaltung, Gesundheit, kritische Infrastruktur) plant, sollte den 13. Mai im Kalender markieren — und die \u003Ca href=\"https:\u002F\u002Fnetzpolitik.org\" target=\"_blank\" rel=\"noopener noreferrer\">Sovereign-Tech-Standards-Network-Pilotinitiative\u003C\u002Fa> im Auge behalten, die parallel als DACH-Antwort gestartet wurde.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fnetzpolitik.org\" target=\"_blank\" rel=\"noopener noreferrer\">Netzpolitik EU AI Act Coverage\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fec.europa.eu\" target=\"_blank\" rel=\"noopener noreferrer\">EU-Kommission Code on AI Content\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Olmo 3.1 Think 32B — vollständig offen, vollständig nachvollziehbar\u003C\u002Fh2>\n\u003Cp>Das Allen Institute (AI2) hat in der vergangenen Woche \u003Ca href=\"https:\u002F\u002Fallenai.org\u002Folmo\" target=\"_blank\" rel=\"noopener noreferrer\">Olmo 3.1 Think 32B\u003C\u002Fa> als \"stärkstes vollständig offenes Thinking-Modell\" positioniert — und das Adjektiv \"vollständig\" trägt hier mehr Gewicht als üblich. Veröffentlicht werden nicht nur die Gewichte, sondern \u003Cstrong>alle Trainings-Checkpoints, das komplette Datenset und sämtliche Dependencies\u003C\u002Fstrong>. Das macht das Modell für akademische Reproduzierbarkeit und für regulierte DACH-Branchen interessant, in denen der vollständige Trainings-Audit-Trail Teil der Compliance-Anforderung ist.\u003C\u002Fp>\n\u003Cp>Turing Post ordnet Olmo 3.1 in einen breiteren Kontext ein: Geopolitik wird zur dritten Variable in Modellauswahl-Pipelines neben Performance und Kosten. Chinesische Open-Weight-Modelle wie DeepSeek, Qwen und MiniMax dominieren auf der Effizienz-Seite, US-amerikanische Open-Weights bleiben rar (Olmo, Llama). Für europäische Teams, die \"Souveräne KI\" konkret bauen müssen, bietet Olmo eine echte Alternative — auch wenn die reine Performance noch hinter Mistral Medium 3.5 oder DeepSeek V4 zurückbleibt.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fallenai.org\u002Folmo\" target=\"_blank\" rel=\"noopener noreferrer\">Allen Institute Olmo\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>MCP Protocol — 10.000+ Enterprise Server, 97 Millionen SDK-Downloads\u003C\u002Fh2>\n\u003Cp>Anthropic hat in der vergangenen Woche neue Adoption-Zahlen für das \u003Ca href=\"https:\u002F\u002Fmodelcontextprotocol.io\" target=\"_blank\" rel=\"noopener noreferrer\">Model Context Protocol\u003C\u002Fa> genannt, die das Ausmaß sichtbar machen: \u003Cstrong>mehr als 10.000 produktive Enterprise-MCP-Server\u003C\u002Fstrong> und \u003Cstrong>97 Millionen SDK-Downloads\u003C\u002Fstrong> seit dem Release im November 2024. Appian und Snowflake haben ihre Partnerschaft für Unified-Metadata-Pipelines vorgestellt, Google rollt MCP in das gesamte Gemini-Ökosystem aus, und Salesforce hat MCP-Native Datasets in Data Cloud angekündigt.\u003C\u002Fp>\n\u003Cp>Was in der Diskussion auf \u003Ca href=\"https:\u002F\u002Fthenewstack.io\" target=\"_blank\" rel=\"noopener noreferrer\">The New Stack\u003C\u002Fa> auffiel: MCP wird vom \"Anthropic-Standard\" zum branchenübergreifenden Default für Agent-Tooling. Wer noch eine eigene Tool-Calling-Schnittstelle baut, sollte sich gut überlegen, warum. Für unsere AI-OpenStack-Lösung hat das praktische Konsequenzen: Wir bauen MCP-Server konsequent als ersten Integrationspunkt, weil das Protokoll inzwischen breit unterstützt wird — von Cline über Claude Desktop bis Gemini Enterprise.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fmodelcontextprotocol.io\" target=\"_blank\" rel=\"noopener noreferrer\">Anthropic MCP Documentation\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fthenewstack.io\" target=\"_blank\" rel=\"noopener noreferrer\">The New Stack on Agentic AI\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fwww.salesforce.com\" target=\"_blank\" rel=\"noopener noreferrer\">Salesforce Data Cloud MCP\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>CNCF AI Survey — wie Cloud-Native und KI verschmelzen\u003C\u002Fh2>\n\u003Cp>Die Cloud Native Computing Foundation hat am 29. April den ersten \u003Ca href=\"https:\u002F\u002Fwww.cncf.io\u002Fblog\" target=\"_blank\" rel=\"noopener noreferrer\">State of AI in CNCF projects\u003C\u002Fa> veröffentlicht — eine Survey unter 133 Respondents aus rund 100 CNCF-Projekten zur Frage, wie KI in Cloud-Native-Open-Source-Projekte einzieht. Die Survey läuft noch bis 18. Mai, der Zwischenstand zeigt aber schon ein klares Bild: KI ist bei den meisten Projekten weniger Endprodukt als Infrastruktur — Code-Review-Bots, Issue-Triage, automatisierte Doku-Generierung dominieren.\u003C\u002Fp>\n\u003Cp>Parallel zeichnet sich eine zweite Welle ab: \u003Cstrong>AI-First Internal Developer Platforms\u003C\u002Fstrong>. Mit OpenChoreo 1.0 hat in der vergangenen Woche ein neues Projekt die CNCF-Sandbox erreicht, das genau diese Richtung markiert. Für Teams, die Kubernetes 1.36 \"Haru\" mit Workload-Aware Scheduling für AI\u002FML produktiv ausrollen wollen, ist das die strategische Klammer — und ein Hinweis, dass die nächste Plattform-Generation nicht nur Container orchestriert, sondern auch Modell-Inference und Agent-Workflows als regulierte First-Class-Bürger behandelt.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fwww.cncf.io\u002Fblog\" target=\"_blank\" rel=\"noopener noreferrer\">CNCF Blog\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fkubernetes.io\u002Fblog\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Kubernetes 1.36 Release Notes\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Kurz notiert\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Cstrong>Anthropic erwägt laut \u003Ca href=\"https:\u002F\u002Fthesequence.substack.com\" target=\"_blank\" rel=\"noopener noreferrer\">TheSequence Radar #853\u003C\u002Fa> eine neue Funding-Runde mit Bewertung über 900 Milliarden US-Dollar\u003C\u002Fstrong> — die größte je dokumentierte Bewertung für ein KI-Lab. Im gleichen Issue: NVIDIA Nemotron als neues Modell-Release und ein zunehmender Trend zu \"Software gebaut für AI-Agenten statt für Menschen\". Quelle: \u003Ca href=\"https:\u002F\u002Fthesequence.substack.com\" target=\"_blank\" rel=\"noopener noreferrer\">TheSequence\u003C\u002Fa>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Poolside hat mit \u003Ca href=\"https:\u002F\u002Fwww.latent.space\" target=\"_blank\" rel=\"noopener noreferrer\">Laguna XS.2\u003C\u002Fa> das erste öffentliche Modell publiziert\u003C\u002Fstrong> — ein 33-Milliarden-MoE-Coding-Modell mit 3 Milliarden aktiven Parametern unter Apache 2.0, lauffähig auf einer einzelnen GPU. Quelle: \u003Ca href=\"https:\u002F\u002Fwww.latent.space\" target=\"_blank\" rel=\"noopener noreferrer\">Latent Space\u003C\u002Fa>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Simon Willison hat am 29. April LLM 0.32a0 als größeren, rückwärtskompatiblen Refactor veröffentlicht\u003C\u002Fstrong> — sein CLI\u002FPython-Tool für LLMs ist damit bereit für die nächste Modell-Generation. Quelle: \u003Ca href=\"https:\u002F\u002Fsimonwillison.net\" target=\"_blank\" rel=\"noopener noreferrer\">Simon Willison Blog\u003C\u002Fa>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Bundesministerium für Digitales und Staatsmodernisierung startet 18 Pilotprojekte für KI-Agenten in 17 deutschen Kommunen\u003C\u002Fstrong> mit zehn Startups — gefiltert aus rund 400 Startups und 200 Kommunen, die Interesse bekundet hatten. Der \"Agentic AI Hub\" ist Teil des breiteren KI-Behörden-Plans für 2026. Quelle: \u003Ca href=\"https:\u002F\u002Fwww.egovernment.de\" target=\"_blank\" rel=\"noopener noreferrer\">eGovernment Computing\u003C\u002Fa>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>GPT-5.5\u003C\u002Fstrong> wurde am 23. April von OpenAI als erstes vollständig neutrainiertes Basismodell seit GPT-4.5 veröffentlicht. Spitzenwert auf \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">Terminal-Bench 2.0 mit 82,7 Prozent\u003C\u002Fa>, Claude Opus 4.7 führt aber weiterhin auf GPQA, HLE, SWE-Bench Pro, MCP Atlas und FinanceAgent v1.1. Quelle: \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">LLM Stats\u003C\u002Fa>.\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch2>Fazit\u003C\u002Fh2>\n\u003Cp>KW 19 zementiert ein Bild, das sich seit März abzeichnet: Open-Weight-Modelle sind im Coding-Bereich nicht mehr \"fast so gut wie\", sondern in vielen praktischen Use-Cases gleichwertig oder besser — und mit Mistral Medium 3.5 hat Europa zum ersten Mal seit DeepSeek V3 ein Modell, das in dieser Liga mitspielen kann und gleichzeitig für DACH-Behörden und Mittelstand kommerziell akzeptabel lizenziert ist. Auf der Cost-Side hat DeepSeek V4PLUS die Schmerzgrenze nochmal nach unten verschoben, und vLLM v0.20.1 zeigt, dass die Inference-Tooling-Seite mit dem Modell-Wettlauf inzwischen Schritt hält. Daneben verhandelt Brüssel über die Verschiebung der High-Risk-Pflichten des AI Act um 16 Monate — was Atempause bringt, aber auch neue Unsicherheit, weil das Sovereign-Tech-Standards-Network parallel zur Realität wird. Wer jetzt eine eigene KI-Infrastruktur plant, hat in dieser Woche ein neues Set Optionen bekommen — und einen Blick auf den 13. Mai im Brüsseler Kalender solltest du dir reservieren.\u003C\u002Fp>\n\n\u003Cp>\u003Cem>Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.\u003C\u002Fem>\u003C\u002Fp>\n"]