AI News KW 23: Claude Opus 4.8, Ollama 0.24, NVIDIA Cosmos Predict

KW23 ist die Woche, in der das Coding-Agent-Rennen einen neuen Höhenmesser bekommt. Anthropic hat am 28. Mai Claude Opus 4.8 veröffentlicht — keine Revolution, aber laut Anbieter ein handfester Schritt bei Coding-Benchmarks und Halluzinationsverhalten. Parallel reift die Open-Source-Seite weiter: Ollama 0.24 vereinfacht lokale Runtime-Setups, vLLM v0.20.2 liefert wichtige Stabilitätsfixes für DeepSeek V4 und gpt-oss, und LangChain diskutiert öffentlich, dass offene Modelle bei praktischen Agent-Tasks deutlich näher an die Closed-Frontier heranrücken.

Dazwischen läuft in Wien der Public-AI-Hackathon im Bundeskanzleramt mit GovGPT, KAPA und KI-SUN als Eckpfeiler — und in Brüssel sieht der Digital Omnibus eine spätere Anwendung zentraler Annex-III-HRAIS-Pflichten vor. Acht News, sieben Tage, eine Einordnung.

Top-Story: Claude Opus 4.8 — weniger Halluzinationen und Dynamic Workflows

Anthropic hat am 28. Mai Claude Opus 4.8 vorgestellt — nur 41 Tage nach Opus 4.7. Die Tagline der Release: weniger halluzinieren, ehrlicher antworten, Coding-Agents nochmal verbessern. Die Zahlen, die Anthropic selbst nennt: 88,6 % SWE-bench Verified, 69,2 % SWE-bench Pro, 74,6 % Terminal-Bench 2.1, 1890 Elo auf GDPval-AA — laut Anthropic 121 Elo-Punkte vor GPT-5.5.

Das spannende Detail steckt aber im Verhalten, nicht im Score. Opus 4.8 ist laut Anthropic rund viermal seltener bereit, Bugs in selbst geschriebenem Code unkommentiert durchzulassen — das Modell flaggt aktiv, was schiefläuft, statt es zu vertuschen. Simon Willison hat das in seinen Notes vom 28. Mai als "modest but tangible improvement" eingeordnet, mit dem konkreten Hinweis auf mid-conversation System-Messages als neue Steuerungs-Primitive und ein reduziertes Prompt-Cache-Minimum von 1.024 Tokens. Preis bleibt bei 5 US-Dollar Input und 25 US-Dollar Output pro Million Tokens, Fast Mode wird allerdings dreimal billiger als bei Opus 4.7.

Architektonisch interessant ist das Dynamic-Workflows-Feature in Claude Code: Opus 4.8 plant einen größeren Task, fächert parallele Subagents aus, lässt sie laufen und verifiziert die Ergebnisse gegen Test-Suiten. Vellum hat das im Benchmark-Vergleich als besonders praxisrelevantes Feature beschrieben — gedacht für größere Refactorings, bei denen Single-Agent-Setups schnell zum Engpass werden. Für DACH-Teams, die Claude über LiteLLM oder die Anthropic-API einbinden, dürfte Opus 4.8 vor allem ein überschaubarer Modellwechsel sein: Context-Window und Output-Limits bleiben laut Anbieter in derselben Größenordnung.

Quelle: Anthropic — Introducing Claude Opus 4.8 · Simon Willison — Notes on Opus 4.8 · Vellum — Opus 4.8 Benchmarks Explained

Ollama 0.24.0 — Codex App per Einzeiler und MLX-Sampler-Rework

Ollama hat am 14. Mai die v0.24.0 final freigegeben — und der prominenteste neue Befehl ist ollama launch codex-app. Damit soll sich OpenAIs Codex-Desktop-Client deutlich einfacher gegen lokale Ollama-Modelle konfigurieren lassen. Wer bisher Environment-Variablen, Custom-Endpoints und Config-Files manuell gepflegt hat, bekommt damit einen klareren Einstiegspfad für lokale Coding-Workflows.

Im Ökosystem werden dafür größere Cloud-Modelle und kleinere lokale Modelle parallel diskutiert. Die Gemma-4-MTP-Unterstützung kam schon in 0.23.1 — Multi-Token-Prediction als Speculative-Decoding-Variante, die den Decode-Durchsatz verbessern kann, solange der Verifikations-Schritt sauber greift. Auf Apple Silicon hat Ollama dazu den MLX-Sampler überarbeitet, was vor allem bei längeren Generations relevant wird.

Im Hintergrund läuft schon der nächste Architekturwechsel: v0.30.0-rc21 wechselt vom eigenen GGML-Backend auf einen direkten llama.cpp-Unterbau (GGUF bleibt kompatibel). Wer Ollama in einer eigenen Plattform-Pipeline benutzt, sollte die RC im Auge behalten — die Backend-Migration ist ein offenes Risiko, gleichzeitig aber auch der Grund, warum neue Modelle in Zukunft schneller verfügbar sein werden.

Quelle: Ollama Releases · Codersera — Local AI Runtimes May 2026

vLLM v0.20.2 — DeepSeek V4 und gpt-oss MXFP4 Bugfixes

vLLM hat am 10. Mai die v0.20.2 als Patch-Release hinterhergeschoben. Inhalt: Re-enable des persistent topk path für DeepSeek-V4 Sparse Attention auf Hopper (PR #41665, Fix für einen MTP=1-Hang), KV-Cache-Allokationsfehler im V1-Engine-Pfad behoben (#41282), gpt-oss MXFP4 plus torch.compile läuft endlich sauber (#42002), und ein Boundary-Bug im Qwen3-VL Deepstack ist gefixt (#40932).

Klingt nach Detail-Arbeit, ist aber für Teams mit DeepSeek V4 oder gpt-oss im produktionsnahen Betrieb relevant: Genau solche Patch-Releases entscheiden oft darüber, ob sporadische Hänger reproduzierbar verschwinden. Die direkte Vorgänger-Version v0.20.1 vom 4. Mai brachte schon die BF16/MXFP8-All-to-All-Performance-Verbesserungen für FlashInfer und den neuen PTX-cvt-Pfad FP32 → FP4. Wer noch auf 0.20.0 sitzt, sollte v0.20.2 zumindest zeitnah in Staging testen.

Wichtig im Kontext: Die Major-Linie 0.21 läuft parallel schon und ist seit Mitte Mai GA. Für konservativere Teams ist 0.20.2 trotzdem die richtige Wahl, weil die Bugfixes hier zurückportiert wurden, ohne neue Breaking Changes wie den C++20-Compiler-Zwang oder das Transformers-v4-Deprecation aus 0.21.

Quelle: vLLM v0.20.2 Release Notes

LiteLLM v1.86.2 — MCP OAuth für Cursor, Vertex-Gemini-3.5-Fix

Auf der Proxy-Schicht hat BerriAI am 27. Mai LiteLLM v1.86.2 stable rausgeschoben, nach v1.86.0 (24. Mai) und v1.85.0 (17. Mai). Die wichtigsten Änderungen aus dem Mai-Block: Migration auf die Google Interactions API (sauberere Streaming-Semantik gegenüber dem alten Generative-AI-Endpoint), native MCP-OAuth-Unterstützung für Cursor (für viele Devs der Hauptgrund, LiteLLM aufzurüsten), und ein wichtiger Vertex-AI-Function-Calls-Fix für Gemini 3.5+, der das Tool-Calling-Format wieder mit dem Anthropic/OpenAI-Schema kompatibel macht.

Operativ relevant sind außerdem die klarere Release-Versionierung, MCP-Toolsets als organisatorische Klammer um mehrere MCP-Server und die neue LiteLLM Agent Platform als eigenständiges Produkt-Surface neben dem Proxy. Wer LiteLLM nur als reinen Router betreibt, kann vieles davon zunächst ignorieren — wer aber Agents oberhalb von LiteLLM baut, sollte die Plattform im Auge behalten, weil sie konsequent auf MCP und OpenTelemetry einzahlt.

Quelle: LiteLLM Releases · LiteLLM Docs

NVIDIA Cosmos Predict 2.5 — Fine-Tuning für Robot-Video-Generation

NVIDIA hat am 26. Mai zusammen mit Hugging Face einen praktischen Guide für Fine-Tuning von Cosmos Predict 2.5 mit LoRA und DoRA veröffentlicht. Cosmos Predict 2.5 ist NVIDIAs World-Foundation-Model für Robot-Video-Generation — es bekommt einen Kontext (z.B. eine Roboter-Hand in einer Küche) und generiert plausible Folge-Frames, die ein Roboter-Steuerungsmodell als Training-Targets oder Imagination-Buffer nutzen kann.

Der spannende Punkt: Mit LoRA/DoRA lassen sich kleine, sehr spezifische Robot-Domains (etwa eine bestimmte Greifer-Geometrie oder ein definierter Arbeitsplatz) effizient nachtrainieren, ohne das Foundation-Model komplett neu zu fitten. Für DACH-Robotik-Unternehmen, die bisher entweder mit synthetischen Datasets oder mit teuren Realwelt-Recordings arbeiten mussten, ist das ein realistischer dritter Weg. Im selben Blogpost-Zyklus erschien außerdem LeRobot Humanoid — eine offene, 3D-druckbare Humanoid-Plattform für Robot-Learning. Beides zusammen ergibt eine ziemlich klare Botschaft: Open-Source-Robotik ist 2026 keine Akademie-Spielwiese mehr.

Quelle: Hugging Face Blog — Fine-Tuning Cosmos Predict 2.5 · LeRobot Humanoid

LangChain — "Open Models have crossed a threshold"

LangChain hat im Mai-Blog ein Essay mit dem Titel "Open Models have crossed a threshold" veröffentlicht. Kernthese: Offene Modelle wie GLM-5 und MiniMax M2.7 rücken bei Core-Agent-Tasks näher an die Closed-Frontier heran — Tool-Calling, Mehrschritt-Reasoning, Code-Generation — nicht nur in synthetischen Benchmarks, sondern auch in praktischen Framework-Workflows.

Das ist ein bemerkenswertes Signal von einem Framework, das historisch sehr eng an OpenAI angedockt war. Die Konsequenz, die LangChain selbst zieht: Default-Recipes werden Provider-agnostischer, und der Provider-Switch (Closed → Open) wird 2026 für manche Use-Cases eher zur Architektur- und Wirtschaftlichkeitsfrage als zur reinen Qualitätsfrage. Parallel hat LangChain Deep Agents v0.5 mit non-blocking async Subagents und einem expanded Multi-Modal Filesystem ausgerollt — das passt zur Dynamic-Workflows-Story aus Anthropic und zeigt, wie sich Multi-Agent-Patterns über Vendors hinweg synchronisieren.

Für jeden, der eine souveräne oder selbst betriebene KI-Strategie plant, ist die Headline klar: Die Lücke zwischen Closed- und Open-Model-Setups wird kleiner, aber sie verschwindet nicht. Die Entscheidung "Closed oder Open" verschiebt sich damit stärker Richtung Datenhoheit, Latenz, Integrationsaufwand und Total Cost of Ownership.

Quelle: LangChain Blog

Public AI Österreich — GovGPT, KAPA und Bundeskanzleramt-Hackathon

In Wien hat Staatssekretär Pröll am 22. Mai den Public-AI-Hackathon im Bundeskanzleramt eröffnet. Der Hackathon ist Teil der breiteren Public-AI-Initiative, die die Bundesregierung im März 2026 als gemeinsamen KI-Fahrplan beschlossen hat. Fünf Anwendungen stehen im Zentrum, und sie sind erstaunlich konkret beschrieben.

GovGPT ist das generative AI-Werkzeug für alle Bundesbediensteten — souverän gehostet, DSGVO-konform, ausgelegt auf 180.000 Nutzer bis Ende des ersten Halbjahres 2026. KI im ELAK bringt KI-Funktionen in den elektronischen Akt (Fragen an ganze Aktensammlungen, strukturierte Zusammenfassungen) für 13.000 Bedienstete im zweiten Halbjahr 2026. KAPA unterstützt die Beantwortung parlamentarischer Anfragen — Recherche, Konsolidierung, Vorbereitung, mit Human-in-the-Loop als zentralem Prinzip. KI-SUN ist ein persönlicher Wissensassistent für über 6.000 Seiten Schulungsmaterial der Bundesverwaltung. Die fünfte Stufe — Agentic AI — adressiert autonome Prozesse wie Terminbuchungen für Bürger über Chatbots.

Für SEADEV-Kunden im Behörden-Umfeld ist das ein konkreter Referenzrahmen: Souveräne, regional gehostete KI wird in Österreich offiziell zur Verwaltungsstrategie. Wer auf KMU-Seite ähnliche Datenschutz-Anforderungen hat (Gesundheit, Versicherung, kritische Infrastruktur), kann sich an den Public-AI-Anforderungen orientieren — sie sind streng, aber gut dokumentiert.

Quelle: Bundeskanzleramt — Public AI Hackathon · Bundeskanzleramt — 5 KI-Anwendungen

EU Digital Omnibus — HRAIS Annex III soll auf Dezember 2027 rutschen

Nach der gemeldeten vorläufigen Einigung über die Targeted Amendments zum EU AI Act ist die Verschiebung der Annex-III-High-Risk-AI-Systeme-Deadline auf 2. Dezember 2027 (ursprünglich 2. August 2026) und der Annex-I-HRAIS-Deadline auf 2. August 2028 (ursprünglich 2. August 2027) politisch vorgesehen. Formal wird das wirksam, sobald der Omnibus im EU-Amtsblatt veröffentlicht ist — laut Gibson Dunn wird das vor dem 2. August 2026 erwartet.

Die Hauptbegründung der Kommission: Die harmonisierten Standards und Compliance-Werkzeuge waren bis Ende 2025 nicht fertig, und die nationalen Aufsichtsbehörden sind noch nicht überall benannt. Atempause ja, Freifahrtschein nein — die neuen Verbote (non-konsensuelle Intimate-Deepfakes, CSAM-Generation) treten parallel ab 2. Dezember 2026 in Kraft, und die Watermarking-Pflicht für generative Inhalte ist bei drei Monaten geblieben.

Kritisch sieht das netzpolitik.org, die argumentieren, der Omnibus folge der Big-Tech-Wunschliste. Aus DACH-KMU-Sicht ist die Lage zweischneidig: Die zusätzliche Zeit wäre echte Vorbereitungszeit, aber die Erwartung der Aufsichtsbehörden steigt, weil 2027 viele Organisationen gleichzeitig liefern müssen. Wer jetzt mit sauber dokumentierten Multi-Agent-Architekturen, Logging und Risikomanagement startet, ist deutlich besser positioniert als jemand, der im Sommer 2027 erst anfängt.

Quelle: Gibson Dunn — EU AI Act Omnibus Agreement · Global Policy Watch — EU AI Act Update · Netzpolitik.org

Fazit — Coding-Agents, Open Models, souveräne Verwaltung

KW23 zeigt drei parallele Bewegungen. Erstens: Coding-Agents reifen weiter — Claude Opus 4.8 setzt laut Anbieter bei Coding und Halluzinationsverhalten nach, Ollama vereinfacht lokale Tooling-Setups, vLLM liefert Stabilitätsfixes für DeepSeek V4 und gpt-oss. Zweitens: Offene Modelle holen auf — LangChains "Open Models have crossed a threshold"-Essay ist nicht nur Marketing, sondern ein praktisches Signal, dass Open-Model-Setups bei Agent-Workflows ernster zu nehmen sind. Drittens: Souveräne KI in der Verwaltung wird konkret — Österreichs Public-AI-Initiative liefert mit GovGPT und KAPA echte Use-Cases, während Brüssel zusätzliche Vorbereitungszeit für High-Risk-AI-Systeme einplant. Wer 2026 eine souveräne KI-Strategie baut, hat in dieser Woche mehr Argumente bekommen, nicht weniger.

Kuratiert von SEADEV Studios. Weekly AI News erscheint jeden Dienstag.

AI News KW 23: Claude Opus 4.8, Ollama 0.24, NVIDIA Cosmos Predict

Top-Story: Claude Opus 4.8 — weniger Halluzinationen und Dynamic Workflows

Ollama 0.24.0 — Codex App per Einzeiler und MLX-Sampler-Rework

vLLM v0.20.2 — DeepSeek V4 und gpt-oss MXFP4 Bugfixes

LiteLLM v1.86.2 — MCP OAuth für Cursor, Vertex-Gemini-3.5-Fix

NVIDIA Cosmos Predict 2.5 — Fine-Tuning für Robot-Video-Generation

LangChain — "Open Models have crossed a threshold"

Public AI Österreich — GovGPT, KAPA und Bundeskanzleramt-Hackathon

EU Digital Omnibus — HRAIS Annex III soll auf Dezember 2027 rutschen

Fazit — Coding-Agents, Open Models, souveräne Verwaltung

Tags

Teilen

Weitere Artikel

OpenTelemetry für KI-Stacks: DSGVO-konforme LLM-Observability

Tech News KW 23: OTel CNCF Graduated, K8s DRA GA, Vue 3.6 Vapor