AI News KW 22: vLLM 0.21 GA, LiteLLM 1.86, Anthropic kauft Stainless

KW22 ist die Woche, in der zwei lange erwartete Schienen gleichzeitig den Bahnhof verlassen. Auf der einen Seite vLLM v0.21.0 GA — die Open-Source-Inference-Engine, die für DACH-Unternehmen den Unterschied zwischen "Pilot" und "Production" macht, ist seit dem 15. Mai final draußen. Auf der anderen Seite ein klares Investitions-Signal aus dem Closed-Vendor-Lager: Anthropic übernimmt Stainless (18. Mai), den SDK-Spezialisten hinter Python/TypeScript/Java/Go/Ruby-Clients, und schaltet damit Developer-Experience auf eine neue Stufe.

Dazwischen läuft eine ganze Welle an Plattform-News: LiteLLM v1.86.0 mit Azure GPT-5.4 und nativen Anthropic Web-Search-Blocks, LangChain Deep Agents mit DeltaChannel für State-Diffs statt Full-Snapshots, Docker Gordon AI Agent GA in Docker Desktop 4.61, Atlassian Rovo Studio als MCP-Skill-Marketplace bei Team '26, Jack Clarks Import AI #457 mit der "AI Stuxnet"-These, und in Brüssel verschiebt der Digital Omnibus die Annex-III-HRAIS-Deadline um 16 Monate. Hier die Einordnung.

Top-Story: vLLM v0.21.0 GA — Self-Hosting wird produktionsnäher

vLLM hat am 15. Mai die v0.21.0 final freigegeben — nach v0.21.0rc1 vom 12. Mai. Das ist mehr als ein Punkt-Release: vLLM v0.21 rückt selbst gehostete Frontier-Inference näher an die Anforderungen, die DACH-Teams bisher oft nur aus großen Closed-API-Diensten kannten.

Die wichtigsten Neuerungen, kurz und schmerzlos: C++20-Compiler-Pflicht (Breaking — wer noch mit GCC 9 arbeitet, hat ein Problem), Transformers v4 deprecated, und das neue TOKENSPEED_MLA Attention Backend für DeepSeek-R1- und Kimi-K2.5/K2.6-Prefill+Decode auf Blackwell-GPUs. Genauso wichtig: KV-Offloading + Hybrid Memory Allocator (HMA) sind jetzt vollständig integriert, Scheduler-side Sliding-Window-Group Support funktioniert sauber, und Speculative Decoding respektiert Reasoning/Thinking-Budgets korrekt — das war 2025 noch eine der nervigsten Fehlerquellen bei Reasoning-Modellen.

Neue Architektur-Supports in v0.21: MiMo-V2.5, Laguna XS.2, Moondream3, Qianfan-OCR, Cohere MoE, Cohere Eagle. Dazu kommt am 18. Mai der Launch von PegaFlow für Production-Grade External KV Cache — eine Kooperation mit Novita AI. Und am 11. Mai wurde vLLM im Umfeld der Artificial Analysis Inference-Benchmarks prominent geführt.

Für jedes Team, das eine selbst kontrollierte KI-Plattform betreibt, ist das die Nachricht der Woche. Wer noch auf v0.20.x sitzt, sollte v0.21 in einer Staging-Umgebung evaluieren — vor allem dort, wo Blackwell-GPUs, KV-Offload und Reasoning-Modelle auf der Roadmap stehen.

Quelle: vLLM v0.21.0 Release Notes · Artificial Analysis

LiteLLM v1.86.0 — Azure GPT-5.4, native Anthropic Web-Search-Blocks, bedrock-mantle

Auf der Proxy-Layer-Seite hat BerriAI am 24. Mai LiteLLM v1.86.0 stable freigegeben, mit v1.86.0rc1 schon seit 17. Mai im RC und v1.87.0.dev1 (20. Mai) als nächster Pre-Release. Die Highlights von v1.86.0rc1 sind sehr konkret: Azure AI Foundry GPT-5.4 ist mit Model-Metadaten (pro/mini/nano plus dated aliases) eingebunden, mit tiered und priority Pricing direkt im Router.

Wichtig für alle, die mit Claude-Desktop oder Cowork arbeiten: LiteLLM unterstützt jetzt native web_search_tool_result-Blocks für Anthropic-Clients — Citations und Web-Search-Calls werden sauber durchgereicht statt im Tool-Call-JSON zu landen. Außerdem ist bedrock-mantle als Provider hinzugekommen — der Weg, Claude Mythos Preview über /anthropic/v1/messages zu erreichen, wenn du AWS-First betreibst.

Kleiner, aber wichtiger Fix: Vector-Store retrieve/list/update/delete funktionieren jetzt auch ohne ein Completion-Model im Request. Wer Vector-Stores als reine Knowledge-Base ohne LLM-Routing nutzt, hatte hier vorher unnötigen Boilerplate. Dazu Weighted-Routing Failover und OTel-Standard-Tracing. Versioning bleibt wie gewohnt: MINOR wöchentlich am Sonntag, PATCH für Hotfixes.

Quelle: LiteLLM v1.86.0rc1 Release Notes · LiteLLM Docs

LangChain Deep Agents Mai-Release — DeltaChannel verändert das State-Modell

LangChain hat am 13. Mai die Deep Agents Mai-Release ausgerollt — und das wichtigste Detail ist eine architektonische Entscheidung, kein neues Feature. DeltaChannel ersetzt die bisherige Full-Snapshot-Checkpoint-Logik durch Diff-basierte State-Speicherung: statt bei jedem Schritt das komplette Agent-State-Object zu serialisieren, wird nur die Differenz zum vorherigen Checkpoint persistiert.

Klingt nach Detail, ist aber in der Praxis ein Spielentscheider. Wer Long-Running-Agents über Stunden oder Tage betreibt (Deep-Research-Workflows, Multi-Agent-Orchestration, langwierige Code-Migration), hat bisher Storage-Kosten und I/O-Latenz im Quadrat zur Run-Länge gesehen. Mit DeltaChannel skaliert das deutlich entspannter. Dazu kommen Harness Profiles für Model-Optimierung, Code Interpreter als Agent-Tool, Streaming für parallelisierte Systeme und ContextHubBackend als versioniertes File-Management für Agents.

Neu auch: client.threads.stream(...) für Remote-Event-Streaming, plus offizielle Framework-Integrationen für @langchain/react, @langchain/vue, @langchain/svelte und @langchain/angular im v1-Pfad. Deep Agents v0.6 wird damit zum Production-grade Multi-Agent-Backbone, den man ohne schlechtes Gewissen in eine Enterprise-Roadmap aufnehmen kann.

Quelle: LangChain Blog — Deep Agents Mai-Release

Anthropic kauft Stainless — Developer-Experience als strategischer Layer

Am 18. Mai hat Anthropic die Übernahme von Stainless angekündigt — Stainless ist der Spezialist, der bisher die offiziellen SDKs für Python, TypeScript, Java, Go und Ruby aus OpenAPI-Specs auto-generierte (übrigens auch für OpenAI). Die Akquisition ist ein klares Signal: Frontier-Modelle alleine reichen nicht mehr als Differenzierungsmerkmal — die SDK-Schicht zwischen API und Entwickler ist mittlerweile ein strategischer Layer.

Was das praktisch bedeuten dürfte: Die Claude-SDKs werden in den nächsten Quartalen spürbar mehr Aufmerksamkeit bekommen — sauberer typisiert, mit konsistenteren Error-Modellen und schnelleren Release-Zyklen. Wer heute den @anthropic-ai/sdk für Cowork und Skills nutzt, sollte die Entwicklung beobachten. Und es zeigt, wo Anthropic den Wettbewerb mit OpenAI sieht: nicht nur in Benchmark-Punkten, sondern in der täglichen Developer-Erfahrung über Tausende von Integrations-Stunden.

Für DACH-Teams, die Multi-Provider-Setups fahren (Anthropic + OpenAI + lokales vLLM), ist das ein Hinweis: Closed-Vendor investieren jetzt aggressiv in den Layer, der Open-Source historisch weniger gepflegt hat. Wer eine On-Premise-Strategie verfolgt, sollte parallel die eigenen SDK-Wrapper auf Stainless-Niveau bringen — sonst ist die DX-Lücke in einem Jahr nicht mehr zu schließen.

Quelle: Anthropic — Stainless Acquisition · Stainless

Docker Gordon GA + Docker AI Governance — Enterprise-Layer wird Standard

Docker hat am 19. Mai Gordon GA in Docker Desktop 4.61 veröffentlicht. Gordon ist der lokale AI-Agent im Docker-Stack, der seit der ersten Tech-Preview ordentlich gereift ist. Highlights: Persistent Local Memory (Konversationen überleben Restarts), MCP- und Kubernetes-Support, Multi-line Prompts, Container/Image/Volume Management direkt aus dem Chat, und K8s-Pod-Logs-Analyse.

Dazu kommt Docker AI Governance (12. Mai-Release), die nicht nur für Gordon, sondern für jeden Agent gilt, der im Docker-Stack läuft: Centralized Control über Agent-Execution, Network-Reach, Credentials und MCP-Tool-Allowance. Pattern: AI-Agent darf nicht ungebremst alles — Enterprise-Governance ist 2026 ein Pflicht-Layer, kein Nice-to-have. Mit der Kombination Gordon GA + AI Governance hat Docker den Anspruch klar formuliert: Container und AI-Agents werden im selben Lifecycle verwaltet.

Wichtige Nebenmeldung: Docker Model Runner unterstützt jetzt vLLM Metal + Qwen 3.5 — also die schnelle lokale Inference von Qwen-3.5-Modellen auf Apple-Silicon, ohne Custom-Compose-Hacks. Für Dev-Workstations in DACH-Teams ist das eine sehr saubere Default-Konfiguration.

Quelle: Docker Blog — Gordon GA + Docker Desktop 4.61 · Docker AI Governance

Atlassian Team '26 — Rovo Studio wird MCP-Skill-Marketplace

Auf der Team '26 Conference Mitte Mai hat Atlassian Rovo Studio neu aufgestellt. Rovo Studio Unified kombiniert die bisher getrennten Tool-, Skill- und Knowledge-Layer in eine einzige Building-Experience, und der Open MCP Standard verbindet Rovo direkt mit dem wachsenden Ökosystem an MCP-Skills. Built-in Analytics und Testing für Agent-Optimization sind direkt eingebaut — ein klares Signal, dass Atlassian Rovo Studio als Enterprise-Plattform für Multi-Agent-Workflows positioniert, nicht als reinen Confluence-Assistent.

Begleitend: Remix with Rovo in Confluence — Page-Content kann direkt in Charts, Infographics oder Visuals umgewandelt werden. Ready-to-use Partner-Agents für Lovable, Replit und Gamma sind eingebaut, und seit April läuft Rovo Dev in Jira als context-aware AI-Agent für repetitive Work direkt im Ticket-Workflow.

Die Zahlen, die Atlassian nennt, sind bemerkenswert: MCP-Updates senken Token-Costs um 48 %, Graph-Search liefert 44 % genauere Ergebnisse. Das sind Herstellerangaben, aber sie zeigen die Richtung: Wer Atlassian-Cloud nutzt, sollte sich Rovo Studio in den nächsten Wochen ansehen — die MCP-Integration ist ein direkter Hebel, um eigene interne Tools mit überschaubarem Aufwand an Multi-Agent-Workflows anzukoppeln.

Quelle: Atlassian Blog — Team '26 Rovo Studio · Atlassian Rovo

Import AI #457 — "AI Stuxnet" und der Muon-Optimizer

Jack Clark hat am 18. Mai die Import-AI-Ausgabe #457 veröffentlicht; der stabile Einstiegspunkt ist das Import AI Archiv. Kerndiskussion: AI-gestützte Cyber-Werkzeuge im Stil von Stuxnet — also Systeme, die gezielt gegen kritische Infrastruktur eingesetzt werden könnten. Clark argumentiert, dass die Schwelle für solche Operationen mit jeder Reasoning-Generation niedriger wird, und schlägt einen Framework-Vorschlag für "positive alignment" als Gegen-Konzept vor.

Dazu kommen neue Befunde zum Muon-Optimizer — eine relativ junge Alternative zu AdamW, die in einigen Training-Setups counterintuitiv stabiler arbeitet, in anderen aber unerwartete Pathologien zeigt. Für Praktiker bei kleineren Pretraining-Runs ist das ein Hinweis: nicht jedes "neue Optimizer-Paper" ist ein Win, einige Findings sind sehr Workload-spezifisch.

Vorherige #456 (11. Mai) hatte das RSI-Wirtschaftswachstum-Thema und "radical optionality" für AI-Regulierung diskutiert. Wer Import AI nicht regelmäßig liest, verpasst die einzige politische AI-Analyse, die unter Praktikern in den USA wirklich gelesen wird.

Quelle: Import AI Archiv

EU Digital Omnibus — HRAIS-Deadline um 16 Monate nach hinten

Am 7. Mai wurde eine Einigung über das Digital Omnibus berichtet — mit einer Änderung, die für viele AI-Implementierungen in DACH-Unternehmen direkt relevant wäre: Die Compliance-Deadline für Annex-III-High-Risk-AI-Systeme würde von 2. August 2026 auf 2. Dezember 2027 verschoben (also um 16 Monate), Annex-I-HRAIS würde von 2. August 2027 auf 2. August 2028 rutschen.

Zwei neue Verbote werden in der Einordnung ebenfalls genannt: Non-konsensuelle Intimate-Deepfakes und CSAM-Generation — beides ab 2. Dezember 2026. Die Watermarking-Deadline für generative Inhalte würde demnach auf drei Monate verkürzt.

Kritik kommt erwartbar von netzpolitik.org, die argumentieren, die Verschiebung folge der Big-Tech-Wunschliste. Aus DACH-KMU-Sicht sieht es trotzdem so aus: Die Verschiebung schafft Zeit für saubere Implementierungen — aber gleichzeitig erhöht sich der Wettbewerbsdruck, jetzt zu liefern, bevor die Welle 2027 alle gleichzeitig treibt. Die nächsten 18 Monate sind die Phase, in der die Marktposition für DSGVO-konforme Multi-Agent-Plattformen entschieden wird.

Quelle: Netzpolitik.org — EU Digital Omnibus Einigung · EU-Kommission — Digital Omnibus

Fazit — Die Konsolidierungs-Welle ist da

KW22 ist die Woche, in der drei Schichten gleichzeitig reifen: Self-Hosting-Inference (vLLM v0.21 GA) wird produktionsnäher, Multi-Agent-Orchestration (LangChain Deep Agents mit DeltaChannel) bekommt die richtigen Primitiven, und Enterprise-Governance (Docker Gordon + AI Governance, Atlassian Rovo Studio MCP) wird zum Pflichtbaustein. Parallel investiert das Closed-Vendor-Lager mit der Anthropic-Stainless-Akquisition gezielt in den Developer-Experience-Layer — und Brüssel verschafft mit dem Digital Omnibus voraussichtlich mehr Spielraum für sauber geplante Implementierungen. Was Jack Clarks "AI Stuxnet"-These zeigt: Die Risiko-Seite wächst proportional mit, und Governance ist 2026 keine Option mehr, sondern eine technische Anforderung im Stack.

Kuratiert von SEADEV Studios. Weekly AI News erscheint jeden Dienstag.

AI News KW 22: vLLM 0.21 GA, LiteLLM 1.86, Anthropic kauft Stainless

Top-Story: vLLM v0.21.0 GA — Self-Hosting wird produktionsnäher

LiteLLM v1.86.0 — Azure GPT-5.4, native Anthropic Web-Search-Blocks, bedrock-mantle

LangChain Deep Agents Mai-Release — DeltaChannel verändert das State-Modell

Anthropic kauft Stainless — Developer-Experience als strategischer Layer

Docker Gordon GA + Docker AI Governance — Enterprise-Layer wird Standard

Atlassian Team '26 — Rovo Studio wird MCP-Skill-Marketplace

Import AI #457 — "AI Stuxnet" und der Muon-Optimizer

EU Digital Omnibus — HRAIS-Deadline um 16 Monate nach hinten

Fazit — Die Konsolidierungs-Welle ist da

Tags

Teilen

Weitere Artikel

OpenTelemetry für KI-Stacks: DSGVO-konforme LLM-Observability

Tech News KW 23: OTel CNCF Graduated, K8s DRA GA, Vue 3.6 Vapor