
KW22 ist die Woche, in der zwei lange erwartete Schienen gleichzeitig den Bahnhof verlassen. Auf der einen Seite vLLM v0.21.0 GA — die Open-Source-Inference-Engine, die für DACH-Unternehmen den Unterschied zwischen "Pilot" und "Production" macht, ist seit dem 15. Mai final draußen. Auf der anderen Seite ein klares Investitions-Signal aus dem Closed-Vendor-Lager: Anthropic übernimmt Stainless (18. Mai), den SDK-Spezialisten hinter Python/TypeScript/Java/Go/Ruby-Clients, und schaltet damit Developer-Experience auf eine neue Stufe.
Dazwischen läuft eine ganze Welle an Plattform-News: LiteLLM v1.86.0 mit Azure GPT-5.4 und nativen Anthropic Web-Search-Blocks, LangChain Deep Agents mit DeltaChannel für State-Diffs statt Full-Snapshots, Docker Gordon AI Agent GA in Docker Desktop 4.61, Atlassian Rovo Studio als MCP-Skill-Marketplace bei Team '26, Jack Clarks Import AI #457 mit der "AI Stuxnet"-These, und in Brüssel verschiebt der Digital Omnibus die Annex-III-HRAIS-Deadline um 16 Monate. Hier die Einordnung.
Top-Story: vLLM v0.21.0 GA — Self-Hosting wird produktionsnäher
vLLM hat am 15. Mai die v0.21.0 final freigegeben — nach v0.21.0rc1 vom 12. Mai. Das ist mehr als ein Punkt-Release: vLLM v0.21 rückt selbst gehostete Frontier-Inference näher an die Anforderungen, die DACH-Teams bisher oft nur aus großen Closed-API-Diensten kannten.
Die wichtigsten Neuerungen, kurz und schmerzlos: C++20-Compiler-Pflicht (Breaking — wer noch mit GCC 9 arbeitet, hat ein Problem), Transformers v4 deprecated, und das neue TOKENSPEED_MLA Attention Backend für DeepSeek-R1- und Kimi-K2.5/K2.6-Prefill+Decode auf Blackwell-GPUs. Genauso wichtig: KV-Offloading + Hybrid Memory Allocator (HMA) sind jetzt vollständig integriert, Scheduler-side Sliding-Window-Group Support funktioniert sauber, und Speculative Decoding respektiert Reasoning/Thinking-Budgets korrekt — das war 2025 noch eine der nervigsten Fehlerquellen bei Reasoning-Modellen.
Neue Architektur-Supports in v0.21: MiMo-V2.5, Laguna XS.2, Moondream3, Qianfan-OCR, Cohere MoE, Cohere Eagle. Dazu kommt am 18. Mai der Launch von PegaFlow für Production-Grade External KV Cache — eine Kooperation mit Novita AI. Und am 11. Mai wurde vLLM im Umfeld der Artificial Analysis Inference-Benchmarks prominent geführt.
Für jedes Team, das eine selbst kontrollierte KI-Plattform betreibt, ist das die Nachricht der Woche. Wer noch auf v0.20.x sitzt, sollte v0.21 in einer Staging-Umgebung evaluieren — vor allem dort, wo Blackwell-GPUs, KV-Offload und Reasoning-Modelle auf der Roadmap stehen.
Quelle: vLLM v0.21.0 Release Notes · Artificial Analysis
LiteLLM v1.86.0 — Azure GPT-5.4, native Anthropic Web-Search-Blocks, bedrock-mantle
Auf der Proxy-Layer-Seite hat BerriAI am 24. Mai LiteLLM v1.86.0 stable freigegeben, mit v1.86.0rc1 schon seit 17. Mai im RC und v1.87.0.dev1 (20. Mai) als nächster Pre-Release. Die Highlights von v1.86.0rc1 sind sehr konkret: Azure AI Foundry GPT-5.4 ist mit Model-Metadaten (pro/mini/nano plus dated aliases) eingebunden, mit tiered und priority Pricing direkt im Router.
Wichtig für alle, die mit Claude-Desktop oder Cowork arbeiten: LiteLLM unterstützt jetzt native web_search_tool_result-Blocks für Anthropic-Clients — Citations und Web-Search-Calls werden sauber durchgereicht statt im Tool-Call-JSON zu landen. Außerdem ist bedrock-mantle als Provider hinzugekommen — der Weg, Claude Mythos Preview über /anthropic/v1/messages zu erreichen, wenn du AWS-First betreibst.
Kleiner, aber wichtiger Fix: Vector-Store retrieve/list/update/delete funktionieren jetzt auch ohne ein Completion-Model im Request. Wer Vector-Stores als reine Knowledge-Base ohne LLM-Routing nutzt, hatte hier vorher unnötigen Boilerplate. Dazu Weighted-Routing Failover und OTel-Standard-Tracing. Versioning bleibt wie gewohnt: MINOR wöchentlich am Sonntag, PATCH für Hotfixes.
Quelle: LiteLLM v1.86.0rc1 Release Notes · LiteLLM Docs
LangChain Deep Agents Mai-Release — DeltaChannel verändert das State-Modell
LangChain hat am 13. Mai die Deep Agents Mai-Release ausgerollt — und das wichtigste Detail ist eine architektonische Entscheidung, kein neues Feature. DeltaChannel ersetzt die bisherige Full-Snapshot-Checkpoint-Logik durch Diff-basierte State-Speicherung: statt bei jedem Schritt das komplette Agent-State-Object zu serialisieren, wird nur die Differenz zum vorherigen Checkpoint persistiert.
Klingt nach Detail, ist aber in der Praxis ein Spielentscheider. Wer Long-Running-Agents über Stunden oder Tage betreibt (Deep-Research-Workflows, Multi-Agent-Orchestration, langwierige Code-Migration), hat bisher Storage-Kosten und I/O-Latenz im Quadrat zur Run-Länge gesehen. Mit DeltaChannel skaliert das deutlich entspannter. Dazu kommen Harness Profiles für Model-Optimierung, Code Interpreter als Agent-Tool, Streaming für parallelisierte Systeme und ContextHubBackend als versioniertes File-Management für Agents.
Neu auch: client.threads.stream(...) für Remote-Event-Streaming, plus offizielle Framework-Integrationen für @langchain/react, @langchain/vue, @langchain/svelte und @langchain/angular im v1-Pfad. Deep Agents v0.6 wird damit zum Production-grade Multi-Agent-Backbone, den man ohne schlechtes Gewissen in eine Enterprise-Roadmap aufnehmen kann.
Quelle: LangChain Blog — Deep Agents Mai-Release
Anthropic kauft Stainless — Developer-Experience als strategischer Layer
Am 18. Mai hat Anthropic die Übernahme von Stainless angekündigt — Stainless ist der Spezialist, der bisher die offiziellen SDKs für Python, TypeScript, Java, Go und Ruby aus OpenAPI-Specs auto-generierte (übrigens auch für OpenAI). Die Akquisition ist ein klares Signal: Frontier-Modelle alleine reichen nicht mehr als Differenzierungsmerkmal — die SDK-Schicht zwischen API und Entwickler ist mittlerweile ein strategischer Layer.
Was das praktisch bedeuten dürfte: Die Claude-SDKs werden in den nächsten Quartalen spürbar mehr Aufmerksamkeit bekommen — sauberer typisiert, mit konsistenteren Error-Modellen und schnelleren Release-Zyklen. Wer heute den @anthropic-ai/sdk für Cowork und Skills nutzt, sollte die Entwicklung beobachten. Und es zeigt, wo Anthropic den Wettbewerb mit OpenAI sieht: nicht nur in Benchmark-Punkten, sondern in der täglichen Developer-Erfahrung über Tausende von Integrations-Stunden.
Für DACH-Teams, die Multi-Provider-Setups fahren (Anthropic + OpenAI + lokales vLLM), ist das ein Hinweis: Closed-Vendor investieren jetzt aggressiv in den Layer, der Open-Source historisch weniger gepflegt hat. Wer eine On-Premise-Strategie verfolgt, sollte parallel die eigenen SDK-Wrapper auf Stainless-Niveau bringen — sonst ist die DX-Lücke in einem Jahr nicht mehr zu schließen.
Quelle: Anthropic — Stainless Acquisition · Stainless
Docker Gordon GA + Docker AI Governance — Enterprise-Layer wird Standard
Docker hat am 19. Mai Gordon GA in Docker Desktop 4.61 veröffentlicht. Gordon ist der lokale AI-Agent im Docker-Stack, der seit der ersten Tech-Preview ordentlich gereift ist. Highlights: Persistent Local Memory (Konversationen überleben Restarts), MCP- und Kubernetes-Support, Multi-line Prompts, Container/Image/Volume Management direkt aus dem Chat, und K8s-Pod-Logs-Analyse.
Dazu kommt Docker AI Governance (12. Mai-Release), die nicht nur für Gordon, sondern für jeden Agent gilt, der im Docker-Stack läuft: Centralized Control über Agent-Execution, Network-Reach, Credentials und MCP-Tool-Allowance. Pattern: AI-Agent darf nicht ungebremst alles — Enterprise-Governance ist 2026 ein Pflicht-Layer, kein Nice-to-have. Mit der Kombination Gordon GA + AI Governance hat Docker den Anspruch klar formuliert: Container und AI-Agents werden im selben Lifecycle verwaltet.
Wichtige Nebenmeldung: Docker Model Runner unterstützt jetzt vLLM Metal + Qwen 3.5 — also die schnelle lokale Inference von Qwen-3.5-Modellen auf Apple-Silicon, ohne Custom-Compose-Hacks. Für Dev-Workstations in DACH-Teams ist das eine sehr saubere Default-Konfiguration.
Quelle: Docker Blog — Gordon GA + Docker Desktop 4.61 · Docker AI Governance
Atlassian Team '26 — Rovo Studio wird MCP-Skill-Marketplace
Auf der Team '26 Conference Mitte Mai hat Atlassian Rovo Studio neu aufgestellt. Rovo Studio Unified kombiniert die bisher getrennten Tool-, Skill- und Knowledge-Layer in eine einzige Building-Experience, und der Open MCP Standard verbindet Rovo direkt mit dem wachsenden Ökosystem an MCP-Skills. Built-in Analytics und Testing für Agent-Optimization sind direkt eingebaut — ein klares Signal, dass Atlassian Rovo Studio als Enterprise-Plattform für Multi-Agent-Workflows positioniert, nicht als reinen Confluence-Assistent.
Begleitend: Remix with Rovo in Confluence — Page-Content kann direkt in Charts, Infographics oder Visuals umgewandelt werden. Ready-to-use Partner-Agents für Lovable, Replit und Gamma sind eingebaut, und seit April läuft Rovo Dev in Jira als context-aware AI-Agent für repetitive Work direkt im Ticket-Workflow.
Die Zahlen, die Atlassian nennt, sind bemerkenswert: MCP-Updates senken Token-Costs um 48 %, Graph-Search liefert 44 % genauere Ergebnisse. Das sind Herstellerangaben, aber sie zeigen die Richtung: Wer Atlassian-Cloud nutzt, sollte sich Rovo Studio in den nächsten Wochen ansehen — die MCP-Integration ist ein direkter Hebel, um eigene interne Tools mit überschaubarem Aufwand an Multi-Agent-Workflows anzukoppeln.
Quelle: Atlassian Blog — Team '26 Rovo Studio · Atlassian Rovo
Import AI #457 — "AI Stuxnet" und der Muon-Optimizer
Jack Clark hat am 18. Mai die Import-AI-Ausgabe #457 veröffentlicht; der stabile Einstiegspunkt ist das Import AI Archiv. Kerndiskussion: AI-gestützte Cyber-Werkzeuge im Stil von Stuxnet — also Systeme, die gezielt gegen kritische Infrastruktur eingesetzt werden könnten. Clark argumentiert, dass die Schwelle für solche Operationen mit jeder Reasoning-Generation niedriger wird, und schlägt einen Framework-Vorschlag für "positive alignment" als Gegen-Konzept vor.
Dazu kommen neue Befunde zum Muon-Optimizer — eine relativ junge Alternative zu AdamW, die in einigen Training-Setups counterintuitiv stabiler arbeitet, in anderen aber unerwartete Pathologien zeigt. Für Praktiker bei kleineren Pretraining-Runs ist das ein Hinweis: nicht jedes "neue Optimizer-Paper" ist ein Win, einige Findings sind sehr Workload-spezifisch.
Vorherige #456 (11. Mai) hatte das RSI-Wirtschaftswachstum-Thema und "radical optionality" für AI-Regulierung diskutiert. Wer Import AI nicht regelmäßig liest, verpasst die einzige politische AI-Analyse, die unter Praktikern in den USA wirklich gelesen wird.
Quelle: Import AI Archiv
EU Digital Omnibus — HRAIS-Deadline um 16 Monate nach hinten
Am 7. Mai wurde eine Einigung über das Digital Omnibus berichtet — mit einer Änderung, die für viele AI-Implementierungen in DACH-Unternehmen direkt relevant wäre: Die Compliance-Deadline für Annex-III-High-Risk-AI-Systeme würde von 2. August 2026 auf 2. Dezember 2027 verschoben (also um 16 Monate), Annex-I-HRAIS würde von 2. August 2027 auf 2. August 2028 rutschen.
Zwei neue Verbote werden in der Einordnung ebenfalls genannt: Non-konsensuelle Intimate-Deepfakes und CSAM-Generation — beides ab 2. Dezember 2026. Die Watermarking-Deadline für generative Inhalte würde demnach auf drei Monate verkürzt.
Kritik kommt erwartbar von netzpolitik.org, die argumentieren, die Verschiebung folge der Big-Tech-Wunschliste. Aus DACH-KMU-Sicht sieht es trotzdem so aus: Die Verschiebung schafft Zeit für saubere Implementierungen — aber gleichzeitig erhöht sich der Wettbewerbsdruck, jetzt zu liefern, bevor die Welle 2027 alle gleichzeitig treibt. Die nächsten 18 Monate sind die Phase, in der die Marktposition für DSGVO-konforme Multi-Agent-Plattformen entschieden wird.
Quelle: Netzpolitik.org — EU Digital Omnibus Einigung · EU-Kommission — Digital Omnibus
Fazit — Die Konsolidierungs-Welle ist da
KW22 ist die Woche, in der drei Schichten gleichzeitig reifen: Self-Hosting-Inference (vLLM v0.21 GA) wird produktionsnäher, Multi-Agent-Orchestration (LangChain Deep Agents mit DeltaChannel) bekommt die richtigen Primitiven, und Enterprise-Governance (Docker Gordon + AI Governance, Atlassian Rovo Studio MCP) wird zum Pflichtbaustein. Parallel investiert das Closed-Vendor-Lager mit der Anthropic-Stainless-Akquisition gezielt in den Developer-Experience-Layer — und Brüssel verschafft mit dem Digital Omnibus voraussichtlich mehr Spielraum für sauber geplante Implementierungen. Was Jack Clarks "AI Stuxnet"-These zeigt: Die Risiko-Seite wächst proportional mit, und Governance ist 2026 keine Option mehr, sondern eine technische Anforderung im Stack.
Kuratiert von SEADEV Studios. Weekly AI News erscheint jeden Dienstag.


