AI News KW 13: MCP, Stripe Agenten & Flash-MoE

97 Millionen SDK-Downloads pro Monat. Autonome Zahlungen durch KI-Agenten. 397-Milliarden-Parameter-Modelle auf einem MacBook. Diese Woche hat sich einiges getan — und das meiste davon verändert, wie wir über KI-Infrastruktur nachdenken. Hier ist unser Überblick.

🔥 Top-Story: MCP-Protokoll bekommt Roadmap 2026 — und Stripe macht Agenten zahlungsfähig

Zwei Entwicklungen, die zusammengehören: Das Model Context Protocol (MCP) hat im Februar die 97-Millionen-Marke bei monatlichen SDK-Downloads überschritten. Was als internes Anthropic-Experiment startete, ist zum De-facto-Standard für die Kommunikation zwischen KI-Modellen und externen Tools geworden.

Die frisch veröffentlichte Roadmap 2026 definiert vier Schwerpunkte: Transport-Skalierbarkeit (Streamable HTTP, Session-Management), Agent-Kommunikation (Tasks-Primitive für asynchrone Workflows), Governance-Reife (Contributor Ladder, Working-Group-Delegation) und Enterprise-Readiness (Audit Trails, SSO-Integration, Gateway-Verhalten).

Parallel dazu hat SurePath AI MCP Policy Controls vorgestellt — Echtzeit-Governance für MCP-Server und Tools. Die Idee: Bevor ein Agent ein Tool aufruft, prüft SurePath, ob das laut Unternehmens-Policy erlaubt ist. Das klingt nach Enterprise-Bürokratie, ist aber genau das, was für produktive MCP-Deployments fehlt.

Und dann Stripe: Mit dem Machine Payments Protocol (MPP) gibt es jetzt einen offenen Standard für autonome Agenten-Zahlungen. Ein Agent autorisiert sich einmal, füllt ein Konto auf, und danach läuft jeder API-Call oder Datenverbrauch als automatische Echtzeit-Abrechnung — Mikrotransaktionen, Recurring, Pay-as-you-go. Visa, Anthropic, OpenAI, Mastercard und Shopify sind bereits an Bord.

Warum das zusammengehört: MCP definiert, was Agenten tun können. MPP definiert, wie sie dafür bezahlen. Zusammen entsteht gerade die Infrastruktur für eine echte Agenten-Ökonomie.

Quellen: MCP Roadmap 2026 | The New Stack: MCP Production Growing Pains | Stripe MPP | PYMNTS: Stripe-Backed Protocol | SurePath AI MCP Controls

Neue Modelle & Releases

Flash-MoE: 397B-Parameter auf dem Laptop

Das hat diese Woche auf Hacker News eingeschlagen: Flash-MoE lässt Qwen3.5-397B auf einem MacBook Pro mit 48 GB RAM laufen — mit 5,5 Tokens pro Sekunde bei nur 5,5 GB Speicherverbrauch.

Der Trick nutzt die Mixture-of-Experts-Architektur: Von 512 Experten pro Layer werden nur 4 pro Token aktiviert. Flash-MoE streamt genau diese vier vom SSD durch eine handoptimierte Metal-Pipeline — kein Python, kein Framework, nur C, Objective-C und Metal Shader. Das Ganze basiert auf Apples "LLM in a Flash"-Paper von 2023, ist aber die erste Open-Source-Implementation, die brauchbare Geschwindigkeiten auf Consumer-Hardware liefert.

Für uns bei SEADEV ist das spannend, weil es zeigt: Die Hardware-Anforderungen für große Modelle sinken schneller als erwartet. Wer heute in eine lokale KI-Infrastruktur investiert — ob eigene Hardware oder über unser Rechenzentrum — wird in wenigen Monaten deutlich mehr Leistung pro Euro bekommen.

Quelle: GitHub: Flash-MoE | AI for Automation: Flash-MoE auf MacBook

LiteLLM v1.82.6: GPT-5.4 und bessere Anthropic-Integration

LiteLLM hat in KW13 gleich mehrere Patch-Releases geschoben. Die Highlights von v1.82.6: Support für GPT-5.4 Mini und Nano, verbesserte Anthropic-Integration mit Environment-Variablen für Thinking-Blöcke, vLLM Batch + Files API Support und dynamisches Rate Limiting auf Team-Ebene.

Für alle, die LiteLLM als Multi-Model-Router einsetzen — was wir in unserer AI OpenStack Lösung tun — wird das Routing zwischen lokalen und Cloud-Modellen damit nochmal flexibler. Besonders das dynamische Rate Limiting ist praktisch, wenn verschiedene Teams unterschiedliche Kontingente brauchen.

Quelle: LiteLLM Releases auf GitHub

Open Source & Infrastructure

Windmill: Workflows as Code v2

Windmill hat mit "Workflows as Code v2" ein großes Update rausgehauen. Die neuen Primitiven — workflow(), task(), step(), sleep(), waitForApproval(), parallel() — ermöglichen Checkpoint-basierte Orchestrierung. Das Besondere: Der Worker suspendiert zwischen Tasks komplett und gibt seinen Slot frei. Kein Deadlock, unbegrenzte Parallelität.

Für uns ist Windmill ein zentraler Baustein in unserer AI OpenStack Lösung — dort orchestriert es agentische Workflows, Daten-Pipelines und Automatisierungen. Das Checkpoint-System löst ein reales Problem: Bei langen Workflows mit Human-in-the-Loop-Approvals oder API-Wartezeiten wurden bisher Worker-Slots blockiert. Das ist jetzt Geschichte.

Quelle: Windmill Changelog: Workflows as Code v2

BMDS startet "Agentic AI Hub" mit 18 Pilotprojekten

Das Bundesministerium für Digitales und Staatsmodernisierung (BMDS) hat den "Agentic AI Hub" gestartet — 18 Pilotprojekte, bei denen KI-Agenten Verwaltungsvorgänge beschleunigen sollen. 400 Startups und knapp 200 Kommunen hatten sich beworben.

Konkret sollen autonome Agenten Anträge auf Vollständigkeit prüfen, fehlende Dokumente nachfordern und Vorschläge für Behördenentscheidungen machen. Das ist ambitioniert — und netzpolitik.org weist zurecht auf verfassungsrechtliche Bedenken hin, besonders wenn KI-Systeme Entscheidungen vorbereiten, die Grundrechte betreffen.

Trotzdem: Dass Deutschland hier nicht nur redet, sondern 18 konkrete Piloten startet, ist ein gutes Signal. Und für Organisationen im DACH-Raum zeigt es, dass das Thema KI-Agenten nicht nur ein Silicon-Valley-Hype ist.

Quellen: BMDS: Agentic AI Hub | netzpolitik.org: Kollege KI

DACH & Regulierung

EU AI Act: High-Risk-Deadlines verschoben auf 2027/2028

Der EU-Rat hat am 13. März seine Position zur Timeline-Verlängerung des AI Acts festgelegt. Die neuen Daten: 2. Dezember 2027 für eigenständige Hochrisiko-KI-Systeme (Beschäftigungs-Screening, Kreditscoring, biometrische Identifikation) und 2. August 2028 für Hochrisiko-KI in Produkten (Medizingeräte, Maschinen, Aufzüge).

Am 19. März hat das EU-Parlament mit 101 zu 9 Stimmen diese Richtung bestätigt. Der Grund: Die ursprüngliche Regelung, bei der Verpflichtungen erst nach einer Kommissionsentscheidung über Standardbereitschaft aktiv werden, bot zu wenig Planungssicherheit.

Für Unternehmen im DACH-Raum bedeutet das: Mehr Vorbereitungszeit, ja — aber auch die Gefahr, dass Compliance-Investments aufgeschoben werden. Wer jetzt schon KI einsetzt, sollte trotzdem nicht warten. Die Grundanforderungen (Transparenz, Dokumentation, Risikomanagement) gelten unabhängig von den Deadlines.

Quellen: EU-Rat: Council Position | PPC Land: Parliament Committee

Community-Highlight

MinIO: Vom Wartungsmodus zum Archiv

Was als leiser Wechsel in den Maintenance Mode im Dezember 2025 begann, ist jetzt endgültig: MinIO hat sein Open-Source-Repository am 13. Februar 2026 archiviert. Keine neuen Features, keine Community-Beiträge, nur noch Case-by-Case Security Fixes.

Die Alternative? MinIO AIStor — die kommerzielle Version. Für Self-Hosted-Setups, die auf MinIO als Object Storage gesetzt haben, heißt das: Migrationsplanung starten. Alternativen wie SeaweedFS, Garage oder Ceph-RGW sind einen Blick wert. Es ist ein weiteres Beispiel dafür, wie Open-Source-Projekte unter dem Druck stehen, ein tragfähiges Geschäftsmodell zu finden — und Nutzer im Regen stehen lassen, wenn das nicht klappt.

Quellen: GitHub Issue: MinIO Maintenance Mode | InfoQ: MinIO Alternatives

Unser Take

Diese Woche zeigt, wie schnell sich das Agenten-Ökosystem professionalisiert. MCP ist nicht mehr "das neue Ding" — mit 97 Millionen Downloads und einer strukturierten Roadmap ist es Infrastruktur. Stripe MPP macht Agenten wirtschaftlich handlungsfähig. SurePath bringt Governance. Und die KubeCon EU — die diese Woche in Amsterdam startet — hat erstmals einen eigenen "Agentics Day".

Gleichzeitig passiert viel an der Basis: Flash-MoE zeigt, dass die Hardware-Anforderungen für große Modelle sinken. Windmills Checkpoint-Orchestrierung löst reale Probleme bei agentischen Workflows. Und der BMDS Agentic AI Hub beweist, dass selbst die deutsche Verwaltung an KI-Agenten glaubt — auch wenn der Weg von 18 Pilotprojekten zu flächendeckendem Einsatz noch lang ist.

Für uns bei SEADEV bestätigt das den Ansatz, den wir mit unserer AI OpenStack Lösung verfolgen: Offene Standards (MCP, vLLM, LiteLLM, Windmill), eigene Infrastruktur, keine Vendor-Lock-ins. Wenn du überlegst, wie KI-Agenten in deiner Organisation aussehen könnten — lass uns reden.

Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.