Zum Hauptinhalt springen
8. Mai 202614 Min. LesezeitAgentic Engineering

Agentic Engineering 2026: Mistral 3.5, vLLM, Cline

Lukas Obermann

Lukas Obermann

Agentic Engineering 2026: Mistral 3.5, vLLM, Cline

Der griffige Hype-Begriff der letzten Monate war ein guter Startpunkt, aber für produktive Teams ist der präzisere Begriff Agentic Engineering: Entwicklung mit Coding-Agenten, lokalem Repository-Kontext, Test-Feedback, Tool-Calls und kontrollierten Übergaben in CI/CD. Mit der Veröffentlichung von Mistral Medium 3.5 und dem Vibe Cloud Coding Agent am 29. April 2026 ist dieses Thema endgültig auch in Europa angekommen — und damit eine Frage, die wir seit Wochen von Kunden hören: Wie macht man Agentic Engineering, ohne dass die Codebase, die Issue-Beschreibungen und das CI-System bei einem US-Cloud-Anbieter landen?

Wenn dich nur der Workflow interessiert und nicht die DSGVO-/Souveränitäts-Diskussion, kannst du den Theorie-Teil überspringen und direkt zum Setup-Abschnitt scrollen. Wenn du grundsätzlich überlegst, ob ein eigener KI-Stack für dein Team Sinn macht: melde dich gern direkt bei uns über seadev-studios.com/de-at/contact — wir helfen bei der Architektur-Entscheidung und sagen ehrlich, wann ein Cloud-Setup besser passt.

Was bedeutet Agentic Engineering wirklich?

Andrej Karpathy hat die zugrunde liegende Arbeitsweise im Februar 2025 in einem Tweet popularisiert — ich zitiere sinngemäß: Code wird nicht mehr Zeile für Zeile geschrieben, sondern dem Agent in natürlicher Sprache beschrieben. Der Agent baut, der Mensch testet das Ergebnis und gibt Feedback in der gleichen natürlichen Sprache. Agentic Engineering macht daraus eine belastbare Engineering-Praxis: funktional korrekter Code, respektierte Codebase-Konventionen, nachvollziehbare Tool-Calls und überprüfbare Ergebnisse.

Simon Willison hat das Muster in mehreren Posts seither präzisiert: Agentic Engineering funktioniert genau dann gut, wenn der Agent lokalen Kontext hat (Repository, Dependencies, Test-Suite) und iterativ arbeiten kann (Run, Lint, Fix, Repeat). Die Frage, wie man diesen Kontext liefert, ist die eigentliche Substanz hinter dem Marketing-Begriff. Mistral Vibe Cloud liefert das Muster als Cloud-Service mit GitHub-Integration. Das ist bequem, hat aber drei Konsequenzen, die in DACH-Compliance-Reviews regelmäßig auftauchen.

Warum die meisten Agentic-Engineering-Tools dich in der Cloud festsetzen

Die erste Konsequenz: Codebase-Inhalte fließen zum Anbieter. Der Coding-Agent sieht Dateien, Diffs, Issue-Beschreibungen, oft auch Test-Fixtures mit anonymisierten Kundendaten. Selbst wenn der Anbieter mit Data-Processing-Agreements und Retention-Limits arbeitet, sitzt die Verarbeitung typischerweise in den USA — und damit unter CLOUD Act-Reichweite. Das ist der Punkt, der Compliance-Teams seit dem Schrems-II-Urteil zuverlässig nervös macht.

Die zweite Konsequenz: Modell-Wechsel ist nicht trivial. GitHub Copilot bietet Claude und GPT, Cursor bietet ein Mix-Modell, Mistral Vibe Cloud nutzt Medium 3.5. Wer am Modell schrauben will, muss den Anbieter wechseln — und damit oft auch das IDE-Plugin, die Workflow-Integration und die History.

Die dritte Konsequenz: Cost-Lock-in. Mit der Pause der GitHub-Copilot-Individual-Pläne Ende April und der Ankündigung, dass Copilot Code Review ab 1. Juni Actions-Minutes konsumiert, ist die Kalkulationsgrundlage volatiler geworden. Viele Teams hatten Copilot mental als Flatrate eingepreist — agentic Workflows machen daraus eine Compute-Variable, die schwerer planbar ist.

Die offene Alternative existiert seit März 2026: ein lokal oder regional betriebener Stack, der das Agentic-Engineering-Muster abbildet, ohne dass Codebase-Inhalte bei einem US-Cloud-Anbieter landen. Was bis vor einem Quartal noch ein Bastel-Setup war, ist mit Mistral Medium 3.5 zur produktiven Option geworden.

DSGVO-konforme Alternative: AI-OpenStack-Lösung + Mistral Medium 3.5 + vLLM

Bei SEADEV Studios setzen wir für unsere Kunden eine AI-OpenStack-Lösung auf, die genau diesen Stack abbildet — als Self-Hosted-Variante im Kunden-Rechenzentrum oder als Service in einem regionalen Rechenzentrum. Die Kernkomponenten sind bekannt und seit Monaten produktionsreif:

  • vLLM als Inference-Engine, seit der Veröffentlichung von v0.20.1 am 3. Mai mit TurboQuant-2-Bit-KV-Cache, FA4-Default-MLA-Prefill und Day-Zero-Support für Mistral Medium 3.5 und DeepSeek V4
  • LiteLLM als API-Gateway, das Mistral, DeepSeek, Llama 4 und Qwen 3.5 als kompatible OpenAI-Endpoints exponiert
  • Qdrant als Vektordatenbank für RAG- und Codebase-Indexierung
  • Windmill als Workflow-Orchestrator, der die Agentic-Engineering-Pipeline (Indexieren, Linting, Testen, Notification) im Hintergrund hält
  • Nextcloud als Datei-Backbone für Issue-Anhänge, Test-Fixtures und Build-Artefakte — anstelle von Dropbox oder vergleichbaren Cloud-Drives
  • OpenWebUI als optionales Chat-Frontend für nicht-codebezogene Use-Cases (Recherche, Dokumentation), während wir für strukturierte Coding-Workflows eigene UIs einsetzen

Die AI-OpenStack-Lösung basiert ausdrücklich nicht auf OpenWebUI — OpenWebUI ist ein Bestandteil, der dort eingehängt sein kann, wo es Sinn macht, aber die Plattform-Logik (Routing, Rate-Limits, Audit-Trail, Mehrmandanten-Setup) lebt in eigenen Komponenten. Wer ohne eigene Hardware starten will, kann die Plattform auch als Service nutzen: Der Modell-Stack läuft in einem regionalen Rechenzentrum, ohne dass du selbst Hardware beschaffen musst.

Warum Mistral Medium 3.5 das richtige Basismodell ist

Mistral hat mit Medium 3.5 am 29. April einen Stack veröffentlicht, der drei bisher getrennte Modelle in einem konsolidiert: Devstral 2 (Coding-spezifisch), Magistral (Reasoning) und Medium 3.1 (Instruction-Following). Laut Mistral erreicht das Modell auf SWE-Bench Verified 77,6 Prozent und liegt damit in einer Liga, die für die meisten produktiven Coding-Use-Cases mehr als ausreicht.

Drei Eigenschaften machen das Modell für DACH-Setups besonders interessant. Erstens das 256K-Token-Context-Window — genug für mittelgroße Codebases inklusive relevanter Dokumentation. Zweitens die Hardware-Anforderung: Self-Hosting ab 4 H100/H200-Karten ist eine planbare Investition, mit 4-Bit-Quantisierung läuft das Modell sogar auf einem einzelnen H200-Knoten. Drittens die europäische Provenienz: Mistral ist französisch, das macht in Compliance-Reviews einen Unterschied — vor allem bei Behörden und regulierten Branchen.

Die Lizenz ist "Mistral Research License + Apache-2.0-Variante für kommerzielle Nutzung über die offizielle Distributoren-Schiene" — also nicht ganz so offen wie MIT, aber für die meisten DACH-Use-Cases unproblematisch. Wer eine maximal permissive Lizenz braucht, kann auf DeepSeek V4 (MIT) oder Llama 4 (Llama Community License — nicht permissiv im engeren Sinne) ausweichen.

Isometrischer Stack: vLLM, LiteLLM, IDE-Bridge, Windmill — vier-Tier-Infrastruktur

Das Setup: Mistral Medium 3.5 + vLLM + Cline

Für ein produktives Agentic-Engineering-Setup brauchst du drei Komponenten: ein Modell, eine Inference-Engine und eine IDE-Bridge. Hier ist eine Minimal-Konfiguration, die in den letzten zwei Wochen bei uns auf einem 4×H100-Knoten gegen mehrere Kunden-Repos getestet wurde.

Schritt 1: vLLM mit Mistral Medium 3.5

Auf einem Linux-Host mit CUDA 13.0 und PyTorch 2.11 (was vLLM v0.20.1 voraussetzt):

pip install vllm==0.20.1

vllm serve mistralai/Mistral-Medium-3.5 \
  --tensor-parallel-size 4 \
  --max-model-len 262144 \
  --kv-cache-dtype turboquant_2bit \
  --enable-prefix-caching \
  --port 8000

Mit dem turboquant_2bit-KV-Cache passt der 256K-Context auch bei mehreren parallelen Sessions in den VRAM, ohne dass du auf Aktivierungs-Offloading ausweichen musst. Für DeepSeek V4 Flash auf demselben Stack reicht der gleiche Befehl mit deepseek-ai/DeepSeek-V4-Flash als Modell-ID.

Schritt 2: LiteLLM als Gateway

LiteLLM normalisiert die API-Oberfläche, sodass deine IDE-Plugins gegen einen einzigen Endpoint laufen, auch wenn du mehrere Modelle parallel betreibst:

# config.yaml
model_list:
  - model_name: agentic-coder
    litellm_params:
      model: openai/mistralai/Mistral-Medium-3.5
      api_base: http://vllm-host:8000/v1
      api_key: dummy

  - model_name: agentic-fast
    litellm_params:
      model: openai/deepseek-ai/DeepSeek-V4-Flash
      api_base: http://vllm-host:8000/v1
      api_key: dummy

litellm_settings:
  drop_params: true
  set_verbose: false

Start mit litellm --config config.yaml --port 4000. Damit hast du einen OpenAI-kompatiblen Endpoint, den du in jeder IDE-Bridge gegen-konfigurieren kannst.

Schritt 3: Cline als IDE-Bridge

Cline (früher Claude Dev) ist als VSCode-Extension das aktuell beste Open-Source-Pendant zu Cursor und Copilot — und unterstützt OpenAI-kompatible Endpoints out-of-the-box. In der Extension-Konfiguration:

  • API Provider: OpenAI Compatible
  • Base URL: http://litellm-host:4000
  • Model: agentic-coder
  • API Key: beliebiger Dummy-Wert (LiteLLM kennt deine Routes, nicht der API-Key)

Roo Code als alternative Extension funktioniert mit dem gleichen Setup. Für IntelliJ-User ist Continue.dev eine kompatible Option mit ähnlichem Feature-Set.

Vergleich: Claude Code, Cursor, Cline, Roo Code im Agentic-Engineering-Workflow

Tool Lizenz Backend Lokales Setup DSGVO-Position
Claude CodeproprietärAnthropic CloudneinDaten in den USA
CursorproprietärOpenAI/AnthropicneinDaten in den USA
GitHub CopilotproprietärMicrosoft CloudneinDaten in den USA
Mistral Vibe CloudproprietärMistral Cloud (FR)neinDSGVO-konform mit Auflagen
ClineApache 2.0beliebigjaabhängig vom Modell-Backend
Roo CodeApache 2.0beliebigjaabhängig vom Modell-Backend
Continue.devApache 2.0beliebigjaabhängig vom Modell-Backend

Die untere Hälfte der Tabelle ist die DACH-relevante: Cline, Roo Code und Continue.dev sind Open-Source-IDE-Bridges, die du gegen einen lokalen vLLM-Endpoint hängen kannst. Damit ist die DSGVO-Frage entkoppelt von der Tool-Frage und liegt im Backend, wo sie sauberer adressierbar ist.

Cost-Modell — Self-Hosted vs. Cloud-Agentic-Engineering

Mit DeepSeek V4PLUS hat sich die Preis-Untergrenze für Cloud-Inferenz nochmal nach unten verschoben: Laut LLM Stats sind 100 Millionen Tokens für 2,65 US-Dollar bei V4 Pro inzwischen Realität. Mistral Medium 3.5 liegt bei 1,50 US-Dollar pro 1 Million Input-Tokens und 7,50 US-Dollar Output, GitHub Copilot ist nach der Plan-Umstellung am 27. April schwerer einzuordnen.

Auf der Self-Hosted-Seite rechnet sich ein 4×H100-Knoten ab etwa 30 produktiven Entwicklerinnen und Entwicklern, die täglich Agentic-Engineering-Sessions fahren. Bis zu dieser Schwelle ist Cloud-Inferenz typischerweise günstiger — vor allem mit DeepSeek V4 als Backend. Für DACH-Behörden und Mittelstands-Setups, in denen die DSGVO-Frage nicht verhandelbar ist, verändert sich diese Cost-Logik: Dann ist die praktische Frage, ob du selbst Hardware betreibst oder die Plattform als Service einkaufst.

Wir bieten beides an. Wer die Architektur-Entscheidung gerade unter Zeitdruck treffen muss, kann sich über seadev-studios.com/de-at/contact bei uns melden — wir machen einen ehrlichen Cost-Vergleich gegen deinen aktuellen Stack und sagen, wann sich Self-Hosting rechnet.

Behörden-Use-Case: Anschluss an die Pilotwelle 2026

Das Bundesministerium für Digitales und Staatsmodernisierung hat in der vergangenen Woche bestätigt, dass 18 Pilotprojekte für KI-Agenten in 17 deutschen Kommunen mit zehn Startups gestartet werden — gefiltert aus rund 400 Bewerbungen. Die genannten Use-Cases (Anträge prüfen, Dokumente analysieren, Verwaltungsprozesse beschleunigen) entsprechen exakt dem Profil, für das ein Stack aus vLLM, LiteLLM, Qdrant und Windmill seit Monaten bei DACH-Kunden im Einsatz ist.

Was aus den Piloten mitgenommen werden kann: Coding-Agent und Verwaltungs-Agent teilen sich technisch viel Infrastruktur. Wer für Agentic Engineering einen lokalen Stack betreibt, hat damit gleichzeitig die Basis für RAG-basierte Dokumenten-Analyse und Workflow-Automatisierung — die AI-OpenStack-Lösung ist explizit so gebaut, dass beide Use-Cases auf der gleichen Plattform laufen können.

Mit dem EU-AI-Act-Trilog am 13. Mai, der eine Verschiebung der High-Risk-Pflichten auf den 2. Dezember 2027 zur Diskussion stellt, bekommt der Aufbau einer eigenen Plattform zusätzlich Atempause. Wer jetzt einen On-Premise-Stack aufsetzt, hat 19 Monate, um die Architektur, das Audit-Konzept und den Modell-Lifecycle in Ruhe zu konsolidieren — bevor die Hochrisiko-Pflichten greifen.

Fazit

Agentic Engineering ist 2026 keine Nischen-Beschäftigung mehr — und mit Mistral Medium 3.5 und vLLM v0.20.1 ist die DSGVO-konforme Variante zum ersten Mal so produktiv, dass sie sich gegen Cloud-Setups behaupten kann. Cline als IDE-Bridge und LiteLLM als Gateway sind seit Wochen produktiv im Einsatz. Wer den Stack nicht selbst aufbauen will, kann ihn als Managed Service in einem regionalen Rechenzentrum nutzen, ohne selbst Hardware beschaffen zu müssen.

Wenn du gerade abwägst, ob Agentic Engineering bei euch lokal Sinn macht — oder ob ein bestehender Cloud-Stack reduziert werden soll —, ist jetzt ein guter Zeitpunkt für ein erstes Gespräch. Schreib uns über seadev-studios.com/de-at/contact, und wir gehen den konkreten Stack mit dir durch — Hardware, Modellwahl, Integration in eure CI, DSGVO-Argumente für die Compliance-Vorlage. Ehrliche Empfehlung inklusive: Wenn ein Cloud-Setup besser passt, sagen wir das auch.

Tieferer Kontext zur DSGVO-Lage und zur Stack-Architektur: Agentic Engineering DSGVO-konform — On-Premise-Stack und DeepSeek V4 On-Premise DSGVO-konform. Für die Nachrichtenseite: AI News KW 19.


Geschrieben von Lukas Obermann für SEADEV Studios. Stand Mai 2026.

Tags

Agentic EngineeringDSGVOMistral Medium 3.5vLLMClineAI OpenStackOn-Premise KICopilot AlternativeOpen Source

Teilen

Weitere Artikel