[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-content-mcp-server-selbst-hosten-dsgvo-konformes-setup":3},"\u003Cp>Letzte Woche hat The New Stack die MCP-Dynamik sinngemäß so zugespitzt: \u003Ca href=\"https:\u002F\u002Fthenewstack.io\" target=\"_blank\" rel=\"noopener noreferrer\">Plattformen ohne MCP-Support drohen aus der nächsten Generation von AI-Apps herauszufallen\u003C\u002Fa>. Das ist als These hart formuliert, aber der Trend ist in Kunden-Workshops deutlich spürbar. Wer im DACH-Raum ernsthaft Agents in Produktionsabläufen will, kommt am \u003Cstrong>Model Context Protocol (MCP)\u003C\u002Fstrong> kaum vorbei.\u003C\u002Fp>\n\n\u003Cp>Die nächste Frage kommt dann sofort: \"Müssen wir das bei Anthropic oder OpenAI hosten?\" Kurze Antwort: Nein. MCP ist ein offenes Protokoll, du kannst es komplett in eigener Infrastruktur oder in einem regionalen Rechenzentrum betreiben — und wenn du auf DSGVO-, Schrems-II- und CLOUD-Act-Argumente Rücksicht nehmen musst, solltest du diese Option ernsthaft prüfen. In diesem Artikel zeige ich dir, wie ein produktionstaugliches Setup aussieht: Architektur, Docker-Compose-Beispiel, Anbindung an dein Frontend und eine Compliance-Checkliste am Ende.\u003C\u002Fp>\n\n\u003Cp>Wenn du den technischen Teil überspringen willst und einfach eine fertige Plattform suchst, die das alles schon mitbringt: Wir bauen genau diese Setups als unsere \u003Ca href=\"\u002Fde-at\u002Fcontact\">AI-OpenStack-Lösung\u003C\u002Fa> — Architektur-Workshop, Setup und Betrieb als Service inklusive.\u003C\u002Fp>\n\n\u003Ch2>Was MCP überhaupt ist (und was nicht)\u003C\u002Fh2>\n\u003Cp>Das \u003Cstrong>Model Context Protocol\u003C\u002Fstrong> ist ein von Anthropic im November 2024 veröffentlichter offener Standard, der eine einheitliche Schnittstelle zwischen LLMs und externen Tools, Datenquellen und Aktionen definiert. Du kannst dir MCP als \"USB-C für AI Agents\" vorstellen: Statt für jedes Modell eine eigene Tool-Calling-Schnittstelle zu bauen, sprichst du MCP — und jeder MCP-kompatible Client (Claude Desktop, Cline, OpenWebUI, eigene UIs) kann deine Tools nutzen, ohne dass du den Code zwei Mal schreibst.\u003C\u002Fp>\n\u003Cp>Konkret besteht MCP aus zwei Rollen: dem \u003Cstrong>MCP Server\u003C\u002Fstrong> (der Tools, Resources und Prompts bereitstellt) und dem \u003Cstrong>MCP Client\u003C\u002Fstrong> (der LLM-Anwendung, die die Tools nutzt). Die Kommunikation läuft über JSON-RPC 2.0, entweder via stdio (lokal) oder via HTTP\u002FServer-Sent-Events (remote). \u003Ca href=\"https:\u002F\u002Fwww.anthropic.com\u002Fnews\u002Fmodel-context-protocol\" target=\"_blank\" rel=\"noopener noreferrer\">Anthropic positioniert MCP\u003C\u002Fa> ausdrücklich als offene Verbindungsschicht für Agenten, Daten und Tools. Auch \u003Ca href=\"https:\u002F\u002Fgithub.blog\u002Fchangelog\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">GitHub Copilot Custom Agents\u003C\u002Fa> und \u003Ca href=\"https:\u002F\u002Fwww.atlassian.com\u002Fblog\u002Fdevops\" target=\"_blank\" rel=\"noopener noreferrer\">Atlassian Rovo Studio\u003C\u002Fa> zeigen, dass Agent-Plattformen ohne saubere Tool- und Kontextschnittstellen schnell an Grenzen stoßen.\u003C\u002Fp>\n\u003Cp>Was MCP \u003Cstrong>nicht\u003C\u002Fstrong> ist: keine Datenbank, keine Vektorsuche, kein Agent-Framework. Es ist eine reine Protokoll-Schicht. Du brauchst trotzdem ein LLM, eine Inferenz-Engine, optional eine Vektordatenbank für RAG und ein Frontend. MCP regelt nur die Tool-Calling-Schnittstelle dazwischen — aber das tut es sauber genug, dass du damit ein modulares System bauen kannst.\u003C\u002Fp>\n\n\u003Ch2>Warum überhaupt selbst hosten?\u003C\u002Fh2>\n\u003Cp>Drei Argumente, die in DACH-Beratungen immer wieder dieselben sind:\u003C\u002Fp>\n\u003Cp>\u003Cstrong>1. DSGVO und Schrems II.\u003C\u002Fstrong> Sobald personenbezogene Daten in Prompts oder Tool-Calls fließen, fällt die Verarbeitung unter die DSGVO. Bei Cloud-LLMs in den USA musst du nach dem \u003Ca href=\"https:\u002F\u002Fcuria.europa.eu\u002Fjcms\u002Fupload\u002Fdocs\u002Fapplication\u002Fpdf\u002F2020-07\u002Fcp200091de.pdf\" target=\"_blank\" rel=\"noopener noreferrer\">Schrems-II-Urteil des EuGH von 2020\u003C\u002Fa> Standardvertragsklauseln, Transfer-Impact-Assessments und ergänzende Maßnahmen prüfen. Das ist nicht unmöglich — aber aufwändig und mit Restrisiko verbunden.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>2. CLOUD Act.\u003C\u002Fstrong> Selbst Daten in EU-Rechenzentren US-amerikanischer Cloud-Provider können unter den \u003Ca href=\"https:\u002F\u002Fwww.justice.gov\u002Fdag\u002Fcloudact\" target=\"_blank\" rel=\"noopener noreferrer\">US CLOUD Act\u003C\u002Fa> fallen, wenn der Provider in den USA inkorporiert ist. Für regulierte Branchen — Gesundheit, Finanzen, kritische Infrastruktur, öffentliche Verwaltung — ist das oft ein Ausschlusskriterium.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>3. EU AI Act.\u003C\u002Fstrong> Die \u003Ca href=\"https:\u002F\u002Fnetzpolitik.org\u002Ftag\u002Fai-act\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Digital-AI-Omnibus-Debatte\u003C\u002Fa> könnte die High-Risk-Pflichten verschieben — aber Kennzeichnung, Transparenzpflichten und Verbote für bestimmte Anwendungsfälle bleiben auf der Roadmap. Wer einen eigenen MCP-Server betreibt, hat deutlich mehr Kontrolle über Logging, Audit-Trails und Compliance-Reporting. Bei einem fremd-gehosteten Service bist du stärker auf die Nachweise und Konfiguration des Anbieters angewiesen.\u003C\u002Fp>\n\u003Cp>Dazu kommt das \u003Cstrong>wirtschaftliche Argument\u003C\u002Fstrong>: Bei moderaten Token-Volumina (etwa ab 5–10 Millionen Tokens pro Tag) wird Self-Hosting selbst inklusive Hardware-Abschreibung günstiger als Cloud-API-Pricing. Bei richtig großen Volumen ist die Lücke dramatisch — auch deshalb, weil sich der westlich-chinesische Preisabstand bei \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">vergleichbarer Benchmark-Performance auf Faktor 5 bis 25\u003C\u002Fa> ausgeweitet hat.\u003C\u002Fp>\n\u003Cp>Wenn dir Hardware-Beschaffung und 24\u002F7-Betrieb zu aufwändig sind, bieten wir das Setup auch \u003Ca href=\"\u002Fde-at\u002Fcontact\">als Managed Service\u003C\u002Fa> an: Der Modell-Stack läuft in einem regionalen Rechenzentrum, ohne dass du selbst Hardware beschaffen musst, und Datenflüsse werden projektspezifisch dokumentiert und begrenzt.\u003C\u002Fp>\n\n\u003Ch2>Architektur: Die vier Bausteine eines MCP-Setups\u003C\u002Fh2>\n\u003Cp>Bevor wir in die Konfig springen, eine kurze Skizze. Ein produktionstaugliches MCP-Setup besteht aus vier Schichten:\u003C\u002Fp>\n\u003Cpre>\u003Ccode>┌──────────────────────────────────────────────────┐\n│  Frontend (OpenWebUI, eigene UI, Cline, etc.)   │\n└──────────────────────────────────────────────────┘\n                       │ HTTP \u002F SSE\n┌──────────────────────────────────────────────────┐\n│  LLM Gateway (LiteLLM Proxy)                     │\n│  - Auth, Rate Limiting, Routing, Logging         │\n└──────────────────────────────────────────────────┘\n                       │\n        ┌──────────────┴──────────────┐\n        │                             │\n┌───────▼────────┐         ┌──────────▼─────────┐\n│  Inferenz      │         │  MCP Server(s)     │\n│  (vLLM)        │         │  - Filesystem      │\n│  - Llama 4     │         │  - DB Connector    │\n│  - Mistral 3   │         │  - Custom Tools    │\n│  - Qwen 3.5    │         └────────────────────┘\n└────────────────┘                   │\n                                     │\n                          ┌──────────▼─────────┐\n                          │  Datenquellen      │\n                          │  Qdrant, Postgres, │\n                          │  Nextcloud, NAS    │\n                          └────────────────────┘\n\u003C\u002Fcode>\u003C\u002Fpre>\n\u003Cp>\u003Cstrong>1. Inferenz-Engine (\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM\u003C\u002Fa>)\u003C\u002Fstrong> — die GPU-Schicht, die deine Open-Weight-Modelle ausführt. Aktuelle vLLM-Releases sind für viele produktive Serving-Setups geeignet; welche Modellfamilien wirklich stabil laufen, sollte aber pro Modell, Quantisierung und Hardware getestet werden.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>2. LLM Gateway (\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FBerriAI\u002Flitellm\" target=\"_blank\" rel=\"noopener noreferrer\">LiteLLM Proxy\u003C\u002Fa>)\u003C\u002Fstrong> — die Routing-Schicht. Sie nimmt OpenAI-kompatible API-Calls entgegen, prüft Auth, leitet weiter und loggt. MCP-Integration und Gateway-Verhalten hängen vom konkreten LiteLLM-Release ab; im produktiven Setup solltest du die Version pinnen und gegen deine Clients testen.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>3. MCP Server\u003C\u002Fstrong> — der Tool-Layer. Hier liegen alle Funktionen, die das LLM aufrufen können soll: Datenbank-Queries, Filesystem-Zugriffe, eigene Business-Logik, externe APIs. Ein MCP-Server pro Tool-Domäne ist eine saubere Trennung.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>4. Datenquellen\u003C\u002Fstrong> — alles, was du anbinden willst: \u003Ca href=\"https:\u002F\u002Fqdrant.tech\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Qdrant\u003C\u002Fa> als Vektordatenbank für RAG, PostgreSQL für strukturierte Daten, Nextcloud für Dokumente, eine lokale NAS für File-Storage. Keine Big-Player-Abhängigkeiten — alles, was du brauchst, läuft Open Source auf eigener Hardware.\u003C\u002Fp>\n\n\u003Ch2>Hands-On: Docker-Compose-Setup\u003C\u002Fh2>\n\u003Cp>Hier ist ein minimales, aber produktionsnahes Compose-Setup. Es ist nicht copy-paste-bereit für deinen Cluster — das wäre auch unverantwortlich, weil jedes Setup eigene Netzwerk-, Storage- und Security-Constraints hat. Aber es zeigt dir die Struktur.\u003C\u002Fp>\n\u003Cpre>\u003Ccode class=\"language-yaml\"># docker-compose.yml\nversion: \"3.9\"\n\nservices:\n  vllm:\n    image: vllm\u002Fvllm-openai:v0.20.2\n    runtime: nvidia\n    environment:\n      - HUGGING_FACE_HUB_TOKEN=${HF_TOKEN}\n    volumes:\n      - .\u002Fmodels:\u002Froot\u002F.cache\u002Fhuggingface\n    command: &gt;\n      --model mistralai\u002FMistral-Medium-3.5\n      --tensor-parallel-size 4\n      --max-model-len 131072\n      --gpu-memory-utilization 0.92\n    ports:\n      - \"127.0.0.1:8000:8000\"\n    deploy:\n      resources:\n        reservations:\n          devices:\n            - driver: nvidia\n              count: 4\n              capabilities: [gpu]\n\n  litellm:\n    image: ghcr.io\u002Fberriai\u002Flitellm:v1.84.0\n    environment:\n      - LITELLM_MASTER_KEY=${LITELLM_KEY}\n      - DATABASE_URL=postgresql:\u002F\u002Flitellm:${PG_PASS}@postgres:5432\u002Flitellm\n    volumes:\n      - .\u002Flitellm-config.yaml:\u002Fapp\u002Fconfig.yaml:ro\n    command: --config \u002Fapp\u002Fconfig.yaml --port 4000\n    ports:\n      - \"127.0.0.1:4000:4000\"\n    depends_on:\n      - vllm\n      - postgres\n\n  mcp-filesystem:\n    image: ghcr.io\u002Fmodelcontextprotocol\u002Fserver-filesystem:latest\n    environment:\n      - MCP_ALLOWED_PATHS=\u002Fdata\u002Fshared\n    volumes:\n      - \u002Fmnt\u002Fnas\u002Fshared:\u002Fdata\u002Fshared:ro\n    ports:\n      - \"127.0.0.1:5001:5001\"\n\n  mcp-qdrant:\n    build: .\u002Fmcp-servers\u002Fqdrant\n    environment:\n      - QDRANT_URL=http:\u002F\u002Fqdrant:6333\n      - QDRANT_API_KEY=${QDRANT_KEY}\n    depends_on:\n      - qdrant\n    ports:\n      - \"127.0.0.1:5002:5002\"\n\n  qdrant:\n    image: qdrant\u002Fqdrant:v1.15.0\n    volumes:\n      - .\u002Fqdrant-storage:\u002Fqdrant\u002Fstorage\n    ports:\n      - \"127.0.0.1:6333:6333\"\n\n  postgres:\n    image: postgres:17-alpine\n    environment:\n      - POSTGRES_USER=litellm\n      - POSTGRES_PASSWORD=${PG_PASS}\n      - POSTGRES_DB=litellm\n    volumes:\n      - .\u002Fpgdata:\u002Fvar\u002Flib\u002Fpostgresql\u002Fdata\n\n  openwebui:\n    image: ghcr.io\u002Fopen-webui\u002Fopen-webui:v0.9.5\n    environment:\n      - OPENAI_API_BASE_URL=http:\u002F\u002Flitellm:4000\u002Fv1\n      - OPENAI_API_KEY=${LITELLM_KEY}\n      - WEBUI_AUTH=true\n    volumes:\n      - .\u002Fopenwebui-data:\u002Fapp\u002Fbackend\u002Fdata\n    ports:\n      - \"8080:8080\"\n    depends_on:\n      - litellm\n\u003C\u002Fcode>\u003C\u002Fpre>\n\u003Cp>Die LiteLLM-Konfig dazu, in der wir die MCP-Server beispielhaft registrieren. Je nach LiteLLM-Version kann die exakte MCP-Konfiguration abweichen — für ein echtes Setup also immer gegen die aktuelle Doku prüfen:\u003C\u002Fp>\n\u003Cpre>\u003Ccode class=\"language-yaml\"># litellm-config.yaml\nmodel_list:\n  - model_name: mistral-medium\n    litellm_params:\n      model: openai\u002Fmistralai\u002FMistral-Medium-3.5\n      api_base: http:\u002F\u002Fvllm:8000\u002Fv1\n      api_key: dummy\n\nmcp_servers:\n  filesystem:\n    transport: http\n    url: http:\u002F\u002Fmcp-filesystem:5001\n  qdrant:\n    transport: http\n    url: http:\u002F\u002Fmcp-qdrant:5002\n\ngeneral_settings:\n  master_key: ${LITELLM_MASTER_KEY}\n  database_url: ${DATABASE_URL}\n  enforce_user_id: true\n  store_audit_logs: true\n\u003C\u002Fcode>\u003C\u002Fpre>\n\u003Cp>Mit \u003Ccode>docker compose up -d\u003C\u002Fcode> startet das gesamte Setup. Die wichtigsten Endpoints:\u003C\u002Fp>\n\u003Cul>\n\u003Cli>\u003Ccode>http:\u002F\u002Flocalhost:4000\u002Fv1\u002Fchat\u002Fcompletions\u003C\u002Fcode> — OpenAI-kompatible Inferenz, mit Auth über LiteLLM\u003C\u002Fli>\n\u003Cli>\u003Ccode>http:\u002F\u002Flocalhost:4000\u002Fmcp\u002Ftools\u003C\u002Fcode> — Liste der verfügbaren MCP-Tools (über alle registrierten Server hinweg)\u003C\u002Fli>\n\u003Cli>\u003Ccode>http:\u002F\u002Flocalhost:8080\u003C\u002Fcode> — OpenWebUI als optionales Frontend für direkte Interaktion\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch2>Frontend-Anbindung\u003C\u002Fh2>\n\u003Cp>OpenWebUI ist eine der Optionen — und für viele Teams ein guter Einstiegspunkt, weil es sich schnell an einen OpenAI-kompatiblen LiteLLM-Endpoint anbinden lässt. MCP-Tools laufen dann über die Gateway- und Server-Schicht, nicht über lose Einzelintegrationen im Frontend. Für strukturierte Geschäftsprozesse wie Rechnungsfreigabe, Reklamationsbearbeitung oder Vertragsanalyse stößt eine generische Chat-UI aber irgendwann an Grenzen.\u003C\u002Fp>\n\u003Cp>Genau deshalb bauen wir in unserer AI-OpenStack-Lösung neben OpenWebUI \u003Cstrong>eigene, optimierte UIs\u003C\u002Fstrong> für strukturierte Prozesse. Die Idee: OpenWebUI bleibt für freie Recherche und Experimente, und für die produktiven Workflows gibt es spezialisierte Oberflächen, die nur das anzeigen, was im Prozess relevant ist. Beides spricht denselben LiteLLM-Endpoint, beides nutzt dieselben MCP-Server — der Unterschied liegt im Frontend.\u003C\u002Fp>\n\u003Cp>Wer eine ganz schlanke Variante will: \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fcline\u002Fcline\" target=\"_blank\" rel=\"noopener noreferrer\">Cline\u003C\u002Fa> als VS-Code-Extension funktioniert direkt mit deinem LiteLLM-Endpoint und kann MCP-Server als Tools nutzen. Für Developer-Workflows ist das oft die schnellere Lösung als ein Web-UI aufzusetzen.\u003C\u002Fp>\n\n\u003Ch2>DSGVO-Compliance-Checkliste\u003C\u002Fh2>\n\u003Cp>Hier eine pragmatische Checkliste, die wir in DACH-Setups standardmäßig durchgehen:\u003C\u002Fp>\n\u003Cul>\n\u003Cli>\u003Cstrong>Hosting-Standort dokumentieren:\u003C\u002Fstrong> Rechenzentrum in EU\u002FEWR, idealerweise mit ISO 27001 oder C5-Testat. Bei eigenem Rechenzentrum: Zutritts-, Brand- und Stromversorgungs-Konzept.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Auftragsverarbeitungsverträge:\u003C\u002Fstrong> Mit jedem externen Beteiligten (Rechenzentrum, Hardware-Wartung, externe Admins) ein AVV nach Art. 28 DSGVO.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Datenfluss-Diagramm:\u003C\u002Fstrong> Visualisierung, wer welche Daten wo verarbeitet. Pflichtteil des Verarbeitungsverzeichnisses (Art. 30).\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Audit-Logs:\u003C\u002Fstrong> LiteLLM bietet \u003Ccode>store_audit_logs: true\u003C\u002Fcode> — aktivieren, Aufbewahrungsfrist definieren (üblich: 90 Tage, plus Backup-Lifecycle).\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Rollen-\u002FBerechtigungs-Modell:\u003C\u002Fstrong> Wer darf welche MCP-Tools nutzen? Welche Datenquellen werden mit welcher Identität angefragt? LDAP\u002FAD-Integration über LiteLLM ist möglich, und in unserer AI-OpenStack-Lösung ist die LDAP\u002FAD-Anbindung Standard.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Pseudonymisierung in Prompts:\u003C\u002Fstrong> Wenn personenbezogene Daten in Prompts landen, klären, ob Pseudonymisierung machbar ist. Bei RAG mit Patientendaten oder Personalakten Pflicht.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Datenschutz-Folgenabschätzung (DSFA):\u003C\u002Fstrong> Bei systematischer Verarbeitung personenbezogener Daten Art. 35 DSGVO prüfen. Faustregel: Wenn es im Verarbeitungsverzeichnis steht und sensible Daten umfasst, ist eine DSFA fällig.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>EU-AI-Act-Klassifizierung:\u003C\u002Fstrong> Ist deine Anwendung High-Risk nach Annex III? Auch wenn die Pflichten erst Dezember 2027 greifen — die Klassifizierung jetzt machen, weil sie das Design beeinflusst.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Kennzeichnungsstrategie:\u003C\u002Fstrong> Wenn dein MCP-Server Bilder, Texte oder andere generative Inhalte ausgibt, plane Kennzeichnung und Watermarking in den Output-Pfad ein, bevor die Pflicht konkret greift.\u003C\u002Fli>\n\u003C\u002Ful>\n\u003Cp>Das ist keine vollständige Liste — bei regulierten Branchen oder grenzüberschreitenden Setups kommen weitere Punkte dazu. Aber das deckt die Basis ab, die wir bei jedem Projekt durchgehen.\u003C\u002Fp>\n\n\u003Ch2>Was du im ersten Sprint nicht unterschätzen solltest\u003C\u002Fh2>\n\u003Cp>Drei Punkte, die in den ersten Setups oft schiefgehen:\u003C\u002Fp>\n\u003Cp>\u003Cstrong>1. GPU-Speicher-Planung.\u003C\u002Fstrong> Große Open-Weight-Modelle können je nach Quantisierung auf einem H200-Knoten realistisch werden — aber sobald du mehr Concurrency willst oder größere Context-Windows nutzt, brauchst du Headroom. Plane mindestens 20 % VRAM-Reserve ein, und teste mit realen Workloads, bevor du in Produktion gehst.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>2. MCP-Tool-Berechtigungen.\u003C\u002Fstrong> Ein MCP-Filesystem-Server mit Zugriff auf \u003Ccode>\u002F\u003C\u002Fcode> ist eine offene Tür. Lege die \u003Ccode>MCP_ALLOWED_PATHS\u003C\u002Fcode> so eng wie möglich, prüfe Read- vs Write-Berechtigungen separat und logge jede Tool-Invocation.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>3. Modell-Lifecycle.\u003C\u002Fstrong> Open-Weight-Modelle entwickeln sich schnell — Llama, Mistral, Qwen, Gemma und DeepSeek sind die Modellfamilien, die du Stand Mai 2026 regelmäßig evaluieren solltest. Plane einen Quartals-Review für deinen Modell-Stack ein, in dem du gegen neue Benchmark-Ergebnisse, Lizenzänderungen und vLLM-Support testest.\u003C\u002Fp>\n\n\u003Ch2>Fazit\u003C\u002Fh2>\n\u003Cp>Einen MCP-Server selbst zu hosten ist kein Forschungsvorhaben mehr — die Werkzeuge sind reif genug, die Standards stabil genug, und die wirtschaftlichen wie regulatorischen Argumente sprechen für DACH-Unternehmen zunehmend dagegen, kritische AI-Workloads ungeprüft in US-Clouds zu legen. Was du brauchst: eine GPU-Hardware-Basis (eigene oder als Service), ein sauberes Architektur-Bild (Inferenz, Gateway, MCP-Server, Datenquellen), Disziplin bei Berechtigungen und Audit-Logging, und ein Frontend, das zu deinen Workflows passt — OpenWebUI als guter Einstiegspunkt, eigene UIs für strukturierte Prozesse.\u003C\u002Fp>\n\n\u003Cp>Wenn du das Setup nicht selbst aufbauen willst oder einfach jemanden brauchst, der die Architektur vor der ersten Investition gegenliest: Melde dich \u003Ca href=\"\u002Fde-at\u002Fcontact\">direkt bei uns\u003C\u002Fa> — wir machen Architektur-Workshops, Migrationspläne und betreiben die AI-OpenStack-Lösung auf Wunsch als Managed Service in einem regionalen Rechenzentrum, ohne dass du selbst Hardware beschaffen musst.\u003C\u002Fp>\n\n\u003Cp>Tieferer Kontext zur DSGVO-Lage findest du in unseren Pillars zu \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fsovereign-ai-dsgvo-konforme-ki-plattform-unternehmen\">Sovereign AI\u003C\u002Fa>, \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fdeepseek-v4-on-premise-dsgvo-konform\">DeepSeek V4 On-Premise\u003C\u002Fa> und \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fagentic-engineering-2026-dsgvo-mistral-vllm-cline\">Agentic Engineering 2026\u003C\u002Fa>.\u003C\u002Fp>\n"]