[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-content-deepseek-v4-on-premise-dsgvo-konform":3},"\u003Cp>Am 24. April 2026 ist \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V4\" target=\"_blank\" rel=\"noopener noreferrer\">DeepSeek V4\u003C\u002Fa> erschienen. Die nüchterne Zusammenfassung: Open-Weight, MIT-Lizenz, ein Million-Token-Context-Window, in zwei Varianten — V4-Pro mit 1,6 Billionen Parametern (49 Milliarden aktiv) und V4-Flash mit 284 Milliarden Parametern (13 Milliarden aktiv). Die längere Antwort, die für DACH-Unternehmen relevanter ist: Das ist eines der ersten wirklich offen nutzbaren Modelle, das in derselben Liga wie proprietäre Frontier-Modelle spielt — und das du im eigenen Rechenzentrum kommerziell betreiben darfst, ohne zusätzliche Anbieterauflagen, ohne API-Aufrufe in die Cloud, ohne Telemetrie.\u003C\u002Fp>\n\n\u003Cp>Wenn du gerade KI-Use-Cases in deinem Unternehmen evaluierst und dabei zwischen \"Wir geben Daten an OpenAI\u002FAnthropic\" und \"Wir trauen uns nicht an einen eigenen Stack\" pendelst, ist DeepSeek V4 der Anlass, das Thema neu aufzurollen. In diesem Beitrag zeige ich dir, was V4 technisch von den Vorgängern abhebt, warum die Lizenz-Situation den Unterschied macht, welche Hardware du wirklich brauchst — und wie ein produktiver Stack aus vLLM, LiteLLM, Qdrant und Windmill aussieht, der DSGVO-konform betreibbar ist und Big-Tech-Abhängigkeiten reduziert.\u003C\u002Fp>\n\n\u003Cblockquote>\n\u003Cp>\u003Cstrong>Kein Tech-Background?\u003C\u002Fstrong> Falls dich mehr interessiert, \u003Cem>was\u003C\u002Fem> DeepSeek V4 für dein Unternehmen leisten könnte, statt \u003Cem>wie\u003C\u002Fem> es technisch funktioniert, \u003Ca href=\"\u002Fde-at\u002Fcontact\">meld dich gern direkt bei uns\u003C\u002Fa>. Wir sortieren in einem 30-Minuten-Termin, ob ein eigener KI-Stack für deinen Anwendungsfall sinnvoll ist — und wenn ja, in welcher Ausbaustufe.\u003C\u002Fp>\n\u003C\u002Fblockquote>\n\n\u003Ch2>Was DeepSeek V4 technisch anders macht\u003C\u002Fh2>\n\u003Cp>Die Modellfamilie kommt in zwei Varianten, die du je nach Use-Case und Budget unterschiedlich einsetzen wirst.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>V4-Flash\u003C\u002Fstrong> mit 284 Milliarden Gesamtparametern und 13 Milliarden aktiven Parametern pro Token ist das praxisnahe Modell für die meisten Enterprise-Setups. Auf einem einzelnen H100-Knoten mit 8 Karten ist ordentlicher Throughput realistisch, der Speicherbedarf ist mit Quantisierung beherrschbar, die Antwortqualität zielt auf die Klasse der vorigen Flagschiff-MoE-Modelle. Für RAG-Pipelines, Coding-Agenten, Dokumentenanalyse und Workflow-Automatisierung ist das in den allermeisten Fällen ausreichend.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>V4-Pro\u003C\u002Fstrong> mit 1,6 Billionen Gesamtparametern und 49 Milliarden aktiven Parametern ist die \"Maximaleinstellung\" — relevant, wenn du sehr lange Dokumente in einem Rutsch verarbeitest, agentische Workflows mit langen Tool-Call-Ketten fährst oder spezialisierte Reasoning-Tasks abdeckst. Für den Eigenbetrieb braucht V4-Pro ein kleines GPU-Cluster mit InfiniBand- oder NVLink-Anbindung — also Hardware, die ein Service-Provider-Setup oder ein größerer Konzern stemmen kann, kein typischer KMU-Server.\u003C\u002Fp>\n\u003Cp>Was beide Varianten teilen, sind zwei Architektur-Innovationen, die in der Praxis spürbar werden:\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Hybrid-Attention aus CSA und HCA.\u003C\u002Fstrong> DeepSeek hat zwei neue Attention-Mechanismen kombiniert: \u003Cstrong>Compressed Sparse Attention (CSA)\u003C\u002Fstrong> und \u003Cstrong>Heavily Compressed Attention (HCA)\u003C\u002Fstrong>. Die kombinierte Auswirkung: Bei einem 1-Million-Token-Context benötigt V4 laut \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V4\" target=\"_blank\" rel=\"noopener noreferrer\">DeepSeek-Angaben\u003C\u002Fa> etwa \u003Cstrong>27 Prozent der FLOPs und 10 Prozent des KV-Caches\u003C\u002Fstrong> im Vergleich zu V3.2. In der Praxis heißt das: Lange Dokumente werden in einer Anfrage prozessierbar, ohne dass der Speicherbedarf explodiert.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>384.000 Tokens Maximaloutput.\u003C\u002Fstrong> Während die meisten Modelle Output-Längen zwischen 4.000 und 32.000 Tokens unterstützen, kann V4 in einer einzigen Generierung bis zu 384.000 Tokens ausgeben. Für agentische Workflows mit langen Reasoning-Ketten oder für die Erzeugung umfangreicher strukturierter Reports ist das ein architekturrelevanter Unterschied — du brauchst keine Multi-Step-Stitching-Logik, um lange Outputs zusammenzubauen.\u003C\u002Fp>\n\n\u003Ch2>Warum die MIT-Lizenz den Unterschied macht\u003C\u002Fh2>\n\u003Cp>Open-Source ist nicht gleich Open-Source. Bei Llama 4 ist die \u003Ca href=\"https:\u002F\u002Fwww.llama.com\u002Fmodels\u002Fllama-4\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Llama Community License\u003C\u002Fa> zwar permissiv genug für die meisten Use-Cases, sie hat aber explizite Klauseln gegen den Einsatz bei Anbietern mit mehr als 700 Millionen monatlichen Nutzern, sowie Use-Case-Restriktionen. Bei Gemma gelten ähnliche \u003Ca href=\"https:\u002F\u002Fai.google.dev\u002Fgemma\u002Fterms\" target=\"_blank\" rel=\"noopener noreferrer\">Gemma Terms of Use\u003C\u002Fa> mit Nutzungsbeschränkungen. Beide sind keine Open-Source-Lizenzen im strengen OSI-Sinn — sondern Community-Lizenzen mit Hintertüren.\u003C\u002Fp>\n\u003Cp>DeepSeek V4 ist unter \u003Cstrong>MIT\u003C\u002Fstrong> lizenziert. Das ist eine der kürzesten und permissivsten Open-Source-Lizenzen, die es gibt. Du darfst V4 modifizieren, weiterverbreiten, kommerziell einsetzen, in Closed-Source-Produkte einbauen und an deine Kunden weitergeben — ohne anwendungsbezogene Anbieterrestriktionen, ohne Größenbeschränkungen, ohne Phone-Home.\u003C\u002Fp>\n\u003Cp>Praktisch heißt das: Du kannst V4 in einem Produkt verwenden, das du an deine Endkunden verkaufst, ohne den Lizenzvertrag deines Kunden mit Klauseln des Modellanbieters anreichern zu müssen. Du kannst V4 in einer Behörden-Lösung einsetzen, ohne dass die Vergabestelle eine Zusatz-Compliance-Prüfung mit dem Modellanbieter durchziehen muss. Du kannst V4 fine-tunen und das Ergebnis als eigenes Produkt veröffentlichen. Bei den Llama-\u002FGemma-Lizenzen wird jeder dieser Pfade aufwendiger.\u003C\u002Fp>\n\n\u003Ch2>DSGVO und CLOUD Act — warum On-Premise der sauberere Kontrollpfad ist\u003C\u002Fh2>\n\u003Cp>Die rechtliche Lage hat sich seit dem \u003Ca href=\"https:\u002F\u002Feur-lex.europa.eu\u002Flegal-content\u002FDE\u002FTXT\u002F?uri=CELEX%3A62018CJ0311\" target=\"_blank\" rel=\"noopener noreferrer\">Schrems-II-Urteil\u003C\u002Fa> (16. Juli 2020) und der weiterhin angespannten Diskussion um den US \u003Ca href=\"https:\u002F\u002Fwww.congress.gov\u002Fbill\u002F115th-congress\u002Fhouse-bill\u002F4943\" target=\"_blank\" rel=\"noopener noreferrer\">CLOUD Act\u003C\u002Fa> nicht entspannt. Wer personenbezogene Daten an einen US-amerikanischen Cloud-Anbieter überträgt — auch wenn dieser ein Rechenzentrum in Frankfurt betreibt — muss die Zugriffsmöglichkeiten ausländischer Behörden und die konkrete Transfergrundlage sauber prüfen. Die \u003Ca href=\"https:\u002F\u002Fedpb.europa.eu\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">EU-Datenschutzbehörden bewerten Transfers in die USA\u003C\u002Fa> bis heute mit erheblicher Vorsicht.\u003C\u002Fp>\n\u003Cp>Dazu kommt der \u003Ca href=\"https:\u002F\u002Feur-lex.europa.eu\u002Feli\u002Freg\u002F2024\u002F1689\u002Foj\" target=\"_blank\" rel=\"noopener noreferrer\">EU AI Act\u003C\u002Fa>, der seit 2024 in Kraft ist und in mehreren Stufen wirksam wird. Hochrisiko-Anwendungen (Personalauswahl, Kreditvergabe, Bildungsentscheidungen, kritische Infrastruktur) erfordern explizite Risk-Assessments, Dokumentationspflichten und in vielen Fällen auch eine Konformitätsbewertung. Wenn dein Modell-Anbieter in dieser Konstellation als externer Dritter sitzt, der seine Modell-Updates eigenmächtig ausrollt und seine Datenschutzpolitik einseitig ändern kann, hast du ein strukturelles Problem mit der Dokumentations- und Kontrollpflicht.\u003C\u002Fp>\n\u003Cp>Der sauberste technische Weg ist eine eigenständige, lokale Modell-Instanz, deren Verhalten du selbst dokumentierst und deren Updates du selbst kontrollierst. Genau diese Konstellation macht DeepSeek V4 erstmals praktisch erreichbar — auch für KMU, für die ein eigenes Frontier-nahes Modell vor 18 Monaten finanziell nicht möglich war.\u003C\u002Fp>\n\n\u003Ch3>Ein Wort zur China-Provenienz\u003C\u002Fh3>\n\u003Cp>DeepSeek ist ein chinesisches Unternehmen. Die Modellgewichte stammen aus chinesischer Forschung und chinesischen Rechenzentren. Ist das ein Problem für DSGVO-Konformität?\u003C\u002Fp>\n\u003Cp>Für den Datenfluss im Betrieb ist es nicht automatisch ein Problem — und zwar aus einem präzisen technischen Grund. \u003Cstrong>Die Modellgewichte sind statische Daten\u003C\u002Fstrong>, die einmal heruntergeladen werden und danach lokal auf deiner Hardware bleiben. Im laufenden Betrieb braucht es \u003Cstrong>keine Verbindung zu DeepSeek-Servern\u003C\u002Fstrong>, keine Telemetrie, keine Update-Pings. Wenn du V4 in deinem Rechenzentrum hostest und ausgehende Verbindungen entsprechend blockierst, fließen Nutzdaten nicht nach China — sie verlassen den eigenen Stack nicht.\u003C\u002Fp>\n\u003Cp>Was du prüfen solltest, ist die Lieferkette des Downloads selbst. Ziehe die Gewichte von \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face\u003C\u002Fa> oder dem offiziellen \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V4\" target=\"_blank\" rel=\"noopener noreferrer\">DeepSeek-GitHub\u003C\u002Fa>, verifiziere SHA-Hashes gegen veröffentlichte Werte, sofern sie bereitgestellt werden, und lege die Dateien in einen internen Modell-Speicher. Ab dem Moment, in dem die Gewichte verifiziert auf deinem Storage liegen, sind sie wie jede andere Software-Komponente zu behandeln: versionieren, scannen, dokumentieren und nur über kontrollierte Deployments ausrollen.\u003C\u002Fp>\n\n\u003Ch2>Hardware-Realität: was du wirklich brauchst\u003C\u002Fh2>\n\u003Cp>Die Hardware-Anforderungen unterscheiden sich je nach Variante deutlich. Die folgende Tabelle ist als Planungsrahmen zu verstehen, nicht als Herstellerangabe — reale Werte hängen von Quantisierung, Batch-Größen, Sequenzlängen und Throughput-Ziel ab:\u003C\u002Fp>\n\n\u003Cdiv class=\"overflow-x-auto\">\n\u003Ctable>\n\u003Cthead>\n\u003Ctr>\n\u003Cth>Modellvariante\u003C\u002Fth>\n\u003Cth>Empfohlene GPU-Konfiguration\u003C\u002Fth>\n\u003Cth>RAM\u003C\u002Fth>\n\u003Cth>Storage (für Gewichte)\u003C\u002Fth>\n\u003Cth>Geschätzter Listenpreis Hardware\u003C\u002Fth>\n\u003C\u002Ftr>\n\u003C\u002Fthead>\n\u003Ctbody>\n\u003Ctr>\n\u003Ctd>V4-Flash (FP8)\u003C\u002Ftd>\n\u003Ctd>8× H100 80GB (1 Knoten)\u003C\u002Ftd>\n\u003Ctd>1,5 TB\u003C\u002Ftd>\n\u003Ctd>~600 GB\u003C\u002Ftd>\n\u003Ctd>250.000–350.000 €\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>V4-Flash (4-Bit-Quant)\u003C\u002Ftd>\n\u003Ctd>4× H100 80GB oder 8× A100 80GB\u003C\u002Ftd>\n\u003Ctd>1 TB\u003C\u002Ftd>\n\u003Ctd>~150 GB\u003C\u002Ftd>\n\u003Ctd>120.000–180.000 €\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>V4-Pro (FP8)\u003C\u002Ftd>\n\u003Ctd>32× H100 80GB (4 Knoten + InfiniBand)\u003C\u002Ftd>\n\u003Ctd>6 TB\u003C\u002Ftd>\n\u003Ctd>~3,2 TB\u003C\u002Ftd>\n\u003Ctd>1,2–1,6 Mio. €\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003Ctr>\n\u003Ctd>V4-Pro (4-Bit-Quant)\u003C\u002Ftd>\n\u003Ctd>16× H100 80GB (2 Knoten)\u003C\u002Ftd>\n\u003Ctd>3 TB\u003C\u002Ftd>\n\u003Ctd>~800 GB\u003C\u002Ftd>\n\u003Ctd>600.000–800.000 €\u003C\u002Ftd>\n\u003C\u002Ftr>\n\u003C\u002Ftbody>\n\u003C\u002Ftable>\n\u003C\u002Fdiv>\n\n\u003Cp>Die Zahlen sind grobe Hausnummern und schwanken je nach konkretem Hardware-Vendor und Beschaffungspfad. Was sie aber sichtbar machen: V4-Flash ist für ein produktiv einsetzbares On-Premise-Setup deutlich realistischer als V4-Pro. Für die allermeisten Anwendungsfälle reicht V4-Flash mit 4-Bit-Quantisierung — und die \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM-v0.20-Implementierung mit 2-Bit-KV-Cache\u003C\u002Fa> drückt den effektiven Speicherbedarf bei langen Contexts noch einmal deutlich.\u003C\u002Fp>\n\n\u003Cblockquote>\n\u003Cp>\u003Cstrong>Hardware ist der falsche Ansatz für die meisten KMU.\u003C\u002Fstrong> Wenn du jetzt anfängst, GPU-Cluster zu kalkulieren, ist das oft die zu hohe Einstiegshürde. Wir betreiben unsere AI-OpenStack-Lösung auch als Service — der Modell-Stack läuft in einem regionalen Rechenzentrum, ohne dass du selbst Hardware beschaffen musst. Auf \u003Ca href=\"\u002Fde-at\u002Fcontact\">unserer Kontaktseite\u003C\u002Fa> beraten wir gerne, was für dich passt.\u003C\u002Fp>\n\u003C\u002Fblockquote>\n\n\u003Cfigure>\n\u003Cimg src=\"\u002Fimages\u002Fblog\u002Fdeepseek-v4-on-premise-hardware-rack.webp\" alt=\"Macro-Aufnahme einer einzelnen GPU-Compute-Karte im Rack — Hardware-Realität für 1M-Context-Modelle\" loading=\"lazy\">\n\u003C\u002Ffigure>\n\n\u003Ch2>Der praxisnahe Stack: vLLM + LiteLLM + Qdrant + Windmill\u003C\u002Fh2>\n\u003Cp>Ein produktiv einsetzbarer On-Premise-Stack besteht aus mehr als nur dem Modell. Hier ist eine Architektur, die wir in unserer AI-OpenStack-Lösung als Standard fahren.\u003C\u002Fp>\n\n\u003Ch3>vLLM als Inference-Engine\u003C\u002Fh3>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM\u003C\u002Fa> ist die Inference-Engine deiner Wahl für DeepSeek V4. Die \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">v0.20-Release-Notes\u003C\u002Fa> listen die wichtigsten Verbesserungen für 1M-Context-Modelle: CUDA 13.0 als neuer Standard, Transformers ≥5 als Abhängigkeit, FA4 als Default-MLA-Prefill-Backend und der bereits erwähnte 2-Bit-KV-Cache.\u003C\u002Fp>\n\u003Cp>Eine minimale vLLM-Konfiguration für V4-Flash sieht so aus:\u003C\u002Fp>\n\u003Cpre>\u003Ccode class=\"language-bash\"># Modell von Hugging Face ziehen (einmalig)\nhuggingface-cli download deepseek-ai\u002FDeepSeek-V4-Flash --local-dir \u002Fmodels\u002Fdeepseek-v4-flash\n\n# vLLM-Server starten\nvllm serve \u002Fmodels\u002Fdeepseek-v4-flash \\\n  --tensor-parallel-size 8 \\\n  --kv-cache-dtype int2 \\\n  --max-model-len 1000000 \\\n  --enable-prefix-caching \\\n  --port 8000\n\u003C\u002Fcode>\u003C\u002Fpre>\n\u003Cp>Wichtig: \u003Ccode>--enable-prefix-caching\u003C\u002Fcode> reduziert bei wiederholten System-Prompts (etwa bei einem RAG-System mit immer gleicher Instruktion) die Effective-Latency deutlich. Bei Workflows, die häufig gleiche Eingangskontexte haben, kann das den Throughput um den Faktor 2 bis 4 verbessern.\u003C\u002Fp>\n\n\u003Ch3>LiteLLM als API-Gateway\u003C\u002Fh3>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002FBerriAI\u002Flitellm\" target=\"_blank\" rel=\"noopener noreferrer\">LiteLLM\u003C\u002Fa> sitzt als API-Gateway vor vLLM und gibt dir die OpenAI-kompatible API plus Multi-Modell-Routing, Per-Team-Budgets, Audit-Logging und MCP-OAuth-Token-Storage. Die \u003Ca href=\"https:\u002F\u002Fgithub.com\u002FBerriAI\u002Flitellm\u002Freleases\" target=\"_blank\" rel=\"noopener noreferrer\">v1.83.7-stable-Release-Notes\u003C\u002Fa> führen mehrere für Enterprise-Setups direkt relevante Features auf — Bedrock-Multipart-Upload, RBAC für \u003Ccode>\u002Fspend\u002Flogs\u003C\u002Fcode>, Multi-Budget-Windows pro Key.\u003C\u002Fp>\n\u003Cp>Eine LiteLLM-Konfiguration, die V4-Flash und Qwen 3.6-27B parallel routet, sieht so aus:\u003C\u002Fp>\n\u003Cpre>\u003Ccode class=\"language-yaml\"># config.yaml\nmodel_list:\n  - model_name: deepseek-v4-flash\n    litellm_params:\n      model: openai\u002Fdeepseek-v4-flash\n      api_base: http:\u002F\u002Fvllm-deepseek:8000\u002Fv1\n      api_key: dummy-key\n\n  - model_name: qwen-3-6-27b\n    litellm_params:\n      model: openai\u002Fqwen-3-6-27b\n      api_base: http:\u002F\u002Fvllm-qwen:8001\u002Fv1\n      api_key: dummy-key\n\nrouter_settings:\n  routing_strategy: cost-based-routing\n\ngeneral_settings:\n  master_key: sk-internal-master\n  database_url: postgres:\u002F\u002Flitellm:secret@postgres:5432\u002Flitellm\n\u003C\u002Fcode>\u003C\u002Fpre>\n\u003Cp>Der Vorteil dieser Schicht: Deine Anwendungen sprechen weiter eine OpenAI-kompatible API. Wenn du morgen V4 gegen ein zukünftiges V5 oder gegen Qwen 4 austauschst, ändert sich an der Anwendungsseite nichts.\u003C\u002Fp>\n\n\u003Ch3>Qdrant als Vektordatenbank\u003C\u002Fh3>\n\u003Cp>Für RAG-Pipelines brauchst du eine Vektordatenbank. Unsere Wahl ist \u003Ca href=\"https:\u002F\u002Fqdrant.tech\" target=\"_blank\" rel=\"noopener noreferrer\">Qdrant\u003C\u002Fa> — Rust-basiert, performant, deutsche Hosting-Optionen verfügbar, gute Integration in den europäischen Open-Source-Stack. Im Vergleich zu ChromaDB skaliert Qdrant in produktiven Setups deutlich besser; im Vergleich zu Pinecone bleibt das Hosting in deiner Hand.\u003C\u002Fp>\n\u003Cp>Eine Standard-Qdrant-Sammlung für ein Dokument-RAG-System:\u003C\u002Fp>\n\u003Cpre>\u003Ccode class=\"language-python\">from qdrant_client import QdrantClient\nfrom qdrant_client.http.models import Distance, VectorParams\n\nclient = QdrantClient(url=\"http:\u002F\u002Fqdrant:6333\")\n\nclient.create_collection(\n    collection_name=\"firmen-dokumente\",\n    vectors_config=VectorParams(\n        size=1024,  # passt zu BGE-M3 oder ähnlichen Embeddings\n        distance=Distance.COSINE,\n    ),\n)\n\u003C\u002Fcode>\u003C\u002Fpre>\n\u003Cp>Embeddings selbst kannst du über vLLM mit einem dedizierten Embedding-Modell (etwa BGE-M3, Multilingual-E5, oder Jina-Embeddings v3) erzeugen. Wichtig: Auch die Embedding-Schicht bleibt im eigenen Stack — sonst hat sich der DSGVO-Vorteil von V4 schon bei der Index-Erzeugung verflüchtigt.\u003C\u002Fp>\n\n\u003Ch3>Windmill als Workflow-Orchestrator\u003C\u002Fh3>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fwww.windmill.dev\" target=\"_blank\" rel=\"noopener noreferrer\">Windmill\u003C\u002Fa> ist die Glue-Schicht, in der du deine konkreten Use-Cases als Workflows verdrahtest. Ein typischer Windmill-Flow für eine Dokumentenanalyse-Pipeline besteht aus drei bis fünf Schritten: PDF einlesen, Chunks erzeugen, Embeddings über LiteLLM holen, in Qdrant speichern, optional auf neue Inhalte einen Audit-Hook anstoßen. Mit dem \u003Ca href=\"https:\u002F\u002Fwww.windmill.dev\u002Fchangelog\" target=\"_blank\" rel=\"noopener noreferrer\">April-Release\u003C\u002Fa> sind Workspace-Forking, Service Accounts und Debounce-Nodes dazu gekommen — letzteres hilft, wenn ein Webhook-Trigger mehrfach feuert und du die Pipeline nur einmal laufen lassen willst.\u003C\u002Fp>\n\u003Cp>Der Wert von Windmill in diesem Stack: Du kannst eine konkrete Geschäftslogik so beschreiben, dass sie im Audit nachvollziehbar bleibt — jeder Flow ist eine versionierte, lesbare Konfiguration, die in Git landet, statt im Kopf eines Devs.\u003C\u002Fp>\n\n\u003Ch2>Was OpenWebUI hier (nicht) macht\u003C\u002Fh2>\n\u003Cp>\u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopen-webui\u002Fopen-webui\" target=\"_blank\" rel=\"noopener noreferrer\">OpenWebUI\u003C\u002Fa> ist ein gutes optionales Frontend, wenn du eine ChatGPT-ähnliche Oberfläche für interne Mitarbeiter-Nutzung brauchst — das Calendar-Workspace-Feature aus \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopen-webui\u002Fopen-webui\u002Freleases\u002Ftag\u002Fv0.9.0\" target=\"_blank\" rel=\"noopener noreferrer\">v0.9.0\u003C\u002Fa> und die Reminder-Erweiterungen in \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fopen-webui\u002Fopen-webui\u002Freleases\u002Ftag\u002Fv0.9.2\" target=\"_blank\" rel=\"noopener noreferrer\">v0.9.2\u003C\u002Fa> zeigen, dass das Projekt schnell iteriert. Was OpenWebUI nicht ist: eine Workflow-Engine, eine vollständige Production-RAG-Plattform oder eine Integrationsschicht für strukturierte Geschäftsprozesse.\u003C\u002Fp>\n\u003Cp>In unserer AI-OpenStack-Lösung läuft OpenWebUI als eines von mehreren Frontends — daneben gibt es eigene, optimierte UIs für strukturierte Prozesse, Dokumentenfreigaben und Audit-Workflows. Wer als Mitarbeiter eine Frage an ein internes Modell stellen will, kann das über OpenWebUI tun. Wer einen Genehmigungsworkflow mit definierten Eingabe-Feldern und nachvollziehbarem Audit-Trail braucht, geht über die optimierte UI. Beides hat seine Rolle, aber sie sind keine Ersatzteile füreinander.\u003C\u002Fp>\n\n\u003Ch2>Was du diese Woche tun kannst\u003C\u002Fh2>\n\u003Cp>Wenn du mit dem Gedanken spielst, einen On-Premise-KI-Stack aufzubauen — oder einen bestehenden Cloud-Stack zu reduzieren — sind drei konkrete Schritte sinnvoll:\u003C\u002Fp>\n\u003Cp>Erstens, lade dir DeepSeek V4-Flash testweise auf eine Entwicklungs-GPU. Schon mit einer einzelnen H100 oder zwei A100 (bei 4-Bit-Quantisierung) bekommst du ein Gefühl für die Antwortqualität auf deinen realen Daten. Die Modellgewichte liegen unter \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\" target=\"_blank\" rel=\"noopener noreferrer\">huggingface.co\u002Fdeepseek-ai\u003C\u002Fa>, die Inferenz-Stack-Doku unter \u003Ca href=\"https:\u002F\u002Fdocs.vllm.ai\" target=\"_blank\" rel=\"noopener noreferrer\">docs.vllm.ai\u003C\u002Fa>.\u003C\u002Fp>\n\u003Cp>Zweitens, klassifiziere deine bisherigen KI-Use-Cases. Welche müssen DSGVO-konform und mit voller Datenkontrolle laufen — also Personalprozesse, Vertragsanalyse, Kunden-Support mit personenbezogenen Daten? Welche sind unkritisch — also generische Code-Generierung, Marketing-Texte ohne Personenbezug? Die ersten gehören in den eigenen Stack, die zweiten dürfen weiter in die Cloud, wenn dir das wirtschaftlich passt.\u003C\u002Fp>\n\u003Cp>Drittens, klärt intern, ob ihr Hardware selbst beschaffen wollt oder ob ein Service-Modell besser passt. Beides hat seine Daseinsberechtigung — die Antwort hängt von Volumina, Skalierungserwartungen und Investitionsbudget ab.\u003C\u002Fp>\n\n\u003Cblockquote>\n\u003Cp>\u003Cstrong>Wenn du an dem Punkt nicht alleine weiterkommst, \u003Ca href=\"\u002Fde-at\u002Fcontact\">meld dich gern bei uns\u003C\u002Fa>.\u003C\u002Fstrong> Wir haben in den letzten Monaten mehrere DACH-Unternehmen vom ersten Use-Case-Workshop bis zum produktiv laufenden On-Premise-Setup begleitet — vom KMU-Mittelständler mit zwei Standorten bis zum öffentlichen Auftraggeber mit eigener Compliance-Abteilung. Auch wenn das Ergebnis am Ende ist, dass eine eigene Lösung gerade nicht das richtige Werkzeug ist, sparen wir dir das Lehrgeld.\u003C\u002Fp>\n\u003C\u002Fblockquote>\n\n\u003Ch2>Fazit\u003C\u002Fh2>\n\u003Cp>DeepSeek V4 ist nicht das spannendste Modell, weil es das größte ist — sondern weil es in der Spitzenklasse mitspielt und dabei eine Lizenz mitbringt, die du wirklich nutzen kannst. Die MIT-Lizenz, der 1-Million-Token-Context und die Architektur-Effizienz aus CSA und HCA machen produktiven On-Premise-Betrieb in einer Form möglich, die nicht mehr nach \"Forschungs-Setup\" aussieht. Mit vLLM v0.20 als Inference-Schicht, LiteLLM als Gateway, Qdrant als Vektordatenbank und Windmill als Workflow-Schicht hast du einen Stack, der DSGVO-konform betreibbar ist, Big-Tech-Lock-in vermeidet und sich von zukünftigen Modell-Generationen nicht sofort überholen lässt. Wer in den letzten Quartalen auf den richtigen Zeitpunkt gewartet hat, eine eigene KI-Infrastruktur aufzubauen — dieser ist es.\u003C\u002Fp>\n\n\u003Cp>Wenn du tiefer in die regulatorische Lage einsteigen willst, lies unseren Pillar zu \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fsovereign-ai-dsgvo-konforme-ki-plattform-unternehmen\">Sovereign AI: DSGVO-konforme KI-Plattform 2026\u003C\u002Fa>; für die Governance-Seite agentischer Workflows bietet \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fagentic-engineering-dsgvo-konform-on-premise-stack\">Agentic Engineering DSGVO-konform\u003C\u002Fa> die nächsten Schritte.\u003C\u002Fp>\n\n\u003Chr>\n\n\u003Cp>\u003Cem>Geschrieben von Lukas Obermann für SEADEV Studios. Quellen: DeepSeek, Hugging Face, vLLM, LiteLLM, Qdrant, Windmill, OpenWebUI, EU-Kommission\u002FSchrems-II, EU AI Act, US CLOUD Act, Llama, Gemma.\u003C\u002Fem>\u003C\u002Fp>\n"]