
Letzte Woche hieß es noch: An einem Mittwoch passieren vier Major-Releases. Diese Woche wird das fast getoppt — nur dass die wichtigsten zwei Releases beide offen lizenziert sind, beide in einer Liga mit proprietären Frontier-Modellen spielen, und beide im DACH-Markt für unsere KMU-Kunden direkt nutzbar sind. Dazu kommt eine GitHub-Copilot-Änderung, bei der du genau jetzt in den Settings nachschauen solltest, wenn dir dein Code-Eigentum etwas wert ist. Hier ist, was in KW 18 wirklich relevant war.
Top-Story: DeepSeek V4 — 1M Context, MIT-Lizenz, kommerziell nutzbar
DeepSeek hat am 24. April V4 veröffentlicht — und zwar in zwei Varianten: V4-Pro mit 1,6 Billionen Mixture-of-Experts-Parametern und 49 Milliarden aktiven Parametern pro Token, und V4-Flash mit 284 Milliarden Gesamt- und 13 Milliarden aktiven Parametern. Beide laufen mit einem 1-Millionen-Token-Context-Window und können bis zu 384.000 Tokens am Stück generieren. Lizenz: MIT. Keine Community-License-Klauseln, keine Use-Case-Restriktionen, keine 700-Millionen-User-Schwelle wie bei Llama.
Technisch interessant ist die Hybrid-Attention aus Compressed Sparse Attention (CSA) und Heavily Compressed Attention (HCA) — DeepSeek gibt für 1M Context an, 27 Prozent der FLOPs und 10 Prozent des KV-Caches im Vergleich zu V3.2 zu benötigen. Erste Community-Berichte auf r/LocalLLaMA deuten an: V4-Flash ist auf einem einzelnen H100-Knoten realistisch, V4-Pro braucht ein kleines Cluster, liegt aber für Service-Provider mit eigener Hardware am unteren Rand dessen, was noch wirtschaftlich planbar ist.
Was die MIT-Lizenz für DACH-Unternehmen praktisch bedeutet: Ein Frontier-nahes Modell, das man im eigenen Rechenzentrum, ohne Telemetrie-Pflichten und ohne Drittanbieter-API kommerziell betreiben kann. Genau die Konstellation, die nach DeepSeek V3.2 noch nicht möglich war. Wir haben den Praxis-Aufbau im Detail in unserem Pillar-Post zu DeepSeek V4 On-Premise DSGVO-konform aufgeschrieben.
Quelle: DeepSeek V4 GitHub · Hugging Face Modellkarte · Reddit r/LocalLLaMA
Qwen 3.6-27B — wenn Dense plötzlich MoE schlägt
Zwei Tage vorher, am 22. April, hat Alibaba Qwen 3.6-27B veröffentlicht — diesmal als dichtes 27-Milliarden-Parameter-Modell unter Apache 2.0. Der spannende Datenpunkt: Laut Simon Willisons Analyse schlägt das Dense-27B den 397-Milliarden-MoE-Vorgänger Qwen 3.5 auf den Major-Coding-Benchmarks deutlich. Auf SkillsBench liegt der relative Zugewinn bei 77 Prozent — und das mit 14,8-mal weniger Parametern.
Das ist die Sorte Sprung, die man eigentlich nur alle paar Generationen sieht. Neu hervorgehoben wurde dabei Thinking Preservation als Inference-Pattern: Das Modell soll Reasoning-Spuren über Token-Grenzen hinweg konsistenter halten, was bei agentischen Workflows mit langen Tool-Call-Ketten den Unterschied machen kann. Erste Community-Benchmarks berichten von Qwen 3.6-27B auf einer einzigen RTX 3090 mit rund 40 Tokens pro Sekunde — also auf Hardware, die im Mid-Range-Workstation-Bereich liegt.
Für Teams, die einen Coding-Agent lokal betreiben wollen, ohne Multi-GPU-Server zu beschaffen, ist das aktuell die attraktivste Option. Apache 2.0 ist permissiv im engeren Sinn — kommerziell nutzbar ohne anwendungsbezogene Anbieterrestriktionen, Modifikationen erlaubt, kein Phone-Home.
Quelle: Qwen Blog · Simon Willison zu Qwen 3.6-27B · Reddit r/LocalLLaMA
vLLM v0.20.0 — CUDA 13, Transformers 5, 2-Bit-KV-Cache
Wer V4 oder Qwen 3.6 selbst hostet, will diese Woche aktualisieren: vLLM v0.20.0 ist Mitte April mit 546 Commits von 257 Beitragenden (davon 83 neu) erschienen. Die wichtigsten Änderungen:
Die Default-CUDA-Wheel läuft jetzt auf CUDA 13.0 — wer noch auf CUDA 12.x sitzt, sollte den Upgrade-Pfad einplanen. Torch ist auf 2.11 angehoben, Hugging Face Transformers ≥5 als harte Abhängigkeit eingezogen. Der eigentliche Hebel sitzt im neuen Attention-Backend: FA4 ist Default-MLA-Prefill-Backend, und ein neuer Modus erlaubt 2-Bit-KV-Cache-Kompression — theoretisch bis zu vier Mal mehr KV-Cache-Kapazität pro VRAM-Einheit gegenüber 8-Bit. Bei 1M-Context-Modellen wie DeepSeek V4 ist das die Differenz zwischen "geht gerade noch" und "läuft mit Headroom".
In v0.19.0 vom 2. April war außerdem Day-One-Support für alle vier Gemma-4-Varianten drin (E2B, E4B, 26B MoE, 31B Dense). Wer also unsere AI-OpenStack-Lösung mit verschiedenen Modellfamilien betreibt, hat jetzt eine Inference-Engine, die alles abdeckt — ohne Sonderpfade.
Quelle: vLLM v0.20.0 Release · vLLM v0.19.0 Release
GitHub Copilot: Trainingseinstellung seit 24. April prüfen
In den offiziellen GitHub-Dokumenten steht seit dem 24. April 2026: Bei Copilot Free, Pro und Pro+ kann GitHub Interaktionen mit Copilot-Features für Modellverbesserungen nutzen, inklusive Inputs, Outputs, Code-Snippets und Kontext. Für viele Teams ist das kein Showstopper, aber es ist eine Policy-Änderung, die man bewusst entscheiden sollte.
Wenn du in Repos mit Geschäftslogik, Kundendaten in Test-Fixtures oder vertraulichen Kundenprojekten arbeitest, prüfe in den Copilot-Settings die Option "Allow GitHub to use my data for AI model training" und setze sie bei Bedarf auf Disabled.
Wichtig für Teams: GitHub dokumentiert gleichzeitig, dass Daten aus Copilot Business und Copilot Enterprise nicht für Modelltraining verwendet werden und unter der Data-Protection-Agreement-Logik laufen. Die Debatte auf Hacker News und in mehreren Dev-Blogs zeigt trotzdem, wie sensibel das Thema ist. Wer maximale Datenkontrolle will, fährt mit einem lokalen Coding-Stack langfristig ruhiger.
Quelle: GitHub Docs: Managing GitHub Copilot policies · GitHub Changelog (20. April) · Hacker News Diskussion
Claude Opus 4.7 vs. GPT-5.5 — wer führt im April?
Bei den Closed-Source-Frontier-Modellen wurde diese Woche der Vergleich zwischen Claude Opus 4.7 und GPT-5.5 in mehreren Benchmark-Setups veröffentlicht. Laut llm-stats.com führt Opus 4.7 in 6 von 10 Shared-Benchmarks, GPT-5.5 in den verbleibenden 4. Im direkten Vergleich Opus 4.7 zu Opus 4.6 (gleicher Preis: 5 US-Dollar pro Million Input-Tokens, 25 US-Dollar pro Million Output-Tokens) gewinnt 4.7 in 12 von 14 Tests.
Auf den Suchen-Benchmarks im April liegt überraschend GPT-5.2 mit 92,0 an der Spitze, gefolgt von Opus 4.6 (91,3) und GPT-5 (90,0). Das deutet darauf hin, dass die jeweils neueste Generation nicht automatisch in jedem Use-Case führt — eine wichtige Nuance für Teams, die ihre Agent-Pipelines auf Modell-Updates ausrichten. Wer auf Hybrid-Setups wechselt (Closed-Source für Reasoning, Open-Source für Routing/Embedding), sollte hier seine Routing-Logik kalibrieren.
Quelle: LLM Stats AI News
Hugging Face huggingface_hub v1.0 — fünf Jahre und ein Major
Am 16. April hat Hugging Face das huggingface_hub v1.0-Release veröffentlicht — die zentrale Python-Library, mit der praktisch jeder ML-Workflow Modelle, Datasets und Inference-Endpunkte ansteuert. Fünf Jahre nach v0.1 wird damit zum ersten Mal eine stabile API-Major-Version garantiert. Für die Open-ML-Foundation ist das ein Reife-Signal: Die Library, die unter der Haube alles miterledigt, was zwischen pip install transformers und einem laufenden Modell passiert, ist jetzt formal stabil.
In der gleichen Woche wurde der "State of Open Source on Hugging Face: Spring 2026"-Bericht publiziert. Kernaussage: Government-Initiativen werden zum dritten relevanten Akteur neben Industrie und Forschung, und das Open-Source-Wachstum jenseits von Sprache und Bildgenerierung (Audio, Robotik, Time-Series) zieht spürbar an. Für DACH-Behörden-Projekte und Industrie-4.0-Use-Cases der relevantere Datenpunkt als der x-te LLM-Benchmark.
Quelle: Hugging Face Blog
Kurz notiert
- Huawei HiFloat4 wurde von Jack Clark in Import AI 454 als alternatives 4-Bit-Precision-Format für Training und Inference vorgestellt, gemessen gegen MXFP4. Wenn HiFloat4 hält, was die ersten Benchmarks andeuten, verschiebt sich die Effizienz-Frontier bei Quantisierung erneut. Quelle: Import AI.
- OpenAI Workspace Agents sind laut TheSequence als neues Agent-Erlebnis für komplexe Workflows in ChatGPT angekündigt — direkter Wettbewerber zu Claude Opus 4.7 mit MCP. Microsoft hat parallel das gesamte Cove-Team (AI-Collab-Startup mit Infinite-Whiteboard-Produkt) übernommen.
- Kimi K2.6 wurde laut TheSequence mit Marquee-Capabilities in Agentic Coding positioniert — die Ollama-Integration
ollama launch kimi --model kimi-k2.6:cloudaus v0.21.1 macht das Modell direkt aus der Kommandozeile verfügbar. Quelle: Ollama Releases. - LangChain hat Agent Builder zu LangSmith Fleet umbenannt und mit Identitäts-, Sharing- und Permission-Management ausgestattet. Polly (AI-Assistant in LangSmith) ist GA. Eine Enterprise-Agentic-AI-Platform mit NVIDIA wurde ebenfalls angekündigt. Quelle: LangChain Blog.
Fazit
KW 18 hat zwei Entwicklungen zementiert, die seit Anfang 2026 angedeutet waren: Erstens, die SOTA-Lücke zwischen offenen und proprietären Modellen ist im Coding-Bereich zu einem Spalt geschrumpft — Qwen 3.6-27B auf einer RTX 3090, DeepSeek V4 mit MIT-Lizenz und 1M Context, beides ernst zu nehmende Optionen für Produktiv-Workloads. Zweitens, die Plattform-Abhängigkeiten verschärfen sich: GitHub erlaubt bei Free-/Pro-/Pro+-Accounts seit dem 24. April die Nutzung von Copilot-Interaktionen für Modelltraining, sofern du sie nicht deaktivierst. Die praktische Reaktion ist entweder ein bewusst gesetzter Opt-out oder ein lokaler Coding-Stack. Die Kombination aus offenen Modellen auf Mid-Range-Hardware und reifendem Inference-Tooling (vLLM v0.20, Ollama v0.21) macht den Eigenbetrieb dieses Quartal so attraktiv wie noch nie. Wer in den letzten 18 Monaten gewartet hat, hat jetzt einen sehr guten Zeitpunkt für den Einstieg.
Wenn du DeepSeek V4 oder Qwen 3.6-27B in deinem eigenen Stack einsetzen willst — wir helfen gerne. Mehr Detail zur Architektur findest du im neuen DeepSeek-V4-Pillar-Post.
Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.


