[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-content-weekly-ai-news-kw18":3},"\u003Cp>Letzte Woche hieß es noch: An einem Mittwoch passieren vier Major-Releases. Diese Woche wird das fast getoppt — nur dass die wichtigsten zwei Releases beide offen lizenziert sind, beide in einer Liga mit proprietären Frontier-Modellen spielen, und beide im DACH-Markt für unsere KMU-Kunden direkt nutzbar sind. Dazu kommt eine GitHub-Copilot-Änderung, bei der du genau jetzt in den Settings nachschauen solltest, wenn dir dein Code-Eigentum etwas wert ist. Hier ist, was in KW 18 wirklich relevant war.\u003C\u002Fp>\n\n\u003Ch2>Top-Story: DeepSeek V4 — 1M Context, MIT-Lizenz, kommerziell nutzbar\u003C\u002Fh2>\n\u003Cp>DeepSeek hat am 24. April \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V4\" target=\"_blank\" rel=\"noopener noreferrer\">V4 veröffentlicht\u003C\u002Fa> — und zwar in zwei Varianten: \u003Cstrong>V4-Pro\u003C\u002Fstrong> mit 1,6 Billionen Mixture-of-Experts-Parametern und 49 Milliarden aktiven Parametern pro Token, und \u003Cstrong>V4-Flash\u003C\u002Fstrong> mit 284 Milliarden Gesamt- und 13 Milliarden aktiven Parametern. Beide laufen mit einem 1-Millionen-Token-Context-Window und können bis zu 384.000 Tokens am Stück generieren. Lizenz: \u003Cstrong>MIT\u003C\u002Fstrong>. Keine Community-License-Klauseln, keine Use-Case-Restriktionen, keine 700-Millionen-User-Schwelle wie bei Llama.\u003C\u002Fp>\n\u003Cp>Technisch interessant ist die Hybrid-Attention aus \u003Cstrong>Compressed Sparse Attention (CSA)\u003C\u002Fstrong> und \u003Cstrong>Heavily Compressed Attention (HCA)\u003C\u002Fstrong> — DeepSeek gibt für 1M Context an, \u003Cstrong>27 Prozent der FLOPs und 10 Prozent des KV-Caches\u003C\u002Fstrong> im Vergleich zu V3.2 zu benötigen. Erste Community-Berichte auf \u003Ca href=\"https:\u002F\u002Fwww.reddit.com\u002Fr\u002FLocalLLaMA\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">r\u002FLocalLLaMA\u003C\u002Fa> deuten an: V4-Flash ist auf einem einzelnen H100-Knoten realistisch, V4-Pro braucht ein kleines Cluster, liegt aber für Service-Provider mit eigener Hardware am unteren Rand dessen, was noch wirtschaftlich planbar ist.\u003C\u002Fp>\n\u003Cp>Was die MIT-Lizenz für DACH-Unternehmen praktisch bedeutet: Ein Frontier-nahes Modell, das man im eigenen Rechenzentrum, ohne Telemetrie-Pflichten und ohne Drittanbieter-API kommerziell betreiben kann. Genau die Konstellation, die nach DeepSeek V3.2 noch nicht möglich war. Wir haben den Praxis-Aufbau im Detail in unserem Pillar-Post zu \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fdeepseek-v4-on-premise-dsgvo-konform\">DeepSeek V4 On-Premise DSGVO-konform\u003C\u002Fa> aufgeschrieben.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fdeepseek-ai\u002FDeepSeek-V4\" target=\"_blank\" rel=\"noopener noreferrer\">DeepSeek V4 GitHub\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fdeepseek-ai\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face Modellkarte\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fwww.reddit.com\u002Fr\u002FLocalLLaMA\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Reddit r\u002FLocalLLaMA\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Cfigure>\n\u003Cimg src=\"\u002Fimages\u002Fblog\u002Fweekly-ai-news-kw18-context-window.webp\" alt=\"Tunnel aus gestapelten Glas-Panels — Sinnbild für DeepSeek V4 mit 1M Token Context Window\" loading=\"lazy\">\n\u003C\u002Ffigure>\n\n\u003Ch2>Qwen 3.6-27B — wenn Dense plötzlich MoE schlägt\u003C\u002Fh2>\n\u003Cp>Zwei Tage vorher, am 22. April, hat Alibaba \u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen3-next\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Qwen 3.6-27B\u003C\u002Fa> veröffentlicht — diesmal als \u003Cstrong>dichtes 27-Milliarden-Parameter-Modell\u003C\u002Fstrong> unter Apache 2.0. Der spannende Datenpunkt: Laut \u003Ca href=\"https:\u002F\u002Fsimonwillison.net\u002F2026\u002FApr\u002F22\u002Fqwen-3-6-27b\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Simon Willisons Analyse\u003C\u002Fa> schlägt das Dense-27B den 397-Milliarden-MoE-Vorgänger Qwen 3.5 auf den Major-Coding-Benchmarks deutlich. Auf SkillsBench liegt der relative Zugewinn bei 77 Prozent — und das mit 14,8-mal weniger Parametern.\u003C\u002Fp>\n\u003Cp>Das ist die Sorte Sprung, die man eigentlich nur alle paar Generationen sieht. Neu hervorgehoben wurde dabei \u003Cstrong>Thinking Preservation\u003C\u002Fstrong> als Inference-Pattern: Das Modell soll Reasoning-Spuren über Token-Grenzen hinweg konsistenter halten, was bei agentischen Workflows mit langen Tool-Call-Ketten den Unterschied machen kann. Erste Community-Benchmarks berichten von Qwen 3.6-27B \u003Ca href=\"https:\u002F\u002Fwww.reddit.com\u002Fr\u002FLocalLLaMA\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">auf einer einzigen RTX 3090 mit rund 40 Tokens pro Sekunde\u003C\u002Fa> — also auf Hardware, die im Mid-Range-Workstation-Bereich liegt.\u003C\u002Fp>\n\u003Cp>Für Teams, die einen Coding-Agent lokal betreiben wollen, ohne Multi-GPU-Server zu beschaffen, ist das aktuell die attraktivste Option. Apache 2.0 ist permissiv im engeren Sinn — kommerziell nutzbar ohne anwendungsbezogene Anbieterrestriktionen, Modifikationen erlaubt, kein Phone-Home.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fqwenlm.github.io\u002Fblog\u002Fqwen3-next\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Qwen Blog\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fsimonwillison.net\u002F2026\u002FApr\u002F22\u002Fqwen-3-6-27b\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Simon Willison zu Qwen 3.6-27B\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fwww.reddit.com\u002Fr\u002FLocalLLaMA\u002F\" target=\"_blank\" rel=\"noopener noreferrer\">Reddit r\u002FLocalLLaMA\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>vLLM v0.20.0 — CUDA 13, Transformers 5, 2-Bit-KV-Cache\u003C\u002Fh2>\n\u003Cp>Wer V4 oder Qwen 3.6 selbst hostet, will diese Woche aktualisieren: \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM v0.20.0\u003C\u002Fa> ist Mitte April mit 546 Commits von 257 Beitragenden (davon 83 neu) erschienen. Die wichtigsten Änderungen:\u003C\u002Fp>\n\u003Cp>Die \u003Cstrong>Default-CUDA-Wheel\u003C\u002Fstrong> läuft jetzt auf CUDA 13.0 — wer noch auf CUDA 12.x sitzt, sollte den Upgrade-Pfad einplanen. Torch ist auf 2.11 angehoben, \u003Cstrong>Hugging Face Transformers ≥5\u003C\u002Fstrong> als harte Abhängigkeit eingezogen. Der eigentliche Hebel sitzt im neuen Attention-Backend: \u003Cstrong>FA4 ist Default-MLA-Prefill-Backend\u003C\u002Fstrong>, und ein neuer Modus erlaubt \u003Cstrong>2-Bit-KV-Cache-Kompression\u003C\u002Fstrong> — theoretisch bis zu vier Mal mehr KV-Cache-Kapazität pro VRAM-Einheit gegenüber 8-Bit. Bei 1M-Context-Modellen wie DeepSeek V4 ist das die Differenz zwischen \"geht gerade noch\" und \"läuft mit Headroom\".\u003C\u002Fp>\n\u003Cp>In v0.19.0 vom 2. April war außerdem \u003Cstrong>Day-One-Support für alle vier Gemma-4-Varianten\u003C\u002Fstrong> drin (E2B, E4B, 26B MoE, 31B Dense). Wer also unsere AI-OpenStack-Lösung mit verschiedenen Modellfamilien betreibt, hat jetzt eine Inference-Engine, die alles abdeckt — ohne Sonderpfade.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.20.0\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM v0.20.0 Release\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fvllm-project\u002Fvllm\u002Freleases\u002Ftag\u002Fv0.19.0\" target=\"_blank\" rel=\"noopener noreferrer\">vLLM v0.19.0 Release\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>GitHub Copilot: Trainingseinstellung seit 24. April prüfen\u003C\u002Fh2>\n\u003Cp>In den offiziellen GitHub-Dokumenten steht seit dem 24. April 2026: Bei \u003Cstrong>Copilot Free, Pro und Pro+\u003C\u002Fstrong> kann GitHub Interaktionen mit Copilot-Features für Modellverbesserungen nutzen, inklusive \u003Cstrong>Inputs, Outputs, Code-Snippets und Kontext\u003C\u002Fstrong>. Für viele Teams ist das kein Showstopper, aber es ist eine Policy-Änderung, die man bewusst entscheiden sollte.\u003C\u002Fp>\n\u003Cp>Wenn du in Repos mit Geschäftslogik, Kundendaten in Test-Fixtures oder vertraulichen Kundenprojekten arbeitest, prüfe in den \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Fsettings\u002Fcopilot\" target=\"_blank\" rel=\"noopener noreferrer\">Copilot-Settings\u003C\u002Fa> die Option \u003Cstrong>\"Allow GitHub to use my data for AI model training\"\u003C\u002Fstrong> und setze sie bei Bedarf auf \u003Cstrong>Disabled\u003C\u002Fstrong>.\u003C\u002Fp>\n\u003Cp>Wichtig für Teams: GitHub dokumentiert gleichzeitig, dass Daten aus \u003Cstrong>Copilot Business\u003C\u002Fstrong> und \u003Cstrong>Copilot Enterprise\u003C\u002Fstrong> nicht für Modelltraining verwendet werden und unter der Data-Protection-Agreement-Logik laufen. Die Debatte auf \u003Ca href=\"https:\u002F\u002Fnews.ycombinator.com\u002Fbest\" target=\"_blank\" rel=\"noopener noreferrer\">Hacker News\u003C\u002Fa> und in mehreren Dev-Blogs zeigt trotzdem, wie sensibel das Thema ist. Wer maximale Datenkontrolle will, fährt mit einem lokalen Coding-Stack langfristig ruhiger.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fdocs.github.com\u002Fen\u002Fcopilot\u002Fhow-tos\u002Fmanage-your-account\u002Fmanage-policies#model-training-and-improvements\" target=\"_blank\" rel=\"noopener noreferrer\">GitHub Docs: Managing GitHub Copilot policies\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fgithub.blog\u002Fchangelog\u002F2026-04-20-changes-to-github-copilot-plans-for-individuals\" target=\"_blank\" rel=\"noopener noreferrer\">GitHub Changelog (20. April)\u003C\u002Fa> · \u003Ca href=\"https:\u002F\u002Fnews.ycombinator.com\u002Fbest\" target=\"_blank\" rel=\"noopener noreferrer\">Hacker News Diskussion\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Claude Opus 4.7 vs. GPT-5.5 — wer führt im April?\u003C\u002Fh2>\n\u003Cp>Bei den Closed-Source-Frontier-Modellen wurde diese Woche der Vergleich zwischen \u003Cstrong>Claude Opus 4.7 und GPT-5.5\u003C\u002Fstrong> in mehreren Benchmark-Setups veröffentlicht. Laut \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">llm-stats.com\u003C\u002Fa> führt \u003Cstrong>Opus 4.7 in 6 von 10 Shared-Benchmarks\u003C\u002Fstrong>, GPT-5.5 in den verbleibenden 4. Im direkten Vergleich Opus 4.7 zu Opus 4.6 (gleicher Preis: 5 US-Dollar pro Million Input-Tokens, 25 US-Dollar pro Million Output-Tokens) gewinnt 4.7 in 12 von 14 Tests.\u003C\u002Fp>\n\u003Cp>Auf den Suchen-Benchmarks im April liegt überraschend \u003Cstrong>GPT-5.2 mit 92,0\u003C\u002Fstrong> an der Spitze, gefolgt von Opus 4.6 (91,3) und GPT-5 (90,0). Das deutet darauf hin, dass die jeweils neueste Generation nicht automatisch in jedem Use-Case führt — eine wichtige Nuance für Teams, die ihre Agent-Pipelines auf Modell-Updates ausrichten. Wer auf Hybrid-Setups wechselt (Closed-Source für Reasoning, Open-Source für Routing\u002FEmbedding), sollte hier seine Routing-Logik kalibrieren.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fllm-stats.com\u002Fai-news\" target=\"_blank\" rel=\"noopener noreferrer\">LLM Stats AI News\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Hugging Face huggingface_hub v1.0 — fünf Jahre und ein Major\u003C\u002Fh2>\n\u003Cp>Am 16. April hat Hugging Face das \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fblog\" target=\"_blank\" rel=\"noopener noreferrer\">huggingface_hub v1.0-Release\u003C\u002Fa> veröffentlicht — die zentrale Python-Library, mit der praktisch jeder ML-Workflow Modelle, Datasets und Inference-Endpunkte ansteuert. Fünf Jahre nach v0.1 wird damit zum ersten Mal eine stabile API-Major-Version garantiert. Für die Open-ML-Foundation ist das ein Reife-Signal: Die Library, die unter der Haube alles miterledigt, was zwischen \u003Ccode>pip install transformers\u003C\u002Fcode> und einem laufenden Modell passiert, ist jetzt formal stabil.\u003C\u002Fp>\n\u003Cp>In der gleichen Woche wurde der \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fblog\" target=\"_blank\" rel=\"noopener noreferrer\">\"State of Open Source on Hugging Face: Spring 2026\"-Bericht\u003C\u002Fa> publiziert. Kernaussage: Government-Initiativen werden zum dritten relevanten Akteur neben Industrie und Forschung, und das Open-Source-Wachstum jenseits von Sprache und Bildgenerierung (Audio, Robotik, Time-Series) zieht spürbar an. Für DACH-Behörden-Projekte und Industrie-4.0-Use-Cases der relevantere Datenpunkt als der x-te LLM-Benchmark.\u003C\u002Fp>\n\u003Cp>\u003Cstrong>Quelle:\u003C\u002Fstrong> \u003Ca href=\"https:\u002F\u002Fhuggingface.co\u002Fblog\" target=\"_blank\" rel=\"noopener noreferrer\">Hugging Face Blog\u003C\u002Fa>\u003C\u002Fp>\n\n\u003Ch2>Kurz notiert\u003C\u002Fh2>\n\u003Cul>\n\u003Cli>\u003Cstrong>Huawei HiFloat4\u003C\u002Fstrong> wurde von Jack Clark in \u003Ca href=\"https:\u002F\u002Fimportai.substack.com\" target=\"_blank\" rel=\"noopener noreferrer\">Import AI 454\u003C\u002Fa> als alternatives 4-Bit-Precision-Format für Training und Inference vorgestellt, gemessen gegen MXFP4. Wenn HiFloat4 hält, was die ersten Benchmarks andeuten, verschiebt sich die Effizienz-Frontier bei Quantisierung erneut. Quelle: \u003Ca href=\"https:\u002F\u002Fimportai.substack.com\" target=\"_blank\" rel=\"noopener noreferrer\">Import AI\u003C\u002Fa>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>OpenAI Workspace Agents\u003C\u002Fstrong> sind laut \u003Ca href=\"https:\u002F\u002Fthesequence.substack.com\" target=\"_blank\" rel=\"noopener noreferrer\">TheSequence\u003C\u002Fa> als neues Agent-Erlebnis für komplexe Workflows in ChatGPT angekündigt — direkter Wettbewerber zu Claude Opus 4.7 mit MCP. Microsoft hat parallel das gesamte Cove-Team (AI-Collab-Startup mit Infinite-Whiteboard-Produkt) übernommen.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>Kimi K2.6\u003C\u002Fstrong> wurde laut \u003Ca href=\"https:\u002F\u002Fthesequence.substack.com\" target=\"_blank\" rel=\"noopener noreferrer\">TheSequence\u003C\u002Fa> mit Marquee-Capabilities in Agentic Coding positioniert — die Ollama-Integration \u003Ccode>ollama launch kimi --model kimi-k2.6:cloud\u003C\u002Fcode> aus v0.21.1 macht das Modell direkt aus der Kommandozeile verfügbar. Quelle: \u003Ca href=\"https:\u002F\u002Fgithub.com\u002Follama\u002Follama\u002Freleases\" target=\"_blank\" rel=\"noopener noreferrer\">Ollama Releases\u003C\u002Fa>.\u003C\u002Fli>\n\u003Cli>\u003Cstrong>LangChain\u003C\u002Fstrong> hat Agent Builder zu \u003Cstrong>LangSmith Fleet\u003C\u002Fstrong> umbenannt und mit Identitäts-, Sharing- und Permission-Management ausgestattet. Polly (AI-Assistant in LangSmith) ist GA. Eine \u003Cstrong>Enterprise-Agentic-AI-Platform mit NVIDIA\u003C\u002Fstrong> wurde ebenfalls angekündigt. Quelle: \u003Ca href=\"https:\u002F\u002Fblog.langchain.com\" target=\"_blank\" rel=\"noopener noreferrer\">LangChain Blog\u003C\u002Fa>.\u003C\u002Fli>\n\u003C\u002Ful>\n\n\u003Ch2>Fazit\u003C\u002Fh2>\n\u003Cp>KW 18 hat zwei Entwicklungen zementiert, die seit Anfang 2026 angedeutet waren: Erstens, die SOTA-Lücke zwischen offenen und proprietären Modellen ist im Coding-Bereich zu einem Spalt geschrumpft — Qwen 3.6-27B auf einer RTX 3090, DeepSeek V4 mit MIT-Lizenz und 1M Context, beides ernst zu nehmende Optionen für Produktiv-Workloads. Zweitens, die Plattform-Abhängigkeiten verschärfen sich: GitHub erlaubt bei Free-\u002FPro-\u002FPro+-Accounts seit dem 24. April die Nutzung von Copilot-Interaktionen für Modelltraining, sofern du sie nicht deaktivierst. Die praktische Reaktion ist entweder ein bewusst gesetzter Opt-out oder ein lokaler Coding-Stack. Die Kombination aus offenen Modellen auf Mid-Range-Hardware und reifendem Inference-Tooling (vLLM v0.20, Ollama v0.21) macht den Eigenbetrieb dieses Quartal so attraktiv wie noch nie. Wer in den letzten 18 Monaten gewartet hat, hat jetzt einen sehr guten Zeitpunkt für den Einstieg.\u003C\u002Fp>\n\n\u003Cp>Wenn du DeepSeek V4 oder Qwen 3.6-27B in deinem eigenen Stack einsetzen willst — \u003Ca href=\"\u002Fde-at\u002Fcontact\">wir helfen gerne\u003C\u002Fa>. Mehr Detail zur Architektur findest du im neuen \u003Ca href=\"\u002Fde-at\u002Fblog\u002Fdeepseek-v4-on-premise-dsgvo-konform\">DeepSeek-V4-Pillar-Post\u003C\u002Fa>.\u003C\u002Fp>\n\n\u003Cp>\u003Cem>Kuratiert von SEADEV Studios — jede Woche die wichtigsten AI-News, eingeordnet für Entwickler und Entscheider.\u003C\u002Fem>\u003C\u002Fp>\n"]