Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Herzlichen Glückwunsch an das @liquidai-Team zu LFM2-24B-A2B! 🎉 Unterstützung am Tag 0 für LFM2-24B-A2B in der stabilen Version von vLLM ✅
24B Gesamtparameter, nur 2B aktiv pro Token — passt in 32 GB RAM und erreicht 293 tok/s auf H100 🔥


08833924. Feb. 2026
Today, we release our largest LFM2 model: LFM2-24B-A2B 🐘
> 24B total parameters
> 2.3B active per token
> Built on our hybrid, hardware-aware LFM2 architecture
It combines LFM2’s fast, memory-efficient design with a Mixture of Experts setup, so only 2.3B parameters activate each run.
The result: best-in-class efficiency, fast edge inference, and predictable log-linear scaling all in a 32GB, 2B-active MoE footprint.
🧵

381
🎉 Herzlichen Glückwunsch an @Alibaba_Qwen zur Qwen3.5 Medium Model Series — Qwen3.5-35B-A3B, 122B-A10B und 27B 🚀🚀🚀
Mehr Intelligenz, weniger Rechenleistung — genau das, was die Open-Source-Community gerne sieht!
Schau dir unser Rezept an und probiere sie alle heute mit vLLM aus!

Qwen25. Feb. 2026
🚀 Einführung der Qwen 3.5 Medium Model Series
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Mehr Intelligenz, weniger Rechenleistung.
• Qwen3.5-35B-A3B übertrifft jetzt Qwen3-235B-A22B-2507 und Qwen3-VL-235B-A22B — eine Erinnerung daran, dass bessere Architektur, Datenqualität und RL die Intelligenz voranbringen können, nicht nur größere Parameterzahlen.
• Qwen3.5-122B-A10B und 27B verringern weiterhin die Lücke zwischen mittelgroßen und Frontier-Modellen — insbesondere in komplexeren Agentenszenarien.
• Qwen3.5-Flash ist die gehostete Produktionsversion, die mit 35B-A3B übereinstimmt und folgende Funktionen bietet:
– 1M Kontextlänge standardmäßig
– Offizielle integrierte Werkzeuge
🔗 Hugging Face:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Probieren Sie es im Qwen Chat aus 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Würde gerne hören, was Sie damit bauen.

170
🔥Herzlichen Glückwunsch an @Zai_org zur Einführung von GLM-5 — 744B Parameter (40B aktiv), trainiert auf 28,5T Tokens, mit Integration von DeepSeek Sparse Attention, um die Bereitstellungskosten überschaubar zu halten und gleichzeitig die Kapazität für lange Kontexte zu bewahren.
vLLM hat sofortige Unterstützung für GLM-5-FP8 mit:
📖 DeepSeek Sparse Attention für effizientes Servieren von langen Kontexten
⚡️ MTP spekulative Dekodierung
⚙️ Toolaufruf + Denkmodus
Rezept mit Servierungskonfigurationen und Benchmarks:
🔗

215
Top
Ranking
Favoriten
