Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Gratulujeme týmu @liquidai k LFM2-24B-A2B! 🎉 Podpora pro LFM2-24B-A2B pro den 0 ve stabilní verzi ✅ vLLM
Celkem 24B parametrů, pouze 2B aktivních na token — vejde se do 32 GB RAM a dosahuje 293 tok/s na H100 🔥


08833924. 2. 2026
Dnes uvádíme na trh náš největší model LFM2: LFM2-24B-A2B 🐘
> Celkové parametry 24B
> 2,3 miliardy na token
> Postaveno na naší hybridní, hardwarově uvědomělé architektuře LFM2
Kombinuje rychlý a paměťově úsporný design LFM2 s mixem expertů, takže při každém běhu se aktivují pouze 2,3B parametry.
Výsledek: nejlepší efektivita ve třídě, rychlá edge inference a předvídatelné log-lineární škálování, to vše v 32GB, 2B aktivním MoE prostoru.
🧵

504
🎉 Gratulujeme @Alibaba_Qwen k řadě Qwen3.5 Medium Model Series — Qwen3.5-35B-A3B, 122B-A10B a 27B 🚀🚀🚀
Více inteligence, méně výpočetní kapacity — přesně to, co open source komunita miluje!
Podívejte se na náš recept a vyzkoušejte je všechny s vLLM ještě dnes!

Qwen25. 2. 2026
🚀 Introducing the Qwen 3.5 Medium Model Series
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ More intelligence, less compute.
• Qwen3.5-35B-A3B now surpasses Qwen3-235B-A22B-2507 and Qwen3-VL-235B-A22B — a reminder that better architecture, data quality, and RL can move intelligence forward, not just bigger parameter counts.
• Qwen3.5-122B-A10B and 27B continue narrowing the gap between medium-sized and frontier models — especially in more complex agent scenarios.
• Qwen3.5-Flash is the hosted production version aligned with 35B-A3B, featuring:
– 1M context length by default
– Official built-in tools
🔗 Hugging Face:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Try in Qwen Chat 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Would love to hear what you build with it.

202
🔥Gratuluji @Zai_org k uvedení GLM-5 — 744B parametrů (40B aktivní), trénování na 28,5T tokenech, integraci DeepSeek Sparse Attention, aby byly náklady na nasazení zvládnutelné a zároveň zachovaly kapacitu pro dlouhý kontext.
vLLM podporuje od dne 0 pro GLM-5-FP8 s:
📖 DeepSeek Sparse Attention pro efektivní dlouhodobé podávání
⚡️ MTP spekulativní dekódování
⚙️ Volání nástrojů + myšlenkový režim
Recept s konfiguracemi servírování a benchmarky:
🔗

244
Top
Hodnocení
Oblíbené
