Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
¡Enhorabuena al equipo de @liquidai por LFM2-24B-A2B! 🎉 Soporte Day-0 para LFM2-24B-A2B en la versión ✅ estable de vLLM
24 mil millones de parámetros totales, solo 2 mil millones activos por token — cabe en 32 GB de RAM y alcanza 293 tok/s en H100 🔥


08833924 feb 2026
Hoy lanzamos nuestro modelo LFM2 más grande: LFM2-24B-A2B 🐘
> 24B parámetros totales
> 2,3 mil millones activos por token
> Construido sobre nuestra arquitectura híbrida y compatible con hardware LFM2
Combina el diseño rápido y eficiente en memoria de LFM2 con una configuración Mezcla de Expertos, de modo que solo 2,3 mil millones de parámetros se activan en cada ejecución.
El resultado: eficiencia de primer nivel, inferencia rápida de bordes y escalado log-lineal predecible, todo en un espacio de 32GB activo de MoE activo.
🧵

506
🎉 Enhorabuena a @Alibaba_Qwen por la serie de modelos medianos Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B y 27B 🚀🚀🚀
¡Más inteligencia, menos computación — justo lo que la comunidad de código abierto adora ver!
¡Echa un vistazo a nuestra receta y pruébalos todos con vLLM hoy mismo!

Qwen25 feb 2026
🚀 Presentamos la serie de modelos Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Más inteligencia, menos cálculo.
• Qwen3.5-35B-A3B ahora supera a Qwen3-235B-A22B-2507 y Qwen3-VL-235B-A22B — un recordatorio de que una mejor arquitectura, calidad de datos y RL pueden avanzar en la inteligencia, no solo mayores cantidades de parámetros.
• Qwen3.5-122B-A10B y 27B continúan reduciendo la brecha entre modelos medianos y frontera — especialmente en escenarios de agentes más complejos.
• Qwen3.5-Flash es la versión de producción alojada alineada con 35B-A3B, que incluye:
– 1M de longitud de contexto por defecto
– Herramientas oficiales integradas
🔗 Cara de abrazo:
🔗 ModelScope:
🔗 Qwen3.5-Flash API:
Prueba en el chat 👇 de Qwen
Flash:
27B:
35B-A3B:
122B-A10B:
Me encantaría saber qué construyes con él.

203
🔥Enhorabuena a @Zai_org por lanzar GLM-5 — 744B parámetros (40B activos), entrenado con tokens 28.5T, integrando DeepSeek Sparse Attention para mantener el coste de despliegue manejable mientras se preserva la capacidad de contexto largo.
vLLM tiene soporte de día 0 para GLM-5-FP8 con:
📖 DeepSeek Atención escasa para un servicio eficiente en contexto largo
⚡️ Decodificación especulativa MTP
⚙️ Llamada de herramientas + modo de pensamiento
Receta con configuraciones de servicio y benchmarks:
🔗

245
Populares
Ranking
Favoritas
