Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
¡Felicidades al equipo de @liquidai por LFM2-24B-A2B! 🎉 Soporte Day-0 para LFM2-24B-A2B en la versión estable de vLLM ✅
24B de parámetros en total, solo 2B activos por token — cabe en 32 GB de RAM y alcanza 293 tok/s en H100 🔥


08833924 feb 2026
Today, we release our largest LFM2 model: LFM2-24B-A2B 🐘
> 24B total parameters
> 2.3B active per token
> Built on our hybrid, hardware-aware LFM2 architecture
It combines LFM2’s fast, memory-efficient design with a Mixture of Experts setup, so only 2.3B parameters activate each run.
The result: best-in-class efficiency, fast edge inference, and predictable log-linear scaling all in a 32GB, 2B-active MoE footprint.
🧵

383
🎉 ¡Felicidades a @Alibaba_Qwen por la serie de modelos Qwen3.5 Medium — Qwen3.5-35B-A3B, 122B-A10B y 27B 🚀🚀🚀
Más inteligencia, menos computación — ¡exactamente lo que la comunidad de código abierto ama ver!
¡Consulta nuestra receta y pruébalos todos con vLLM hoy!

Qwen25 feb 2026
🚀 Presentamos la serie de modelos Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Más inteligencia, menos computación.
• Qwen3.5-35B-A3B ahora supera a Qwen3-235B-A22B-2507 y Qwen3-VL-235B-A22B — un recordatorio de que una mejor arquitectura, calidad de datos y RL pueden avanzar la inteligencia, no solo contar con más parámetros.
• Qwen3.5-122B-A10B y 27B continúan cerrando la brecha entre modelos de tamaño medio y modelos de frontera — especialmente en escenarios de agentes más complejos.
• Qwen3.5-Flash es la versión de producción alojada alineada con 35B-A3B, que cuenta con:
– 1M de longitud de contexto por defecto
– Herramientas oficiales integradas
🔗 Hugging Face:
🔗 ModelScope:
🔗 API de Qwen3.5-Flash:
Prueba en Qwen Chat 👇
Flash:
27B:
35B-A3B:
122B-A10B:
Nos encantaría saber qué construyes con ello.

171
🔥¡Felicidades a @Zai_org por el lanzamiento de GLM-5 — 744B parámetros (40B activos), entrenado en 28.5T tokens, integrando DeepSeek Sparse Attention para mantener los costos de implementación manejables mientras se preserva la capacidad de contexto largo.
vLLM tiene soporte desde el día 0 para GLM-5-FP8 con:
📖 DeepSeek Sparse Attention para un servicio eficiente de contexto largo
⚡️ Decodificación especulativa MTP
⚙️ Llamada a herramientas + modo de pensamiento
Receta con configuraciones de servicio y benchmarks:
🔗

216
Parte superior
Clasificación
Favoritos
