Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Selamat kepada tim @liquidai di LFM2-24B-A2B! 🎉 Dukungan Hari-0 untuk LFM2-24B-A2B dalam versi ✅ stabil vLLM
24B total param, hanya 2B aktif per token — muat dalam RAM 32 GB dan mencapai 293 tok/s pada H100 🔥


08833924 Feb 2026
Hari ini, kami merilis model LFM2 terbesar kami: LFM2-24B-A2B 🐘
> Parameter total 24B
> 2,3 miliar aktif per token
> Dibangun di atas arsitektur LFM2 hibrida kami yang sadar perangkat keras
Ini menggabungkan desain LFM2 yang cepat dan hemat memori dengan pengaturan Campuran Ahli, sehingga hanya 2,3 miliar parameter yang mengaktifkan setiap proses.
Hasilnya: efisiensi terbaik di kelasnya, inferensi tepi yang cepat, dan penskalaan log-linear yang dapat diprediksi semuanya dalam jejak MoE aktif 2B 32GB.
🧵

372
🎉 Selamat untuk @Alibaba_Qwen pada Seri Model Menengah Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B, dan 27B 🚀🚀🚀
Lebih banyak kecerdasan, lebih sedikit komputasi — persis seperti yang disukai komunitas open source!
Lihat resep kami dan coba semuanya dengan vLLM hari ini!

Qwen25 Feb 2026
🚀 Memperkenalkan Seri Model Menengah Qwen 3.5
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Lebih banyak kecerdasan, lebih sedikit komputasi.
• Qwen3.5-35B-A3B sekarang melampaui Qwen3-235B-A22B-2507 dan Qwen3-VL-235B-A22B — pengingat bahwa arsitektur, kualitas data, dan RL yang lebih baik dapat memajukan intelijen, bukan hanya jumlah parameter yang lebih besar.
• Qwen3.5-122B-A10B dan 27B terus mempersempit kesenjangan antara model berukuran sedang dan perbatasan — terutama dalam skenario agen yang lebih kompleks.
• Qwen3.5-Flash adalah versi produksi yang dihosting yang selaras dengan 35B-A3B, menampilkan:
– Panjang konteks 1M secara default
– Alat bawaan resmi
🔗 Wajah Memeluk:
🔗 Ruang lingkup model:
🔗 API Qwen3.5-Flash:
Coba di Qwen Chat 👇
Berkedip:
27B:
35B-A3B:
122B-A10B:
Akan senang mendengar apa yang Anda bangun dengannya.

165
🔥Selamat kepada @Zai_org atas peluncuran GLM-5 — parameter 744B (40B aktif), dilatih pada token 28.5T, mengintegrasikan DeepSeek Sparse Attention untuk menjaga biaya penerapan tetap dapat dikelola sambil mempertahankan kapasitas konteks panjang.
vLLM memiliki dukungan hari-0 untuk GLM-5-FP8 dengan:
📖 DeepSeek Sparse Attention untuk penyajian konteks panjang yang efisien
⚡️ Decoding spekulatif MTP
⚙️ Mode panggilan alat + berpikir
Resep dengan konfigurasi penyajian dan tolok ukur:
🔗

210
Teratas
Peringkat
Favorit
