Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Оказывается,
> GRPO выполняет арифметическое среднее --> масштабирование на уровне токенов
> GSPO выполняет геометрическое среднее --> масштабирование на уровне последовательностей
Проверьте блог, если у вас нет времени читать.

25 июл. 2025 г.
С гордостью представляем оптимизацию политики последовательности группы (GSPO) — наш стабильный, эффективный и производительный алгоритм RL, который обеспечивает крупномасштабное обучение RL последних моделей Qwen3 (Instruct, Coder, Thinking) 🚀
📄

64,02K
Топ
Рейтинг
Избранное