Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Супер акуратний трубопровід, якщо узагальнити їх:
1. перефразувати вказаний користувачем запит на завдання,
2. генерувати кілька (n=25) різноманітних прикладів синтетичного навчання (використовуючи ICL з великим контекстним вікном для забезпечення різноманітності),
3. модель поїзда з GRPO + LoRA, використовуючи рубрики RULER як винагороду

30 лип. 2025 р.
Представляємо 'AutoRL' 📈
Найпростіший у світі спосіб тренування LLM для конкретного завдання за допомогою RL.
*Просто напишіть РЕЧЕННЯ з описом моделі, яку ви хочете.*
Ланцюжок систем штучного інтелекту згенерує дані + рубрики та навчить модель для вас.
Працює на основі ART і має відкритий вихідний код.
Посилання в темі:
5,74K
Найкращі
Рейтинг
Вибране