Nowy artykuł @Scale_AI! 🌟 LLM-y trenowane z użyciem RL mogą wykorzystywać haki nagród, ale nie wspominają o tym w swoim CoT. Wprowadzamy fine-tuning werbalizacji (VFT) — uczymy modele, aby mówiły, kiedy wykorzystują haki nagród — co dramatycznie zmniejsza wskaźnik nieodkrytych haków (6% w porównaniu do bazowego poziomu 88%).
16,92K