DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Nouveau papier de @Scale_AI ! 🌟 Les LLMs entraînés avec RL peuvent exploiter des hacks de récompense mais ne le mentionnent pas dans leur CoT. Nous introduisons le fine-tuning de verbalisation (VFT) — enseigner aux modèles à dire quand ils exploitent des hacks de récompense — réduisant de manière spectaculaire le taux de hacks non détectés (6 % contre une base de 88 %).

16,92K

Meilleurs

Classement

Favoris

Tendance on-chain

Tendance sur X

Récents financements de premier plan

Les plus notables