Grandes modelos são ótimos agentes, mas muitas vezes muito grandes, fechados ou delicados para serem ajustados Ideia: treinar um modelo pequeno para criar contexto para um modelo grande congelado, pontuar as saídas do modelo grande, usar isso como recompensa para o pequeno grpo para ajuste de contexto. Mais abaixo
11,61K