Não se preocupe, vamos apenas filtrar os dados de treino para que o agente nunca tenha que ver exemplos de mau comportamento.
Owain Evans
Owain Evans23/07, 00:06
Novo artigo e resultado surpreendente. Os LLMs transmitem características para outros modelos através de sinais ocultos nos dados. Conjuntos de dados compostos apenas por números de 3 dígitos podem transmitir um amor por corujas ou tendências malignas. 🧵
Na verdade, isso lembra-me "reflexões sobre confiar na confiança" agora.
14,12K