Velké modelky jsou skvělí agenti, ale často jsou příliš velcí, uzavření nebo choulostiví na to, aby je bylo možné doladit Nápad: naučte malý model, aby vytvořil kontext pro zamrzlý velký model, ohodnoťte výstupy velkého modelu, použijte to jako odměnu za malý model GRPO pro ladění kontextu. Více níže
11,59K