Große Modelle sind großartige Agenten, aber oft zu groß, geschlossen oder empfindlich, um sie feinabzustimmen. Idee: Ein kleines Modell trainieren, um Kontext für ein eingefrorenes großes Modell zu erstellen, die Ausgaben des großen Modells bewerten und das als Belohnung für das kleine Modell verwenden. Gruppe für Kontextanpassung. Mehr dazu unten.
11,61K