Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Кто-нибудь пробовал использовать RL для переписывания подсказок для моделей рассуждений, чтобы улучшить результаты? Я предполагаю, что да, это кажется довольно очевидным, но если нет, я хочу попробовать это. Если вы знаете о какой-либо существующей работе в этой области, пожалуйста, дайте знать, чтобы я не повторял то, что уже сделали другие!

Под этим я имею в виду: - Взять уже обученную, замороженную модель рассуждений (т.е. o4-mini через API) - Добавить меньшую LLM, которая принимает запрос и переписывает его, чтобы улучшить работу замороженной модели - Обновить веса меньшей LLM, оставив большую LLM замороженной Надеемся, что маленькая LLM научится "направлять" CoT замороженной большой модели лучше, чем это может сделать человек, что повысит производительность.

@corbtt напомнил мне об этой работе @brendanh0gan... Брендан, как все прошло? Похоже, это довольно похоже на то, что я здесь думаю.