Як це інтерпретувати, після тренування ваші ваги приблизно однаково віддалені від усіх завдань, які він бачив під час попереднього тренування (модель бачила всі завдання, тому вони притягнули їх до себе). Отже, цей метод лише змінює ваги і дивиться, які збурення наближають мережу до специфічних для завдання ваг. Це як дуже дешева Лора Це також пов'язано з спостереженням, що посттренінг не додає знань, а просто вирівнює розподіл попереднього навчання
Yulu Gan
Yulu Gan13 бер., 23:41
Просте додавання гаусового шуму до LLM (один крок — без ітерацій, без швидкості навчання, без градієнтів) і їх поєднання може досягти продуктивності, порівнянної або навіть кращої за стандартну GRPO/PPO у завданнях з математичного мислення, кодування, письма та хімії. Ми називаємо цей алгоритм RandOpt. Щоб переконатися, що це не обмежується конкретними моделями, ми протестували це на Qwen, Llama, OLMo3 та VLM. Що стоїть за цим? Ми виявляємо, що в гаусівському пошуковому околі навколо попередньо навчених LLM різноманітні експерти з завдань розташовані щільно — режим, який ми називаємо нейронними заростами. Стаття: Код: Вебсайт:
Збурювальні ваги насправді аналогічні випадковим розгортанням при високій температурі. Я вважаю, що це може бути ітеративно (як GRPO) Ваги збурення з великим радіусом -> обирають кращих виконавців -> постійно зменшують радіус Це *повинно* підвищити точність виконання завдань @yule_gan ти це пробував?
85