Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Як це інтерпретувати, після тренування ваші ваги приблизно однаково віддалені від усіх завдань, які він бачив під час попереднього тренування (модель бачила всі завдання, тому вони притягнули їх до себе). Отже, цей метод лише змінює ваги і дивиться, які збурення наближають мережу до специфічних для завдання ваг. Це як дуже дешева Лора Це також пов'язано з спостереженням, що посттренінг не додає знань, а просто вирівнює розподіл попереднього навчання

Збурювальні ваги насправді аналогічні випадковим розгортанням при високій температурі. Я вважаю, що це може бути ітеративно (як GRPO) Ваги збурення з великим радіусом -> обирають кращих виконавців -> постійно зменшують радіус Це *повинно* підвищити точність виконання завдань @yule_gan ти це пробував?

85

Найкращі

Рейтинг

Вибране