RL часто втрачає корисний сигнал на проміжних етапах, або, як @karpathy кажуть, це як «висмоктувати нагляд через соломинку». MiniMax M2.5 вирішує це шляхом винагород за кожен токен. Результатом є продуктивність передового кодування, що становить щонайменше 1/10 від вартості закритого програмного забезпечення. @thealexker пояснює, як працює цей механізм і як M2.5 досягає успіху у загальній роботі з знаннями. Читайте про це тут: