Я ищу хорошие примеры обобщения моделей рассуждений. Например, модель, стимулируемая с помощью RL, чтобы подумать некоторое время и решить математические задачи, становится лучше в креативном письме. Это распространено?
21,85K