一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

强化学习（RL）长期以来一直是微调的主导方法，为许多最先进的LLM提供动力。像PPO和GRPO这样的算法在动作空间中进行探索。但我们能否直接在参数空间中进行探索？是的，我们可以。我们提出了一种使用进化策略（ES）进行全参数微调的可扩展框架。通过跳过梯度并直接在参数空间中优化，ES实现了更准确、高效和稳定的微调。论文：代码：