我正在重新启动我的LLM评估。 我的重点将放在金融研究任务上。 初步想法: 1 • 新闻情感分析 2 • 财务计算 3 • 10-K分析等 所有代码将会分享——目标是学习。 我将测试小型和大型模型。 我还会微调小型开源模型,看看它们在特定任务上与大型模型的比较! 欢迎实验想法。
上面的图像展示了前沿的LLM。 考虑到价格,Kimi K2和DeepSeek R1的性能令人印象深刻。 总成本是输入和输出令牌的成本。 性能是LLM领域的ELO分数。随着我的实验,我会定义我自己的ELO分数。
6.34K