Mon meilleur avis : Rubriques + Juge LLM - Atomiser chaque point dans la preuve de vérité de base et vérifier par rapport à la sortie du modèle. Mon avis sur la façon dont ils ont rendu cela évolutif - auparavant ce n'était pas le cas, les humains devaient les élaborer méticuleusement, c'est qu'ils ont formé ou fait quelque chose pour générer de très bonnes rubriques pour chaque problème spécifique ou sa réponse.
Alexander Wei
Alexander Wei19 juil., 15:50
5/N En plus du résultat lui-même, je suis enthousiaste à propos de notre approche : nous atteignons ce niveau de capacité non pas par une méthodologie étroite et spécifique à une tâche, mais en ouvrant de nouvelles voies dans l'apprentissage par renforcement à usage général et l'échelle de calcul au moment du test.
.@polynoamial @alexwei_ cligne deux fois si j'ai raison et trois fois si j'ai tort - avant que les aveugles ne soient conduits par les aveugles xD
22,03K