Mi mejor suposición: Rúbricas + Juez LLM - Atomizar cada punto en la prueba de verdad fundamental y verificar contra la salida del modelo. Mi suposición sobre cómo hicieron esto escalable - ya que antes no lo era, los humanos tenían que elaborarlos meticulosamente, es que entrenaron o hicieron algo para generar rúbricas muy buenas para cada problema específico o su respuesta.
Alexander Wei
Alexander Wei19 jul, 15:50
5/N Además del resultado en sí, estoy emocionado por nuestro enfoque: alcanzamos este nivel de capacidad no a través de una metodología específica y estrecha, sino rompiendo nuevos caminos en el aprendizaje por refuerzo de propósito general y la escalabilidad del cómputo en el momento de la prueba.
.@polynoamial @alexwei_ parpadea dos veces si tengo razón y tres veces si estoy equivocado - antes de que los ciegos sean guiados por los ciegos xD
22,05K