cada vez que lees un informe técnico de un modelo de código abierto SOTA que básicamente deja en ridículo al 99% de los modelos de los laboratorios occidentales (además de los dos mejores absolutos), siempre se lee algo como: "sí, básicamente curamos datos de muy alta calidad, generamos cuidadosamente muchos datos [debido a no ser retrasados], luego aplicamos todos los mejores trucos y cosas que vimos en los últimos 12 meses para infraestructura, post-entrenamiento, etc. y llegamos a uno o dos [porque tenemos buen gusto / nos importa]" el número de empresas en EE. UU. que podrían estar haciendo esto con los $$$ que se les están dando y ninguna de ellas realmente haciendo algo así te dice mucho sobre el talento en estas empresas.
"usamos Muon como optimizador, lo ajustamos y pasamos todo nuestro tiempo construyendo un pipeline de generación y validación de datos. El resto es específico a nuestro # de computación e infraestructura específica + todas las mejores en su clase que se derivan de ello" ¡waow!
vs "estamos trabajando en una Superinteligencia Segura y Rentable. La AGI está cerca. Los días de los ingenieros han terminado. Contratando a 500 ingenieros."
62,5K