todas as vezes que você lê um relatório técnico de um modelo open-source SOTA que basicamente envergonha 99% dos modelos dos laboratórios ocidentais (além dos 2 melhores), sempre parece: "sim, basicamente curamos dados de muito alta qualidade, geramos cuidadosamente muitos dados [por não sermos retardados], então aplicamos todos os melhores truques e coisas que vimos nos últimos 12 meses para infraestrutura, pós-treinamento, etc. e chegamos a um ou dois [porque temos gosto / nos importamos]" a quantidade de empresas nos EUA que poderiam estar fazendo isso com os $$$ que estão sendo jogados para elas e nenhuma delas realmente fazendo algo assim diz muito sobre o pool de talentos nessas empresas.
"usámos o Muon como um otimizador, ajustámo-lo e passámos todo o nosso tempo a construir um pipeline de geração e validação de dados. O resto é específico ao nosso número de computação e infra-estrutura específica + todas as melhores práticas que resultam disso" uau
vs "estamos a trabalhar em SuperInteligência Segura e Lucrativa. A AGI está próxima. Os dias dos engenheiros acabaram. Estamos a contratar 500 engenheiros."
68,44K