Toda vez que você lê um relatório técnico de um modelo de código aberto SOTA que basicamente envergonha 99% dos modelos da Western Labs (além dos 2 principais absolutos), ele sempre diz o seguinte: "Sim, basicamente selecionamos dados de alta qualidade, geramos cuidadosamente muitos dados [por não sermos retardados], então aplicamos todos os melhores truques e coisas que vimos nos últimos 12 meses para infra, pós-treino etc e veio com um ou dois [porque temos gosto / cuidado]" o número de empresas nos EUA que poderiam estar fazendo isso com o $$$ sendo jogado para elas e nenhuma delas realmente fazendo algo assim diz muito sobre o pool de talentos nessas empresas
"Usamos o Muon como otimizador, o ajustamos e passamos todo o nosso tempo construindo um pipeline de geração e validação de dados. O resto é específico para o nosso # de computação e infra específica + tudo de melhor nas classes que caem dele" uau
Vs "Estamos trabalhando em SuperInteligência Segura e Lucrativa. AGI está próximo. Os dias dos engenheiros acabaram. Contratação de 500 engenheiros."
66,96K