fiz 71 experimentos rápidos para 500 de 13.000 passos para o desafio da OpenAI 1. Mixture of Experts é o ABSOLUTO VENCEDOR (muito surpreendente, pois não deveria ser para LLMs pequenos) > A contagem de especialistas é o que mais importa. 4 (melhor) > 3 >> 2. 2. Embeddings DESATADOS funcionam, os atados são um desastre 3. Convolução Depthwise - BECO SEM SAÍDA Insights: 1. MOE com 4 especialistas + leaky ReLU -> -0.048 BPB, vencedor claro 2. Embeddings factorizados desatados (bn128) -> -0.031 BPB, vale a pena combinar com MOE 3. Combinação MOE + QAT -> preserva a qualidade quantizada para submissão becos sem saída 1. Convolução depthwise -> cada variante prejudica, núcleos maiores prejudicam mais 2. Embeddings factorizados atados -> catastrófico, especialmente em gargalos pequenos 3. Compartilhamento de pesos -> não é competitivo com MOE em qualidade 4. Combinações Conv + qualquer coisa — agrava o dano Próximos Passos 1. Validar MOE 4e + leaky em 2000-5000 passos, múltiplas sementes 2. Testar MOE 4e + leaky + bn128 desatado — as duas maiores vitórias podem se acumular 3. Execução completa (13780 passos) da melhor combinação para ver se supera 1.2244 BPB no leaderboard 71 experimentos, 3 GPUs, ~500 passos cada. Vuk Rosić...