a atenção n-simplex faz um sentido incrível por causa de sua honestidade: ela literalmente diz que você pode colocar mais computação na operação de atenção para obter mais ganhos: já vimos essa tendência tantas vezes. Isso difere de muitas alegações 'suspeitas', como você pode usar menos computação para obter resultados semelhantes (ou seja, computação subquadrática para igualar a computação quadrática).
43,56K