A atenção N-simplex faz um sentido incrível por causa de sua honestidade: ela literalmente diz que você pode colocar mais computação na operação de atenção para obter mais ganhos: já vimos essa tendência tantas vezes. Isso difere de muitas afirmações 'suspeitas', como você pode usar menos computação para executar de forma semelhante (ou seja, computação subquardática para corresponder à computação quadrática).
43,59K