n-simplex-Attention macht unglaublichen Sinn wegen seiner Ehrlichkeit: Es sagt buchstäblich, dass man mehr Rechenleistung auf die Attention-Operation verwenden kann, um mehr Gewinne zu erzielen: Wir haben diesen Trend so oft gesehen. Das unterscheidet sich von vielen 'verdächtigen' Behauptungen, wie zum Beispiel, dass man weniger Rechenleistung verwenden kann, um ähnlich zu performen (d.h. subquadratische Rechenleistung, um quadratische Rechenleistung zu erreichen).
43,57K