DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich habe 71 schnelle Experimente für 500 von 13.000 Schritten für die Herausforderung von OpenAI durchgeführt. 1. Mixture of Experts ist der absolute GEWINNER (sehr überraschend, da es für kleine LLMs nicht so sein sollte) > Die Anzahl der Experten ist am wichtigsten. 4 (beste) > 3 >> 2. 2. UNTIED Embeddings funktionieren, gebundene sind eine Katastrophe. 3. Depthwise Convolution - TOTEN ENDE. Einblicke: 1. 4-expert MOE + leaky ReLU -> -0.048 BPB, klarer Gewinner. 2. Untied factored embeddings (bn128) -> -0.031 BPB, es lohnt sich, mit MOE zu kombinieren. 3. MOE + QAT-Kombination -> bewahrt die quantisierte Qualität für die Einreichung. tote Enden 1. Depthwise convolution -> jede Variante schadet, größere Kerne schaden mehr. 2. Tied factored embeddings -> katastrophal, besonders bei kleinen Engpässen. 3. Gewichtsteilung -> nicht wettbewerbsfähig mit MOE in Bezug auf Qualität. 4. Conv + alles Kombinationen — verstärken den Schaden. Nächste Schritte 1. MOE 4e + leaky bei 2000-5000 Schritten validieren, mehrere Seeds. 2. MOE 4e + leaky + untied bn128 testen — die beiden größten Gewinne könnten sich stapeln. 3. Vollständiger Durchlauf (13780 Schritte) der besten Kombination, um zu sehen, ob sie die 1.2244 BPB-Leaderboard übertrifft. 71 Experimente, 3 GPUs, ~500 Schritte jeweils. Vuk Rosić....

Top

Ranking

Favoriten