Tein nopeat 71 koetta 500 askeleen 13 000:sta OpenAI:n haasteeseen 1. Asiantuntijoiden sekoitus on ehdoton VOITTAJA (todella yllättävää, koska pienille LLM-malleille ei pitäisi olla) > Asiantuntijamäärä on tärkein. 4 (paras) > 3 >> 2. 2. UNTIED Upotukset toimivat, sidottuja on katastrofi 3. Syvällinen konvoluutio – UMPIKUJA Näkemyksiä: 1. 4-asiantuntija MOE + vuotava ReLU -> -0,048 BPB, selvä voittaja 2. Sitoutumattomat faktoroidut upotukset (bn128) -> -0,031 BPB, kannattaa yhdistää MOE:n kanssa 3. MOE + QAT -yhdistelmä – > säilyttää kvantisoidun laadun lähetystä varten Umpikuja 1. Syvällinen konvoluutio – > jokainen variantti sattuu, isommat ytimet sattuvat enemmän 2. Sidotut factored-upotukset – > katastrofaalista, erityisesti pienissä pullonkauloissa 3. Painonjako – > ei kilpaile MOE:n kanssa laadussa 4. Conv + mitä tahansa -yhdistelmät — pahentavat vahinkoa Seuraavat askeleet 1. Validoi MOE 4e + vuotava 2000–5000 askeleella, useita siemeniä 2. Test MOE 4e + vuotava + unsided bn128 — kaksi suurinta voittoa saattavat kasaantua 3. Paras yhdistelmä (13780 askelta) nähdäkseni, voittaako se 1.2244 BPB:n tulostaulun 71 koetta, 3 GPU:ta, ~500 askelta kukin. Vuk Rosić...