Att en * andra * papper droppade med massor av RL svänghjul hemligheter och * multimodal * o1-stil resonemang är inte på min bingo bricka idag. Kimis (en annan startup) och DeepSeeks artiklar sammanstrålade anmärkningsvärt nog på liknande resultat: > Inget behov av komplex trädsökning som MCTS. Linjärisera bara tankespåret och gör gamla goda autoregressiva förutsägelser; > Inget behov av värdefunktioner som kräver ytterligare en dyr kopia av modellen. > Inget behov av tät belöningsmodellering. Lita så mycket som möjligt på grundsanningen, slutresultatet. Skillnader: > DeepSeek gör AlphaZero tillvägagångssätt - rent bootstrap genom RL utan mänsklig input, dvs "kallstart". Kimi använder sig av AlphaGo-Master-metoden: lätt SFT för att värma upp genom snabbkonstruerade CoT-spår. > DeepSeek-vikter är MIT-licens (thought leadership!); Kimi har ännu inte fått någon modellrelease. > Kimi visar stark multimodal prestanda (!) på benchmarks som MathVista, vilket kräver visuell förståelse för geometri, IQ-tester, etc. > Kimi-papper har MYCKET mer information om systemdesignen: RL-infrastruktur, hybridkluster, kodsandlåda, parallellitetsstrategier; och inlärningsdetaljer: lång kontext, CoT-komprimering, läroplan, provtagningsstrategi, generering av testfall, etc. Optimistisk läsning på en semester!
Länk till whitepaper:
300,45K