At en *andre* artikkel falt med tonnevis av RL-svinghjulshemmeligheter og *multimodal* o1-stil resonnement er ikke på bingokortet mitt i dag. Kimis (en annen oppstart) og DeepSeek's papirer konvergerte bemerkelsesverdig på lignende funn: > Ingen behov for komplekst tresøk som MCTS. Bare lineariser tankesporet og gjør gode gamle autoregressive prediksjoner; > Ingen behov for verdifunksjoner som krever en annen dyr kopi av modellen; > Ikke behov for tett belønningsmodellering. Stol så mye som mulig på groundtruth, sluttresultat. Forskjeller: > DeepSeek gjør AlphaZero-tilnærming - rent bootstrap gjennom RL uten menneskelig input, dvs. Kimi gjør AlphaGo-Master-tilnærmingen: lett SFT for å varme opp gjennom hurtigkonstruerte CoT-spor. > DeepSeek-vekter er MIT-lisens (tankelederskap!); Kimi har ikke en modellutgivelse ennå. > Kimi viser sterk multimodal ytelse (!) på benchmarks som MathVista, noe som krever visuell forståelse av geometri, IQ-tester, etc. > Kimi-artikkelen har MYE flere detaljer om systemdesignet: RL-infrastruktur, hybrid klynge, kodesandkasse, parallellitetsstrategier; og læringsdetaljer: lang kontekst, CoT-komprimering, læreplan, prøvetakingsstrategi, generering av testcaser, etc. Optimistisk lesning på en ferie!
Lenke til whitepaper:
300,44K