Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Att en * andra * papper droppade med massor av RL svänghjul hemligheter och * multimodal * o1-stil resonemang är inte på min bingo bricka idag. Kimis (en annan startup) och DeepSeeks artiklar sammanstrålade anmärkningsvärt nog på liknande resultat:
> Inget behov av komplex trädsökning som MCTS. Linjärisera bara tankespåret och gör gamla goda autoregressiva förutsägelser;
> Inget behov av värdefunktioner som kräver ytterligare en dyr kopia av modellen.
> Inget behov av tät belöningsmodellering. Lita så mycket som möjligt på grundsanningen, slutresultatet.
Skillnader:
> DeepSeek gör AlphaZero tillvägagångssätt - rent bootstrap genom RL utan mänsklig input, dvs "kallstart". Kimi använder sig av AlphaGo-Master-metoden: lätt SFT för att värma upp genom snabbkonstruerade CoT-spår.
> DeepSeek-vikter är MIT-licens (thought leadership!); Kimi har ännu inte fått någon modellrelease.
> Kimi visar stark multimodal prestanda (!) på benchmarks som MathVista, vilket kräver visuell förståelse för geometri, IQ-tester, etc.
> Kimi-papper har MYCKET mer information om systemdesignen: RL-infrastruktur, hybridkluster, kodsandlåda, parallellitetsstrategier; och inlärningsdetaljer: lång kontext, CoT-komprimering, läroplan, provtagningsstrategi, generering av testfall, etc.
Optimistisk läsning på en semester!

Länk till whitepaper:
300,45K
Topp
Rankning
Favoriter