Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
En annan alfa-läcka. samma teknik som vi använde för KernelBench. Det är ett universellt tillvägagångssätt i sin enklaste form.
Exempel är allt du behöver: Få ett bra resultat eller en enda förbättring, Lägg till i sammanhanget, få fler bra resultat med förbättrat sammanhang, lägg till dem i sammanhanget, annonsinf...


22 juli 11:19
Nyligen nådde Openai, Goolge IMO guldmedaljer med sina nya experimentella modeller.
Men vårt team nådde samma nivå med bara o4-mini-high och våra agentsystem. Och nu öppnar vi upp det med öppen källkod.
Speciellt fick vi vansinniga förbättringar med USAMO-riktmärkena. Baslinjen var nästan 0 men vår agent fick i genomsnitt 90%.
Vi kan också teoretiskt bevisa de senaste arxiv-artiklarna som bara ger den viktigaste forskningsidén.

Det är ingen idé att träna små modeller egentligen... Det är bättre att hitta det perfekta programmet för att mata till de största maskinerna.
Om du vill ha den bästa utdatafördelningen måste du hitta den perfekta ingångsfördelningen, som Practice.
Du kan komma dit från ingenting så länge du har ett sätt att rangordna dina resultat.
Dessa killars teknik verkar överkonstruerad tho, kan sannolikt vara mycket enklare.
KernelBenchs första generation på o3-mini. Vi kallade detta bara för "självförbättring".


30 apr. 2025
vi har ett overifierat SOTA-resultat på KernelBench med o3-mini och ett evolutionärt exempelband: 208/250 påstådda speedups, inklusive 3 för nivå 4 (tidigare orörd).
skulle vara tacksam för all hjälp med att granska de optimerade KernelBench-kärnorna på .
Tack till @anneouyang och Stanfords @ScalingIntelLab för att ni gick med på att granska dem.

3,27K
Topp
Rankning
Favoriter