DApp Store | Web3 Hub for hendelser og spill

Populære emner

Dette diagrammet viser deg stille den nye playbooken for AI-kodingsselskaper, og ingen snakker om det. Cognition og Cursor startet begge som wrappers som kjørte på Claude og GPT. Se nå på denne referansepunktet. Kognisjonens SWE-1,6 på 51,7 %. Cursors Composer-1,5 på 50,8 %. Begge ligger innen rekkevidde av Claude Opus 4.6 med 53,6 % og GPT-5.3-Codex med 56,8 %. Ingen av selskapene trente en grunnlagsmodell fra bunnen av. Begge tok åpne kildekode-baserte modeller og anvendte forsterkningslæring i virkelige kodemiljøer. Cognitions Swyx sa det direkte på Hacker News: «det er stadig mindre viktig med kvalitetene til basismodellen så lenge den er god nok, fordi da tar RL og ettertrening over og er hele poenget med differensiering.» Det er tesen. Basismodellen er en vare. RL-pipelinen som trenes på ditt spesifikke agentverktøy, verktøybruksmønstrene dine, dine faktiske brukerøkter, er det forsvarbare laget. Kognisjon trente SWE-1.6 på deres Cascade-sele med to størrelsesordener mer RL-beregning enn SWE-1.5. Cursor trente Composer inne i live IDE-miljøer med filredigering, semantisk søk og terminalkommandoer. Begge var med på å designe modellen og produktet sammen. Matematikken i hoppet forteller historien. SWE-1,5 fikk 40,1 %. SWE-1,6 får 51,7 %. Samme grunnmodell. Samme 950 tok/s inferensen på Cerebras. Hele forbedringen på 11,6 poeng kom fra bedre RL-oppskrifter og mer datakraft. Det er en raskere forbedringsrate enn de fleste grunnleggende laboratorier får fra forhånds-skalering. Dette er to selskaper til 10 milliarder dollar + (Cognition til 10,2 milliarder, Cursor til 29,3 milliarder) som uavhengig konvergerer mot samme konklusjon: du trenger ikke bygge GPT-5 for å konkurrere med GPT-5 på koding. Du trenger RL i stor skala i tillegg til en god nok base, co-designet med agentinfrastrukturen din. Hastighetslaget er også viktig. Kognisjonen går på 950 tok/s gjennom Cerebras. Composer kjører på 250 tok/s. I agentiske arbeidsflyter hvor modellen går i loop dusinvis av ganger per oppgave, øker det 4x hastighetsgapet til meningsfullt forskjellige brukeropplevelser. Kognisjon er at hastighet og nøyaktighet slår nøyaktighet alene. Spørsmålet som bør bekymre OpenAI og Anthropic: hvis to oppstartsbedrifter kan komme innenfor 5 poeng fra dine beste modeller ved å bruke RL på åpen kildekode-baser, hva skjer når de åpne kildekode-basene blir bedre? Hver forbedring av Llama eller Qwen flyter direkte inn i Cognition and Cursors pipeline. Stiftelseslaboratoriene subsidierer i praksis sin egen konkurranse.

Topp

Rangering

Favoritter