DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Det här diagrammet visar tyst den nya handboken för AI-kodningsföretag och ingen pratar om det. Cognition och Cursor började båda som wrappers som kördes på Claude och GPT. Titta nu på detta riktmärke. Kognitionens SWE-1,6 på 51,7%. Cursors Composer-1,5 på 50,8%. Båda ligger inom räckhåll för Claude Opus 4.6 med 53,6 % och GPT-5.3-Codex med 56,8 %. Inget av företagen tränade en grundmodell från grunden. Båda använde öppna basmodeller och tillämpade förstärkningsinlärning i verkliga kodningsmiljöer. Cognitions Swyx sa det direkt på Hacker News: "det blir alltmindre viktigt med basmodellens kvaliteter så länge den är tillräckligt bra, eftersom RL och efterträning tar över och är hela skillnadspunkten." Det är tesen. Basmodellen är en handelsvara. Den RL-pipeline som tränas på din specifika agenthantering, dina verktygsanvändningsmönster, dina verkliga användarsessioner är det försvarbara lagret. Cognition tränade SWE-1.6 på deras Cascade-sele med två storleksordningar mer RL-beräkning än SWE-1.5. Cursor tränade Composer i live-IDE-miljöer med filredigering, semantisk sökning och terminalkommandon. Båda var med och designade modellen och produkten tillsammans. Matematiken på hoppet berättar historien. SWE-1,5 fick 40,1 %. SWE-1,6 får 51,7 %. Samma basmodell. Samma 950 tok/s inferens på Cerebras. Hela förbättringen med 11,6 poäng kom från bättre RL-recept och mer beräkning. Det är en snabbare förbättringstakt än vad de flesta grundläggande labb får från förträningsskalning. Detta är två företag på 10 miljarder dollar (Cognition på 10,2 miljarder dollar, Cursor på 29,3 miljarder dollar) som oberoende av varandra konvergerar mot samma slutsats: du behöver inte bygga GPT-5 för att konkurrera med GPT-5 på kodning. Du behöver RL i stor skala ovanpå en tillräckligt bra bas, samdesignad med din agentinfrastruktur. Hastighetslagret spelar också roll. Kognitionen går på 950 tok/s genom Cerebras. Composer ligger på 250 tok/s. I agentiska arbetsflöden där modellen loopar dussintals gånger per uppgift, ökar den fyrfaldiga hastighetsskillnaden till meningsfullt olika användarupplevelser. Kognition är att satsa på snabbhet plus noggrannhet slår noggrannhet ensam. Frågan som bör oroa OpenAI och Anthropic: om två startups kan komma inom 5 poäng från dina bästa modeller med RL på open source-baser, vad händer när open source-baserna blir bättre? Varje förbättring av Llama eller Qwen flödar direkt in i Cognition och Cursors pipeline. Stiftelselaboratorierna subventionerar i princip sin egen konkurrens.

Topp

Rankning

Favoriter