Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

swyx
Atinge ambiția cu intenționalitate, intensitate și integritate
- @smol_ai
- @dxtipshq
- @sveltesociety
- @aidotengineer
- @coding_career
- @latentspacepod
felicitări lui Bee pentru că a fost preluat de Amazon; similar cu Blink, Ring, Eero și ofc noul Claude + Nova + Alexa, cred că @panos_panay pune împreună un al doilea act destul de solid al strategiei hardware AI a Amazon
Știa că Bee câștigă când @dharmesh apărut la @latentspacepod lui legănând unul

3,39K
motivul pentru care analiza LLM (și reglementarea și PMing) este dificilă*
este ca DIMENSIUNILE relevante să continue să se miște cu fiecare generație de model de frontieră; Nu este suficient doar să puneți axa X sau Y în scara logaritmică și legile de scalare a urmăririi, trebuie să faceți de fapt munca pentru a vă gândi la modul în care modelele sunt diferite structural în 2025 vs 2024 vs 2023 și așa mai departe
Exemplu
toată lumea s-a concentrat pe elo timp de 2 ani, elo este jucat și își pierde credibilitatea
toată lumea s-a concentrat pe prețul pe jeton timp de 3 ani, modelele de raționament au o variație de 10-40 de ori a jetoanelor de ieșire pe sarcină, prețul pe jeton își pierde sensul
Colectați date cât doriți, dar dacă colectați doar serii de timp curate, puteți pierde din vedere imaginea de ansamblu
*(și de ce afirmații precum "AI Engineer nu este un lucru pentru că toți inginerii software sunt ingineri AI" sunt Cope și nu vor fi niciodată corecte decât în cel mai banal sens)

Scott HustonCu 23 de ore în urmă
Există o foaie de calcul publică cu toate modelele LLM de top de la diferite companii care arată prețurile, scorurile de referință, scorurile elo de arenă etc.?
8,53K
swyx a repostat
🆕 Lansăm întreaga noastră piesă RL + Reasoning!
Featuring:
• @willccbb, intelect primar
• @GregKamradt, Premiul Arc
• @natolambert, AI2/Interconexiuni
• @corbtt, OpenPipe
• @achowdhery, Reflecție
• @ryanmart3n, personalizat
• @ChrSzegedy, Metamorfoză
cu atelier special de 3 ore de la:
@danielhanchen de Unsloth!
Începeți aici:
La mulți ani de vizionare! Și mulțumesc @OpenPipeAI pentru susținerea și găzduirea acestei piese!

106,63K
swyx a repostat
Dacă, așa cum propune @sgrove, specificațiile sunt codul viitorului, atunci ce este depanarea?
1) Compilarea specificațiilor este procesul unui agent de codificare care transformă specificațiile în cod
2) din ce în ce mai multe "compilații" vor fi nesupravegheate, mai puțină urmărire a agentului lucrând diferență cu diferență, mai multe specificații înăuntru, cod de ieșire
3) Erori de tip -> erori de adevăr: Cea mai mare parte a depanării va fi săparea prin planurile de cercetare și implementare în Markdown pentru a găsi o linie de context incorect care face ca agentul de codare să nu reușească la implementare. Suitele de testare vor verifica, printre altele, adevărul și consistența logică.
4) Există o nouă aromă de ordin superior de "atașare a unui depanator de pas" care urmărește agentul implementând un plan pas cu pas pentru a identifica eroarea logică din specificații. Când găsiți o eroare când parcurgeți un program linie cu linie, schimbați codul, reporniți procesul și repetați până când funcționează. Când găsiți o eroare într-o *specificație* în timp ce parcurgeți o implementare, mergeți în amonte, remediați specificația și reporniți *implementarea*
10,13K
Lansăm acum o piesă pe zi de la @aidotengineer Conf*. piesa RecSys de ieri a fost un mare succes - dar de departe cea mai tare piesă a fost acoperirea noastră a stării MCP, găzduită de @Calclavia
Slide-ul preferat personal este acesta în care mi-am dat seama că @AnthropicAI Dogfoods MCP -mult- mai greu decât am crezut inițial din podcastul nostru cu @dsp_ și @jspahrsummers
Aruncați o privire la aceste discuții și dați-le vorbitorilor preferați un strigăt!
*cele mai multe sunt deja disponibile ca "nelistate" prin "Lista de redare completă" dacă căutați

21,67K
"Trei lucruri: un model de cercetare profundă cu browser de căutare îmbunătățit; un operator revoluționar de utilizare a computerului; și un terminal sandbox pentru a executa matematică și cod. Un browser, un computer, un terminal... O înțelegi?
Acestea nu sunt trei dispozitive separate.
Acesta este un dispozitiv și îl numim Agent."

383
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante