Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Când interogați AI, aceasta adună informații relevante pentru a vă răspunde.
Dar, de câte informații are nevoie modelul?
Conversațiile cu practicanții au dezvăluit intuiția lor: intrarea a fost de ~ 20 de ori mai mare decât ieșirea.
Dar experimentele mele cu interfața de linie de comandă a instrumentului Gemini, care produce statistici detaliate ale tokenului, au arătat că este mult mai mare.
300x în medie și până la 4000x.
Iată de ce acest raport ridicat input-to-output este important pentru oricine construiește cu AI:
Managementul costurilor se referă la input. Cu apelurile API evaluate pe token, un raport de 300:1 înseamnă că costurile sunt dictate de context, nu de răspuns. Această dinamică a prețurilor este valabilă pentru toate modelele majore.
Pe pagina de prețuri a OpenAI, jetoanele de ieșire pentru GPT-4.1 sunt de 4 ori mai scumpe decât jetoanele de intrare. Dar când intrarea este de 300 de ori mai voluminoasă, costurile de intrare sunt încă 98% din factura totală.
Latența este o funcție a dimensiunii contextului. Un factor important care determină cât timp așteaptă un utilizator pentru un răspuns este timpul necesar modelului pentru a procesa intrarea.
Redefinește provocarea inginerească. Această observație dovedește că provocarea principală a construirii cu LLM-uri nu este doar îndemnarea. Este ingineria contextului.
Sarcina critică este de a construi o recuperare eficientă a datelor și un context - crearea de conducte care pot găsi cele mai bune informații și le pot distila în cea mai mică amprentă de token posibilă.
Stocarea în cache devine esențială. Dacă 99% din token-uri sunt în intrare, construirea unui strat robust de cache pentru documentele preluate frecvent sau contextele comune de interogare trece de la o cerință arhitecturală "plăcută" la o cerință arhitecturală de bază pentru construirea unui produs rentabil și scalabil.
Pentru dezvoltatori, acest lucru înseamnă că concentrarea pe optimizarea intrărilor este o pârghie critică pentru controlul costurilor, reducerea latenței și, în cele din urmă, construirea unui produs de succes bazat pe inteligență artificială.




4,25K
Limită superioară
Clasament
Favorite