Când interogați AI, aceasta adună informații relevante pentru a vă răspunde. Dar, de câte informații are nevoie modelul? Conversațiile cu practicanții au dezvăluit intuiția lor: intrarea a fost de ~ 20 de ori mai mare decât ieșirea. Dar experimentele mele cu interfața de linie de comandă a instrumentului Gemini, care produce statistici detaliate ale tokenului, au arătat că este mult mai mare. 300x în medie și până la 4000x. Iată de ce acest raport ridicat input-to-output este important pentru oricine construiește cu AI: Managementul costurilor se referă la input. Cu apelurile API evaluate pe token, un raport de 300:1 înseamnă că costurile sunt dictate de context, nu de răspuns. Această dinamică a prețurilor este valabilă pentru toate modelele majore. Pe pagina de prețuri a OpenAI, jetoanele de ieșire pentru GPT-4.1 sunt de 4 ori mai scumpe decât jetoanele de intrare. Dar când intrarea este de 300 de ori mai voluminoasă, costurile de intrare sunt încă 98% din factura totală. Latența este o funcție a dimensiunii contextului. Un factor important care determină cât timp așteaptă un utilizator pentru un răspuns este timpul necesar modelului pentru a procesa intrarea. Redefinește provocarea inginerească. Această observație dovedește că provocarea principală a construirii cu LLM-uri nu este doar îndemnarea. Este ingineria contextului. Sarcina critică este de a construi o recuperare eficientă a datelor și un context - crearea de conducte care pot găsi cele mai bune informații și le pot distila în cea mai mică amprentă de token posibilă. Stocarea în cache devine esențială. Dacă 99% din token-uri sunt în intrare, construirea unui strat robust de cache pentru documentele preluate frecvent sau contextele comune de interogare trece de la o cerință arhitecturală "plăcută" la o cerință arhitecturală de bază pentru construirea unui produs rentabil și scalabil. Pentru dezvoltatori, acest lucru înseamnă că concentrarea pe optimizarea intrărilor este o pârghie critică pentru controlul costurilor, reducerea latenței și, în cele din urmă, construirea unui produs de succes bazat pe inteligență artificială.
4,25K