Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Sincer, majoritatea dezvoltatorilor de inteligență artificială sunt încă blocați în ultimul secol.
Mă uimește cât de puțini oameni sunt conștienți de analiza erorilor.
Acesta este *literalmente* cel mai rapid și mai eficient mod de a evalua aplicațiile AI, iar majoritatea echipelor sunt încă blocate în urmărirea fantomelor.
Vă rugăm să opriți urmărirea valorilor generice și să urmați acești pași:
1. Colectați probe de eșec
Începeți să revizuiți răspunsurile generate de aplicația dvs. Scrieți notițe despre fiecare răspuns, în special despre cele care au fost greșeli. Nu trebuie să vă formatați notele într-un mod specific. Concentrați-vă pe descrierea a ceea ce a mers prost cu răspunsul.
2. Clasificați-vă notele
După ce ați revizuit un set bun de răspunsuri, luați un LLM și cereți-i să găsească modele comune în notele dvs. Cereți-i să clasifice fiecare notă pe baza acestor modele.
Veți ajunge la categorii care acoperă fiecare tip de greșeală pe care a făcut-o aplicația dvs.
3. Diagnosticați cele mai frecvente greșeli
Începeți prin a vă concentra pe cel mai frecvent tip de greșeală. Nu vrei să pierzi timpul lucrând cu greșeli rare.
Detaliați conversațiile, intrările și jurnalele care duc la acele eșantioane incorecte. Încercați să înțelegeți ce ar putea cauza problemele.
4. Proiectați remedieri țintite
În acest moment, doriți să determinați cum să eliminați greșelile pe care le-ați diagnosticat în pasul anterior cât mai repede și mai ieftin posibil.
De exemplu, puteți modifica solicitările, puteți adăuga reguli de validare suplimentare, puteți găsi mai multe date de antrenament sau puteți modifica modelul.
5. Automatizați procesul de evaluare
Trebuie să implementați un proces simplu pentru a rula din nou un set de evaluare prin aplicația și pentru a evalua dacă remedierile au fost eficiente.
Recomandarea mea este să utilizați un LLM-as-a-Judge pentru a rula eșantioane prin aplicație, a le evalua cu o etichetă PASS/FAIL și a calcula rezultatele.
6. Fii cu ochii pe valorile tale
Fiecare categorie pe care ați identificat-o în timpul analizei erorilor este o valoare pe care doriți să o urmăriți în timp.
Nu veți ajunge nicăieri dacă sunteți obsedat de "relevanță", "corectitudine", "completitudine", "coerență" și orice alte valori predefinite. Uită de acestea și concentrează-te pe problemele reale pe care le-ai găsit.

49,33K
Limită superioară
Clasament
Favorite