🧪 New Notebook Drop: Evaluarea LLM-urilor pentru rezultate dăunătoare! Ce modele sunt de fapt sigure pentru prod? Am construit o conductă LLM-as-a-Judge folosind API-ul Together Evals pentru a compara modelele privind nocivitatea. Cod👇
1,79K