Чесно кажучи, більшість розробників ШІ все ще застрягли в минулому столітті. Мене вражає, як мало людей знають про аналіз помилок. Це *буквально* найшвидший і найефективніший спосіб оцінити програми штучного інтелекту, і більшість команд все ще застрягли в гонитві за привидами. Будь ласка, припиніть відстежувати загальні показники та виконайте такі дії: 1. Зберіть зразки несправностей Почніть переглядати відповіді, згенеровані вашою заявкою. Записуйте нотатки про кожну відповідь, особливо ті, в яких були помилки. Вам не потрібно форматувати свої нотатки якимось особливим чином. Зосередьтеся на описі того, що пішло не так з відповіддю. 2. Розподіліть нотатки за категоріями Після того, як ви ознайомилися з хорошим набором відповідей, візьміть LLM і попросіть його знайти загальні закономірності у ваших нотатках. Попросіть його класифікувати кожну ноту на основі цих зразків. У підсумку ви отримаєте категорії, що охоплюють кожен тип помилок, допущених у вашій заявці. 3. Діагностуйте найчастіші помилки Почніть з того, що зосередьтеся на найпоширенішому типі помилки. Ви ж не хочете витрачати час на роботу з рідкісними помилками. Детально вивчіть розмови, вхідні дані та журнали, що призводять до цих неправильних зразків. Спробуйте зрозуміти, що може спричинити проблеми. 4. Створюйте цільові виправлення На цьому етапі ви хочете визначити, як усунути помилки, які ви діагностували на попередньому кроці, якомога швидше і дешевше. Наприклад, ви можете налаштувати свої підказки, додати додаткові правила перевірки, знайти більше даних про тренування або змінити модель. 5. Автоматизуйте процес оцінювання Вам потрібно впровадити простий процес, щоб повторно запустити оціночний набір через вашу програму та оцінити, чи були ваші виправлення ефективними. Моя рекомендація полягає в тому, щоб використовувати LLM-as-a-Judge для прогону зразків через додаток, оцінювання їх за допомогою тегу PASS/FAIL та обчислення результатів. 6. Слідкуйте за своїми показниками Кожна категорія, яку ви визначили під час аналізу помилок, – це показник, який ви хочете відстежувати в динаміці. Ви нікуди не приведете, зациклюючись на «релевантності», «правильності», «повноті», «послідовності» та будь-яких інших нестандартних метриках. Забудьте про це і зосередьтеся на реальних проблемах, які ви виявили.
49,32K