Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Честно говоря, большинство разработчиков ИИ все еще застряли в прошлом веке.
Меня поражает, как мало людей осведомлены об анализе ошибок.
Это *буквально* самый быстрый и эффективный способ оценить приложения ИИ, а большинство команд все еще гоняются за призраками.
Пожалуйста, прекратите отслеживать общие метрики и следуйте этим шагам:
1. Соберите образцы ошибок
Начните просматривать ответы, сгенерированные вашим приложением. Записывайте заметки о каждом ответе, особенно о тех, которые были ошибками. Вам не нужно форматировать ваши заметки каким-либо определенным образом. Сосредоточьтесь на том, чтобы описать, что пошло не так с ответом.
2. Классифицируйте ваши заметки
После того как вы просмотрели хорошую выборку ответов, возьмите LLM и попросите его найти общие шаблоны в ваших заметках. Попросите его классифицировать каждую заметку на основе этих шаблонов.
В итоге у вас будут категории, охватывающие каждый тип ошибки, которую сделало ваше приложение.
3. Диагностируйте наиболее частые ошибки
Начните с того, чтобы сосредоточиться на наиболее распространенном типе ошибки. Вы не хотите тратить время на редкие ошибки.
Углубитесь в разговоры, вводы и журналы, приведшие к этим неправильным образцам. Попробуйте понять, что может вызывать проблемы.
4. Разработайте целенаправленные исправления
На этом этапе вы хотите определить, как быстро и дешево устранить ошибки, которые вы диагностировали на предыдущем шаге.
Например, вы можете изменить свои подсказки, добавить дополнительные правила валидации, найти больше обучающих данных или изменить модель.
5. Автоматизируйте процесс оценки
Вам нужно реализовать простой процесс повторного запуска набора оценок через ваше приложение и оценить, были ли ваши исправления эффективными.
Моя рекомендация - использовать LLM в качестве судьи, чтобы пропустить образцы через приложение, оценить их с помощью метки PASS/FAIL и вычислить результаты.
6. Следите за своими метриками
Каждая категория, которую вы определили во время анализа ошибок, является метрикой, которую вы хотите отслеживать со временем.
Вы никуда не продвинетесь, если будете одержимы "релевантностью", "правильностью", "полнотой", "согласованностью" и любыми другими стандартными метриками. Забудьте об этом и сосредоточьтесь на реальных проблемах, которые вы нашли.

49,29K
Топ
Рейтинг
Избранное