Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Santiago
Я больше не уверен, что думать об этой книге.
Это была фантастическая книга в то время, когда большинство этих идей казались ценными, но она также ответственна за некоторые из самых больших зверств, которые я когда-либо видел.
Я больше не рекомендую людям читать ее. Я не читал ее уже некоторое время.

21,17K
Вот как вы можете писать код в 10 раз лучше с в 10 раз меньшими усилиями.
Индивидуальные, специализированные агенты проверяют ваш код на каждом этапе.
Я видел автоматизированные проверки кода раньше, но никогда с возможностью определить своих собственных агентов-рецензентов. @baz_scm - первый, кто это сделал, и это довольно круто.
Существует три типа агентов-рецензентов:
1. Те, которые идут в комплекте.
Эти агенты охватывают самые распространенные шаблоны, которые все хотят проверить: дублированный код, сломанный код, сложный код и т. д.
2. Рекомендуемые агенты-рецензенты, которые Baz создает для вас автоматически.
Baz анализирует вашу историю проверок и прошлые комментарии, чтобы выявить шаблоны, которые вам важны, а затем автоматически создает агентов, специализированных на проверке этих шаблонов.
Например, если вы всегда просите своих разработчиков держать файлы менее 100 строк кода, Baz это обнаружит и создаст индивидуального агента, который будет это проверять.
3. Индивидуальные агенты-рецензенты, которые вы определяете.
Это мои любимые: напишите подсказку, объясняющую ваши правила, и ваш агент начнет проверять ваш код, чтобы отметить все, что соответствует правилам.
Я создал простого агента-рецензента в приложенном видео.
Честно говоря, на этом этапе у вас нет оправданий для отправки плохого кода.
Вот ссылка, чтобы вы могли попробовать этих индивидуальных агентов-рецензентов:
Спасибо команде @baz_scm за сотрудничество со мной над этим постом.
31,42K
Честно говоря, большинство разработчиков ИИ все еще застряли в прошлом веке.
Меня поражает, как мало людей осведомлены об анализе ошибок.
Это *буквально* самый быстрый и эффективный способ оценить приложения ИИ, а большинство команд все еще гоняются за призраками.
Пожалуйста, прекратите отслеживать общие метрики и следуйте этим шагам:
1. Соберите образцы ошибок
Начните просматривать ответы, сгенерированные вашим приложением. Записывайте заметки о каждом ответе, особенно о тех, которые были ошибками. Вам не нужно форматировать ваши заметки каким-либо определенным образом. Сосредоточьтесь на том, чтобы описать, что пошло не так с ответом.
2. Классифицируйте ваши заметки
После того как вы просмотрели хорошую выборку ответов, возьмите LLM и попросите его найти общие шаблоны в ваших заметках. Попросите его классифицировать каждую заметку на основе этих шаблонов.
В итоге у вас будут категории, охватывающие каждый тип ошибки, которую сделало ваше приложение.
3. Диагностируйте наиболее частые ошибки
Начните с того, чтобы сосредоточиться на наиболее распространенном типе ошибки. Вы не хотите тратить время на редкие ошибки.
Углубитесь в разговоры, вводы и журналы, приведшие к этим неправильным образцам. Попробуйте понять, что может вызывать проблемы.
4. Разработайте целенаправленные исправления
На этом этапе вы хотите определить, как быстро и дешево устранить ошибки, которые вы диагностировали на предыдущем шаге.
Например, вы можете изменить свои подсказки, добавить дополнительные правила валидации, найти больше обучающих данных или изменить модель.
5. Автоматизируйте процесс оценки
Вам нужно реализовать простой процесс повторного запуска набора оценок через ваше приложение и оценить, были ли ваши исправления эффективными.
Моя рекомендация - использовать LLM в качестве судьи, чтобы пропустить образцы через приложение, оценить их с помощью метки PASS/FAIL и вычислить результаты.
6. Следите за своими метриками
Каждая категория, которую вы определили во время анализа ошибок, является метрикой, которую вы хотите отслеживать со временем.
Вы никуда не продвинетесь, если будете одержимы "релевантностью", "правильностью", "полнотой", "согласованностью" и любыми другими стандартными метриками. Забудьте об этом и сосредоточьтесь на реальных проблемах, которые вы нашли.

49,28K
Топ
Рейтинг
Избранное
В тренде ончейн
В тренде в Х
Самые инвестируемые
Наиболее известные