Нещодавно, під час судового розгляду Particle News, @particle_news переосмислення цінності та меж LLM у сценарії інформаційного потоку транзакцій. Particle — це дуже складний новинний продукт зі штучним інтелектом, який чудово справляється з широтою та нейтральністю інформації, а також читабельністю та чутністю рідкого контенту. Тим не менш, існує структурна різниця між цим точно відшліфованим досвідом і транзакційною інформаційною системою, і вона спочатку записується, щоб побачити, чи може вона допомогти колегам, які також займаються подібними продуктами. 1. Інформація – це не фіксація та інтеграція, а кластерне розуміння. Я повністю згодна з концепцією «історії», на якій неодноразово наголошувала засновниця Сара Бейкпур в інтерв'ю, що також є одним із їхніх ключових акцентів, наголошуючи, що інформація не «схоплюється та інтегрується», а «кластеризується та розуміється». Якщо інформація – це просто безмозке скрейпінг і конкатенація, то всі подальші замовлення та оцінка достовірності будуть розмиті. Зокрема, у транзакційних сценаріях, де щільність інформації надзвичайно висока, вимоги до реального часу сильні, а контекстний діапазон великий, неможливо дозволити великій моделі «вільно розуміти», але спочатку потрібно провести раунд структурованої семантичної кластеризації штучним інтелектом, щоб організувати фрагментовану інформацію в кілька компактних «кластерів подій» (історій) із внутрішніми причинно-наслідковими підказками. 2. Сильні сторони та сліпі зони LLM: нейтралітет, причинно-наслідковий зв'язок проти прогнозної сили - LLM мають значні переваги в контролі стилю/думці, нейтральності емоцій у помірних кількостях. Однак після полімеризації + безлічі постінків в жертву приноситься своєчасність і структурна напруженість. - LLM добре справляються з судженнями причинно-наслідкових ланцюжків, аналізом причин і наслідків, а також деякими пунктами, щоб уточнити, чи існує кореляція між дуже тонкими речами, особливо «шляхом впливу» та «реакціями вгору та вниз», які стануть однією з важливих логік транзакцій. - LLM погано вміють прогнозувати. Як статистична мовна модель, вона природним чином підсилює «загальноприйняті думки» або «високочастотні сигнали». Наше власне спостереження полягає в тому, що штучний інтелект завжди «надмірно оптимістичний», і судження Сари таке: «Якщо багато людей кажуть, що команда А переможе, модель вважатиме, що команда А перемогла». «Прогнозування є великою сліпою зоною для LLM і не повинно використовуватися як двигун сигналу. З іншого боку, ще належить з'ясувати, чи зможуть продукти чат-ботів, такі як Flush або відкритий прогноз Q&A+, схожий на Bobby, від Rockflow, подолати це обмеження або потрапити в пастку. 3. Стратегії альтернативних прогнозів: причинно-наслідковий ланцюг + структурна часова шкала Якщо прогнози є поточним недоліком LLM, корисно зберігати такі розділи, як TradingView Calendar і Cause & Effect, коли прогнозування не проводиться, а своєчасність висока. Висновок про те, чи пов'язане одне з іншим, а також про відносний порядок і тригери розвитку подій. Цього судження також достатньо для встановлення моделі інформаційної упередженості для торгової системи без реального прогнозування. 4. Оціночна робота: Оцінка – це, безумовно, дуже тонка і спрямована робота. Наприклад, стриманість обмежує вираження: кожне речення може мати лише одну точку зору, уникати підрядних пунктів; Наприклад, "підказка" = "думка", щоб уникнути розпливчастих висновків; Наприклад, резюме не може перевищувати слово на букву Х, а якщо є суб'єктивне забарвлення або «навмисне вираження», це вважається помилкою. Звичайно, «критичний» ступінь вмісту кожної одиниці також кількісно оцінюється, щоб краще змусити пайплайн працювати автоматично. Весь пайплайн є асинхронним і повторюваним: поки перевірки eval не проходять, завдання автоматично перезапускається. Таким чином, моделі потрібно виконати лише невелике завдання за раз, наприклад, визначити, чи відбулася подія, або вивести неявне резюме, а не завершити всі висновки та вирази в одному раунді. Логіка, що лежить в основі цього підходу, полягає в тому, щоб розбити покоління на кілька перевірених і багаторазово використовуваних невеликих завдань, кожне з яких можна реально перевірити, щоб уникнути галюцинацій і схильностей в найбільшій мірі. 5. Повна виробнича лінія від прототипу до високоякісного контенту зі штучним інтелектом Сара ділиться повним процесом виконання системи модерації: спочатку напишіть підказку в тестовому середовищі, задайте п'ять питань, потім джейлбрейк або зламайте структуру або забудьте контекст, поки модель не покаже стабільну і якісну поведінку, підказка може бути довжиною в сотні рядків. Коли підказка спочатку стабільна, вона передається технічній команді, шаблон підказки розбирається на компоненти та поміщається в асинхронний пайплайн, а всі інші питання запускаються для автономного аналізу. Нарешті, запустіть тест на запитання в реальному часі, щоб запустити систему в реальних сценаріях, а потім офіційно приєднайтеся до оцінювання. Підсумовуючи, якщо ви хочете побудувати систему агрегації та надсилання інформації за допомогою штучного інтелекту, не фантазуйте про велику модель, яка безпосередньо дає альфа-версію; Усі прогнози, які використовують штучний інтелект, щоб сказати вам, яку ціль купити, є шахрайством. Справжнім ноу-хау є структура, процес і система верифікації, які роблять LLM надійними в рамках архітектури.
3,38K