Recentemente, durante o teste do Particle News, @particle_news repensando o valor e os limites dos LLMs no cenário de fluxo de informações de transação. O Particle é um produto de notícias de IA muito sofisticado que faz um excelente trabalho de amplitude e neutralidade de informações e legibilidade e audibilidade de conteúdo líquido. No entanto, há uma diferença estrutural entre essa experiência polida com precisão e o sistema de informações transacionais, e ela é escrita primeiro para ver se pode ajudar colegas que também estão fazendo produtos semelhantes. 1. A informação não é capturada e integrada, mas sim uma compreensão agrupada. Concordo plenamente com o conceito de "história" repetidamente enfatizado pela fundadora Sara Beykpour em entrevistas, que também é um de seus principais destaques, enfatizando que a informação não é "capturada e integrada", mas "agrupada e compreendida". Se a informação for apenas raspagem e concatenação sem cérebro, então toda a ordenação a jusante e avaliação de credibilidade será borrada. Em particular, em cenários transacionais, onde a densidade de informações é extremamente alta, os requisitos em tempo real são fortes e a extensão do contexto é grande, é impossível permitir que o grande modelo "entenda livremente", mas deve primeiro conduzir uma rodada de agrupamento semântico estruturado por IA para organizar as informações fragmentadas em vários "clusters de eventos" compactos (histórias) com pistas causais internas. 2. Pontos fortes e pontos cegos do LLM: neutralidade, causalidade vs. poder preditivo - Os LLMs têm vantagens significativas no controle de estilo / neutralidade emocional de opinião com moderação. No entanto, após a polimerização + muitas pós-avaliações, a pontualidade e a tensão estrutural são sacrificadas. - Os LLMs são bons em julgamento em cadeia causal, análise de causa e efeito e alguns pontos para refinar se há uma correlação entre coisas muito sutis, especialmente o "caminho de influência" e "reações upstream e downstream", que se tornarão uma das lógicas importantes das transações. - LLMs não são bons em prever. Como um modelo estatístico de linguagem, ele naturalmente amplifica "opiniões convencionais" ou "sinais de alta frequência". Nossa própria observação é que a IA é sempre "excessivamente otimista", e o julgamento de Sara é: "Se muitas pessoas disserem que o Time A vencerá, o modelo pensará que o Time A venceu". "A previsão é um grande ponto cego para os LLMs e não deve ser usada como um mecanismo de sinal. Por outro lado, resta saber se os produtos de chatbot como o Flush ou o Bobby-like open-ended Q&A + prediction do Rockflow podem romper essa limitação ou ficar presos. 3. Estratégias para previsões alternativas: cadeia causal + linha do tempo estrutural Se as previsões são uma falha atual nos LLMs, é útil manter seções como Calendário do TradingView e Causa e Efeito quando a previsão não é feita e a pontualidade é alta. Inferir se uma coisa está relacionada a outra e a ordem relativa e os gatilhos do desenvolvimento dos eventos. Esse julgamento também é suficiente para estabelecer um modelo de viés de informação para o sistema de negociação sem previsão real. 4. Trabalho de avaliação: A avaliação é definitivamente um trabalho muito refinado e direcional. Por exemplo, a restrição limita a expressão: cada frase só pode ter um ponto de vista, cláusulas de evitação; Por exemplo, "dica" = "opinião" para evitar conclusões vagas; Por exemplo, o resumo não pode exceder a palavra X e, uma vez que haja uma cor subjetiva ou "expressão intencional", é considerado um erro. Claro, o grau "crítico" de cada conteúdo unitário também é quantificado, a fim de melhor fazer com que o pipeline funcione automaticamente. Todo o pipeline é assíncrono e repetível: desde que as verificações de avaliação falhem, a tarefa é reiniciada automaticamente. Portanto, o modelo só precisa concluir uma pequena tarefa por vez, como determinar se um evento ocorreu ou gerar um resumo não implícito, em vez de concluir toda a inferência e expressão em uma rodada. A lógica subjacente a essa abordagem é dividir a geração em várias pequenas tarefas verificáveis e reutilizáveis, cada uma das quais pode ser verificada para evitar alucinações e tendências ao máximo. 5. Linha de produção completa do protótipo ao conteúdo de IA de alta qualidade Sara compartilha o processo completo de fazer um sistema de moderação: primeiro escreva um prompt em um ambiente de teste, defina cinco perguntas, depois faça o jailbreak ou quebre a estrutura ou esqueça o contexto, até que o modelo mostre um comportamento estável e de boa qualidade, o prompt pode ter centenas de linhas. Quando o prompt é inicialmente estável, ele é entregue à equipe técnica, o modelo de prompt é desmontado em componentes e colocado no pipeline assíncrono e todas as outras perguntas são executadas para análise offline. Por fim, inicie o teste de perguntas ao vivo para executar o sistema em cenários reais e, em seguida, participe oficialmente da avaliação. Em resumo, se você deseja construir um sistema de agregação e push de informações assistido por IA, não fantasie sobre o modelo grande dando alfa diretamente; Todas as previsões que usam IA para dizer qual alvo comprar são golpes. O verdadeiro know-how é a estrutura, o processo e o sistema de verificação que tornam os LLMs confiáveis na arquitetura.
3,4K