Boa postagem de @balajis sobre a "lacuna de verificação". Você pode ver isso como havendo dois modos na criação. Emprestando a terminologia GAN: 1) geração e 2) discriminação. por exemplo, pintura - você faz uma pincelada (1) e depois procura por um tempo para ver se melhorou a pintura (2). Esses dois estágios são intercalados em praticamente todo o trabalho criativo. Segundo ponto. A discriminação pode ser computacionalmente muito difícil. - As imagens são de longe as mais fáceis. Por exemplo, as equipes de geradores de imagens podem criar grades gigantes de resultados para decidir se uma imagem é melhor que a outra. obrigado à GPU gigante em seu cérebro construída para processar imagens muito rapidamente. - O texto é muito mais difícil. É fácil de ler, mas você tem que ler, é semântico, discreto e preciso, então você também tem que raciocinar (especialmente em, por exemplo, código). - O áudio talvez seja ainda mais difícil, porque força um eixo de tempo, então nem mesmo pode ser lido. Você é forçado a gastar computação serial e não pode paralelizá-la. Você poderia dizer que, na codificação, os LLMs entraram em colapso (1) para ~ instantâneo, mas fizeram muito pouco para resolver (2). Uma pessoa ainda tem que olhar para os resultados e discriminar se eles são bons. Esta é a minha principal crítica à codificação LLM, pois eles casualmente cospem *muito* muito código por consulta em complexidade arbitrária, fingindo que não há estágio 2. Obter tanto código é ruim e assustador. Em vez disso, o LLM precisa trabalhar ativamente com você para dividir os problemas em pequenas etapas incrementais, cada uma mais facilmente verificável. Tem que antecipar o trabalho computacional de (2) e reduzi-lo o máximo possível. Tem que realmente se importar. Isso me leva provavelmente ao maior mal-entendido que os não codificadores têm sobre codificação. Eles acham que codificar é escrever o código (1). Não é. Trata-se de olhar para o código (2). Carregando tudo em sua memória de trabalho. Andando de um lado para o outro. Pensando em todos os casos extremos. Se você me pegar em um ponto aleatório enquanto estou "programando", provavelmente estou apenas olhando para a tela e, se interrompido, muito bravo porque é tão extenuante computacionalmente. Se ficarmos muito mais rápidos 1, mas também não reduzirmos 2 (o que é a maioria das vezes!), então claramente a velocidade geral da codificação não melhorará (veja a lei de Amdahl).
Balaji
Balaji4 de jun. de 2025
SOLICITAÇÃO DE IA → VERIFICAÇÃO DE IA A solicitação de IA é dimensionada, porque a solicitação é apenas digitar. Mas a verificação de IA não é dimensionada, porque a verificação da saída de IA envolve muito mais do que apenas digitar. Às vezes, você pode verificar a olho nu, e é por isso que a IA é ótima para front-end, imagens e vídeo. Mas para qualquer coisa sutil, você precisa ler o código ou texto profundamente – e isso significa conhecer o tópico bem o suficiente para corrigir a IA. Os pesquisadores estão bem cientes disso, e é por isso que há tanto trabalho sobre avaliações e alucinações. No entanto, o conceito de verificação como gargalo para usuários de IA é pouco discutido. Sim, você pode tentar a verificação formal ou modelos críticos em que uma IA verifica outra ou outras técnicas. Mas até mesmo estar ciente da questão como um problema de primeira classe é metade da batalha. Para os usuários: a verificação de IA é tão importante quanto a solicitação de IA.
449,3K