Novo post no blog sobre a assimetria da verificação e a "lei do verificador": A assimetria da verificação – a ideia de que algumas tarefas são muito mais fáceis de verificar do que de resolver – está a tornar-se uma ideia importante à medida que temos RL que finalmente funciona de forma geral. Ótimos exemplos de assimetria da verificação são coisas como quebra-cabeças de sudoku, escrever o código para um site como o instagram, e problemas de BrowseComp (leva ~100 sites para encontrar a resposta, mas é fácil de verificar uma vez que se tem a resposta). Outras tarefas têm uma quase simetria de verificação, como somar dois números de 900 dígitos ou alguns scripts de processamento de dados. No entanto, outras tarefas são muito mais fáceis de propor soluções viáveis do que de as verificar (por exemplo, verificar um longo ensaio ou afirmar uma nova dieta como "comer apenas bisão"). Uma coisa importante a entender sobre a assimetria da verificação é que se pode melhorar a assimetria fazendo algum trabalho previamente. Por exemplo, se você tiver a chave de resposta para um problema de matemática ou se tiver casos de teste para um problema do Leetcode. Isso aumenta muito o conjunto de problemas com uma desejável assimetria de verificação. A "lei do verificador" afirma que a facilidade de treinar IA para resolver uma tarefa é proporcional à facilidade de verificação da tarefa. Todas as tarefas que são possíveis de resolver e fáceis de verificar serão resolvidas pela IA. A capacidade de treinar IA para resolver uma tarefa é proporcional a se a tarefa possui as seguintes propriedades: 1. Verdade objetiva: todos concordam sobre quais são boas soluções 2. Rápido de verificar: qualquer solução dada pode ser verificada em poucos segundos 3. Escalável para verificar: muitas soluções podem ser verificadas simultaneamente 4. Baixo ruído: a verificação está o mais correlacionada possível à qualidade da solução 5. Recompensa contínua: é fácil classificar a qualidade de muitas soluções para um único problema Uma instância óbvia da lei do verificador é o fato de que a maioria dos benchmarks propostos em IA são fáceis de verificar e até agora foram resolvidos. Note que praticamente todos os benchmarks populares nos últimos dez anos se encaixam nos critérios #1-4; benchmarks que não atendem aos critérios #1-4 teriam dificuldades em se tornar populares. Por que a verificabilidade é tão importante? A quantidade de aprendizado em IA que ocorre é maximizada quando os critérios acima são satisfeitos; você pode dar muitos passos de gradiente onde cada passo tem muito sinal. A velocidade de iteração é crítica – é a razão pela qual o progresso no mundo digital tem sido muito mais rápido do que o progresso no mundo físico. AlphaEvolve do Google é um dos maiores exemplos de aproveitamento da assimetria da verificação. Foca em configurações que atendem a todos os critérios acima e levou a uma série de avanços em matemática e outras áreas. Diferente do que temos feito em IA nas últimas duas décadas, é um novo paradigma em que todos os problemas são otimizados em um ambiente onde o conjunto de treino é equivalente ao conjunto de teste. A assimetria da verificação está em toda parte e é emocionante considerar um mundo de inteligência irregular onde tudo o que podemos medir será resolvido.
298,82K