A maior questão na pesquisa de RL sempre foi - em que ambiente você está treinando? Costumava ser jogos de vídeo (Atari) e de tabuleiro (Go / Xadrez). Mas agora que o RL funciona com LLMs, há apenas um ambiente que importa. E é o seu produto.
Kevin Lu
Kevin Lu10/07, 00:01
Por que você deve parar de trabalhar em pesquisa de RL e, em vez disso, trabalhar em produtos // A tecnologia que desbloqueou a grande mudança de escala na IA é a internet, não os transformers Acho que é bem conhecido que os dados são a coisa mais importante na IA, e também que os pesquisadores escolhem não trabalhar nisso de qualquer maneira. ... O que significa trabalhar com dados (de uma maneira escalável)? A internet forneceu uma rica fonte de dados abundantes, que eram diversos, ofereciam um currículo natural, representavam as competências que as pessoas realmente se importam e eram uma tecnologia economicamente viável para implantar em escala -- tornou-se o complemento perfeito para a previsão do próximo token e foi a sopa primordial para a IA decolar. Sem transformers, qualquer número de abordagens poderia ter decolado, provavelmente poderíamos ter CNNs ou modelos de espaço de estado no nível do GPT-4.5. Mas não houve uma melhoria dramática nos modelos base desde o GPT-4. Modelos de raciocínio são ótimos em domínios restritos, mas não são um salto tão grande quanto o GPT-4 foi em março de 2023 (há mais de 2 anos...) Temos algo ótimo com aprendizado por reforço, mas meu profundo medo é que repetiremos os erros do passado (era de RL de 2015-2020) e faremos pesquisa de RL que não importa. Da mesma forma que a internet foi o dual do pré-treinamento supervisionado, qual será o dual do RL que levará a um avanço massivo como GPT-1 -> GPT-4? Acho que parece pesquisa-design de produto co-desenhado.
10,61K