Pourquoi vous devriez arrêter de travailler sur la recherche en RL et plutôt travailler sur des produits // La technologie qui a débloqué le grand changement d'échelle dans l'IA est Internet, pas les transformateurs. Je pense qu'il est bien connu que les données sont la chose la plus importante dans l'IA, et aussi que les chercheurs choisissent de ne pas y travailler de toute façon. ... Que signifie travailler sur les données (de manière évolutive) ? Internet a fourni une source riche de données abondantes, diversifiées, offrant un curriculum naturel, représentant les compétences qui intéressent réellement les gens, et était une technologie économiquement viable à déployer à grande échelle -- cela est devenu le complément parfait à la prédiction du prochain jeton et était la soupe primordiale pour que l'IA décolle. Sans transformateurs, n'importe quel nombre d'approches aurait pu décoller, nous pourrions probablement avoir des CNN ou des modèles d'espace d'état au niveau de GPT-4.5. Mais il n'y a pas eu d'amélioration dramatique des modèles de base depuis GPT-4. Les modèles de raisonnement sont excellents dans des domaines étroits, mais pas aussi révolutionnaires que ne l'était GPT-4 en mars 2023 (il y a plus de 2 ans...) Nous avons quelque chose de formidable avec l'apprentissage par renforcement, mais ma peur profonde est que nous répéterons les erreurs du passé (l'ère RL de 2015-2020) et que nous fassions de la recherche en RL qui n'a pas d'importance. De la même manière qu'Internet était le dual du pré-entraînement supervisé, quel sera le dual de RL qui mènera à une avancée massive comme GPT-1 -> GPT-4 ? Je pense que cela ressemble à une co-conception recherche-produit.
389,63K