Reddit était une grande source de données d'entraînement pour OpenAI. Je dois faire plus de recherches demain matin. Est-ce que quelqu'un sait quel est l'accord légal entre Reddit et OpenAI concernant l'utilisation de ces données ? Et quels droits, le cas échéant, les utilisateurs de Reddit ont-ils/ devraient-ils avoir concernant l'utilisation de ces données ?
Soubhik Deb
Soubhik Deb19 juil., 09:50
Imaginez ce qui se passerait si, à cause d'un post que vous avez écrit il y a des années sur reddit, stackexchange, votre propre blog, etc., vous pouviez toucher une part des revenus générés par o3 ou sonnet ou les fournisseurs de services hébergés d'LLMs open-source. Si les données générées par les humains sur Internet sont le pétrole fossile pour atteindre l'AGI, les humains doivent pouvoir extraire la valeur capturée en proportion de leur contribution. Au lieu de cela, ce qui se passe maintenant est > les grandes entreprises technologiques paient des sommes forfaitaires pour construire des ensembles de données et obtenir une licence > construisent un modèle de base > ajoutent une API pour facturer $/mois ou $ par N tokens > génèrent des revenus, lèvent des valorisations privées de dizaines ou de centaines de milliards de dollars, les prix des actions augmentent Les OG humains dont les données étaient critiques ne reçoivent rien de ces captures de valeur colossales. Les sceptiques pourraient dire "oh, nous utilisons maintenant des données synthétiques pour l'entraînement parce que nous trouvons l'IA supérieure aux humains". Mais mec, tu utilises juste des modèles plus grands fabriqués précédemment à partir de données humaines pour créer des données synthétiques afin de préparer des modèles plus petits mais plus intelligents. Cela signifie simplement que le modèle plus petit n'existerait pas sans le modèle précédent et, par généalogie, les données humaines OG. Encore une fois, les OG humains méritent de voir une partie de la valeur capturée dans leur portefeuille. Avec le RLHF devenant de plus en plus critique pour le post-entraînement, les utilisateurs sont invités à appuyer sur le pouce vers le haut ou vers le bas dans les interfaces de chatbot. Cette préférence est utilisée pour améliorer encore le modèle, qui est ensuite utilisé pour facturer plus de $/mois ou $ par N tokens pour la prochaine édition de LLM. Pourtant, vous, oui vous, utilisateurs humains, ne pouvez pas voir une partie de cette valeur transférée dans votre portefeuille. Il est évident que l'accès à des GPU avancés et au pétrole fossile des données humaines a été crucial pour construire les offres LLM les plus compétitives. Pourtant, seuls les actionnaires de tsmc, nvidia, google, etc. et les investisseurs en capital-risque, investisseurs providentiels d'openai, anthropic, etc., obtiennent toute la capture de valeur. Les humains normaux dont l'empreinte numérique a été utilisée finissent par obtenir des cacahuètes. Peu importe la date que les experts en IA ou les philosophes modernes ont fixée pour atteindre l'AGI, le chemin vers l'AGI est pavé de vol des droits de propriété des humains sur leurs données ou actions numériques. Voici la plus grande question : comment construisons-nous un marché des données sans risque de contrepartie qui soit capable de mesurer en continu la contribution de chaque unité d'action numérique d'un humain envers la capture de valeur de tout modèle commercial et de partager les redevances avec l'humain ? Imaginez cela, nous aurons un pipeline où n'importe lequel de ces géants peut utiliser les données humaines pour créer de meilleurs modèles tout en garantissant que l'humain normal puisse récolter le paiement dû pour ses actions numériques. Quel monde merveilleux ce serait ! Allocation équitable. Juste une réflexion tardive de vendredi !
385