O Reddit foi uma grande fonte de dados de treino para a OpenAI. Tenho que investigar mais de manhã. Alguém sabe sobre o acordo legal entre o Reddit e a OpenAI em relação ao uso desses dados? E que direitos, se houver, os utilizadores do Reddit têm/deveriam ter em relação ao uso desses dados?
Soubhik Deb
Soubhik Deb19/07, 09:50
Imagine o que aconteceria se, por causa de algum post que escreveste há anos no reddit, stackexchange, no teu próprio blog, etc., pudesses receber uma parte da receita gerada pelo o3 ou sonnet ou provedores de serviços hospedados de LLMs de código aberto. Se os dados gerados por humanos na internet são o combustível fóssil para alcançar a AGI, os humanos precisam ser capazes de extrair valor capturado em proporção à sua contribuição. Em vez disso, o que acontece agora é > as grandes empresas de tecnologia pagam uma quantia fixa para construir conjuntos de dados e atar uma licença > constroem um modelo base > atam uma API para cobrar $/mês ou $ por N tokens > geram receita, levantam $10s ou $100s B em avaliações privadas, os preços das ações sobem Os humanos OGs cujos dados foram críticos não recebem nada dessas enormes capturas de valor. Os céticos podem dizer "oh, agora usamos dados sintéticos para treinamento porque achamos a IA superior aos humanos". Mas, cara, você está apenas usando modelos maiores feitos anteriormente a partir de dados humanos para gerar dados sintéticos para preparar modelos menores, mas mais inteligentes. Isso apenas significa que o modelo menor não existiria sem o modelo anterior e, por genealogia, os dados humanos OG. Novamente, os humanos OGs merecem ver uma parte do valor capturado em suas carteiras. Com o RLHF se tornando cada vez mais crítico para o pós-treinamento, os usuários estão sendo solicitados a pressionar o polegar para cima ou para baixo nas interfaces de chatbot. Essa preferência está sendo usada para melhorar ainda mais o modelo, que é então utilizado para cobrar mais $/mês ou $ por N tokens para a próxima edição do LLM. No entanto, você, sim, você, usuários humanos, não consegue ver nenhum desses valores sendo repassados para a sua carteira. É óbvio que ter acesso a GPUs avançadas e ao combustível fóssil dos dados humanos tem sido crítico para construir as ofertas de LLM mais competitivas. No entanto, apenas os acionistas da tsmc, nvidia, google, etc., e os investidores de risco, investidores anjo da openai, anthropic, etc., estão capturando todo o valor. Os humanos normais, cuja pegada digital foi utilizada, acabam recebendo migalhas. Independentemente da data que os especialistas em IA ou filósofos modernos tenham estabelecido para alcançar a AGI, o caminho para a AGI está sendo pavimentado com o roubo dos direitos de propriedade dos humanos sobre seus dados ou ações digitais. Aqui está o maior desafio: como podemos construir um mercado de dados sem risco de contraparte que seja capaz de medir continuamente a contribuição de cada unidade de ação digital de um humano em relação à captura de valor de qualquer modelo comercial e compartilhar a royalties de volta com o humano? Imagine que isso exista, teremos um pipeline onde qualquer um desses gigantes pode usar dados humanos para criar modelos cada vez melhores, enquanto também garante que o humano normal possa colher o pagamento devido por suas ações digitais. Que mundo maravilhoso será esse! Alocação justa. Apenas uma reflexão tardia de sexta-feira!
380