Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Reddit fue una gran fuente de datos de entrenamiento para OpenAI. Tengo que cavar más por la mañana. ¿Alguien conoce el acuerdo legal entre Reddit y OpenAI con respecto al uso de estos datos?
¿Y qué derechos, si los hay, tienen / deberían tener los usuarios de Reddit sobre el uso de estos datos?

19 jul, 09:50
Imagínate qué pasaría si debido a algún post que escribiste hace años en reddit, stackexchange, tu propio blog, etc., pudieras llevarte una tajada de los ingresos que están obteniendo los proveedores de servicios de o3 o sonnet o alojados de LLM de código abierto.
Si los datos generados por humanos en Internet son el combustible fósil para llegar a AGI, los humanos deben ser capaces de extraer el valor capturado en proporción a su contribución.
En cambio, lo que sucede ahora es
> las grandes tecnológicas pagan una suma global para crear conjuntos de datos y obtener una licencia
> crear un modelo de cimentación
> una API para cobrar $/mes o $ por N tokens
> obtener ingresos, recaudar $ 10 o $ 100 B valoraciones privadas, los precios de las acciones suben
Los OG humanos cuyos datos eran críticos no obtienen nada de estas gigantescas capturas de valor.
Los detractores podrían decir: "oh, ahora usamos datos sintéticos para el entrenamiento porque encontramos que la IA es superior a los humanos". Pero hermano, solo estás usando modelos más grandes hechos previamente a partir de datos humanos para hacer datos sintéticos para preparar modelos más pequeños pero más inteligentes. Eso solo significa que el modelo más pequeño no habría existido sin el modelo anterior y, por geneología, los datos humanos OG. Una vez más, los OG humanos merecen ver una parte del valor capturado en su billetera.
Dado que RLHF es cada vez más crítico para el entrenamiento posterior, se les pide a los usuarios que presionen el pulgar hacia arriba o hacia abajo en las interfaces de chatbot. Esta preferencia se está utilizando para mejorar aún más el modelo, que luego se utiliza para cobrar más tokens $/mes o $ por N para la próxima edición de LLM. Sin embargo, ustedes, sí, usuarios humanos, no pueden ver nada de ese valor transferido a su billetera.
Es obvio que tener acceso a GPUs avanzadas y a los combustibles fósiles de los datos humanos ha sido fundamental para construir las ofertas de LLM más competitivas. Sin embargo, solo los accionistas de TSMC, NVIDIA, Google, etc. y los capitalistas de riesgo, los inversores ángeles de OpenAI, Anthropic, etc., están obteniendo toda la captura de valor. Los humanos normie cuya huella digital se utilizó terminan obteniendo cacahuetes.
Independientemente de la fecha que los expertos en IA o los filósofos modernos hayan establecido para lograr la AGI, el camino hacia la AGI se está pavimentando con el robo de los derechos de propiedad de los humanos sobre sus datos o acciones digitales.
Aquí está la pregunta más importante: ¿cómo construimos un mercado de datos sin un riesgo de contraparte que sea capaz de medir continuamente la contribución de cada unidad de acción digital de un ser humano a la captura de valor de cualquier modelo comercial y compartir las regalías con el ser humano? Imagínese que esto está allí, tendremos una tubería donde cualquiera de estos gigantes puede usar datos humanos para hacer modelos cada vez mejores y, al mismo tiempo, garantizar que los humanos normales puedan cosechar el pago debido de sus acciones digitales. ¡Qué mundo tan maravilloso será ese! Asignación justa.
¡Solo una reflexión de último viernes!
392
Populares
Ranking
Favoritas