Wyobraź sobie, co by było, gdybyś dzięki jakiejś publikacji, którą napisałeś lata temu na reddicie, stackexchange, swoim własnym blogu itp., mógł otrzymać część przychodu generowanego przez o3, sonnet lub dostawców usług hostowanych open-source LLM. Jeśli dane generowane przez ludzi w internecie są paliwem kopalnym do osiągnięcia AGI, ludzie muszą mieć możliwość wydobywania wartości w proporcji do ich wkładu. Zamiast tego, co się teraz dzieje: > wielkie firmy technologiczne płacą jednorazowo za budowę zbiorów danych i przyczepiają licencję > budują model bazowy > przyczepiają API, aby pobierać $/miesiąc lub $ za N tokenów > generują przychody, podnoszą wyceny prywatne o dziesiątki lub setki miliardów $, ceny akcji rosną Ludzie OG, których dane były kluczowe, nie dostają nic z tych ogromnych przejęć wartości. Krytycy mogą powiedzieć: "och, teraz używamy danych syntetycznych do treningu, ponieważ uważamy, że AI jest lepsze od ludzi". Ale stary, po prostu używasz większych modeli stworzonych wcześniej z danych ludzkich, aby tworzyć dane syntetyczne do przygotowania mniejszych, ale mądrzejszych modeli. To tylko oznacza, że mniejszy model nie istniałby bez wcześniejszego modelu i genealogicznie, danych OG. Znowu, ludzie OG zasługują na to, aby zobaczyć część wartości przechwyconej w swoim portfelu. Z RLHF staje się coraz bardziej krytyczne dla post-treningu, użytkownicy są proszeni o naciskanie kciuków w górę lub w dół w interfejsach chatbotów. Ta preferencja jest wykorzystywana do dalszego ulepszania modelu, który następnie jest używany do pobierania większych opłat $/miesiąc lub $ za N tokenów za następną edycję LLM. A jednak ty, tak ty, użytkownicy ludzie, nie jesteście w stanie zobaczyć żadnej z tych wartości przekazanej do waszego portfela. Jest oczywiste, że dostęp do zaawansowanych GPU i paliwa kopalnego danych ludzkich był kluczowy dla budowy najbardziej konkurencyjnych ofert LLM. A jednak tylko akcjonariusze tsmc, nvidia, google itp. oraz inwestorzy VC, aniołowie inwestorzy openai, anthropic itp. otrzymują całą przechwyconą wartość. Zwykli ludzie, których cyfrowy ślad został wykorzystany, kończą z groszami. Bez względu na to, jaką datę wyznaczają eksperci AI lub współcześni filozofowie na osiągnięcie AGI, droga do AGI jest wybrukowana kradzieżą praw własności ludzi do ich danych lub działań cyfrowych. Nie mówię, że mam rozwiązanie, ale oto największy pomysł: jak zbudować rynek danych bez ryzyka kontrahenta, który będzie w stanie ciągle mierzyć wkład każdej jednostki działania cyfrowego przez człowieka w wartość przechwyconą przez jakikolwiek model komercyjny i dzielić się tantiemami z powrotem z człowiekiem? Wyobraź sobie, że to istnieje, będziemy mieli pipeline, w którym jakiekolwiek z tych gigantów może używać danych ludzkich do tworzenia coraz lepszych modeli, jednocześnie zapewniając, że zwykły człowiek może zbierać należne wypłaty za swoje działania cyfrowe. Jaki wspaniały świat by to był! Sprawiedliwy podział. Po prostu późne piątkowe rozmyślanie!
229