Jedes Mal, wenn Sie einen technischen Bericht von einem SOTA-Open-Source-Modell lesen, das im Grunde 99 % der Modelle westlicher Labore in den Schatten stellt (abgesehen von den absoluten Top 2), liest es sich immer so: "Ja, wir haben im Grunde sehr hochwertige Daten kuratiert, sorgfältig eine Menge Daten generiert [weil wir nicht dumm sind], dann haben wir all die besten Tricks und Dinge angewendet, die wir in den letzten 12 Monaten für Infrastruktur, Nachtraining usw. gesehen haben, und sind auf ein oder zwei gekommen [weil wir Geschmack haben / uns kümmern]". Die Anzahl der Unternehmen in den USA, die dies mit dem $$$, das ihnen zugeschmissen wird, tun könnten, und keines von ihnen wirklich jemals etwas in dieser Art tut, sagt Ihnen viel über den Talentpool in diesen Unternehmen aus.
"Wir haben Muon als Optimierer verwendet, es angepasst und unsere gesamte Zeit damit verbracht, eine Pipeline zur Datengenerierung und -validierung aufzubauen. Der Rest ist spezifisch für unsere Anzahl an Rechenressourcen und spezifische Infrastruktur + alle Best-in-Class, die daraus resultieren." Wow
vs "Wir arbeiten an sicherer und profitabler Superintelligenz. AGI ist nah. Die Tage der Ingenieure sind vorbei. Wir stellen 500 Ingenieure ein."
62,5K