Penso che questo sia un buon modo per visualizzare la corsa all'AI utilizzando il benchmark GPQA Diamond, che ha una lunga durata. Puoi vedere quanto tempo OpenAI ha avuto il campo tutto per sé, l'ascesa (e il crollo) di Meta, il rapido recupero (e poi la stagnazione) di xAI, e l'ingresso dei LLM cinesi con pesi aperti.
Il test di domande e risposte a livello di laurea Google-Proof (GPQA) è una serie di difficili problemi a scelta multipla progettati per testare conoscenze avanzate. I non esperti con accesso a Internet ottengono il 34% di risposte corrette, i dottori di ricerca con accesso a Internet ottengono il 65-70% all'interno della loro specialità. Probabilmente siamo vicini alla saturazione
Ho ordinato a Codex che questo venga realizzato. Dati da @EpochAIResearch.
1,42K