Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Neuer Blogbeitrag über die Asymmetrie der Verifikation und das "Gesetz des Verifiers":
Die Asymmetrie der Verifikation – die Idee, dass einige Aufgaben viel einfacher zu verifizieren sind als zu lösen – wird zu einem wichtigen Konzept, da wir RL haben, das endlich allgemein funktioniert.
Große Beispiele für die Asymmetrie der Verifikation sind Dinge wie Sudoku-Rätsel, das Schreiben des Codes für eine Website wie Instagram und BrowseComp-Probleme (es dauert ~100 Websites, um die Antwort zu finden, aber es ist einfach zu verifizieren, sobald man die Antwort hat).
Andere Aufgaben haben eine nahezu Symmetrie der Verifikation, wie das Summieren von zwei 900-stelligen Zahlen oder einige Datenverarbeitungsskripte. Wieder andere Aufgaben sind viel einfacher, um machbare Lösungen vorzuschlagen, als sie zu verifizieren (z. B. das Überprüfen eines langen Aufsatzes oder das Nennen einer neuen Diät wie "nur Bison essen").
Eine wichtige Sache, die man über die Asymmetrie der Verifikation verstehen sollte, ist, dass man die Asymmetrie verbessern kann, indem man im Voraus etwas Arbeit leistet. Zum Beispiel, wenn man den Antwortschlüssel zu einem Mathematikproblem hat oder wenn man Testfälle für ein Leetcode-Problem hat. Dies erhöht erheblich die Menge an Problemen mit wünschenswerter Verifikationsasymmetrie.
Das "Gesetz des Verifiers" besagt, dass die Leichtigkeit, KI zu trainieren, um eine Aufgabe zu lösen, proportional dazu ist, wie verifizierbar die Aufgabe ist. Alle Aufgaben, die lösbar und einfach zu verifizieren sind, werden von KI gelöst. Die Fähigkeit, KI zu trainieren, um eine Aufgabe zu lösen, ist proportional dazu, ob die Aufgabe die folgenden Eigenschaften hat:
1. Objektive Wahrheit: Jeder ist sich einig, was gute Lösungen sind.
2. Schnell zu verifizieren: Jede gegebene Lösung kann in wenigen Sekunden verifiziert werden.
3. Skalierbar zu verifizieren: Viele Lösungen können gleichzeitig verifiziert werden.
4. Geringes Rauschen: Die Verifikation ist so eng wie möglich mit der Lösungsqualität korreliert.
5. Kontinuierliche Belohnung: Es ist einfach, die Güte vieler Lösungen für ein einzelnes Problem zu bewerten.
Eine offensichtliche Veranschaulichung des Gesetzes des Verifiers ist die Tatsache, dass die meisten Benchmarks, die in der KI vorgeschlagen werden, einfach zu verifizieren sind und bisher gelöst wurden. Beachten Sie, dass praktisch alle beliebten Benchmarks der letzten zehn Jahre die Kriterien #1-4 erfüllen; Benchmarks, die die Kriterien #1-4 nicht erfüllen, würden Schwierigkeiten haben, populär zu werden.
Warum ist Verifizierbarkeit so wichtig? Die Menge des Lernens in der KI, die stattfindet, wird maximiert, wenn die oben genannten Kriterien erfüllt sind; man kann viele Gradienten-Schritte machen, bei denen jeder Schritt viel Signal hat. Die Geschwindigkeit der Iteration ist entscheidend – sie ist der Grund, warum der Fortschritt in der digitalen Welt so viel schneller war als der Fortschritt in der physischen Welt.
AlphaEvolve von Google ist eines der größten Beispiele für die Nutzung der Asymmetrie der Verifikation. Es konzentriert sich auf Setups, die alle oben genannten Kriterien erfüllen, und hat zu einer Reihe von Fortschritten in der Mathematik und anderen Bereichen geführt. Anders als das, was wir in der KI in den letzten zwei Jahrzehnten gemacht haben, ist es ein neues Paradigma, bei dem alle Probleme in einem Setting optimiert werden, in dem der Trainingssatz dem Testsatz entspricht.
Die Asymmetrie der Verifikation ist überall und es ist aufregend, sich eine Welt mit gezackter Intelligenz vorzustellen, in der alles, was wir messen können, gelöst wird.

298,78K
Top
Ranking
Favoriten