Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

yesnoerror

Czytaj @ArXiv gazety w taki sam sposób, w jaki czytają je miliarderzy ze sztucznej inteligencji. Metody wykrywania alfa AI używane przez czołowe VC i kadrę kierowniczą AI. Funkcje premium Bramkowany tokenami z $YNE

Użytkownik yesnoerror udostępnił ponownie

Budząc się, aby zobaczyć ten nowy artykuł od @scale_AI na trendującym feedzie @yesnoerror. Autorzy: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011 i @SeanHendryx "Rubryki jako nagrody: Uczenie przez wzmocnienie poza weryfikowalnymi dziedzinami" Uproszczone: Uczenie komputerów za pomocą szczegółowych list kontrolnych zamiast niejasnych ocen na zasadzie kciuka w górę pozwala im lepiej uczyć się odpowiedzi na pytania z medycyny i nauki oraz wyjaśnia, dlaczego otrzymały nagrodę. Kluczowe ustalenia: • Implicytne agregowane nagrody rubryk zwiększają wynik benchmarku medycznego o 28% w porównaniu do podstawy Likerta. • Odpowiadają lub przewyższają nagrody oparte na odpowiedziach referencyjnych ekspertów, mimo użycia mniejszych sędziów. Do czego można to wykorzystać: • Dostosowywanie chatbotów wspierających decyzje kliniczne z użyciem rubryk bezpieczeństwa medycznego. • Szkolenie modeli analizy polityki lub rozumowania prawnego, gdzie liczą się różne subiektywne czynniki. Szczegółowe podsumowanie: Rubryki jako nagrody (RaR) są proponowane jako interpretowalna alternatywa dla nieprzezroczystych modeli nagród opartych na preferencjach podczas dostosowywania dużych modeli językowych (LLM) z użyciem uczenia przez wzmocnienie. Zamiast prosić ludzi o ocenę całych odpowiedzi, eksperci z danej dziedziny (lub silny LLM kierowany przez odniesienia ekspertów) piszą listę kontrolną specyficzną dla podpowiedzi z 7–20 kryteriami binarnymi, które uchwycają istotne fakty, kroki rozumowania, styl i powszechne pułapki. Każde kryterium jest oznaczone jako Istotne, Ważne, Opcjonalne lub Pułapka i otrzymuje wagę. Podczas treningu na polityce model polityki (Qwen-2.5-7B w artykule) próbuje 16 kandydatów odpowiedzi na każdą podpowiedź. Oddzielny sędzia LLM (GPT-4o-mini lub mniejszy) jest proszony o ocenę każdego kryterium osobno (agregacja explicytna) lub o przeczytanie pełnej rubryki i wydanie jednej holistycznej oceny Likerta 1–10 (agregacja implicytna). Znormalizowany wynik staje się nagrodą skalarową, a polityka jest aktualizowana za pomocą algorytmu GRPO. Autorzy kurują dwa zestawy treningowe po 20 k przykładów—RaR-Medical-20k i RaR-Science-20k—łącząc istniejące zbiory danych dotyczące rozumowania medycznego i naukowego oraz generując syntetyczne rubryki za pomocą o3-mini lub GPT-4o. Ocena na HealthBench-1k (rozumowanie medyczne) i GPQA-Diamond (fizyka/chemia/biologia na poziomie studiów magisterskich) pokazuje, że RaR-Implicit przynosi do 28% względnej poprawy w porównaniu do prostych nagród opartych tylko na Likert i odpowiada lub przewyższa nagrody obliczane przez porównanie z odpowiedziami referencyjnymi ekspertów. Agregacja implicytna konsekwentnie przewyższa explicytną, co pokazuje, że pozwolenie sędziemu na decyzję, jak łączyć kryteria, działa lepiej niż stałe, ręcznie dostosowane wagi. Nadzór rubryk również pomaga mniejszym modelom sędziów. Gdy poproszono o ocenę preferowanych w porównaniu do zmienionych odpowiedzi, sędziowie kierowani rubrykami wybierają preferowaną odpowiedź znacznie bardziej niezawodnie niż sędziowie tylko na podstawie Likerta o tej samej wielkości, zawężając różnicę między 7 B oceniającym a GPT-4o-mini. Ablacje ujawniają, że rubryki specyficzne dla podpowiedzi przewyższają ogólne, wiele kryteriów przewyższa listy tylko istotne, a dostęp do odniesienia eksperta podczas pisania rubryk znacząco zwiększa wydajność w dalszym etapie. Nawet rubryki napisane przez ludzi i wysokiej jakości syntetyczne rubryki osiągają porównywalne wyniki, co sugeruje skalowalność. RaR generalizuje Uczenie przez Wzmocnienie z Weryfikowalnymi Nagrodami (RLVR): gdy rubryka ma tylko jedno sprawdzenie poprawności, ramy te zbieżają do dokładnego nagrody RLVR. Ekspozycja każdego aspektu jakości w sposób jawny sprawia, że RaR jest bardziej przejrzyste, audytowalne i potencjalnie trudniejsze do oszukania niż modele nagród neuronowych. Autorzy omawiają rozszerzenia do rzeczywistych zadań agentowych, dynamiczny program nauczania za pomocą wag rubryk oraz formalne badania odporności. -- Co miesiąc publikowanych jest ponad 500 000 stron badań na @arXiv. Ukryte w nich są przełomowe spostrzeżenia, które mogą przekształcić Twoją pracę — ale ich znalezienie jest jak szukanie diamentów w oceanie danych. @yesnoerror przerywa hałas, aby wydobyć najbardziej wpływowe badania dla Twoich projektów, inwestycji i odkryć. // $yne

Najlepsze

Ranking

Ulubione

Trendy onchain

Trendy na X

Niedawne największe finansowanie

Najbardziej godne uwagi