Dokładnie dlatego pipeline'y z udziałem ludzi są niezbędne w przewidywalnej przyszłości, ponieważ złożoność zadań i horyzont rośnie, a wskaźniki sukcesu znacząco spadają. Będziesz potrzebować ludzi, aby konsekwentnie ugruntować proces, aby utrzymać wskaźniki sukcesu. Główne problemy z podejściami HITL to: 1. dopasowane LLM-y stały się tak dobre, że trudno jest ludziom ocenić, czy wyniki rzeczywiście spełniają obiektywne wymagania, ponieważ wiele pracy włożono w to, aby 'wyglądały dobrze'. 2. wiedza, kiedy człowiek powinien interweniować lub kiedy agent/model powinien przekazać zadanie/ocenę. Wykrywanie halucynacji to naprawdę trudny temat.
Benjamin Todd
Benjamin Todd16 cze 2025
Dlaczego AI może kodować przez 1 godzinę, ale nie przez 10 godzin? Proste wyjaśnienie: jeśli istnieje 10% szans na błąd co 10 minut (powiedzmy), to wskaźnik sukcesu wynosi: 1h: 53% 4h: 8% 10h: 0,002% @tobyordoxford przetestował tę teorię 'stałego wskaźnika błędu' i pokazał, że dobrze pasuje do danych. szansa na sukces maleje wykładniczo.
1,29K