Mam nadzieję, że prace nad modelami z obsługą głosu doprowadzą do tego rodzaju rozwiązania. Streaming jest bardzo trudny, ale wydaje się, że to końcowy stan w ewolucji zaawansowanych systemów.
John Carmack
John Carmack11 sie, 23:38
Naturalna rozmowa obejmuje przerwy i mówienie jednocześnie, co jest trudne do modelowania dla LLM jako pojedynczej sekwencji autoregresywnej. Jestem pewien, że można osiągnąć sporo, tworząc sekwencję tekstową z przerwami w stylu scenariusza filmowego w trakcie zdania, ale wydaje się, że prawdziwe rozwiązanie wymagałoby równoległych strumieni słuchania i myślenia, z mówieniem w kolejce na przerwy lub w przypadku priorytetu przerwania. Mieszanie tokenów z różnych strumieni i robienie czegoś niestandardowego z uwagą wydaje się wykonalne.
1,65K