Jeg håper at arbeid med stemmeaktiverte modeller vil føre til denne typen løsning. Streaming er så vanskelig, men det føles som slutttilstanden i utviklingen av sofistikerte systemer.
John Carmack
John Carmack11. aug., 23:38
Naturlig samtale inkluderer avbrudd og snakking over mennesker, noe som er vanskelig for en LLM å modellere som en enkelt autoregressiv sekvens. Jeg er sikker på at du kan komme ganske langt ved å lage en tekstsekvens med filmmanus som pauser midt i setningen, men det virker som om den virkelige løsningen ville innebære parallelle strømmer av lytting og tenkning med snakking i kø for pauser eller heving til en avbruddsprioritet. Å blande tokens fra forskjellige strømmer og gjøre noe tilpasset med oppmerksomhet virker plausibelt.
1,64K