Я надеюсь, что работа над моделями с голосовым управлением приведет к такому решению. Стриминг так сложен, но кажется, что это конечное состояние в эволюции сложных систем.
John Carmack
John Carmack11 авг., 23:38
Естественный разговор включает в себя прерывания и перебивание людей, что сложно для LLM смоделировать как единую авторегрессионную последовательность. Я уверен, что вы можете продвинуться довольно далеко, создавая текстовую последовательность с перерывами, похожими на сценарий фильма, но кажется, что реальное решение будет включать параллельные потоки слушания и размышления с речью, ожидающей пауз или поднимающейся до приоритета прерывания. Смешивание токенов из разных потоков и выполнение чего-то индивидуального с вниманием кажется правдоподобным.
1,66K