Tôi hy vọng rằng công việc trên các mô hình hỗ trợ giọng nói sẽ dẫn đến loại giải pháp này. Phát trực tuyến thật khó khăn, nhưng nó cảm giác như là trạng thái cuối cùng trong sự tiến hóa của các hệ thống tinh vi.
John Carmack
John Carmack23:38 11 thg 8
Cuộc trò chuyện tự nhiên bao gồm cả việc ngắt lời và nói chồng lên nhau, điều này rất khó để một LLM mô hình hóa như một chuỗi tự hồi quy duy nhất. Tôi chắc chắn bạn có thể tiến xa bằng cách tạo ra một chuỗi văn bản với các đoạn giống như kịch bản phim giữa câu, nhưng có vẻ như giải pháp thực sự sẽ liên quan đến các luồng song song của việc lắng nghe và suy nghĩ với việc nói được xếp hàng cho các khoảng dừng hoặc ưu tiên ngắt lời. Việc trộn lẫn các token từ các luồng khác nhau và làm điều gì đó tùy chỉnh với sự chú ý có vẻ khả thi.
1,64K