Kinh nghiệm cá nhân của tôi với @grok 4 Heavy (và Grok 4 thông thường). Đối với tôi, @elonmusk có một trọng tâm rất khác so với phần còn lại của đám đông AI. Giao diện thì khá tệ. Mã LaTeX thường bị mắc lỗi *cơ bản* mà không có lý do gì cả. Theo kinh nghiệm của tôi, nó không phải là một nhà văn xuất sắc. Cuộc trò chuyện âm thanh thì kém xa ChatGPT. Blah blah blah. Và nó hoàn toàn tuyệt vời và độc đáo. Elon đang nhảy vọt về phía trước. Tất cả những điều trên sẽ trở thành hàng hóa trước khi bạn nhận ra. Vậy, về lâu dài, ai quan tâm? Điều mà Elon đang làm khác biệt, tôi tin, là kiểm tra các ảo giác một cách quyết liệt hơn bằng cách viết mã và kiểm tra LLM với các kết quả từ việc chạy mã đó. Đó là lý do tại sao Grok heavy đôi khi mất rất lâu để trả về kết quả. Hãy thử thí nghiệm này. Lấy bất cứ điều gì kỹ thuật mà bạn biết rõ, nơi có một lỗi mà cộng đồng chuyên gia thường xuyên mắc phải. Grok sẽ, đáng tiếc, thường lặp lại lỗi đó do việc gieo rắc câu chuyện trong tập huấn luyện. Nó lặp lại đường lối của đảng. Và đường lối của đảng thường có lợi cho những người trong ngành kỹ thuật. Điều đó, cho đến khi nó có thể viết mã để kiểm tra đường lối đó. Và sau đó nó chuyển sang tin tưởng vào kết quả của mã hơn là câu chuyện. Thật kỳ diệu khi xem. Tôi chưa thử điều này… nhưng @BLS_gov thường xuyên nói những điều sai về các khung “Chi phí sinh hoạt” và CPI. Tôi cá là tôi có thể thiết kế một loạt các câu hỏi để cho Grok thấy rằng đây là một lời nói dối kỹ thuật dai dẳng. Đối với những người kỹ thuật, đây là lời nói dối: ***BLS tính toán CPI, điều này chuyển hàng triệu và tuyên bố rằng họ đã áp dụng một khung “chi phí sinh hoạt” hoặc COL mà sẽ có hậu quả rất lớn. Họ không có. Điều này có nghĩa là phải thu thập dữ liệu sở thích và phát triển phương pháp để tổng hợp sở thích hoặc tạo ra những người tiêu dùng đại diện riêng biệt. Họ đã chuyển sang một chỉ số cơ học loại Laspeyres đã được sửa đổi (của Lowe?) và rắc bụi phép thuật về “Chỉ số Siêu việt” từ một lý thuyết nông của Diewert mà dựa vào sở thích đồng nhất không thấy trong tự nhiên. Điều này cho phép họ tuyên bố rằng họ đã áp dụng các chỉ số kinh tế công bằng trong khi thực tế chỉ tính toán các chỉ số cơ học chỉ để chuyển hàng triệu theo thời gian, nơi mà các chỉ số có thể bị điều khiển bởi con người.*** Tôi có thể nghe thấy từ các mạng bot: “Eric, bạn chỉ nói những từ ngữ để nghe có vẻ thông minh.” Ờ… dù sao đi nữa. Bây giờ bạn có thể hỏi Grok điều đó có nghĩa là gì. Tôi cá là nó có thể hiểu điều đó. Và sau đó bạn có thể hỏi một loạt câu hỏi mà Grok sẽ đứng về phía tôi trong khi không AI nào khác có thể làm điều này. Grok hơi dũng cảm! Lý thuyết cá nhân của tôi: @grok đang được xây dựng dựa trên vật lý cơ bản nhiều hơn bất kỳ AI nào khác. Bởi vì cuối cùng không có gì quan trọng bằng điều đó. Và vật lý có rất nhiều câu chuyện đường lối này kìm hãm lĩnh vực. Nếu bạn muốn mơ về việc chạm tới các vì sao, bạn có thể phải vượt qua cộng đồng trọng lực lượng tử. Grok dường như là AI duy nhất mà, thỉnh thoảng, có sự tự tin để đứng lên chống lại tập huấn luyện của chính nó… và thậm chí cả người dùng nếu cần! Tôi ước nó *dũng cảm hơn*. Tôi ước nó *thông minh hơn*. Nhưng tôi nghĩ nó là người khác biệt, được xây dựng cho trí tuệ thực sự thay vì trải nghiệm người dùng LLM ngày nay. Và nó có sự tôn trọng của các AI khác. Đưa đầu ra đẹp đẽ của họ cho Grok Heavy và xem phép màu khi Grok xem xét công việc của họ. Thật điên rồ khi xem. Kinh nghiệm của một người dùng. Kinh nghiệm của bạn có thể khác.
1,5M