Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Suy nghĩ/dự đoán về đào tạo AI phi tập trung, 2025.
1. Một điều cần nói là chúng ta chắc chắn đang ở trong một thế giới khác với đào tạo AI phi tập trung so với 18 tháng trước. Lúc đó, đào tạo phi tập trung là không thể và bây giờ nó đã có mặt trên thị trường và trở thành một lĩnh vực.
2. Đừng nhầm lẫn, mục tiêu cuối cùng của đào tạo phi tập trung là đào tạo các mô hình cạnh tranh, tiên tiến trên các mạng phi tập trung. Như vậy, chúng ta chỉ mới bắt đầu hành trình cạnh tranh của mình, nhưng chúng ta đang tiến nhanh.
3. Hiện nay đã có sự đồng thuận rằng chúng ta có thể tiền đào tạo và hậu đào tạo các mô hình có hàng tỷ tham số (chủ yếu là LLMs, chủ yếu là kiến trúc transformer) trên các mạng phi tập trung. Trạng thái hiện tại của công nghệ là lên đến ~100B, phần cao nhất trong tầm nhìn nhưng chưa được trình diễn.
4. Hiện nay đã có sự đồng thuận rằng chúng ta có thể đào tạo các mô hình <10B tham số trên các mạng phi tập trung một cách khá khả thi. Cũng đã có những nghiên cứu trường hợp cụ thể (chủ yếu từ @gensynai @PrimeIntellect @NousResearch) nơi mà 10B, 32B, 40B tham số đã được hoặc đang được đào tạo. Đội ngũ hậu đào tạo của @gensynai hoạt động trên các mô hình có tối đa 72B tham số.
5. Đổi mới của @PluralisHQ hiện đã làm vô hiệu hóa "không thể" của việc tiền đào tạo có thể mở rộng trên các mạng phi tập trung bằng cách loại bỏ nút thắt về hiệu suất giao tiếp. Tuy nhiên, FLOPs thô, độ tin cậy và khả năng xác minh vẫn là những nút thắt cho các loại mạng này -- những vấn đề rất có thể giải quyết nhưng sẽ mất một thời gian để giải quyết về mặt kỹ thuật. Với Học giao thức từ Pluralis như hiện tại, tôi nghĩ chúng ta có thể đạt được các mô hình ~100B trong khoảng thời gian 6-12 tháng.
6. Làm thế nào để chúng ta từ 100B đến 300B tham số? Tôi nghĩ chúng ta cần tìm cách phân chia tham số một cách hiệu quả và linh hoạt và giữ cho bộ nhớ của từng thiết bị tương đối thấp (ví dụ: <32GB bộ nhớ mỗi thiết bị). Tôi nghĩ chúng ta cần đạt được 20 EFlops trong một mạng; điều đó có nghĩa là khoảng 10-20K thiết bị tiêu dùng hoạt động trong 4-6 tuần cho một quá trình đào tạo.
Tổng thể, đào tạo phi tập trung đang chuẩn bị trở thành một lĩnh vực rất thú vị. Một số đổi mới của nó đã được xem xét cho các ứng dụng AI rộng rãi.
4,15K
Hàng đầu
Thứ hạng
Yêu thích