Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Cách các Mô hình Ngôn ngữ Lớn (LLMs) huấn luyện các LLMs khác, được giải thích rõ ràng (kèm hình ảnh):
Các LLM không chỉ học từ văn bản thô mà còn từ các mô hình khác.
Ví dụ, Gemma 2 và 3 của Google được chưng cất từ mô hình Gemini lớn hơn.
Hôm nay, chúng ta sẽ đề cập đến ba phương pháp chưng cất kiến thức phổ biến nhất.
Hãy cùng khám phá! 🚀
1️⃣ Chưng cất nhãn mềm
Tạo ra xác suất softmax ở cấp độ token trên toàn bộ tập dữ liệu bằng cách sử dụng:
- Một mô hình LLM Giáo viên đã được huấn luyện và giữ nguyên
- Một mô hình LLM Học sinh chưa được huấn luyện
Huấn luyện mô hình LLM Học sinh để khớp với xác suất của Giáo viên.
Xem cái này👇
Trong việc chưng cất nhãn mềm, việc có quyền truy cập vào xác suất của Giáo viên đảm bảo việc chuyển giao kiến thức tối đa.
Tuy nhiên, để có được phân phối xác suất, bạn phải có quyền truy cập vào trọng số của Giáo viên.
Ngay cả khi có quyền truy cập, một thách thức khác xuất hiện...
Giả sử từ vựng của bạn có 100k token và dữ liệu có 5 triệu tỷ token.
Việc lưu trữ xác suất softmax cho toàn bộ từ vựng cho mỗi token đầu vào cần 500 triệu GB bộ nhớ dưới độ chính xác fp8.
Đây là lúc chúng ta chuyển sang kỹ thuật thứ hai ...👇
2️⃣ Chưng cất nhãn cứng
- Sử dụng Teacher LLM để lấy token đầu ra.
- Lấy xác suất softmax từ Student LLM.
- Đào tạo Student để khớp với đầu ra của Teacher.
DeepSeek-R1 đã được chưng cất thành Qwen & Llama bằng kỹ thuật này.
Kiểm tra hình ảnh này 👇
3️⃣ Đồng chưng cất
- Bắt đầu với một Teacher và Student LLM chưa được huấn luyện.
- Tạo ra xác suất softmax trên lô hiện tại từ cả hai mô hình.
- Huấn luyện Teacher LLM trên các nhãn cứng.
- Huấn luyện Student LLM để khớp với xác suất softmax của Teacher.
Kiểm tra hình ảnh này 👇
Meta đã sử dụng phương pháp đồng chưng cất để đào tạo Llama 4 Scout và Maverick từ Llama 4 Behemoth.
Tất nhiên, trong giai đoạn ban đầu, các nhãn mềm của Teacher LLM sẽ không chính xác.
Đó là lý do tại sao Student LLM được đào tạo bằng cả nhãn mềm + nhãn cứng đúng sự thật.
Đó là ba kỹ thuật để huấn luyện một LLM bằng cách sử dụng một LLM khác.
Chúng ta đã thảo luận:
- Chưng cất nhãn mềm
- Chưng cất nhãn cứng
- Chưng cất đồng thời
Dưới đây là hình ảnh một lần nữa để bạn tham khảo 👇
Đến đây là hết!
Nếu bạn thấy nó hữu ích, hãy chia sẻ lại với mạng lưới của bạn.
Tìm tôi → @akshay_pachaar ✔️
Để có thêm thông tin và hướng dẫn về LLMs, AI Agents và Machine Learning!

20:38 25 thg 7
Cách các Mô hình Ngôn ngữ Lớn (LLMs) huấn luyện các LLMs khác, được giải thích rõ ràng (kèm hình ảnh):
97,74K
Hàng đầu
Thứ hạng
Yêu thích