Belum banyak men-tweet dalam dua bulan terakhir ini karena saya menghabiskan waktu belajar dan bereksperimen dengan berbagai teknik RL. Bersemangat untuk segera membagikan beberapa WIP: 1. Resep komputasi optimal untuk pelatihan GRPO 2. Alat bertenaga RL untuk meningkatkan privasi dalam interaksi LLM Eksperimen telah menjanjikan 👀
3,77K