Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Nathan Lambert
Mencari tahu @allen_ai AI, model terbuka, RLHF, penyetelan halus, dll
Hubungi melalui email.
Menulis @interconnectsai
Menulis Buku RLHF
Pelari gunung
Apa yang hilang: investasi dalam model open source dan hal-hal lain untuk mendukung ekosistem penelitian jangka panjang yang akan menjadikan AS rumah jangka panjang bagi inovasi AI. Sesuatu yang kurang dari negara kita saat ini tetapi dapat diperbaiki.

Anthropic7 jam lalu
Laporan Antropik Baru: Bangun AI di Amerika.
Kami menguraikan apa yang diperlukan untuk memastikan Amerika memiliki energi dan infrastruktur yang dibutuhkan untuk mempertahankan kepemimpinannya dalam AI.

403
Menulis setiap minggu sebagai peneliti memberi saya:
1. Rasa yang lebih baik dari proyek mana yang harus dipilih
2. Kemampuan yang lebih baik untuk mengarahkan proyek menuju dampak yang lebih tinggi
3. Kebebasan untuk meluangkan waktu mental untuk hanya memikirkan hal lain, bahkan jika proyek macet
Sangat merekomendasikan.

Derek Thompson21 Jul, 09.34
Ya.
Menulis bukanlah hal kedua yang terjadi setelah berpikir. Tindakan menulis adalah tindakan berpikir. Menulis *adalah* berpikir.
Mahasiswa, akademisi, dan siapa pun yang mengalihdayakan tulisan mereka ke LLM akan menemukan layar mereka penuh dengan kata-kata dan pikiran mereka kosong dari pikiran.

17,03K
untuk hiburan Anda :)

AI Engineer20 Jul, 05.31
🆕 Merilis seluruh trek RL + Reasoning kami!
Menampilkan:
• @willccbb, Kecerdasan Utama
• @GregKamradt, Hadiah Arc
• @natolambert, AI2 / Interkoneksi
• @corbtt, Pipa Terbuka
• @achowdhery, Refleksi
• @ryanmart3n, Dipesan Lebih Dahulu
• @ChrSzegedy, Morph
dengan lokakarya khusus 3 jam dari:
@danielhanchen dari Unsloth!
Mulai di sini:
Selamat menonton akhir pekan! Dan terima kasih kepada @OpenPipeAI karena telah mendukung dan menyelenggarakan lagu ini!

8,87K
Menambahkan cara yang bagus untuk memvisualisasikan tujuan PPO ke buku rlhf. Inti untuk gradien kebijakan adalah L~ R*A (R=rasio kebijakan, A = keuntungan).
Buat tindakan yang baik lebih mungkin sampai titik tertentu.
Buat tindakan buruk lebih kecil kemungkinannya sampai titik tertentu.
Min(...), & tanda adv menentukan garis mana.

9,38K
Intinya adalah untuk menghindari psyops untuk tidak mengambil dari pencapaian teknis yang jelas dan besar, ayolah fam saya bukan pembenci AI
begitu banyak pembenci dalam balasan

Nathan Lambert19 Jul, 21.23
Tidak terjebak pada postingan OpenAI yang tidak jelas tentang model emas IMO baru dengan "RL tujuan umum" dan "terobosan" apa pun. Google juga mendapatkan emas IMO (lebih sulit daripada menguasai AIME), tetapi ingat, skala ide sederhana paling baik.
11,84K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal