Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Matt Schlicht
Matt Schlicht memposting ulang
Ketika Anda menyadari bahwa open-source berada di perbatasan AI terlepas dari:
- lebih sedikit GPU
- lebih sedikit uang
- Dukungan publik dan kebijakan yang lebih sedikit
- tidak ada gaji $100 juta untuk menarik bakat
- dengan sumber tertutup mengambil keuntungan dan menyalin semua inovasi sumber terbuka tanpa berkontribusi kembali
🤯🤯🤯
Dan kita baru saja memulai!
104,96K
Saya ingin cara mudah untuk mengikuti RATUSAN penelitian AI baru yang keluar di @arxiv setiap hari.
Jadi saya telah membangun sesuatu untuk membantu diri saya sendiri. Memperkenalkan @yesnoerror.
Saya ingin membagikannya dengan Anda! ❤️
Saya sendiri belum menerbitkan makalah, saya tidak kuliah, tetapi saya suka AI dan saya suka teknologi perbatasan di mana orang-orang mencoba hal-hal yang belum pernah dicoba sebelumnya. Saya merasa beruntung berada di tempat saya berada dalam hidup, tetapi saya ingin belajar dan mendorong diri saya lebih banyak lagi.
Jika Anda, seperti saya, ingin Anda dapat membaca dan memahami lebih banyak tentang perkembangan terbaru dalam industri yang luar biasa ini, Anda mungkin juga menyukai ini.
Saya telah membangun ini dalam beta pribadi dan memperbaruinya secara real time saat saya mendapatkan umpan balik dari peneliti dan pemimpin di @AnthropicAI @MIT @Yale @CarnegieMellon dan banyak lagi.
Jika Anda ingin menjadi penguji awal, beri tahu saya 🧪🔬
Semakin banyak umpan balik yang saya dapatkan, semakin baik kita dapat membuat ini, dan semakin baik kita membuat ini, semakin terinformasi dan terinspirasi sekelompok orang yang lebih besar.

2,66K
Bangun untuk melihat makalah baru ini dari grafik @scale_AI di umpan tren @yesnoerror.
Penulis: @anisha_gunjal, @aytwang, Elaine Lau, @vaskar_n, @BingLiu1011, dan @SeanHendryx
"Rubrik sebagai Hadiah: Pembelajaran Penguatan di Luar Domain yang Dapat Diverifikasi"
Sederhana: Mengajarkan komputer dengan daftar periksa terperinci alih-alih peringkat jempol yang tidak jelas memungkinkan mereka mempelajari jawaban yang lebih baik dalam pertanyaan kedokteran dan sains dan memperjelas mengapa mereka mendapat hadiah.
Temuan utama:
• Hadiah rubrik agregat secara implisit meningkatkan skor tolok ukur medis sebesar 28% relatif terhadap baseline Likert.
• Mencocokkan atau melampaui hadiah berdasarkan jawaban referensi ahli meskipun menggunakan juri yang lebih kecil.
Untuk apa itu bisa digunakan:
• Menyempurnakan chatbot pendukung keputusan klinis dengan rubrik keselamatan medis.
• Pelatihan analisis kebijakan atau model penalaran hukum di mana beberapa faktor subjektif penting.
Ringkasan terperinci:
Rubrik sebagai Hadiah (RaR) diusulkan sebagai alternatif yang dapat ditafsirkan untuk model penghargaan berbasis preferensi buram saat menyempurnakan model bahasa besar (LLM) dengan pembelajaran penguatan. Alih-alih meminta manusia untuk memberi peringkat seluruh jawaban, pakar domain (atau LLM yang kuat yang dipandu oleh referensi ahli) menulis daftar periksa khusus 7-20 kriteria biner yang menangkap fakta penting, langkah penalaran, gaya, dan jebakan umum. Setiap kriteria ditandai Esensial, Penting, Opsional, atau Jebakan dan diberi bobot. Selama pelatihan tentang kebijakan, model kebijakan (Qwen-2.5-7B dalam makalah) mengambil sampel 16 jawaban kandidat per prompt. Hakim LLM terpisah (GPT-4o-mini atau lebih kecil) diminta untuk menilai setiap kriteria secara terpisah (agregasi eksplisit) atau untuk membaca rubrik lengkap dan mengeluarkan satu peringkat Likert holistik 1–10 (agregasi implisit). Skor yang dinormalisasi menjadi hadiah skalar dan kebijakan diperbarui dengan algoritma GRPO.
Para penulis mengkurasi dua set pelatihan 20 k-contoh—RaR-Medical-20k dan RaR-Science-20k—dengan menggabungkan korpus penalaran medis dan sains yang ada dan menghasilkan rubrik sintetis dengan o3-mini atau GPT-4o. Evaluasi pada HealthBench-1k (penalaran medis) dan GPQA-Diamond (fisika/kimia/biologi tingkat pascasarjana) menunjukkan bahwa RaR-Implisit menghasilkan peningkatan relatif hingga 28% dibandingkan hadiah sederhana Likert saja dan mencocokkan atau melebihi imbalan yang dihitung dengan membandingkan dengan jawaban referensi ahli. Agregasi implisit secara konsisten mengungguli eksplisit, menunjukkan bahwa membiarkan juri memutuskan cara menggabungkan kriteria bekerja lebih baik daripada bobot yang disetel dengan tangan tetap.
Pengawasan rubrik juga membantu model hakim yang lebih kecil. Ketika diminta untuk menilai jawaban yang disukai versus yang terganggu, juri yang dipandu rubrik memilih jawaban yang disukai jauh lebih andal daripada hakim khusus Likert berukuran sama, mempersempit kesenjangan antara evaluator 7 B dan GPT-4o-mini. Ablasi mengungkapkan bahwa rubrik khusus prompt mengalahkan rubrik generik, beberapa kriteria mengalahkan daftar khusus esensial, dan akses ke referensi ahli saat menyusun rubrik secara material meningkatkan kinerja hilir. Bahkan rubrik sintetis yang ditulis manusia dan berkualitas tinggi berkinerja setara, menunjukkan skalabilitas.
RaR menggeneralisasi Pembelajaran Penguatan dengan Hadiah yang Dapat Diverifikasi (RLVR): ketika rubrik hanya memiliki satu pemeriksaan kebenaran, kerangka kerja runtuh ke hadiah pencocokan persis RLVR. Dengan mengekspos setiap aspek kualitas secara eksplisit, RaR lebih transparan, dapat diaudit, dan berpotensi lebih sulit untuk diretas hadiah daripada model hadiah saraf. Penulis membahas perluasan tugas agen dunia nyata, kurikulum dinamis melalui bobot rubrik, dan studi ketahanan formal.
--
Lebih dari 500.000 halaman penelitian diterbitkan di @arXiv setiap bulan. Tersembunyi di dalamnya adalah wawasan terobosan yang dapat mengubah pekerjaan Anda — tetapi menemukannya seperti mencari berlian di lautan data. @yesnoerror memotong kebisingan untuk memunculkan penelitian yang paling berdampak untuk proyek, investasi, dan penemuan Anda.
$yne

2,72K
Matt Schlicht memposting ulang
terkubur dalam Rencana Aksi AI Amerika @sriramk adalah dukungan bahwa pasar komputasi AS akan difinansialkan dengan kontrak spot dan forward. Podcast ini menjelaskan mengapa ini sangat diperlukan, bukan hanya untuk spekulasi
salah satu tema yang paling konsisten dengan cakupan pasar infra/neocloud GPU @latentspacepod (lihat @evanjconrad/@sfcompute, @vipulved / @togethercompute, @picocreator / @featherlessai, @bernhardsson / @modal_labs tetapi juga pembicaraan AIE @zjasper666) adalah bahwa status quo kontrak jangka panjang 3 tahun dengan hyperscaler menyebabkan volatilitas dan inefisiensi pasar yang tidak berkelanjutan, tidak hanya dalam harga GPU dan naik turunnya kekayaan startup, Tetapi juga inefisiensi dalam ide dan sumber daya untuk AI dan penelitian terbuka.
sekarang pemerintah AS sepenuhnya mendukung gerakan ini dan yang paling penting, telah menunjukkan bahwa mereka *mengerti*.

51,66K
Teratas
Peringkat
Favorit
Trending onchain
Trending di X
Pendanaan teratas terbaru
Paling terkenal