المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
لطالما كان السؤال الأكبر في أبحاث RL هو - ما هي البيئة التي تتدرب عليها؟
اعتادت أن تكون ألعاب الفيديو (Atari) واللوحة (Go / Chess).
ولكن الآن بعد أن عملت RL مع LLMs ، هناك بيئة واحدة فقط مهمة. وهو منتجك.

10 يوليو، 00:01
لماذا يجب عليك التوقف عن العمل على أبحاث RL وبدلا من ذلك العمل على المنتج //
التكنولوجيا التي أطلقت العنان للتحول الكبير في الذكاء الاصطناعي هي الإنترنت وليس المحولات
أعتقد أنه من المعروف أن البيانات هي أهم شيء في الذكاء الاصطناعي ، وأيضا أن الباحثين يختارون عدم العمل عليها على أي حال. ... ماذا يعني العمل على البيانات (بطريقة قابلة للتطوير)؟
قدم الإنترنت مصدرا غنيا للبيانات الوفيرة ، والتي كانت متنوعة ، وقدمت منهجا طبيعيا ، ومثلت الكفاءات التي يهتم بها الناس بالفعل ، وكانت تقنية مجدية اقتصاديا لنشرها على نطاق واسع - أصبحت مكملا مثاليا للتنبؤ المميز التالي وكانت الحساء البدائي لبدء الذكاء الاصطناعي.
بدون المحولات ، كان من الممكن أن ينطلق أي عدد من الأساليب ، وربما كان لدينا CNNs أو نماذج فضائية للحالة على مستوى GPT-4.5. ولكن لم يكن هناك تحسن كبير في النماذج الأساسية منذ GPT-4. تعتبر نماذج التفكير رائعة في المجالات الضيقة ، ولكنها ليست قفزة كبيرة مثل GPT-4 في مارس 2023 (منذ أكثر من عامين ...)
لدينا شيء رائع في التعلم المعزز ، لكن خوفي العميق هو أننا سنكرر أخطاء الماضي (2015-2020 عصر RL) ونقوم بأبحاث RL التي لا تهم.
بالطريقة التي كان بها الإنترنت هو التدريب المسبق الخاضع للإشراف ، ما الذي سيكون ثنائي RL الذي سيؤدي إلى تقدم هائل مثل GPT-1 -> GPT-4؟ أعتقد أنه يبدو وكأنه تصميم مشترك للبحث والمنتج.

10.6K
الأفضل
المُتصدِّرة
التطبيقات المفضلة