لطالما كان السؤال الأكبر في أبحاث RL هو - ما هي البيئة التي تتدرب عليها؟ اعتادت أن تكون ألعاب الفيديو (Atari) واللوحة (Go / Chess). ولكن الآن بعد أن عملت RL مع LLMs ، هناك بيئة واحدة فقط مهمة. وهو منتجك.
Kevin Lu
Kevin Lu‏10 يوليو، 00:01
لماذا يجب عليك التوقف عن العمل على أبحاث RL وبدلا من ذلك العمل على المنتج // التكنولوجيا التي أطلقت العنان للتحول الكبير في الذكاء الاصطناعي هي الإنترنت وليس المحولات أعتقد أنه من المعروف أن البيانات هي أهم شيء في الذكاء الاصطناعي ، وأيضا أن الباحثين يختارون عدم العمل عليها على أي حال. ... ماذا يعني العمل على البيانات (بطريقة قابلة للتطوير)؟ قدم الإنترنت مصدرا غنيا للبيانات الوفيرة ، والتي كانت متنوعة ، وقدمت منهجا طبيعيا ، ومثلت الكفاءات التي يهتم بها الناس بالفعل ، وكانت تقنية مجدية اقتصاديا لنشرها على نطاق واسع - أصبحت مكملا مثاليا للتنبؤ المميز التالي وكانت الحساء البدائي لبدء الذكاء الاصطناعي. بدون المحولات ، كان من الممكن أن ينطلق أي عدد من الأساليب ، وربما كان لدينا CNNs أو نماذج فضائية للحالة على مستوى GPT-4.5. ولكن لم يكن هناك تحسن كبير في النماذج الأساسية منذ GPT-4. تعتبر نماذج التفكير رائعة في المجالات الضيقة ، ولكنها ليست قفزة كبيرة مثل GPT-4 في مارس 2023 (منذ أكثر من عامين ...) لدينا شيء رائع في التعلم المعزز ، لكن خوفي العميق هو أننا سنكرر أخطاء الماضي (2015-2020 عصر RL) ونقوم بأبحاث RL التي لا تهم. بالطريقة التي كان بها الإنترنت هو التدريب المسبق الخاضع للإشراف ، ما الذي سيكون ثنائي RL الذي سيؤدي إلى تقدم هائل مثل GPT-1 -> GPT-4؟ أعتقد أنه يبدو وكأنه تصميم مشترك للبحث والمنتج.
‏‎10.6‏K