Ще один альфа-витік. ту ж техніку, яку ми використовували для KernelBench. Це універсальний підхід у його найпростішій формі. Приклади – це все, що вам потрібно: отримати один хороший результат або одне покращення, додати до контексту, отримати більше хороших результатів із покращеним контекстом, додати їх до контексту, додати інф...
Tooliense
Tooliense22 лип., 11:19
Нещодавно Openai, Goolge досягли Золотої медалі IMO зі своїми новими експериментальними моделями. Але наша команда вийшла на той самий рівень, маючи лише o4-mini-high та наші агентські системи. І зараз ми займаємося його відкритим аутсорсингом. Особливо ми отримали шалені покращення з бенчмарками USAMO. Базова лінія була майже 0, але наш агент отримав в середньому 90%. Також теоретично можна довести недавні статті arxiv, які лише дають ключову ідею дослідження.
Немає сенсу тренувати маленькі моделі насправді... Вам краще знайти ідеальну програму для подачі на найбільші машини. Якщо вам потрібен найкращий розподіл вихідних даних, вам потрібно знайти ідеальний розподіл вхідних даних, як практика. Ви можете досягти цього з нічого, якщо у вас є спосіб ранжувати свої результати. Техніка цих хлопців здається надмірно розробленою, і, ймовірно, може бути набагато простішою.
Перше покоління KernelBench на o3-mini. Ми просто назвали це «самовдосконаленням».
Lewis
Lewis30 квіт. 2025 р.
у нас є неперевірений результат SOTA на KernelBench з o3-mini та еволюційною стрічкою прикладів: 208/250 заявлених прискорень, у тому числі 3 для 4 рівня (попереднє недоторкане). буду вдячний за будь-яку допомогу в огляді оптимізованих ядер KernelBench на . Дякуємо @anneouyang та @ScalingIntelLab Стенфорду за згоду їх переглянути.
3,31K