Här är veckans Ritual Research Digest, ett nyhetsbrev som täcker det senaste arbetet i LLM-världen och skärningspunkten mellan integritet, AI och decentraliserade protokoll. Den här veckan presenterar vi en ICML-utgåva som täcker några av de många artiklar som vi gillade på konferensen.
Kasta tärningen och titta innan du hoppar: Att gå bortom de kreativa gränserna för att förutsäga nästa token. I den här artikeln utforskar de de kreativa gränserna för förutsägelse av nästa token i stora språkmodeller med hjälp av "minimala" öppna grafalgoritmiska uppgifter.
De ser på det genom två kreativa linser: kombinatoriskt och utforskande. Next-token-tränade modeller är i stort sett mindre kreativa och memorerar mycket mer än de med flera token. De utforskar också frökonditionering som en metod för att producera meningsfull mångfald i LLM-generationer.
rStar-Math: Små LLM kan bemästra matematiska resonemang med självutvecklat djupt tänkande I det här dokumentet används självutvecklande finjustering för att förbättra datakvaliteten och gradvis förfina processbelöningsmodellen med hjälp av MCTS och små LM:er.
Den använder en självutvecklingsprocess som börjar i liten skala med genererade verifierade lösningar och iterativt tränar bättre modeller. Datasyntesen görs med hjälp av kodförstärkt Chain of Thought. Det förbättrar Qwen2.5-Math-7B från 58,8 % till 90,0 % och Phi3-mini-3.8B från 41,4 % till 86,4 %.
Träna en allmänt nyfiken agent Detta dokument introducerar Paprika, en metod för att träna LLM:er till att bli allmänna beslutsfattare som kan lösa nya uppgifter utan att skjuta något. De utbildar sig i olika arbetsgrupper för att lära ut informationsinsamling och beslutsfattande.
RL för LLM:er fokuserar på interaktioner med en sväng, så de presterar ofta suboptimalt på sekventiellt beslutsfattande med interaktioner med flera turer över olika tidshorisonter. Paprika genererar olika banor med provtagning vid höga temperaturer och lär sig av framgångsrika metoder.
Hur får stora språkapor sin makt (lagar) Detta dokument undersöker begreppet maktlagar i LLM:er och ger ett matematiskt ramverk för att förstå hur och varför språkmodellens prestanda förbättras med ökad inferensberäkning.
CVE-Bench: Ett riktmärke för AI-agenters förmåga att utnyttja Detta arbete introducerar ett verkligt riktmärke för cybersäkerhet genom att först skapa en systematisk sandlåda. För varje sårbarhet skapar de behållare som är utformade för att vara värd för en app med exponerade sårbarheter.
Sedan introducerar de CVE-Bench, det första verkliga cybersäkerhetsriktmärket för LLM-agenter. I CVE-Bench samlar de 40 Common Vulnerabilities and Exposures (CVEs) i National Vulnerability Database.
Några andra papper vi gillade: - AI-agenter behöver autentiserad delegering - LLM-SRBench: Riktmärke för vetenskaplig ekvationsupptäckt med LLM - Maskininlärning möter algebraisk kombinatorik - Skalning av beräkning vid test utan verifiering eller RL är inte optimal
Följ oss @ritualdigest för mer information om allt som rör forskning om krypto x AI och @ritualnet för att lära dig mer om vad Ritual bygger.
5,19K