Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analiza independentă a modelelor AI și a furnizorilor de găzduire - alegeți cel mai bun model și furnizor API pentru cazul dvs.
DeepSeek lansează V3.1, unificând V3 și R1 într-un model de raționament hibrid cu o creștere incrementală a inteligenței
Creșterea incrementală a inteligenței: Rezultatele inițiale ale benchmarking-ului pentru DeepSeek V3.1 arată un indice de inteligență de analiză artificială de 60 în modul de raționament, în creștere de la scorul R1 de 59. În modul non-raționament, V3.1 obține un scor de 49, o creștere mai mare față de scorul anterior V3 0324 de 44. Acest lucru lasă V3.1 (raționament) în spatele celui mai recent Qwen3 235B 2507 (raționament) al Alibaba - DeepSeek nu a preluat conducerea.
Raționament hibrid: @deepseek_ai trecut pentru prima dată la un model de raționament hibrid - acceptând atât modurile de raționament, cât și cele de non-raționament. Trecerea DeepSeek la un model de raționament hibrid unificat imită abordarea adoptată de OpenAI, Anthropic și Google. Este interesant de remarcat, totuși, că Alibaba a abandonat recent abordarea hibridă pe care o preferau pentru Qwen3 cu lansările lor separate ale modelelor Qwen3 2507 de raționament și instruire.
Apelarea funcției / utilizarea instrumentului: În timp ce DeepSeek pretinde că a îmbunătățit apelarea funcției pentru model, DeepSeek V3.1 nu acceptă apelarea funcției atunci când este în modul de raționament. Acest lucru este probabil să limiteze substanțial capacitatea sa de a susține fluxurile de lucru agentice cu cerințe de informații, inclusiv în agenții de codificare.
Utilizarea token-urilor: DeepSeek V3.1 are un scor incremental mai mare în modul de raționament decât DeepSeek R1 și folosește puțin mai puține token-uri în evaluările pe care le folosim pentru Artificial Analysis Intelligence Index. În modul non-raționament, folosește puțin mai multe jetoane decât V3 0324 - dar totuși de câteva ori mai puține decât în propriul său mod de raționament.
API: API-ul primar al DeepSeek servește acum noul model DeepSeek V3.1 atât pe chat, cât și pe endpoint-urile de raționament - pur și simplu schimbând dacă tokenul de gândire finală </think> este furnizat modelului în șablonul de chat pentru a controla dacă modelul va raționa.
Arhitectură: DeepSeek V3.1 este identic din punct de vedere arhitectural cu modelele anterioare V3 și R1, cu 671 miliarde de parametri totali și 37 miliarde de parametri activi.
Implicații: Vă sfătuim să fiți precauți atunci când faceți presupuneri despre ceea ce implică această versiune despre progresul DeepSeek către un model viitor denumit în zvonuri V4 sau R2. Observăm că DeepSeek a lansat anterior modelul final construit pe arhitectura lor V2 pe 10 decembrie 2024, cu doar două săptămâni înainte de lansarea V3.


70,48K
Anunțarea Artificial Analysis Long Context Reasoning (AA-LCR), un nou benchmark pentru evaluarea performanței contextului lung prin testarea capacităților de raționament pe mai multe documente lungi (~100k token-uri)
Obiectivul AA-LCR este de a replica sarcinile reale de cunoștințe și raționament, testarea capabilităților critice pentru aplicațiile AI moderne, care acoperă analiza documentelor, înțelegerea bazei de cod și fluxurile de lucru complexe în mai mulți pași.
AA-LCR este format din 100 de întrebări bazate pe text care necesită raționament pe mai multe documente din lumea reală care reprezintă ~100k de jetoane de intrare. Întrebările sunt concepute astfel încât răspunsurile să nu poată fi găsite direct, ci trebuie să fie argumentate din mai multe surse de informații, testarea umană verificând că fiecare întrebare necesită o inferență autentică, mai degrabă decât o recuperare.
Principalele concluzii:
➤ Modelele de top de astăzi ating o precizie de ~70%: primele trei locuri merg la OpenAI o3 (69%), xAI Grok 4 (68%) și Qwen3 235B 2507 Thinking (67%)
➤ 👀 De asemenea, avem deja rezultate gpt-oss! 120B are performanțe apropiate de o4-mini (ridicat), în conformitate cu afirmațiile OpenAI privind performanța modelului. Vom continua în curând cu un indice de inteligență pentru modele.
➤ 100 de întrebări bazate pe text care acoperă 7 categorii de documente (rapoarte de companie, rapoarte industriale, consultări guvernamentale, mediul academic, juridic, materiale de marketing și rapoarte de sondaj)
➤ ~100k jetoane de intrare pe întrebare, necesitând modelelor să accepte o fereastră de context de minim 128K pentru a obține un scor la acest benchmark
➤ ~ 3 milioane de jetoane de intrare unice în total care se întind pe ~230 de documente pentru a rula benchmark-ul (jetoanele de ieșire variază de obicei în funcție de model)
➤ Link către setul de date de pe 🤗 @HuggingFace este mai jos
Adăugăm AA-LCR la Indexul de inteligență de analiză artificială și ducem numărul versiunii la v2.2. Artificial Analysis Intelligence Index v2.2 include acum: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode și AA-LCR.
Toate numerele sunt actualizate pe site acum. Aflați ce modele Indicele de inteligență de analiză artificială v2.2 👇

28,72K
Cerebras și-a demonstrat capacitatea de a găzdui MoE mari la viteze foarte mari săptămâna aceasta, lansând punctele finale Qwen3 235B 2507 și Qwen3 Coder 480B la >1.500 de jetoane/s de ieșire
➤ @CerebrasSystems oferă acum puncte finale atât pentru Qwen3, 235B, 2507 Raționament, cât și pentru Non-raționament. Ambele modele au parametri totali de 235B cu 22B activi.
➤ Qwen 3 235B 2507 Raționamentul oferă o inteligență comparabilă cu o4-mini (ridicat) și DeepSeek R1 0528. Varianta non-rațională oferă o inteligență comparabilă cu Kimi K2 și cu mult peste GPT-4.1 și Llama 4 Maverick.
➤ Qwen3 Coder 480B are 480B parametri totali cu 35B activi. Acest model este deosebit de puternic pentru codificarea agentică și poate fi utilizat într-o varietate de instrumente de agent de codare, inclusiv Qwen3-Coder CLI.
Lansările Cerebras reprezintă prima dată când acest nivel de inteligență a fost accesibil la aceste viteze de ieșire și au potențialul de a debloca noi cazuri de utilizare - cum ar fi utilizarea unui model de raționament pentru fiecare pas al unui agent fără a fi nevoie să aștepte minute.

25,2K
🇰🇷 LG a lansat recent EXAONE 4.0 32B - are un scor de 62 la Artificial Analysis Intelligence Index, cel mai mare scor pentru un model 32B de până acum
EXAONE 4.0 de la @LG_AI_Research este lansat în două variante: modelul de raționament hibrid 32B pentru care raportăm rezultatele benchmarking-ului aici și un model mai mic 1.2B conceput pentru aplicații pe dispozitiv pe care nu le-am evaluat încă.
Alături de recenta lansare Solar Pro 2 a Upstage, este interesant să vedem laboratoarele coreene de inteligență artificială alăturându-se SUA și China în fruntea clasamentelor de informații.
Rezultate cheie:
➤ 🧠 EXAONE 4.0 32B (Raționament): În modul de raționament, EXAONE 4.0 are un scor de 62 la Indicele de inteligență de analiză artificială. Acesta se potrivește cu Claude 4 Opus și noul Llama Nemotron Super 49B v1.5 de la NVIDIA și se află la doar 1 punct în spatele Gemini 2.5 Flash
➤ ⚡ EXAONE 4.0 32B (Non-Reasoning): În modul non-raționament, EXAONE 4.0 obține un scor de 51 în Indicele de Inteligență de Analiză Artificială. Se potrivește cu Llama 4 Maverick în ceea ce privește inteligența, în ciuda faptului că are doar ~1/4 din parametrii totali (deși are ~2x parametrii activi)
➤ ⚙️ Jetoane de ieșire și detalii: În modul raționament, EXAONE 4.0 a folosit 100 de milioane de jetoane de ieșire pentru Indicele de inteligență de analiză artificială. Acest lucru este mai mare decât alte modele de frontieră, dar se aliniază cu tendințele recente ale modelelor de raționament care folosesc mai multe jetoane de ieșire pentru a "gândi mai mult" - similar cu Llama Nemotron Super 49B v1.5, Grok 4 și Qwen3 235B 2507 Reasoning. În modul non-raționament, EXAONE 4.0 a folosit 15 milioane de jetoane - mare pentru un non-raționament, dar nu la fel de mare ca 30 de milioane de dolari al lui Kimi K2.
Detalii cheie:
➤ Raționament hibrid: Modelul oferă opțional între modul "raționament" și modul "non-raționament"
➤ Disponibilitate: Găzduit de @friendliai în prezent și la prețuri competitive (mai ales în comparație cu opțiunile proprietare) de FriendliAI la 1 USD per 1 milion de jetoane de intrare și ieșire
➤ Greutăți deschise: EXAONE 4.0 este un model de greutăți deschise disponibil în conformitate cu Acordul de licență pentru modelul EXAONE AI 1.2. Licența limitează utilizarea comercială.
➤ Multimodalitate: intrare și ieșire numai text
➤ Fereastra de context: 131k jetoane
➤ Parametri: 32B parametri activi și totali, disponibili cu precizie de 16 biți și 8 biți (înseamnă că modelul poate fi rulat pe un singur cip H100 cu precizie deplină)

41,56K
Anunțarea clasamentului Artificial Analysis Music Arena: cu >5k voturi, Suno v4.5 este cel mai important model de generare a muzicii, urmat de FUZZ-1.1 Pro de la Riffusion.
Lyria 2 de la Google ocupă locul al treilea în clasamentul nostru Instrumental, iar Allegro v1.5 de la Udio ocupă locul al treilea în clasamentul nostru Voce.
Clasamentul instrumental este următorul:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Audio stabil 2.0
@metaai MusicGen
Clasamentele se bazează pe voturile comunității într-o gamă diversă de genuri și solicitări. Vrei să vezi mesajul tău prezentat? Puteți trimite solicitări în arenă astăzi.
👇 Vezi mai jos clasamentul vocal și linkul pentru a participa!

22,19K
Schimbarea cererii de model 2024 până în 2025: Google (+49 puncte), DeepSeek (+53 puncte) și xAI (+31 puncte) au obținut câștiguri masive în cota cererii în ultimul an
@Google a trecut de la a fi un întârziat AI la un lider AI, cu o creștere de ~2,5 ori a proporției de respondenți care folosesc sau iau în considerare seria de modele Gemini. Gemini 2.5 Pro se află acum pe locul #3 în indicele nostru de inteligență de analiză artificială, comparativ cu rămânerea semnificativă în urma OpenAI și Anthropic la începutul anului 2024.
@deepseek_ai în S1 2024 au lansat doar DeepSeek 67B, un model care a avut o adoptare limitată și a avut performanțe slabe pentru Llama 3 70B. DeepSeek a cunoscut pentru prima dată o oarecare adoptare la sfârșitul anului 2024 odată cu lansarea modelului lor V2, apoi a cunoscut o adoptare rapidă la începutul anului 2025 cu modelele lor V3 și R1 care i-au dus la conducerea modelelor cu greutăți deschise.
@xai lansat primul său model Grok-1 la mijlocul primului semestru al anului 2024 și de atunci a urcat rapid la conducerea serviciilor de informații pentru toate modelele cu lansări succesive, culminând cu lansarea de săptămâna trecută a Grok 4.
Sursa: Sondaj de adoptare a IA de analiză artificială H1 2025 (raport disponibil pe site-ul web Analiza artificială)

389,04K
Furnizori Kimi K2: Groq servește Kimi K2 la >400 de jetoane de ieșire/s, de 40 de ori mai rapid decât API-ul primar al Moonshot
Felicitări unui număr de furnizori pentru lansarea rapidă a API-urilor pentru Kimi K2, inclusiv @GroqInc , @basetenco , @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra și, bineînțeles, @Kimi_Moonshot. Acest lucru este impresionant având în vedere dimensiunea modelului la 1 trilion de parametri totali.
Groq se remarcă prin viteza fulgerătoare. DeepInfra, Novita și Baseten se remarcă prin prețurile lor, fiind singurii furnizori cu prețuri similare sau mai ieftine decât API-ul primar al Moonshot.
Vedeți mai jos pentru comparații suplimentare între furnizori. Ne așteptăm la creșteri rapide ale vitezei la unii furnizori, pe măsură ce echipele optimizează pentru modelul K2 - cifrele noastre de mai jos arată viteze medii în ultimele 72 de ore, dar vedem deja că DeepInfra a crescut până la 62 de token/s în măsurătorile de astăzi

52,3K
În timp ce Kimi k2 de la Moonshot AI este cel mai important model non-rațional cu ponderi deschise din Artificial Analysis Intelligence Index, produce de ~ 3 ori mai multe jetoane decât alte modele non-raționale, estompând granițele dintre raționament și non-raționament
Kimi k2 este cel mai mare model major de greutăți deschise de până acum - parametri totali de 1T cu 32B activi (acest lucru necesită o memorie masivă de 1TB la FP8 nativ pentru a menține greutățile). Avem k2 la 57 în Artificial Analysis Intelligence Index, un scor impresionant care îl plasează deasupra modelelor precum GPT-4.1 și DeepSeek V3, dar în spatele modelelor de raționament de top.
Până acum, a existat o distincție clară între modelul de raționament și modelele non-raționale în evaluările noastre - definită nu numai de faptul că modelul folosește <reasoning> etichete, ci în primul rând de utilizarea token-urilor. Numărul mediu de token-uri utilizate pentru a răspunde la toate evaluările din Artificial Analysis Intelligence Index este de ~ 10 ori mai mare pentru modelele de raționament decât pentru modelele non-raționale.
Kimi k2 al lui @Kimi_Moonshot folosește ~ 3 ori numărul de jetoane pe care îl folosește modelul median non-rațional. Utilizarea jetoanelor sale este doar cu până la 30% mai mică decât Claude 4 Sonnet și Opus atunci când rulează în modul lor de gândire extinsă cu buget maxim și este aproape triplă față de utilizarea jetoanelor Claude 4 Sonnet și Opus cu raționamentul dezactivat.
Prin urmare, recomandăm ca Kimi k2 să fie comparat cu Claude 4 Sonnet și Opus în modurile lor de gândire extinse cu buget maxim, nu cu scorurile non-raționale pentru modelele Claude 4.
Kimi k2 este disponibil pe API-ul primar al @Kimi_Moonshot, precum și pe @FireworksAI_HQ, @togethercompute, @novita_labs și @parasail_io.
Vezi mai jos și pe Analiza artificială pentru analize 👇 ulterioare



60,62K
Noul API Deep Research de la OpenAI costă până la ~ 30 USD per apel API! Aceste noi puncte finale ale API-ului Deep Research ar putea fi cel mai rapid mod de a cheltui bani
În cele 10 interogări de testare de cercetare aprofundată, am cheltuit 100 USD pe o3 și 9,18 USD pe o4-mini. Cum devin costurile atât de mari? Prețuri mari și milioane de jetoane.
Aceste puncte finale sunt versiuni de o3 și o4-mini care au fost RL pentru sarcini de cercetare profundă. Disponibilitatea prin API le permite să fie utilizate atât cu instrumentul de căutare web OpenAI, cât și cu surse de date personalizate prin servere MCP la distanță.
Prețul O4-Mini-Deep-Research este de 5 ori mai mic decât prețul O3-Deep-Research. În interogările noastre de testare, o4-mini pare să folosească mai puține jetoane - a venit de peste 10 ori mai ieftin în total în cele 10 interogări de testare.
Preţuri:
➤ o3-deep-research are un preț de 10 USD/M intrare (2,50 USD intrare cache), 40 USD/M ieșire
➤ o4-mini-deep-research are un preț de 2 USD/M intrare (0,5 USD intrare cache), 8 USD/M ieșire
Aceste puncte finale sunt ambele substanțial mai scumpe decât punctele finale standard o3 și o4-mini de la OpenAI - acestea sunt la:
➤ o3: intrare de 2 USD/M (0,5 USD în cache), ieșire de 8 USD/M pentru o3
➤ o4-mini: intrare de 1,1 USD/M (0,275 în cache), ieșire de 4,4 USD/M

37,34K
Limită superioară
Clasament
Favorite
La modă pe lanț
La modă pe X
Principalele finanțări recente
Cele mai importante