Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Onafhankelijke analyse van AI-modellen en hostingproviders - kies het beste model en de beste API-provider voor uw use-case
DeepSeek lanceert V3.1, die V3 en R1 verenigt in een hybride redeneermodel met een incrementele toename in intelligentie
Incrementele toename in intelligentie: De eerste benchmarkresultaten voor DeepSeek V3.1 tonen een Artificial Analysis Intelligence Index van 60 in redeneermodus, een stijging ten opzichte van de score van 59 van R1. In niet-redeneermodus behaalt V3.1 een score van 49, een grotere stijging ten opzichte van de eerdere V3 0324 score van 44. Dit laat V3.1 (redenerend) achter bij Alibaba's nieuwste Qwen3 235B 2507 (redenerend) - DeepSeek heeft de leiding niet teruggenomen.
Hybride redenering: @deepseek_ai is voor het eerst overgestapt op een hybride redeneermodel - dat zowel redenerende als niet-redenerende modi ondersteunt. DeepSeek's overstap naar een verenigd hybride redeneermodel imiteert de aanpak van OpenAI, Anthropic en Google. Het is echter interessant op te merken dat Alibaba onlangs hun hybride aanpak, die ze voor Qwen3 favoriseerden, heeft verlaten met hun aparte releases van Qwen3 2507 redenerings- en instructiemodellen.
Functieaanroep / toolgebruik: Hoewel DeepSeek verbeterde functieaanroepen voor het model claimt, ondersteunt DeepSeek V3.1 geen functieaanroepen in redeneermodus. Dit zal waarschijnlijk de mogelijkheid om agentische workflows met intelligentie-eisen te ondersteunen, aanzienlijk beperken, inclusief in coderingsagenten.
Tokengebruik: DeepSeek V3.1 scoort incrementeel hoger in redeneermodus dan DeepSeek R1, en gebruikt iets minder tokens in de evaluaties die we gebruiken voor de Artificial Analysis Intelligence Index. In niet-redeneermodus gebruikt het iets meer tokens dan V3 0324 - maar nog steeds meerdere keren minder dan in zijn eigen redeneermodus.
API: DeepSeek's eerste partij API bedient nu het nieuwe DeepSeek V3.1 model op zowel hun chat- als redeneereindpunten - simpelweg door te veranderen of de einddenkende </think> token aan het model in de chattemplate wordt gegeven om te controleren of het model zal redeneren.
Architectuur: DeepSeek V3.1 is architectonisch identiek aan de eerdere V3 en R1 modellen, met 671B totale parameters en 37B actieve parameters.
Gevolgen: We zouden voorzichtig zijn met het maken van aannames over wat deze release impliceert over DeepSeek's vooruitgang naar een toekomstig model dat in geruchten V4 of R2 wordt genoemd. We merken op dat DeepSeek eerder het laatste model dat is gebouwd op hun V2-architectuur op 10 december 2024 heeft vrijgegeven, slechts twee weken voordat ze V3 uitbrachten.


70,78K
Aankondiging van Artificial Analysis Long Context Reasoning (AA-LCR), een nieuwe benchmark om de prestaties op lange context te evalueren door de redeneervaardigheden te testen over meerdere lange documenten (~100k tokens)
De focus van AA-LCR is om echt kenniswerk en redeneeropdrachten te repliceren, waarbij de capaciteit wordt getest die cruciaal is voor moderne AI-toepassingen die documentanalyse, codebase-begrip en complexe multi-stap workflows bestrijken.
AA-LCR bestaat uit 100 moeilijke tekstgebaseerde vragen die redeneervaardigheden vereisen over meerdere echte documenten die ~100k invoertokens vertegenwoordigen. Vragen zijn zo ontworpen dat antwoorden niet direct kunnen worden gevonden, maar moeten worden afgeleid uit meerdere informatiebronnen, waarbij menselijke tests verifiëren dat elke vraag echte inferentie vereist in plaats van retrieval.
Belangrijke punten:
➤ De huidige toonaangevende modellen behalen ~70% nauwkeurigheid: de top drie plaatsen gaan naar OpenAI o3 (69%), xAI Grok 4 (68%) en Qwen3 235B 2507 Thinking (67%)
➤👀 We hebben ook al gpt-oss resultaten! 120B presteert dicht bij o4-mini (hoog), in lijn met de claims van OpenAI over modelprestaties. We zullen binnenkort een Intelligence Index voor de modellen volgen.
➤ 100 moeilijke tekstgebaseerde vragen die 7 categorieën van documenten bestrijken (Bedrijfsrapporten, Sectorrapporten, Overheidsconsultaties, Academisch, Juridisch, Marketingmateriaal en Enquêteverslagen)
➤ ~100k tokens invoer per vraag, waarbij modellen een minimum van 128K contextvenster moeten ondersteunen om op deze benchmark te scoren
➤ ~3M totale unieke invoertokens die ~230 documenten beslaan om de benchmark uit te voeren (uitvoertokens variëren doorgaans per model)
➤ Link naar dataset op 🤗 @HuggingFace is hieronder
We voegen AA-LCR toe aan de Artificial Analysis Intelligence Index en verhogen het versienummer naar v2.2. Artificial Analysis Intelligence Index v2.2 omvat nu: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode en AA-LCR.
Alle cijfers zijn nu bijgewerkt op de site. Ontdek welke modellen de Artificial Analysis Intelligence Index v2.2 👇

28,72K
Cerebras heeft deze week zijn vermogen gedemonstreerd om grote MoE's met zeer hoge snelheden te hosten, met de lancering van Qwen3 235B 2507 en Qwen3 Coder 480B eindpunten met >1.500 output tokens/s
➤ @CerebrasSystems biedt nu eindpunten voor zowel Qwen3 235B 2507 Redeneren & Niet-redeneren. Beide modellen hebben 235B totale parameters met 22B actief.
➤ Qwen 3 235B 2507 Redeneren biedt intelligentie vergelijkbaar met o4-mini (hoog) & DeepSeek R1 0528. De Niet-redeneren variant biedt intelligentie vergelijkbaar met Kimi K2 en ver boven GPT-4.1 en Llama 4 Maverick.
➤ Qwen3 Coder 480B heeft 480B totale parameters met 35B actief. Dit model is bijzonder sterk voor agentic coding en kan worden gebruikt in een verscheidenheid aan coding agent tools, waaronder de Qwen3-Coder CLI.
De lanceringen van Cerebras vertegenwoordigen de eerste keer dat dit niveau van intelligentie toegankelijk is geweest bij deze output snelheden en hebben het potentieel om nieuwe gebruikstoepassingen te ontgrendelen - zoals het gebruik van een redeneringsmodel voor elke stap van een agent zonder minuten te hoeven wachten.

25,2K
🇰🇷 LG heeft onlangs de EXAONE 4.0 32B gelanceerd - het scoort 62 op de Artificial Analysis Intelligence Index, de hoogste score tot nu toe voor een 32B-model.
@LG_AI_Research's EXAONE 4.0 is uitgebracht in twee varianten: het 32B hybride redeneermodel waar we hier benchmarkingresultaten voor rapporteren, en een kleiner 1.2B-model dat is ontworpen voor toepassingen op apparaten en dat we nog niet hebben gebenchmarkt.
Naast de recente release van Upstage's Solar Pro 2 is het spannend om te zien dat Koreaanse AI-laboratoria zich bij de VS en China voegen aan de top van de intelligentie-lijsten.
Belangrijke resultaten:
➤ 🧠 EXAONE 4.0 32B (Redeneren): In de redeneerstand scoort EXAONE 4.0 62 op de Artificial Analysis Intelligence Index. Dit komt overeen met Claude 4 Opus en de nieuwe Llama Nemotron Super 49B v1.5 van NVIDIA, en staat slechts 1 punt achter Gemini 2.5 Flash.
➤ ⚡ EXAONE 4.0 32B (Niet-Redeneren): In de niet-redeneerstand scoort EXAONE 4.0 51 op de Artificial Analysis Intelligence Index. Het komt overeen met Llama 4 Maverick in intelligentie, ondanks dat het slechts ~1/4 van het totale aantal parameters heeft (hoewel het ~2x het actieve aantal parameters heeft).
➤ ⚙️ Outputtokens en volledigheid: In de redeneerstand gebruikte EXAONE 4.0 100M outputtokens voor de Artificial Analysis Intelligence Index. Dit is hoger dan sommige andere grensmodellen, maar komt overeen met recente trends waarbij redeneermodellen meer outputtokens gebruiken om 'meer na te denken' - vergelijkbaar met Llama Nemotron Super 49B v1.5, Grok 4 en Qwen3 235B 2507 Redeneren. In de niet-redeneerstand gebruikte EXAONE 4.0 15M tokens - hoog voor een niet-redeneerder, maar niet zo hoog als Kimi K2’s 30M.
Belangrijke details:
➤ Hybride redeneren: Het model biedt de mogelijkheid om te kiezen tussen 'redeneren' modus en 'niet-redeneren' modus.
➤ Beschikbaarheid: Momenteel gehost door @friendliai, en competitief geprijsd (vooral vergeleken met propriëtaire opties) door FriendliAI voor $1 per 1M input- en outputtokens.
➤ Open gewichten: EXAONE 4.0 is een model met open gewichten beschikbaar onder de EXAONE AI Model License Agreement 1.2. De licentie beperkt commercieel gebruik.
➤ Multimodaliteit: Alleen tekstinvoer en -uitvoer.
➤ Contextvenster: 131k tokens.
➤ Parameters: 32B actieve en totale parameters, beschikbaar in 16bit en 8bit precisie (dit betekent dat het model kan worden uitgevoerd op een enkele H100-chip in volledige precisie).

41,57K
Aankondiging van de Artificial Analysis Music Arena Ranglijst: met >5k stemmen is Suno v4.5 het leidende Music Generation model, gevolgd door Riffusion’s FUZZ-1.1 Pro.
Google’s Lyria 2 staat derde in onze Instrumental ranglijst, en Udio’s v1.5 Allegro staat derde in onze Vocals ranglijst.
De Instrumental Ranglijst is als volgt:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Stable Audio 2.0
@metaai MusicGen
De ranglijsten zijn gebaseerd op stemmen van de gemeenschap over een diverse reeks genres en prompts. Wil je jouw prompt zien verschijnen? Je kunt vandaag prompts indienen in de arena.
👇 Zie hieronder de Vocals Ranglijst en de link om deel te nemen!

22,19K
Verandering van de modelvraag 2024 tot 2025: Google (+49ptn), DeepSeek (+53ptn) en xAI (+31ptn) hebben het afgelopen jaar een enorme toename van het vraagaandeel behaald
@Google is overgestapt van een AI-achterblijver naar een AI-leider met een ~2,5x toename van het aantal respondenten dat de Gemini-modelserie gebruikt of overweegt. Een belangrijke drijfveer hiervoor is dat Google aanzienlijke vooruitgang boekt op het gebied van intelligentie: Gemini 2.5 Pro staat nu op #3 in onze Artificial Analysis Intelligence Index, vergeleken met een aanzienlijke achterstand op OpenAI en Anthropic begin 2024.
@deepseek_ai in H1 2024 had alleen DeepSeek 67B uitgebracht, een model dat in beperkte mate werd gebruikt en ondermaats presteerde Llama 3 70B. DeepSeek zag eind 2024 voor het eerst enige acceptatie met de releases van hun V2-model, en zag vervolgens begin 2025 een snelle acceptatie met hun V3- en R1-modellen die hen naar leiderschap hebben gebracht onder de modellen met open gewichten.
@xai bracht medio H1 2024 zijn eerste model Grok-1 uit en is sindsdien snel opgeklommen tot inlichtingenleiderschap in alle modellen met opeenvolgende releases, met als hoogtepunt de lancering van Grok 4 vorige week.
Bron: Artificial Analysis AI Adoption Survey H1 2025 (rapport beschikbaar op de website van Artificial Analysis)

389,04K
Kimi K2 Providers: Groq levert Kimi K2 met >400 output tokens/s, 40X sneller dan de first-party API van Moonshot.
Gefeliciteerd aan een aantal providers die snel API's voor Kimi K2 hebben gelanceerd, waaronder @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra, en natuurlijk @Kimi_Moonshot. Dit is indrukwekkend gezien de grootte van het model met 1 triljoen totale parameters.
Groq valt op door zijn razendsnelle snelheid. DeepInfra, Novita en Baseten vallen op door hun prijsstelling, aangezien zij de enige providers zijn die vergelijkbaar of goedkoper prijzen dan de first-party API van Moonshot.
Zie hieronder voor verdere vergelijkingen tussen de providers. We verwachten snelle stijgingen in snelheid bij sommige providers naarmate teams optimaliseren voor het K2-model - onze cijfers hieronder tonen mediane snelheden over de afgelopen 72 uur, maar we zien al dat DeepInfra vandaag is gestegen naar 62 tokens/s in de metingen.

52,31K
Hoewel Kimi k2 van Moonshot AI het toonaangevende niet-redenerende model met open gewichten is in de Artificial Analysis Intelligence Index, levert het ~3x meer tokens op dan andere niet-redenerende modellen, waardoor de grenzen tussen redeneren en niet-redeneren vervagen
Kimi k2 is het grootste grote open gewichten model tot nu toe - 1T totale parameters met 32B actief (dit vereist een enorme 1TB geheugen op native FP8 om de gewichten te houden). We hebben k2 op 57 in Artificial Analysis Intelligence Index, een indrukwekkende score die het boven modellen als GPT-4.1 en DeepSeek V3 plaatst, maar achter toonaangevende redeneermodellen.
Tot nu toe was er een duidelijk onderscheid tussen redeneermodellen en niet-redenerende modellen in onze evals - niet alleen gedefinieerd door of het model tags gebruikt <reasoning> , maar vooral door het gebruik van tokens. Het mediane aantal tokens dat wordt gebruikt om alle evals in de Artificial Analysis Intelligence Index te beantwoorden, is ~10x hoger voor redeneermodellen dan voor niet-redenerende modellen.
@Kimi_Moonshot's Kimi k2 gebruikt ~3x het aantal tokens dat het mediane niet-redenerende model gebruikt. Het tokengebruik is slechts tot 30% lager dan dat van Claude 4 Sonnet en Opus wanneer ze worden uitgevoerd in hun uitgebreide denkmodus voor maximaal budget, en is bijna driemaal zo groot als het tokengebruik van zowel Claude 4 Sonnet als Opus met redeneren uitgeschakeld.
We raden daarom aan om Kimi k2 te vergelijken met Claude 4 Sonnet en Opus in hun uitgebreide denkmodi met een maximaal budget, niet met de niet-redenerende scores voor de Claude 4-modellen.
Kimi k2 is beschikbaar op de first-party API van @Kimi_Moonshot, evenals op @FireworksAI_HQ, @togethercompute, @novita_labs en @parasail_io.
Zie hieronder en over kunstmatige analyse voor verdere analyse 👇



60,63K
De nieuwe Deep Research API van OpenAI kost tot ~$30 per API-aanroep! Deze nieuwe Deep Research API-eindpunten zijn misschien wel de nieuwe snelste manier om geld uit te geven
In onze 10 diepgaande onderzoekstestvragen hebben we $ 100 uitgegeven aan o3 en $ 9.18 aan o4-mini. Hoe worden de kosten zo hoog? Hoge prijzen en miljoenen tokens.
Deze eindpunten zijn versies van o3 en o4-mini die zijn RL'd voor diepgaande onderzoekstaken. Beschikbaarheid via API maakt het mogelijk om ze te gebruiken met zowel de webzoekfunctie van OpenAI als aangepaste gegevensbronnen via externe MCP-servers.
De prijzen van O4-Mini-Deep-Research zijn 5x lager dan de prijzen van O3-Deep-Research. In onze testquery's lijkt o4-mini ook minder tokens te gebruiken - het kwam in totaal meer dan 10x goedkoper binnen in onze 10 testquery's.
Prijzen:
➤ O3-deep-Research kost $ 10 /M input ($ 2.50 invoer in cache), $ 40 /M output
➤ o4-mini-deep-research kost $ 2 /M invoer ($ 0.5 invoer in cache), $ 8 /M uitvoer
Deze eindpunten zijn beide aanzienlijk duurder dan de standaard o3- en o4-mini-eindpunten van OpenAI - die zijn op:
➤ o3: $2 /M ($0,5 in cache) invoer, $8 /M uitvoer voor o3
➤ o4-mini: $ 1,1 /M (0,275 in cache) invoer, $ 4,4 /M uitvoer

37,34K
Boven
Positie
Favorieten
Populair op onchain
Populair op X
Recente topfinanciering
Belangrijkste