Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Unabhängige Analyse von KI-Modellen und Hosting-Providern - wählen Sie das beste Modell und den besten API-Anbieter für Ihren Anwendungsfall
DeepSeek startet V3.1 und vereint V3 und R1 in ein hybrides Denkmodell mit einem schrittweisen Anstieg der Intelligenz
Schrittweiser Anstieg der Intelligenz: Erste Benchmarking-Ergebnisse für DeepSeek V3.1 zeigen einen Artificial Analysis Intelligence Index von 60 im Denkmodus, gegenüber einem Wert von 59 für R1. Im Nicht-Denkmodus erreicht V3.1 einen Wert von 49, was einen größeren Anstieg gegenüber dem früheren V3 0324-Wert von 44 darstellt. Damit bleibt V3.1 (Denkmodus) hinter Alibabas neuestem Qwen3 235B 2507 (Denkmodus) zurück - DeepSeek hat die Führung nicht zurückerobert.
Hybrides Denken: @deepseek_ai hat zum ersten Mal ein hybrides Denkmodell eingeführt - das sowohl Denk- als auch Nicht-Denkmodi unterstützt. Der Schritt von DeepSeek zu einem einheitlichen hybriden Denkmodell ahmt den Ansatz von OpenAI, Anthropic und Google nach. Es ist jedoch interessant zu bemerken, dass Alibaba kürzlich ihren hybriden Ansatz, den sie für Qwen3 bevorzugten, mit den separaten Veröffentlichungen von Qwen3 2507 Denk- und Instruktionsmodellen aufgegeben hat.
Funktionsaufrufe / Werkzeugnutzung: Während DeepSeek eine verbesserte Funktionsaufrufunterstützung für das Modell beansprucht, unterstützt DeepSeek V3.1 keine Funktionsaufrufe im Denkmodus. Dies wird wahrscheinlich die Fähigkeit erheblich einschränken, agentische Workflows mit Intelligenzanforderungen zu unterstützen, einschließlich in Codierungsagenten.
Token-Nutzung: DeepSeek V3.1 erzielt im Denkmodus schrittweise höhere Werte als DeepSeek R1 und verwendet in den Bewertungen, die wir für den Artificial Analysis Intelligence Index verwenden, leicht weniger Tokens. Im Nicht-Denkmodus verwendet es leicht mehr Tokens als V3 0324 - aber immer noch mehrere Male weniger als im eigenen Denkmodus.
API: Die First-Party-API von DeepSeek bedient jetzt das neue DeepSeek V3.1-Modell sowohl an ihren Chat- als auch an den Denk-Endpunkten - indem einfach geändert wird, ob das End-Denk-</think>-Token im Chat-Template an das Modell übergeben wird, um zu steuern, ob das Modell denken wird.
Architektur: DeepSeek V3.1 ist architektonisch identisch mit den vorherigen V3- und R1-Modellen, mit insgesamt 671B Parametern und 37B aktiven Parametern.
Implikationen: Wir würden raten, vorsichtig zu sein, wenn es darum geht, Annahmen darüber zu treffen, was diese Veröffentlichung über DeepSeeks Fortschritte in Richtung eines zukünftigen Modells, das in Gerüchten als V4 oder R2 bezeichnet wird, impliziert. Wir stellen fest, dass DeepSeek zuvor das endgültige Modell, das auf ihrer V2-Architektur basierte, am 10. Dezember 2024 veröffentlicht hat, nur zwei Wochen bevor V3 veröffentlicht wurde.


70,48K
Ankündigung der Artificial Analysis Long Context Reasoning (AA-LCR), einem neuen Benchmark zur Bewertung der Leistung bei langen Kontexten durch Testen der Denkfähigkeiten über mehrere lange Dokumente (~100k Tokens)
Der Fokus von AA-LCR liegt darauf, reale Wissensarbeit und Denkaufgaben zu replizieren, die eine kritische Fähigkeit für moderne KI-Anwendungen umfassen, die Dokumentenanalyse, Codeverständnis und komplexe mehrstufige Arbeitsabläufe umfassen.
AA-LCR besteht aus 100 schwierigen textbasierten Fragen, die ein Denken über mehrere reale Dokumente erfordern, die ~100k Eingabetokens repräsentieren. Die Fragen sind so gestaltet, dass die Antworten nicht direkt gefunden werden können, sondern aus mehreren Informationsquellen abgeleitet werden müssen, wobei menschliche Tests bestätigen, dass jede Frage echte Schlussfolgerungen erfordert und nicht nur das Abrufen von Informationen.
Wichtige Erkenntnisse:
➤ Die führenden Modelle von heute erreichen eine Genauigkeit von ~70 %: Die ersten drei Plätze gehen an OpenAI o3 (69 %), xAI Grok 4 (68 %) und Qwen3 235B 2507 Thinking (67 %)
➤👀 Wir haben auch bereits gpt-oss Ergebnisse! 120B schneidet nahe an o4-mini (hoch) ab, im Einklang mit den Behauptungen von OpenAI bezüglich der Modellleistung. Wir werden in Kürze mit einem Intelligence Index für die Modelle nachlegen.
➤ 100 schwierige textbasierte Fragen, die sich über 7 Kategorien von Dokumenten erstrecken (Unternehmensberichte, Branchenberichte, Regierungsberatungen, Akademia, Recht, Marketingmaterialien und Umfrageberichte)
➤ ~100k Tokens Eingabe pro Frage, was erfordert, dass Modelle ein Mindestmaß von 128K Kontextfenster unterstützen, um in diesem Benchmark zu punkten
➤ ~3M insgesamt einzigartige Eingabetokens, die sich über ~230 Dokumente erstrecken, um den Benchmark durchzuführen (Ausgabetokens variieren typischerweise je nach Modell)
➤ Link zum Datensatz auf 🤗 @HuggingFace ist unten
Wir fügen AA-LCR zum Artificial Analysis Intelligence Index hinzu und erhöhen die Versionsnummer auf v2.2. Der Artificial Analysis Intelligence Index v2.2 umfasst jetzt: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode und AA-LCR.
Alle Zahlen sind jetzt auf der Website aktualisiert. Finden Sie heraus, welche Modelle im Artificial Analysis Intelligence Index v2.2 👇

28,72K
Cerebras hat diese Woche seine Fähigkeit demonstriert, große MoEs mit sehr hohen Geschwindigkeiten zu hosten, indem es die Endpunkte Qwen3 235B 2507 und Qwen3 Coder 480B mit >1.500 Ausgabetokens/s gestartet hat.
➤ @CerebrasSystems bietet jetzt Endpunkte für sowohl Qwen3 235B 2507 Reasoning als auch Non-reasoning an. Beide Modelle haben insgesamt 235B Parameter mit 22B aktiv.
➤ Qwen 3 235B 2507 Reasoning bietet eine Intelligenz, die mit o4-mini (hoch) und DeepSeek R1 0528 vergleichbar ist. Die Non-reasoning-Variante bietet eine Intelligenz, die mit Kimi K2 vergleichbar ist und weit über GPT-4.1 und Llama 4 Maverick liegt.
➤ Qwen3 Coder 480B hat insgesamt 480B Parameter mit 35B aktiv. Dieses Modell ist besonders stark für agentisches Codieren und kann in einer Vielzahl von Codierungsagenten-Tools verwendet werden, einschließlich der Qwen3-Coder CLI.
Die Starts von Cerebras stellen das erste Mal dar, dass dieses Niveau an Intelligenz zu diesen Ausgabegeschwindigkeiten zugänglich ist und das Potenzial hat, neue Anwendungsfälle zu erschließen - wie die Verwendung eines Reasoning-Modells für jeden Schritt eines Agenten, ohne Minuten warten zu müssen.

25,2K
🇰🇷 LG hat kürzlich EXAONE 4.0 32B auf den Markt gebracht - es erzielt 62 im Artificial Analysis Intelligence Index, der höchste Wert für ein 32B-Modell bisher.
@LG_AI_Research's EXAONE 4.0 wird in zwei Varianten veröffentlicht: dem 32B Hybrid-Reasoning-Modell, für das wir hier Benchmark-Ergebnisse berichten, und einem kleineren 1,2B-Modell, das für Anwendungen auf Geräten konzipiert ist und das wir noch nicht getestet haben.
Neben der kürzlichen Veröffentlichung von Upstage's Solar Pro 2 ist es spannend zu sehen, wie koreanische KI-Labore sich an die Spitze der Intelligenz-Charts neben den USA und China gesellen.
Wichtige Ergebnisse:
➤ 🧠 EXAONE 4.0 32B (Reasoning): Im Reasoning-Modus erzielt EXAONE 4.0 62 im Artificial Analysis Intelligence Index. Dies entspricht Claude 4 Opus und dem neuen Llama Nemotron Super 49B v1.5 von NVIDIA und liegt nur 1 Punkt hinter Gemini 2.5 Flash.
➤ ⚡ EXAONE 4.0 32B (Non-Reasoning): Im Non-Reasoning-Modus erzielt EXAONE 4.0 51 im Artificial Analysis Intelligence Index. Es entspricht Llama 4 Maverick in der Intelligenz, obwohl es nur ~1/4 der Gesamtparameter hat (aber ~2x die aktiven Parameter).
➤ ⚙️ Ausgabetoken und Wortanzahl: Im Reasoning-Modus verwendete EXAONE 4.0 100M Ausgabetoken für den Artificial Analysis Intelligence Index. Dies ist höher als bei einigen anderen Grenzmodellen, stimmt aber mit den aktuellen Trends überein, dass Reasoning-Modelle mehr Ausgabetoken verwenden, um "mehr nachzudenken" - ähnlich wie Llama Nemotron Super 49B v1.5, Grok 4 und Qwen3 235B 2507 Reasoning. Im Non-Reasoning-Modus verwendete EXAONE 4.0 15M Tokens - hoch für einen Non-Reasoner, aber nicht so hoch wie Kimi K2’s 30M.
Wichtige Details:
➤ Hybrid-Reasoning: Das Modell bietet die Möglichkeit zwischen 'Reasoning'-Modus und 'Non-Reasoning'-Modus zu wählen.
➤ Verfügbarkeit: Derzeit von @friendliai gehostet und wettbewerbsfähig bepreist (insbesondere im Vergleich zu proprietären Optionen) von FriendliAI zu $1 pro 1M Eingabe- und Ausgabetokens.
➤ Offene Gewichte: EXAONE 4.0 ist ein Modell mit offenen Gewichten, das unter der EXAONE AI Model License Agreement 1.2 verfügbar ist. Die Lizenz beschränkt die kommerzielle Nutzung.
➤ Multimodalität: Nur Text-Eingabe und -Ausgabe.
➤ Kontextfenster: 131k Tokens.
➤ Parameter: 32B aktive und Gesamtparameter, verfügbar in 16-Bit- und 8-Bit-Präzision (was bedeutet, dass das Modell auf einem einzelnen H100-Chip in voller Präzision betrieben werden kann).

41,56K
Ankündigung des Leaderboards der Artificial Analysis Music Arena: Mit über 5.000 Stimmen ist Suno v4.5 das führende Musikgenerierungsmodell, gefolgt von Riffusions FUZZ-1.1 Pro.
Googles Lyria 2 belegt den dritten Platz in unserem Instrumental-Leaderboard, und Udios v1.5 Allegro belegt den dritten Platz in unserem Vocals-Leaderboard.
Das Instrumental-Leaderboard sieht wie folgt aus:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Stable Audio 2.0
@metaai MusicGen
Die Rankings basieren auf Community-Stimmen aus einer Vielzahl von Genres und Aufforderungen. Möchten Sie, dass Ihre Aufforderung vorgestellt wird? Sie können heute Aufforderungen in der Arena einreichen.
👇 Siehe unten für das Vocals-Leaderboard und den Link zur Teilnahme!

22,19K
Veränderung der Modellnachfrage 2024 bis 2025: Google (+49 Punkte), DeepSeek (+53 Punkte) und xAI (+31 Punkte) haben im vergangenen Jahr massive Zuwächse beim Nachfrageanteil erzielt
@Google hat sich von einem KI-Nachzügler zu einem KI-Vorreiter entwickelt, mit einem ~2,5-fachen Anstieg des Anteils der Befragten, die die Gemini-Modellreihe nutzen oder in Betracht ziehen. Ein wichtiger Faktor dafür ist, dass Google erhebliche Fortschritte bei der Intelligenz erzielt hat: Gemini 2.5 Pro liegt jetzt auf #3 in unserem Artificial Analysis Intelligence Index, verglichen mit einem deutlichen Rückstand hinter OpenAI und Anthropic Anfang 2024.
@deepseek_ai hatte im ersten Halbjahr 2024 nur DeepSeek 67B auf den Markt gebracht, ein Modell, das nur begrenzt angenommen wurde und hinter dem Llama 3 70B zurückblieb. DeepSeek erlebte erstmals Ende 2024 mit der Veröffentlichung seines V2-Modells eine gewisse Akzeptanz und dann Anfang 2025 mit seinen V3- und R1-Modellen, die das Unternehmen an die Spitze unter den Modellen mit offener Gewichtung gebracht haben.
@xai brachte Mitte des ersten Halbjahres 2024 sein erstes Modell Grok-1 auf den Markt und hat sich seitdem mit aufeinanderfolgenden Veröffentlichungen schnell zur Intelligenzführerschaft bei allen Modellen entwickelt, was letzte Woche in der Einführung von Grok 4 gipfelte.
Quelle: Artificial Analysis AI Adoption Survey H1 2025 (Bericht auf der Website von Artificial Analysis verfügbar)

389,04K
Kimi K2 Anbieter: Groq liefert Kimi K2 mit >400 Ausgabetokens/s, 40X schneller als die First-Party-API von Moonshot.
Herzlichen Glückwunsch an eine Reihe von Anbietern, die schnell APIs für Kimi K2 gestartet haben, darunter @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra und natürlich @Kimi_Moonshot. Das ist beeindruckend, wenn man die Größe des Modells mit insgesamt 1 Billion Parametern betrachtet.
Groq sticht durch seine blitzschnelle Geschwindigkeit hervor. DeepInfra, Novita und Baseten zeichnen sich durch ihre Preisgestaltung aus, da sie die einzigen Anbieter sind, die ähnlich oder günstiger als die First-Party-API von Moonshot anbieten.
Siehe unten für weitere Vergleiche zwischen den Anbietern. Wir erwarten schnelle Geschwindigkeitssteigerungen bei einigen Anbietern, während die Teams für das K2-Modell optimieren - unsere Zahlen unten zeigen die Medianwerte der Geschwindigkeiten der letzten 72 Stunden, aber wir sehen bereits, dass DeepInfra heute auf 62 Tokens/s gestiegen ist.

52,3K
Während Kimi k2 von Moonshot AI das führende offene Modell für nicht-logisches Denken im Artificial Analysis Intelligence Index ist, gibt es ~3x mehr Token aus als andere nicht-logische Modelle, wodurch die Grenzen zwischen logischem und nicht-logischem Denken verschwimmen
Kimi k2 ist das bisher größte große Modell mit offenen Gewichten - 1T Gesamtparameter mit 32B aktiv (dies erfordert massive 1 TB Speicher bei nativer FP8, um die Gewichte zu halten). Wir haben k2 bei 57 im Artificial Analysis Intelligence Index, ein beeindruckender Wert, der ihn über Modellen wie GPT-4.1 und DeepSeek V3 platziert, aber hinter führenden Argumentationsmodellen.
Bisher gab es in unseren Bewertungen eine klare Unterscheidung zwischen Reasoning-Modellen und Nicht-Reasoning-Modellen - definiert nicht nur dadurch, ob das Modell Tags verwendet <reasoning> , sondern in erster Linie durch die Verwendung von Tokens. Die durchschnittliche Anzahl der Token, die zur Beantwortung aller Bewertungen im Artificial Analysis Intelligence Index verwendet werden, ist für Argumentationsmodelle ~10x höher als für Nicht-Argumentationsmodelle.
@Kimi_Moonshot Kimi k2 verwendet ~3x die Anzahl der Token, die das mediane Modell ohne Argumentation verwendet. Die Token-Nutzung ist nur bis zu 30 % niedriger als bei Claude 4 Sonnet und Opus, wenn sie in ihrem maximalen Budget-Extended-Thinking-Modus ausgeführt werden, und ist fast dreimal so hoch wie die Token-Nutzung von Claude 4 Sonnet und Opus bei ausgeschalteter Argumentation.
Wir empfehlen daher, Kimi k2 mit Claude 4 Sonett und Opus in ihren erweiterten Denkmodi mit maximalem Budget zu vergleichen, nicht mit den nicht-logischen Ergebnissen für die Claude 4-Modelle.
Kimi k2 ist sowohl über die First-Party-API von @Kimi_Moonshot als auch über @FireworksAI_HQ, @togethercompute, @novita_labs und @parasail_io verfügbar.
Weitere Analysen 👇 finden Sie unten und unter Künstliche Analyse



60,62K
Die neue Deep Research API von OpenAI kostet bis zu ~30 $ pro API-Aufruf! Diese neuen Deep Research API-Endpunkte könnten die neue, schnellste Möglichkeit sein, Geld auszugeben
Bei unseren 10 gründlichen Testabfragen haben wir 100 US-Dollar für o3 und 9,18 US-Dollar für o4-mini ausgegeben. Wie werden die Kosten so hoch? Hohe Preise und Millionen von Token.
Bei diesen Endpunkten handelt es sich um Versionen von o3 und o4-mini, die für tiefgreifende Forschungsaufgaben mit RL verwendet wurden. Die Verfügbarkeit über die API ermöglicht die Verwendung sowohl mit dem Websuchwerkzeug von OpenAI als auch mit benutzerdefinierten Datenquellen über Remote-MCP-Server.
Die Preise für O4-Mini-Deep-Research sind 5-mal niedriger als die Preise für O3-Deep-Research. In unseren Testabfragen scheint o4-mini auch weniger Token zu verwenden - es war insgesamt über 10x billiger bei unseren 10 Testabfragen.
Auszeichnung:
➤ o3-deep-research kostet 10 $/M Eingabe (2,50 $ zwischengespeicherte Eingabe), 40 $/M Ausgabe
➤ o4-mini-deep-research kostet 2 $ / M Eingabe (0,5 $ zwischengespeicherte Eingabe) und 8 $ / M Ausgabe
Diese Endpunkte sind beide wesentlich teurer als die Standard-Endpunkte o3 und o4-mini von OpenAI - diese liegen bei:
➤ o3: $2 /M ($0,5 zwischengespeichert) Eingang, $8 /M Ausgang für o3
➤ o4-mini: 1,1 $ /M (0,275 zwischengespeichert) Eingang, 4,4 $ /M Ausgang

37,34K
Top
Ranking
Favoriten
Onchain-Trends
Im Trend auf X
Aktuelle Top-Finanzierungen
Am bemerkenswertesten