Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Незалежний аналіз моделей штучного інтелекту та хостинг-провайдерів - виберіть найкращу модель та API провайдера для вашого випадку використання
Анонс Artificial Analysis Long Context Reasoning (AA-LCR), нового тесту для оцінки продуктивності тривалого контексту шляхом тестування можливостей міркування на кількох довгих документах (~100 тис. токенів)
Основна увага AA-LCR зосереджена на відтворенні реальних завдань із знаннями та міркуванням, можливостях тестування, критично важливих для сучасних додатків штучного інтелекту, що охоплюють аналіз документів, розуміння кодової бази та складні багатоетапні робочі процеси.
AA-LCR — це 100 складних текстових запитань, які вимагають обґрунтування в кількох реальних документах, які представляють ~100 тисяч вхідних токенів. Запитання розроблені таким чином, що відповіді не можуть бути знайдені безпосередньо, а мають бути аргументовані з кількох джерел інформації, а тестування на людях перевіряє, що кожне запитання вимагає справжнього висновку, а не пошуку.
Ключові моменти:
➤ Провідні моделі сьогодні досягають точності ~70%: перші три місця займають OpenAI o3 (69%), xAI Grok 4 (68%) та Qwen3 235B 2507 Thinking (67%)
👀 ➤ У нас також вже є результати gpt-oss! 120B працює близько до o4-mini (високий), що відповідає заявам OpenAI щодо продуктивності моделі. Незабаром ми представимо Індекс інтелекту для моделей.
➤ 100 складних текстових запитань, що охоплюють 7 категорій документів (звіти компаній, галузеві звіти, урядові консультації, наукові кола, юридичні, маркетингові матеріали та звіти про опитування)
➤ ~100 тисяч токенів вхідних даних на запитання, що вимагає, щоб моделі підтримували мінімум 128 тисяч контекстного вікна, щоб отримати оцінку за цим тестом
➤ ~3M унікальних вхідних токенів, що охоплюють ~230 документів для запуску тесту (вихідні токени зазвичай варіюються залежно від моделі)
➤ Посилання на набір даних про 🤗 @HuggingFace нижче
Ми додаємо AA-LCR до Індексу штучного аналізу інтелекту та переносимо номер версії до версії 2.2. Індекс штучного аналізу інтелекту v2.2 тепер включає: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode та AA-LCR.
Зараз на сайті оновлюються всі цифри. Дізнайтеся, які моделі Artificial Analysis Intelligence Index v2.2 👇

28,53K
Цього тижня Cerebras продемонструвала свою здатність розміщувати великі MoEs на дуже високих швидкостях, запустивши кінцеві точки Qwen3 235B 2507 та Qwen3 Coder 480B зі швидкістю >1 500 вихідних токенів/с
➤ @CerebrasSystems тепер пропонує кінцеві точки для міркувань і неміркувань Qwen3 235B 2507. Обидві моделі мають загальні параметри 235В при 22В активних.
➤ Qwen 3 235B 2507 Reasoning пропонує інтелект, який можна порівняти з o4-mini (високий) і DeepSeek R1 0528. Варіант Non-reasoning пропонує інтелект, який можна порівняти з Kimi K2 і значно перевищує GPT-4.1 і Llama 4 Maverick.
➤ Qwen3 Coder 480B має загальні параметри 480B при 35B активних. Ця модель особливо потужна для агентного кодування і може використовуватися в різних інструментах кодувальних агентів, включаючи Qwen3-Coder CLI.
Запуск Cerebras є першим випадком, коли цей рівень інтелекту був доступний на таких вихідних швидкостях і має потенціал для відкриття нових варіантів використання - наприклад, використання моделі міркування для кожного кроку агента без необхідності чекати кілька хвилин.

25,08K
🇰🇷 Нещодавно LG випустила EXAONE 4.0 32B - вона отримала 62 бали за індексом інтелекту штучного аналізу, що є найвищим показником для моделі 32B
EXAONE 4.0 від @LG_AI_Research випущений у двох варіантах: гібридна модель міркувань 32B, для якої ми повідомляємо результати порівняльного аналізу тут, і менша модель 1.2B, розроблена для додатків на пристроях, які ми ще не порівнювали.
Поряд з нещодавнім релізом Upstage Solar Pro 2, цікаво бачити, як корейські лабораторії штучного інтелекту приєднуються до США та Китаю на вершині розвідувальних чартів.
Ключові результати:
🧠 ➤ EXAONE 4.0 32B (Міркування): У режимі міркувань EXAONE 4.0 отримує 62 бали за Індексом інтелекту штучного аналізу. Це відповідає Claude 4 Opus і новому Llama Nemotron Super 49B v1.5 від NVIDIA, і відстає від Gemini 2.5 Flash лише на 1 очко
⚡ ➤ EXAONE 4.0 32B (Без міркувань): У режимі без міркувань EXAONE 4.0 отримує 51 бал за індексом інтелекту штучного аналізу. Він відповідає Llama 4 Maverick за інтелектом, незважаючи на те, що має лише ~1/4 загальних параметрів (хоча має в ~2 рази більше активних параметрів)
⚙️ ➤ Вихідні токени та детальність: У режимі міркувань EXAONE 4.0 використовував 100 мільйонів вихідних токенів для індексу інтелекту штучного аналізу. Цей показник вищий, ніж у деяких інших моделей Frontier, але узгоджується з останніми тенденціями моделей міркувань, які використовують більше вихідних токенів для «більшого мислення» — подібно до Llama Nemotron Super 49B v1.5, Grok 4 та Qwen3 235B 2507 Reasoning. У режимі без обґрунтування EXAONE 4.0 використовував 15 мільйонів токенів - високий показник для нерозумника, але не такий високий, як 30 мільйонів у Kimi K2.
Ключові деталі:
➤ Гібридне міркування: модель пропонує необов'язковість між режимами «міркування» та «без міркування»
➤ Доступність: Наразі розміщено компанією @friendliai та конкурентоспроможна ціна (особливо порівняно з власними варіантами) від FriendliAI за 1 долар США за 1 мільйон вхідних та вихідних токенів
➤ Відкриті ваги: EXAONE 4.0 — це модель відкритих ваг, доступна відповідно до ліцензійної угоди EXAONE AI Model License Agreement 1.2. Ліцензія обмежує комерційне використання.
➤ Мультимодальність: введення та виведення лише тексту
➤ Контекстне вікно: 131 тис. токенів
➤ Параметри: активні та загальні параметри 32B, доступні з точністю 16 біт і 8 біт (це означає, що модель може бути запущена на одному чіпі H100 з повною точністю)

41,42K
Оголошення таблиці лідерів Artificial Analysis Music Arena: з >5 тисячами голосів Suno v4.5 є провідною моделлю Music Generation, за якою йде FUZZ-1.1 Pro від Riffusion.
Lyria 2 від Google посідає третє місце в нашій таблиці інструментальних лідерів, а Udio v1.5 Allegro посідає третє місце в нашій таблиці лідерів з вокалу.
Інструментальна таблиця лідерів виглядає наступним чином:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Лірія 2
@udiomusic v1.5 Allegro
@StabilityAI Стабільний звук 2.0
@metaai MusicGen
Рейтинги ґрунтуються на голосуваннях спільноти за різними жанрами та підказками. Хочете, щоб ваша підказка була представлена? Ви можете надсилати підказки на арені вже сьогодні.
👇 Дивіться нижче таблицю лідерів з вокалу та посилання для участі!

22,03K
Зміна попиту на моделі з 2024 по 2025 рік: Google (+49 пунктів), DeepSeek (+53 пункти) та xAI (+31 пункти) досягли величезного зростання частки попиту за останній рік
@Google перетворилася з відстаючої в галузі штучного інтелекту на лідера в галузі штучного інтелекту зі збільшенням частки респондентів, які використовують або розглядають модельну серію Gemini в ~2,5 рази. Ключовим фактором цього стало те, що Google досягла значного прогресу в інтелекті: Gemini 2.5 Pro зараз посідає #3 місце в нашому індексі інтелекту штучного аналізу, порівняно зі значним відставанням від OpenAI та Anthropic на початку 2024 року.
@deepseek_ai у першому півріччі 2024 року випустила лише DeepSeek 67B, модель, яка мала обмежене впровадження та мала низькі показники Llama 3 70B. DeepSeek вперше побачив деяке пожвавлення наприкінці 2024 року з випуском своєї моделі V2, а потім побачив швидке прийняття на початку 2025 року з моделями V3 і R1, які вивели їх на лідерство серед моделей з відкритими вагами.
@xai випустила свою першу модель Grok-1 у середині першого півріччя 2024 року і з тих пір швидко піднялася до лідерства в розвідці за всіма моделями з послідовними випусками, кульмінацією яких став запуск Grok 4 минулого тижня.
Джерело: Artificial Analysis AI Adoption Survey H1 2025 (звіт доступний на сайті Artificial Analysis)

388,92K
Провайдери Kimi K2: Groq обслуговує Kimi K2 зі швидкістю >400 вихідних токенів/с, що в 40 разів швидше, ніж основний API Moonshot
Вітаємо ряд провайдерів зі швидким запуском API для Kimi K2, включаючи @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra і, звичайно, @Kimi_Moonshot. Це вражає, враховуючи розміри моделі в 1 трильйон загальних параметрів.
Groq вирізняється блискавичною швидкістю. DeepInfra, Novita та Baseten виділяються своїми цінами, будучи єдиними постачальниками, які встановлюють ціни аналогічно або дешевше, ніж перший API Moonshot.
Подальші порівняння між провайдерами дивіться нижче. Ми очікуємо швидкого зростання швидкості у деяких провайдерів, оскільки команди оптимізуються для моделі K2 - наші цифри нижче показують середню швидкість за останні 72 години, але ми вже бачимо, що DeepInfra підскочила до 62 токенів/с у сьогоднішніх вимірюваннях

52,15K
У той час як Kimi k2 від Moonshot AI є провідною моделлю без міркувань з відкритими вагами в Індексі інтелекту штучного аналізу, вона видає в ~3 рази більше токенів, ніж інші моделі без міркувань, розмиваючи межі між міркуванням і неміркуванням
Kimi k2 є найбільшою великою моделлю з відкритими вагами на сьогоднішній день - загальні параметри 1T з активними 32B (для цього потрібен масивний 1 ТБ пам'яті при рідному FP8, щоб утримувати гирі). Ми маємо k2 на 57 місці в Artificial Analysis Intelligence Index, вражаючий результат, який ставить його вище таких моделей, як GPT-4.1 і DeepSeek V3, але відстає від провідних моделей міркувань.
До теперішнього часу в наших дослідженнях існувало чітке розмежування між моделлю міркування і неміркуючими моделями - визначається не тільки тим, чи використовує модель <reasoning> теги, але в першу чергу використанням токенів. Медіанна кількість токенів, що використовуються для відповіді на всі запитання в індексі інтелекту штучного аналізу, ~10 разів вища для моделей міркування, ніж для моделей без міркування.
Kimi k2 @Kimi_Moonshot використовує в ~3 рази більше токенів, ніж використовує медіанна модель без міркувань. Його використання токенів лише на 30% нижче, ніж у Claude 4 Sonnet і Opus, коли вони працюють у режимі розширеного мислення з максимальним бюджетом, і майже втричі перевищує використання токенів як Claude 4 Sonnet, так і Opus з вимкненими міркуваннями.
Тому ми рекомендуємо порівнювати Kimi k2 з Claude 4 Sonnet і Opus в їх максимально бюджетних режимах розширеного мислення, а не з оцінками без обґрунтувань для моделей Claude 4.
Kimi k2 доступний на власному API @Kimi_Moonshot, а також @FireworksAI_HQ, @togethercompute, @novita_labs та @parasail_io.
Дивіться нижче та на Штучний аналіз для подальшого аналізу 👇



60,47K
Новий API Deep Research від OpenAI коштує до ~$30 за дзвінок API! Ці нові кінцеві точки Deep Research API можуть стати новим найшвидшим способом витрачання грошей
За нашими 10 тестовими запитами на глибоке дослідження ми витратили $100 на o3 і $9,18 на o4-mini. Як витрати стають такими великими? Високі ціни та мільйони токенів.
Ці кінцеві точки є версіями o3 та o4-mini, які були RL'd для глибоких дослідницьких завдань. Доступність через API дозволяє використовувати їх як з інструментом веб-пошуку OpenAI, так і з користувацькими джерелами даних через віддалені сервери MCP.
Ціна O4-Mini-Deep-Research у 5 разів нижча, ніж ціна O3-Deep-Research. У наших тестових запитах o4-mini також, здається, використовує менше токенів - загалом він дешевший у 10 разів за нашими 10 тестовими запитами.
Ціноутворення:
➤ o3-deep-research оцінюється в $10/млн вхідних даних ($2.50 кешований вхід), $40/млн виходів
➤ o4-mini-deep-research оцінюється в $2 /M вхід ($0,5 кешований вхід), $8 /M вихід
Ці кінцеві точки значно дорожчі, ніж стандартні кінцеві точки OpenAI o3 і o4-mini - вони знаходяться на:
➤ o3: $2 /M ($0,5 кешований) вхід, $8 /M вихід для o3
➤ o4-mini: $1,1/M (0,275 кешований) вхід, $4,4/M вихід

37,15K
Black Forest Labs збирається створити потік нових стартапів за допомогою своєї моделі редагування зображень з відкритими вагами, випущеної сьогодні
- Віртуальна примірка стане в 10 разів кращою, але це лише початок. Ми також побачимо новий досвід, оскільки люди творчо підходять до цих моделей (набагато ширше, ніж фільтри Snapchat та Instagram)
- Модель має роздільну здатність всього 12В і може бути доопрацьована на побутовому обладнанні
- Такі платформи, як @FAL, пропонують повну підтримку навчання LoRA
Подяка @FAL за зображення нижче, вони мають чудовий опис своєї пропозиції з тонкого налаштування (посилання нижче)

34,24K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги