Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Tekoälymallien ja isännöintipalveluntarjoajien riippumaton analyysi - valitse paras malli ja API-palveluntarjoaja käyttötapaukseesi
DeepSeek lanseeraa V3.1:n, joka yhdistää V3:n ja R1:n hybridipäättelymalliksi, jossa älykkyys kasvaa asteittain
Inkrementaalinen älykkyyden lisäys: DeepSeek V3.1:n alustavat vertailutulokset osoittavat tekoälyn älykkyysindeksin olevan 60 päättelytilassa, kun R1:n pistemäärä oli 59. Ei-päättelytilassa V3.1 saavuttaa pistemäärän 49, mikä on suurempi lisäys aiempaan V3 0324 -pistemäärään 44. Tämä jättää V3.1:n (päättely) Alibaban uusimman Qwen3 235B 2507:n (perustelu) taakse - DeepSeek ei ole ottanut johtoasemaa takaisin.
Hybridipäättely: @deepseek_ai on siirtynyt ensimmäistä kertaa hybridipäättelymalliin, joka tukee sekä päättelyä että ei-päättelyä. DeepSeekin siirtyminen yhtenäiseen hybridipäättelymalliin jäljittelee OpenAI:n, Anthropicin ja Googlen lähestymistapaa. On kuitenkin mielenkiintoista huomata, että Alibaba hylkäsi äskettäin Qwen3:lle suosimansa hybridilähestymistavan erillisillä Qwen3 2507 -päättely- ja ohjemalleillaan.
Funktiokutsu / työkalun käyttö: Vaikka DeepSeek väittää mallin parannettua funktiokutsua, DeepSeek V3.1 ei tue funktiokutsuja päättelytilassa. Tämä todennäköisesti rajoittaa merkittävästi sen kykyä tukea agenttisia työnkulkuja älykkyysvaatimuksilla, myös koodausagenteissa.
Tokenin käyttö: DeepSeek V3.1 saa asteittain korkeammat pisteet päättelytilassa kuin DeepSeek R1, ja käyttää hieman vähemmän tokeneita Artificial Analysis Intelligence Indexissä käyttämissämme valeissa. Ei-päättelytilassa se käyttää hieman enemmän tokeneita kuin V3 0324 - mutta silti useita kertoja vähemmän kuin omassa päättelytilassaan.
API: DeepSeekin ensimmäisen osapuolen API palvelee nyt uutta DeepSeek V3.1 -mallia sekä chat- että päättelypäätepisteissään - yksinkertaisesti muuttamalla, annetaanko loppuajattelun </think> token mallille chat-mallissa, jotta voidaan hallita, järkeileekö malli.
Arkkitehtuuri: DeepSeek V3.1 on arkkitehtonisesti identtinen aiempien V3- ja R1-mallien kanssa, ja siinä on 671 miljardia kokonaisparametria ja 37 miljardia aktiivista parametria.
Seuraukset: Suosittelemme varovaisuuteen tehdessämme oletuksia siitä, mitä tämä julkaisu antaa ymmärtää DeepSeekin edistymisestä kohti tulevaa mallia, jota huhuissa kutsutaan nimellä V4 tai R2. Huomaamme, että DeepSeek julkaisi aiemmin lopullisen mallin, joka on rakennettu heidän V2-arkkitehtuuriinsa 10. joulukuuta 2024, vain kaksi viikkoa ennen V3:n julkaisua.


70,48K
Ilmoitamme keinotekoisesta analyysistä Long Context Reasoning (AA-LCR), joka on uusi vertailuarvo pitkän kontekstin suorituskyvyn arvioimiseksi testaamalla päättelykykyä useissa pitkissä asiakirjoissa (~100k tokenia)
AA-LCR:n painopiste on toistaa todellista tietotyötä ja päättelytehtäviä, testauskykyä, jotka ovat kriittisiä nykyaikaisille tekoälysovelluksille, jotka kattavat asiakirja-analyysin, koodikannan ymmärtämisen ja monimutkaiset monivaiheiset työnkulut.
AA-LCR on 100 kovaa tekstipohjaista kysymystä, jotka vaativat päättelyä useissa reaalimaailman asiakirjoissa, jotka edustavat ~100 tuhatta syöttömerkkiä. Kysymykset on suunniteltu siten, että vastauksia ei löydy suoraan, vaan ne on perusteltava useista tietolähteistä, ja ihmistestit varmistavat, että jokainen kysymys vaatii aitoa päättelyä eikä hakua.
Tärkeimmät huomiot:
➤ Nykypäivän johtavat mallit saavuttavat ~70 % tarkkuuden: kolme parasta sijaa menevät OpenAI o3 (69 %), xAI Grok 4 (68 %) ja Qwen3 235B 2507 Thinking (67 %)
➤ 👀 Meillä on myös jo gpt-oss-tuloksia! 120B toimii lähellä o4-miniä (korkea), mikä on linjassa OpenAI:n väitteiden kanssa mallin suorituskyvystä. Seuraamme pian mallien älykkyysindeksillä.
➤ 100 kovaa tekstipohjaista kysymystä, jotka kattavat 7 asiakirjaluokkaa (yritysraportit, toimialaraportit, hallituksen kuulemiset, akateeminen maailma, lakiasiat, markkinointimateriaalit ja tutkimusraportit)
➤ ~100 tuhatta syöttömerkkiä kysymystä kohden, mikä edellyttää, että mallit tukevat vähintään 128 tuhatta kontekstiikkunaa saadakseen pisteitä tässä vertailuarvossa
➤ ~3 miljoonaa ainutlaatuista syöttötunnusta, jotka kattavat ~230 asiakirjaa vertailuarvon suorittamiseksi (lähtötunnukset vaihtelevat tyypillisesti malleittain)
➤ Linkki @HuggingFace tietoaineistoon 🤗 on alla
Lisäämme AA-LCR:n tekoälyindeksiin ja siirrämme versionumeron versioon 2.2. Artificial Analysis Intelligence Index v2.2 sisältää nyt: MMLU-Pro, GPQA Diamond, AIME 2025, IFBench, LiveCodeBench, SciCode ja AA-LCR.
Kaikki numerot on päivitetty sivustolle nyt. Selvitä, mitkä mallit Artificial Analysis Intelligence Index v2.2 👇

28,71K
Cerebras on osoittanut kykynsä isännöidä suuria MoE:itä erittäin suurilla nopeuksilla tällä viikolla ja lanseerannut Qwen3 235B 2507- ja Qwen3 Coder 480B -päätepisteet hintaan >1 500 lähtötokenia/s
➤ @CerebrasSystems tarjoaa nyt päätepisteitä sekä Qwen3 235B 2507 Päättelylle että Ei-päättelylle. Molemmissa malleissa on 235 miljardia kokonaisparametria ja 22 B aktiivinen.
➤ Qwen 3 235B 2507 Päättely tarjoaa älykkyyttä, joka on verrattavissa o4-miniin (korkea) ja DeepSeek R1 0528:aan. Ei-järkeilevä variantti tarjoaa älykkyyttä, joka on verrattavissa Kimi K2:een ja selvästi GPT-4.1:n ja Llama 4 Maverickin yläpuolelle.
➤ Qwen3 Coder 480B:ssä on 480B kokonaisparametrit ja 35B aktiivinen. Tämä malli on erityisen vahva agenttikoodauksessa, ja sitä voidaan käyttää useissa koodausagenttityökaluissa, mukaan lukien Qwen3-Coder CLI.
Cerebrasin lanseeraukset ovat ensimmäinen kerta, kun tämän tason älykkyys on ollut saatavilla näillä tulostusnopeuksilla, ja niillä on potentiaalia avata uusia käyttötapauksia - kuten päättelymallin käyttäminen agentin jokaisessa vaiheessa ilman minuuttien odottamista.

25,2K
🇰🇷 LG lanseerasi äskettäin EXAONE 4.0 32B:n - se sai 62 pistettä Artificial Analysis Intelligence Index -indeksissä, mikä on korkein pistemäärä 32B-mallille tähän mennessä
@LG_AI_Research:n EXAONE 4.0 julkaistaan kahtena versiona: 32B-hybridipäättelymalli, jonka vertailutulokset raportoimme täällä, ja pienempi 1.2B-malli, joka on suunniteltu laitteessa oleviin sovelluksiin, joita emme ole vielä vertailleet.
Upstagen äskettäisen Solar Pro 2 -julkaisun ohella on jännittävää nähdä korealaisten tekoälylaboratorioiden liittyvän Yhdysvaltojen ja Kiinan joukkoon lähellä tiedustelulistojen kärkeä.
Tärkeimmät tulokset:
➤ 🧠 EXAONE 4.0 32B (päättely): Päättelytilassa EXAONE 4.0 saa 62 pistettä tekoälyanalyysin älykkyysindeksissä. Tämä vastaa Claude 4 Opusta ja NVIDIAn uutta Llama Nemotron Super 49B v1.5:tä ja on vain 1 pisteen päässä Gemini 2.5 Flashista
➤ ⚡ EXAONE 4.0 32B (ei-päättely): Ei-päättelytilassa EXAONE 4.0 saa 51 pistettä Artificial Analysis Intelligence Index -indeksissä. Se vastaa Llama 4 Maverickia älykkyydeltään, vaikka sillä on vain ~1/4 kokonaisparametreja (vaikka sillä on ~2x aktiiviset parametrit)
➤ ⚙️ Lähtötunnukset ja monisanaisuus: Päättelytilassa EXAONE 4.0 käytti 100 miljoonaa lähtötunnusta tekoälyn älykkyysindeksiin. Tämä on korkeampi kuin joissakin muissa rajamalleissa, mutta se on linjassa viimeaikaisten päättelymallien kanssa, joissa käytetään enemmän lähtötokeneita "ajattelemaan enemmän" - samanlainen kuin Llama Nemotron Super 49B v1.5, Grok 4 ja Qwen3 235B 2507 Reasoning. Ei-päättelytilassa EXAONE 4.0 käytti 15 miljoonaa tokenia - korkea ei-järkeilevälle, mutta ei niin korkea kuin Kimi K2:n 30M.
Tärkeimmät tiedot:
➤ Hybridipäättely: Malli tarjoaa valinnaisuuden "päättely"-tilan ja "ei-päättelyn" välillä
➤ Saatavuus: FriendliAI isännöi @friendliai tällä hetkellä ja kilpailukykyisesti hinnoiteltu (erityisesti verrattuna omiin vaihtoehtoihin) hintaan 1 dollari per 1 miljoona tulo- ja lähtötokenia
➤ Avoimet painot: EXAONE 4.0 on avoin painomalli, joka on saatavilla EXAONE AI Model License Agreement 1.2:n mukaisesti. Lisenssi rajoittaa kaupallista käyttöä.
➤ Multimodaalisuus: Vain tekstin syöttö ja tulostus
➤ Kontekstiikkuna: 131k tokenia
➤ Parametrit: 32B aktiiviset ja kokonaisparametrit, saatavana 16- ja 8-bittisellä tarkkuudella (tarkoittaa, että mallia voidaan käyttää yhdellä H100-sirulla täydellä tarkkuudella)

41,56K
Artificial Analysis Music Arena -tulostaulukon julkistaminen: >5 tuhannella äänellä Suno v4.5 on johtava Music Generation -malli, jota seuraa Riffusionin FUZZ-1.1 Pro.
Googlen Lyria 2 sijoittuu kolmanneksi instrumentaalitulostaulukossa ja Udion v1.5 Allegro kolmanneksi laulutulostaulukossa.
Instrumentaalitulostaulukko on seuraava:
🥇 @SunoMusic V4.5
🥈 @riffusionai FUZZ-1.1 Pro
🥉 @GoogleDeepMind Lyria 2
@udiomusic v1.5 Allegro
@StabilityAI Vakaa ääni 2.0
@metaai MusicGen
Sijoitukset perustuvat yhteisön äänestyksiin useissa eri genreissä ja kehotteissa. Haluatko nähdä kehotteesi esillä? Voit lähettää kehotteita areenalla jo tänään.
👇 Katso alta Vocals Leaderboard ja linkki osallistuaksesi!

22,19K
Kimi K2 -palveluntarjoajat: Groq palvelee Kimi K2:ta hintaan >400 lähtötokenia/s, 40 kertaa nopeammin kuin Moonshotin ensimmäisen osapuolen API
Onnittelut useille palveluntarjoajille Kimi K2:n API-rajapintojen nopeasta käynnistämisestä, mukaan lukien @GroqInc, @basetenco, @togethercompute, @FireworksAI_HQ, @parasail_io, @novita_labs, @DeepInfra ja tietysti @Kimi_Moonshot. Tämä on vaikuttavaa, kun otetaan huomioon mallin koko 1 biljoonalla kokonaisparametrilla.
Groq erottuu salamannopeasta nopeudestaan. DeepInfra, Novita ja Baseten erottuvat hinnoittelustaan, sillä ne ovat ainoat palveluntarjoajat, jotka hinnoittelevat samalla tavalla tai halvemmalla kuin Moonshotin ensimmäisen osapuolen API.
Katso alta lisää vertailuja palveluntarjoajien välillä. Odotamme nopeaa nopeuden kasvua joillakin palveluntarjoajilla, kun tiimit optimoivat K2-mallia varten - alla olevat numeromme näyttävät mediaaninopeudet viimeisen 72 tunnin ajalta, mutta näemme jo DeepInfran hyppäävän jopa 62 tokeniin/s tämän päivän mittauksissa

52,3K
Vaikka Moonshot AI:n Kimi k2 on johtava avoimen painon ei-päättelymalli Artificial Analysis Intelligence Indexissä, se tuottaa ~3 kertaa enemmän tokeneita kuin muut ei-päättelymallit, mikä hämärtää päättelyn ja ei-päättelyn välisiä rajoja
Kimi k2 on tähän mennessä suurin suuri avopainomalli - 1T kokonaisparametrit 32B aktiivisella (tämä vaatii massiivisen 1 Tt muistia alkuperäisessä FP8:ssa painojen pitämiseen). Meillä on k2 57:ssä Artificial Analysis Intelligence Indexissä, mikä on vaikuttava pistemäärä, joka asettaa sen GPT-4.1:n ja DeepSeek V3:n kaltaisten mallien yläpuolelle, mutta johtavien päättelymallien taakse.
Tähän asti päättelymallien ja ei-päättelymallien välillä on ollut selkeä ero evaleissamme - ei vain sen mukaan, käyttääkö malli <reasoning> tunnisteita, vaan ensisijaisesti tokenien käytön perusteella. Artificial Analysis Intelligence Indexin kaikkiin evaleihin vastaamiseen käytettyjen tokenien mediaanimäärä on ~10 kertaa suurempi päättelymalleissa kuin ei-päättelymalleissa.
@Kimi_Moonshot:n Kimi k2 käyttää ~3x enemmän tokeneita kuin mediaani ei-päättelymalli käyttää. Sen tokenien käyttö on vain jopa 30 % pienempi kuin Claude 4 Sonnetin ja Opuksen käyttö, kun niitä käytetään niiden maksimibudjetin laajennetussa ajattelutilassa, ja se on lähes kolminkertainen sekä Claude 4 Sonnetin että Opuksen tokenien käyttöön verrattuna, kun päättely on pois päältä.
Siksi suosittelemme, että Kimi k2:ta verrataan Claude 4 Sonetiin ja Opukseen niiden maksimibudjetin laajennetussa ajattelutilassa, ei Claude 4 -mallien ei-päättelypisteisiin.
Kimi k2 on saatavilla @Kimi_Moonshot:n ensimmäisen osapuolen API:ssa sekä @FireworksAI_HQ, @togethercompute, @novita_labs ja @parasail_io.
Katso alta ja keinotekoisesta analyysistä lisäanalyysi 👇



60,62K
OpenAI:n uusi Deep Research API maksaa jopa ~30 dollaria API-kutsua kohden! Nämä uudet Deep Research API -päätepisteet saattavat olla uusi nopein tapa käyttää rahaa
10 syvätutkimustestikyselyssämme käytimme 100 dollaria o3:een ja 9,18 dollaria o4-miniin. Miten kustannukset kasvavat niin suuriksi? Korkeat hinnat ja miljoonia tokeneita.
Nämä päätepisteet ovat o3:n ja o4-minin versioita, jotka on RL:ään syvällisiä tutkimustehtäviä varten. Saatavuus API:n kautta mahdollistaa niiden käytön sekä OpenAI:n verkkohakutyökalun että mukautettujen tietolähteiden kanssa MCP-etäpalvelimien kautta.
o4-mini-deep-research-hinnoittelu on 5 kertaa alhaisempi kuin o3-deep-research-hinnoittelu. Testikyselyissämme o4-mini näyttää myös käyttävän vähemmän tokeneita - se tuli yhteensä yli 10 kertaa halvemmalla 10 testikyselyssämme.
Hinnoittelu:
➤ o3-syvätutkimuksen hinta on 10 dollaria / miljoona tuloa (2,50 dollaria välimuistissa oleva tulo), 40 dollaria / miljoonaa tuloa
➤ o4-mini-deep-researchin hinta on $2 /M tulo ($0.5 välimuistissa oleva tulo), $8 /M
Nämä päätepisteet ovat molemmat huomattavasti kalliimpia kuin OpenAI:n tavalliset o3- ja o4-mini-päätepisteet - ne ovat:
➤ o3: $2 /M ($0.5 välimuistissa) syöte, $8 /M lähtö o3:lle
➤ o4-mini: 1,1 $ /M (0,275 välimuistissa) tulo, 4,4 $ /M lähtö

37,33K
Johtavat
Rankkaus
Suosikit
Ketjussa trendaava
Trendaa X:ssä
Viimeisimmät suosituimmat rahoitukset
Merkittävin