Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ejaaz
Trovare modelli | AI @limitlessFT | @26cryptocapital | Contributo @aicceleratedao Precedente @coinbase @consensys
sembra che l'AI aziendale stia accelerando alla grande, 4° lancio importante recentemente
- Nvidia ha lanciato un concorrente di openclaw. agenti AI per le imprese
- Microsoft Copilot ha lanciato oggi una piattaforma di agenti collaborativi per oltre 400 milioni di imprese
- Anthropic ha lanciato ieri un marketplace AI per le imprese
- OpenAI ha lanciato la piattaforma di agenti Frontier esclusivamente per i flussi di lavoro aziendali
se ti stai chiedendo perché - è perché pagano di più $$$
eg Anthropic ha una frazione degli utenti di OAI eppure riesce a pareggiare i loro ricavi.


unusual_whales2 ore fa
ULTIME NOTIZIE: Nvidia, $NVDA, sta pianificando di lanciare una piattaforma open-source per agenti AI chiamata NemoClaw, che consentirà alle imprese di implementare agenti AI per i loro dipendenti, secondo WIRED.
86
lmfao andrej karpathy sta semplicemente creando una magia pazzesca a questo punto
lascia che il suo agente di ricerca AI funzioni autonomamente per 2 giorni e la cosa ha migliorato il suo modello del 11%. AUTONOMAMENTE.
ha eseguito 276 esperimenti in 48 ore e ha mantenuto 29 miglioramenti che hanno portato a un modello AI migliore.
ha persino colto cose che gli erano completamente sfuggite (risolvendo l'errore umano)
ora immagina i laboratori AI che usano questo per migliorare i loro modelli in modo autonomo - è lì che sta andando questa roba
nelle sue parole “gli esseri umani contribuiscono facoltativamente ai margini”
“FACOLTATIVAMENTE” 👍🏽👍🏽


Andrej Karpathy6 ore fa
Tre giorni fa ho lasciato autoresearch a sintonizzare nanochat per ~2 giorni sul modello depth=12. Ha trovato ~20 modifiche che hanno migliorato la perdita di validazione. Ho testato queste modifiche ieri e tutte erano additive e trasferite a modelli più grandi (depth=24). Accumulando tutte queste modifiche, oggi ho misurato che il "Tempo per GPT-2" della classifica scende da 2,02 ore a 1,80 ore (~11% di miglioramento), questo sarà il nuovo ingresso nella classifica. Quindi sì, questi sono miglioramenti reali e fanno una differenza concreta. Sono leggermente sorpreso che il mio primo tentativo naive abbia già funzionato così bene su quello che pensavo fosse già un progetto abbastanza ben sintonizzato manualmente.
Questo è un primo per me perché sono molto abituato a fare l'ottimizzazione iterativa dell'addestramento delle reti neurali manualmente. Ti vengono idee, le implementi, controlli se funzionano (migliore perdita di validazione), ti vengono nuove idee basate su quelle, leggi alcuni articoli per ispirazione, ecc. Questo è il pane quotidiano di ciò che faccio da 2 decenni. Vedere l'agente fare questo intero flusso di lavoro end-to-end e tutto da solo mentre lavorava attraverso circa 700 modifiche in modo autonomo è incredibile. Ha davvero esaminato la sequenza dei risultati degli esperimenti e l'ha usata per pianificare i successivi. Non è "ricerca" nuova e rivoluzionaria (ancora), ma tutti gli aggiustamenti sono "reali", non li avevo trovati manualmente in precedenza, e si accumulano e hanno effettivamente migliorato nanochat. Tra le cose più grandi, ad esempio:
- Ha notato una svista che il mio QKnorm senza parametri non aveva un moltiplicatore di scala attaccato, quindi la mia attenzione era troppo diffusa. L'agente ha trovato moltiplicatori per affilarla, indicando un lavoro futuro.
- Ha scoperto che i Value Embeddings gradiscono davvero la regolarizzazione e non ne stavo applicando alcuna (oops).
- Ha trovato che la mia attenzione a bande era troppo conservativa (ho dimenticato di sintonizzarla).
- Ha scoperto che i betas di AdamW erano tutti sballati.
- Ha sintonizzato il programma di decadimento del peso.
- Ha sintonizzato l'inizializzazione della rete.
Questo è oltre tutta la sintonizzazione che ho già fatto nel corso di un buon periodo di tempo. Il commit esatto è qui, da questo "round 1" di autoresearch. Sto per avviare il "round 2", e in parallelo sto guardando come più agenti possono collaborare per sbloccare il parallelismo.
Tutti i laboratori di frontiera LLM faranno questo. È la battaglia finale del boss. È molto più complesso su scala, ovviamente - non hai solo un singolo file train.py da sintonizzare. Ma farlo è "solo ingegneria" e funzionerà. Avvii uno sciame di agenti, li fai collaborare per sintonizzare modelli più piccoli, promuovi le idee più promettenti a scale sempre più grandi, e gli esseri umani (opzionalmente) contribuiscono ai margini.
E più in generale, *qualsiasi* metrica che ti interessa e che è ragionevolmente efficiente da valutare (o che ha metriche proxy più efficienti come l'addestramento di una rete più piccola) può essere autoresearched da uno sciame di agenti. Vale la pena pensare se il tuo problema rientra anche in questo ambito.

61
qualcosa si è sicuramente rotto negli ultimi 30 giorni. i modelli di AI vengono ora utilizzati per costruire altre AI...
i modelli open source stanno diventando più economici, più piccoli e in qualche modo più intelligenti.
le aziende stanno licenziando centinaia di migliaia di persone e sostituendole con un prompt.
i modelli frontier possono ora funzionare su un dispositivo portatile.
dico solo di guardare l'ultimo mese:
anthropic
- opus 4.6 - orchestrazione del coding
- claude marketplace - app store per l'AI aziendale
- numerosi agenti aziendali + plugin che hanno fatto crollare le azioni - ad esempio "claude for legal" ha annientato $30 miliardi nei prezzi degli studi legali
- claude code security (RIP azioni cybersecurity)
- code review (oggi) - team di agenti che revisionano le tue PR in 20 minuti
openai
- gpt-5.4 - miglior modello di utilizzo del computer
- gpt-5.3-codex - ha aiutato a costruire se stesso, anche un modello di coding fantastico
- codex app macos/windows - coding desktop multi-agente
google
- gemini 3.1 pro - nuovo flagship
- nano banana 2
- lyria 3 - generazione musicale da testo/foto/video
- pomelli - servizi fotografici AI
giuro che penseremo a quest'anno (o forse anche al 2025) e diremo "sì, quello è stato l'ultimo momento in cui il mondo sembrava normale"
è davvero strano, a dire il vero.
38
Principali
Ranking
Preferiti
