Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

samsja
Mener des recherches à @PrimeIntellect
Open AI sera rappelé comme l'une des entreprises les plus inspirantes de tous les temps.

Noam Brown19 juil., 15:52
Aujourd'hui, nous chez @OpenAI avons atteint un jalon que beaucoup considéraient comme étant à des années : une performance de niveau médaille d'or au 2025 IMO avec un LLM de raisonnement général—dans les mêmes limites de temps que les humains, sans outils. Aussi remarquable que cela puisse paraître, c'est encore plus significatif que le titre 🧵
8,36K
Je ne vois pas l'intérêt de définir la taille de lot au niveau de chaque GPU dans le code. Cela signifie qu'il faut changer manuellement le paramètre de taille de lot lors de l'augmentation ou de la réduction de l'expérience.
Je suppose que cela a été fait historiquement dans des bases de code qui n'ont pas d'accumulation de gradients ?
1,59K
samsja a reposté
Si vous êtes à l'ICML et intéressé par l'inférence vérifiable, n'oubliez pas de passer voir notre affiche !
Nous présenterons TOPLOC, une méthode de hachage d'activation efficace qui fonctionne dans une variété de contextes, par exemple, en changeant les configurations d'inférence ou même les modèles.
16 juillet, 16h30, E-1106
1,4K
samsja a reposté
Nouveau billet de blog et nouvelle bibliothèque sont maintenant disponibles !
Le BP concerne MaxSim, pourquoi c'est *des ordres de grandeur* beaucoup plus exigeant que la similarité cosinus normale, et pourquoi les GPU s'en fichent, mais les CPU s'en soucient !
La bibliothèque est maxsim-cpu, ce qui permet aux CPU d'être rapides et de rester cool, aussi.

16,91K
Curieux d'essayer cela avec diloco, je ferais toujours bs=1 sur l'optimiseur interne et je bénéficierais toujours des avantages du parallélisme des données.

Micah Goldblum10 juil., 22:12
🚨 Saviez-vous que le SGD vanille en petite quantité sans momentum (c'est-à-dire le premier optimiseur que vous apprenez dans l'introduction à l'apprentissage automatique) est pratiquement aussi rapide qu'AdamW pour le pré-entraînement des LLM sur une base par FLOP ? 📜 1/n

1,92K
la séniorité en ingénierie consiste également à être capable de travailler avec la dette technique des autres

samsja5 juil., 21:13
Une opinion impopulaire, mais la dette technique est bonne, elle est nécessaire pour accélérer et réduire les délais.
2,33K
Meilleurs
Classement
Favoris
Tendance on-chain
Tendance sur X
Récents financements de premier plan
Les plus notables