DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

🚨DERNIÈRE MINUTE : Alibaba a testé des agents de codage AI sur 100 bases de code réelles, s'étalant sur 233 jours chacune. les agents ont échoué de manière spectaculaire. il s'avère que passer des tests une fois est facile. maintenir le code pendant 8 mois sans tout casser est là où l'IA s'effondre. SWE-CI est le premier benchmark qui mesure la maintenance à long terme du code au lieu de simples corrections de bogues ponctuelles. chaque tâche suit 71 commits consécutifs de véritable évolution. 75 % des modèles d'IA cassent du code qui fonctionnait auparavant pendant la maintenance. seul Claude Opus 4 reste au-dessus de 50 % de taux de non-régression. tous les autres modèles accumulent une dette technique qui se cumule au fil des itérations. voici la partie brutale : - HumanEval et SWE-bench mesurent "est-ce que ça fonctionne maintenant" - SWE-CI mesure "est-ce que ça fonctionne toujours après 6 mois de changements" les agents optimisés pour les tests instantanés écrivent un code fragile qui passe les tests aujourd'hui mais devient ingérable demain. Alibaba a construit EvoScore pour pondérer les itérations ultérieures plus lourdement que les premières. les agents qui sacrifient la qualité du code pour des gains rapides sont punis lorsque les conséquences s'accumulent. le récit sur le codage AI vient de devenir plus honnête : la plupart des modèles peuvent écrire du code. presque aucun ne peut le maintenir.

Meilleurs

Classement

Favoris