Plus je creuse dans Goodfire Research, plus je réalise à quel point le domaine de l'interprétabilité est en train de devenir l'une des frontières les plus intéressantes de l'IA (et surtout de l'IA pour la science). Ils ont publié cette recherche l'année dernière avec l'idée principale de la façon dont un modèle de fondation ADN organise en interne les espèces dans son espace d'embedding d'une manière qui reflète le véritable arbre évolutif de la vie. ou en gros comment le modèle a redécouvert la phylogénie uniquement à partir des séquences ADN. Ils ont étudié Evo 2 (modèle ADN développé par EvolutionaryScale) et ont découvert que : + le génome de chaque espèce est mappé à un embedding vectoriel à l'intérieur du modèle. + ces embeddings forment une structure géométrique courbée (une variété). + les distances le long de cette variété correspondent à la distance évolutive réelle entre les espèces. Donc à l'intérieur du modèle : les espèces similaires → embeddings proches les espèces distantes → embeddings éloignés et la structure qui émerge est essentiellement l'arbre de la vie. Cela pourrait prouver quelque chose de révolutionnaire sur la façon dont les modèles de fondation peuvent redécouvrir automatiquement des structures scientifiques.