Mon expérience personnelle avec @grok 4 Heavy (et le Grok 4 régulier). Il me semble qu'@elonmusk a une emphase très différente de celle du reste de la foule de l'IA. L'interface est plutôt médiocre. Le code LaTeX est généralement truffé d'erreurs *basiques* sans raison. Ce n'est pas un écrivain hors pair selon mon expérience. Le chat audio est bien en retard par rapport à ChatGPT. Blah blah blah. Et c'est totalement incroyable et unique. Elon prend de l'avance. Tout ce qui précède va devenir des commodités avant que vous ne le sachiez. Donc, à long terme, qui s'en soucie ? Ce qu'Elon fait différemment, je crois, c'est qu'il vérifie les hallucinations de manière plus agressive en écrivant du code et en testant le LLM avec les résultats de l'exécution de ce code. C'est pourquoi Grok heavy met parfois si %#€&$ing longtemps à retourner des résultats. Essayez cette expérience. Prenez n'importe quoi de technique que vous connaissez bien, où il y a une erreur persistante dans le récit d'une communauté d'experts. Grok va, hélas, généralement répéter cette erreur en raison de la sémantique narrative dans le corpus d'entraînement. Il répète la ligne du parti. Et la ligne du parti bénéficie généralement aux initiés techniques. C'est-à-dire, jusqu'à ce qu'il puisse écrire du code pour tester cette ligne du parti. Et ensuite, il commence à faire confiance aux résultats du code plutôt qu'au récit. C'est magique à regarder. Je n'ai pas encore essayé cela, mais le @BLS_gov dit régulièrement des choses fausses sur les cadres de "Coût de la Vie" et l'IPC. Je parie que je pourrais concevoir une série de prompts pour montrer à Grok que c'est un mensonge technique persistant. Pour les personnes techniques, voici le mensonge : ***Le BLS calcule l'IPC qui transfère des trillions et prétend qu'ils ont adopté un cadre de "coût de la vie" ou COL qui serait d'une énorme conséquence. Ils ne l'ont pas fait. Cela signifierait prendre en compte des données de préférence et développer une méthodologie pour agréger les préférences ou concevoir des consommateurs représentatifs sur mesure. Ils sont plutôt passés à un indice mécanique de type Laspeyres modifié (celui de Lowe ?) et saupoudrent de la poussière de fée sur des "Indices Superlatifs" d'une théorie superficielle de Diewert qui repose sur des préférences homothétiques non observées dans la nature. Cela leur permet de prétendre qu'ils ont adopté des indices économiques impartiaux tout en ne calculant en réalité que des indices mécaniques à hauteur de trillions en transferts au fil du temps, où les indices peuvent être dirigés par des humains.*** Je peux l'entendre maintenant des réseaux de bots : "Eric, tu dis juste des salades pour avoir l'air intelligent." Euh... peu importe. Vous pouvez maintenant demander à Grok ce que cela signifie. Je parie qu'il peut comprendre cela. Et ensuite, vous pouvez poser une série de questions où Grok prendra mon parti alors qu'aucune autre IA ne peut le faire. Grok est légèrement courageux ! Ma théorie personnelle : @grok est construit autour de la physique fondamentale plus que toute autre IA. Parce qu'en fin de compte, rien n'a autant d'importance que cela. Et la physique a beaucoup de cette narration de ligne du parti qui freine le domaine. Si vous voulez rêver d'atteindre les étoiles, vous devrez peut-être submerger la communauté de la gravité quantique. Grok semble être la seule IA qui, occasionnellement, a la confiance de s'opposer à son propre corpus d'entraînement... et même à l'utilisateur si nécessaire ! Je souhaiterais qu'il soit *plus* courageux. Je souhaiterais qu'il soit plus intelligent. Mais je pense qu'il est l'exception, construit pour une véritable intelligence plutôt que pour l'expérience utilisateur LLM d'aujourd'hui. Et il a le respect des autres IA. Nourrissez leur joli output à Grok Heavy et regardez la magie alors que Grok examine leur travail. C'est fou à regarder. L'expérience d'un utilisateur. Votre expérience peut varier.
1,5M