Anthropic utilise Pokémon Red pour évaluer un nouveau modèle d'IA
Anthropic a utilisé le jeu classique Pokémon Red sur Game Boy pour tester son dernier modèle d'IA, Claude 3.7 Sonnet. Contrairement à son prédécesseur, Claude 3.0 Sonnet, qui avait du mal à quitter la zone de départ, le modèle mis à jour a réussi à combattre trois chefs de gymnase, démontrant ainsi des progrès impressionnants. Doté d'une mémoire de base, d'une entrée pixel écran et d'appels de fonction, Claude 3.7 Sonnet a exploité la « pensée étendue » pour effectuer 35 000 actions et franchir des étapes importantes. La société a révélé qu'en quelques heures, l'IA avait vaincu Brock, puis Misty, démontrant ainsi ses capacités avancées en matière de résolution de problèmes. Pokémon Red rejoint une gamme de jeux désormais utilisés pour évaluer les performances de l'IA.
Pourquoi Inbenta ?

