Pokémon bat KI: Pourquoi un jeu des années 90 submerge la dernière intelligence artificielle

Vous n'aviez pas besoin de si longtemps à l'époque, mais l'IA sera de mieux en mieux. (Image: Game Freak | Ki-Généré avec Adobe Firefly)

Anthropic a son dernier modèle d'IA3.7 Sonnet a envoyé à une mission que beaucoup d'entre vous ont certainement contesté comme des enfants: jouerSur le jeu. Les résultats montrent parfois d'énormes progrès par rapport aux modèles Claude précédents, mais aussi diverses faiblesses.

Claude se bat dans le monde des Pokémon

Depuis février 2025, l'AI Claude, développée par la société AI Anthropic, essaie de jouer à Pokémon. L'expérience avec le nomClaude joue PokémondevientLive Auf TwitchTraduit et a déjà attiré des milliers de spectateurs.

Contrairement aux joueurs spécialisés KIS tels que les systèmes développés pour Go ou Dota 2, Claude n'était pas spécialement formé pour les jeux vidéo.

Ce qui rend l'expérience spéciale:

Claude utilise uniquement ses connaissances générales du monde et des Pokémon
Die kivoirLe jeu via des captures d'écran, similaires à une personne
Le système n'avait pas été formé sur les jeux Pokémon à l'avance

David Hershey, développeur chez Anthropic et responsable du projet, explique IMEntretien avec ARS Technica:

Il n'utilise que les différentes connaissances que Claude a sur le monde appliqué aux jeux vidéo.

Contenu éditorial recommandé

À ce stade, vous trouverez un contenu externe de Twitter, qui complète l'article.
Vous pouvez le faire afficher en un clic et le masquer à nouveau.

Autoriser le contenu Twitter

Je suis d'accord que le contenu de Twitter est affiché.

Les données personnelles peuvent être transmises aux plates-formes de troisième partie. Plus à ce sujet dans notre.

Se lier àContenu Twitter

Progrès surprenant et revers amers

Par rapport aux versions Claude plus anciennes, qui a à peine sorti de la zone de départ, Claude 3.7 a pu vaincre plusieurs leader de l'arène et collecter des ordres. À l'heure actuelle (06 avril 2025), l'IA a acquis les trois premières ordres de l'arène.

Selon Anthropic, la percée est dans le nouveauRéflexion étendue-Modusqui permet le modèlePrévoyez de planifier de se souvenir des objectifs et de s'adapter si les stratégies initiales échouent.

Mais si vous suivez le flux en direct, vous pouvez également voir les limites: Claude a d'énormes difficultés de navigation dans le monde du jeu 2D. Le Mondberg en particulier a présenté un défi massif.

Problèmes fréquents:

Des heures de façons folles dans les zones déjà terminées
Répété coincé dans des impasses
Conversations sans fin avec les mêmes PNJ
Difficultés à reconnaître les murs et les obstacles

Le dernier problèmeCependant, l'acquisition du vélo a été créée, car le personnage déplace toujours deux champs en même temps. C'est un gros problème pour l'IA car il ne connaissait auparavant que des étapes simples.

Homme et ai: les faiblesses diffèrent

Fait intéressant, Claude montre des forces et des faiblesses différentes de celles d'un acteur humain. Bien que la représentation pixélée du Game Boy soit facile à interpréter pour les humains, c'est un défi majeur pour l'IA, dit Hershey:

Claude n'est toujours pas particulièrement bon pour comprendre ce qui est à l'écran. C'est l'une de ces choses amusantes chez l'homme que nous pouvons regarder ces taches de personnes 8x8 pixels et dire: «C'est une fille aux cheveux bleus».

En revanche, Claude est étonnamment fort lors de la compréhension des mécanismes de jeu et des défis basés sur le texte:

Reconnaître les types de Pokémon et leurs faiblesses
Construire des stratégies de combat efficaces
Enregistrer et enregistrer les notes de jeu
Développer des stratégies d'équipe à long terme

Le problème de mémoire

Un autre problème fondamental: Claudes LimitedMémoire. L'IA a une fenêtre de contexte de 200 000 jetons, ce qui signifie que les informations plus anciennes doivent être résumées ou supprimées lorsque de nouveaux sont ajoutés.

Claude a du mal à poursuivre les choses sur une très longue période et à se sentir vraiment bien pour ce qu'il a essayé jusqu'à présent

Les fausses informations semblent être un gros problème.

Les choses qui ont été écrites dans le passé lui font confiance à l'aveugle.

Ce problème est clairement visible, si vous regardez le ruisseau dans un avenir proche, car bien que l'IA ait déjà acquis trois commandes et ait déjà conquis le Mondberg, elle se tient sur l'itinéraire devant le Mondberg et essayant de retrouver un moyen vers et à travers la montagne à nouveau. L'IA, cependant, prépare le vélo mentionné ci-dessus.

Si l'IA pouvait mieux se rappeler ce qu'elle a déjà essayé ou fait, elle se serait sauvée des dizaines d'heures.

Qu'est-ce que cela signifie pour l'avenir de l'IA?

Malgré les moments divertissants, lorsque Claude se bat contre les mécanismes de jeu qui ont été conçus pour les enfants des années 90, Hershey considère l'expérience comme un guide important du développement de l'IA.

La différence entre «ça ne peut pas» et «peut en quelque sorte» pour moi est assez grande pour moi dans ces choses de l'IA. Si quelque chose peut faire quelque chose, cela signifie généralement que nous sommes sur le point de le rendre vraiment bien.

Pour l'avenir, il voit un grand potentiel dans l'amélioration de la compréhension de l'image et de l'expansion de la fenêtre de contexte, qui lui permettrait de venir,argumenter sur une longue période et gérer les choses sur une longue période de temps cohérente.

Populaire à Gamestar Tech

Pas encore AGI en vue?

Tout en dirigeant des sociétés d'IA telles que OpenAai et Anthropic à partir d'une approcheIntelligence générale artificielle(AGI) Parle - une IA qui acquiert des compétences humaines dans presque tous les domaines imaginables - l'expérience montre également à quel point nous pourrions en être loin.

Claude se bat toujours avec des tâches qui ne sont pas un problème pour les gens, alors qu'elle est étonnamment capable dans d'autres domaines. La combinaison de la compréhension spatiale de la formation de la mémoire pourrait être cruciale pour le développement d'un vrai AGI.