Mario au lieu de mathématiques: le plombier ne sauve plus seulement Peach, mais teste à quel point les modèles d'IA sont intelligents

Mario a toujours été un multi-talent. Désormais, les repères de l'IA s'inscrivent dans ses compétences. (Source de l'image: Openaai | anthropic | wikipedia)

Les repères pour les modèles d'IA sont souvent secs: mathématiques, tests logiques, analyses de données complexes. Mais les chercheurs de l'UC San Diego ont choisi une nouvelle approche - et leurs Kis simplementLaissez commentRapports TechSpot.

Cela ressemble à une curieuse expérience? Peut-être. Mais cela montre que le timing est parfois plus important que la puissance de calcul pure.

L'expérience: agent de jeu en tant que contrôleur d'IA

Les chercheurs du laboratoire Hao AI de l'Université de Californie San Diego ont l'agent de jeu-cadre (Girub) Développé avec lequel les modèles AI peuvent contrôler le plombier Mario à l'aide du code Python.

La base était une version émulée de Super Mario Bros. sur le NES. Les Kis ont reçu des instructions simples telles queRessortissant sur cet adversaireainsi que des captures d'écran pour l'orientation.

L'objectif était de savoir à quel point les modèles peuvent planifier leurs actions et l'ajuster en temps réel.

Contenu éditorial recommandé

À ce stade, vous trouverez un contenu externe de Twitter, qui complète l'article.
Vous pouvez le faire afficher en un clic et le masquer à nouveau.

Je suis d'accord que le contenu de Twitter est affiché.

Les données personnelles peuvent être transmises aux plates-formes de troisième partie. Plus à ce sujet dans notre.

Se lier àContenu Twitter

Claude 3.7 domine-GPT-4O Stolpert

Les résultats pourraient vous surprendre: Claude 3.7 d'Anthropic a montré les meilleures performances. Il a maîtrisé des sauts précis, a cédé la place aux adversaires et a agi en toute confiance dans son ensemble.

Même son prédécesseurClaude 3.5Bien coupé, sinon aussi impressionnant.

ÀGPT-4O d'Openai et Google's Gemini 1.5 ProD'un autre côté, il avait l'air très différent. Les modèles qui sont réellement connus pour leur forte capacité de pensée logique ont été difficiles.

Ils ont souvent échoué en raison des mécanismes de jeu de base et ont souvent sauté dans des lacunes d'une manière incontrôlée ou ont été touchés par des adversaires.

Le timing bat la logique

Le test a montréque les réflexes rapides sont plus importants que la logique complexe - au moins jouer avec Mario.

Alors que certains modèles d'IA essaient de «réfléchir» aux situations, cette approche a entraîné de longs retards.

Après tout, quelques millisecondes à Super Mario Bros. peuvent faire la différence entre un saut réussi et une tentative ratée.

Les chercheurs soupçonnent que des modèles de «réflexion» tels que GPT-4O calculent trop longtempsavant d'agir et donc de sauter dans le vide.

Populaire à Gamestar Tech

Des jeux rétro tels que Ki Benchmark?

Bien sûr, la question demeure à quel point ces tests sont significatifs. Un modèle d'IA qui bat la figure de jeu vidéo Mario ne convient pas automatiquement aux tâches complexes dans le monde réel. Néanmoins, l'expérience fournit une connaissance passionnante: non seulement la puissance de calcul décide, mais aussi des décisions intuitives rapides.