Ajouter un commentaire

Facebook ouvre le code d'une implémentation de ReBel, un algorithme IA capable de battre les humains aux jeux à informations imparfaites

Par:

fredericmazue

jeu, 24/12/2020 - 15:01

intelligence artificielle, machine learning

La combinaison de l'apprentissage par renforcement profond et de la recherche à la fois au moment de la formation et du test est un paradigme puissant qui a conduit à un certain nombre de succès dans les environnements à agent unique et les jeux d'information parfaite. C'est ainsi qu'AlphaZero a montré des résultats remarquables notamment au jeu de Go et au jeu d'Echces.

Mais cette combinaison ne convient pas aux jeux à information imparfaite, c'est-à-dire les jeux dans lesquels les joueurs n'ont pas une connaissance complète de l'état du jeu.

C'est ici qu'intervient ReBeL, pour Recursive Belief-based Learning, qui est un cadre général pour l'apprentissage et la recherche par renforcement par le jeu autonome qui converge de manière prouvée vers un équilibre de Nash dans tout jeu à somme nulle à deux joueurs.

Dans un article, les chercheurs en intelligence artificielle de Facebook expliquent que ReBel excelle à des jeux comme Liar's Dice, les dés menteurs, ou au poker, variante Texas Hold'em, très à la mode en ce moment. Selon les chercheurs de Facebook, 'ReBeL réalise des performances surhumaines dans le Texas Hold'em tout en utilisant beaucoup moins de connaissances du domaine que n'importe quel robot de poker précédent'.

L'article de Facebook mentionné plus haut donne de très intéressants détails techniques sur le fonctionnement de Rebel.

Facebook propose en outre une implémentation open source de ReBel, conçue pour jouer à Liar's Dice.

Cette implémentation est un logiciel libre sous licence Apache 2.0, disponible sur GitHub.

Ajouter un commentaire

H H RRRR L W W L
H H R R L W W L
HHHH RRRR L W W W L
H H R R L W W W L
H H R RR LLLL W W LLLL

Ajouter un commentaire

Facebook ouvre le code d'une implémentation de ReBel, un algorithme IA capable de battre les humains aux jeux à informations imparfaites

Filtered HTML

Plain text