Game Theory and ML course -- IFT 6756 -- Théorie des Jeux pour l'Apprentissage Machine


Mandatory registration to the TEAMS. (if you registered through studium you will find the link to access the TEAMS, if you want to audit the course and you are not a UdeM student send me an email)
The class will be taught in French or English, depending on attendance (all slides and class notes are in English).
A background in Deep Learning is recommended.
A background in Machine Learning, Optimization, Reinforcement Learning and Algorithmic Game Theory may be a plus.

French Version

Inscription obligatoire au TEAMS du cours. (si vous vous êtes inscrit via Studium vous trouverez le lien pour accéder a TEAMS du cours, si vous souhaitez auditer le cours et que vous n'êtes pas étudiant à l'UdeM, envoyez-moi un email)
Le cours sera enseigné en français ou en anglais, selon la fréquentation (toutes les diapositives et notes de cours sont en anglais).
Des connaissances en apprentissage profond sont recommandées.
Des connaissances en apprentissage automatique, optimisation, apprentissage par renforcement et théorie des jeux algorithmiques peuvent être un plus.

Description

The number of Machine Learning applications related to game theory has been growing in the last couple of years. For example, two-player zero-sum games are important for generative modeling (GANs) and mastering games like Go or Poker via self-play. This course is at the interface between game theory, optimization, and machine learning. It tries to understand how to learn models to play games. It will start with some quick notions of game theory to eventually delve into machine learning problems with game formulations such as GANs or Multi-agent RL. This course will also cover the optimization (a.k.a, training) of such machine learning games.

Un nombre grandissant d'applications d'apprentissage automatique liées à la théorie des jeux à vu le jour ces dernières années. Par exemple, les jeux à deux joueurs et à somme nulle sont importants pour la modélisation générative (GAN) et la maîtrise de jeux comme Go ou Poker via l'appentissage autonome. Ce cours est à l'interface entre la théorie des jeux, l'optimisation et l'apprentissage automatique. Il essaie de comprendre comment apprendre des modèles pour jouer à des jeux. Il commencera par quelques notions rapides de théorie des jeux pour finalement se plonger dans les problèmes d'apprentissage automatique avec des formulations de jeux telles que les GAN ou l'apprentissage par renforcement avec plusieurs agents. Ce cours couvrira également l'optimisation (a.k.a, entrainement) de tels jeux d'apprentissage automatique.

Schedule (Tentative) - Plan de cours

Due to the current sanitary situation the course will be given online. There will be two lectures a week, starting January 19th. The timeslots for the lectures are the following:
  • Tuesday 4:30PM--6:30PM
  • Friday 3:30PM--5:30PM
The Last timeslots will be dedicated to project presentations (probably 15 minutes talks). The Winter session ends on April 30th.
The following schedule is a tentative plan:
  • Introduction. The ML and Game Theory fundamental concepts necessary in this course. (2 weeks)
  • Generative Adversarial Networks. (2-3 weeks)
  • Optimization of Games. (3 weeks)
  • Multi-Agent RL. We will cover some theory and applications (3-4 weeks)
  • Invited talks + Projects Presentations. (last remaining weeks)

French Version

En raison de la situation sanitaire actuelle, le cours sera donné en ligne. Il y aura deux cours par semaine, à partir du 19 Janvier. Les plages horaires des cours sont les suivantes:
  • Mardi 16h30-18h30
  • Vendredi 15h30-17h30
Les derniers créneaux horaires seront consacrés à des présentations de projets (probablement des exposés de 15 minutes). La session d'hiver se termine le 30 avril. Plan du cours:
  • Introduction. Les concepts fondamentaux d'apprentisage machine et de la théorie des jeux nécessaires pour ce cours. (2 semaines)
  • Réseaux Génératifs Antagonistes: Étude d'une des principales applications à l'interface entre théorie des jeux et apprentissage. (2-3 semaines)
  • Optimization des jeux: Étude des méthodes d'entrainement pour approximer les équilibres de jeux différentiables. (3 semaines)
  • Apprentissage par renforcement avec multiples agents: Nous couvrirons certain aspects théoriques ainsi que quelques applications (3-4 semaines)
  • Présentations des projets. (2 semaines)


Evaluation

Project 100% - Attending at least 80% of the classes is also mandatory. The project evaluation will be based on a mid-session extended abstract, project report, and a project presentation.

Projet 100% - Assister à au moins 80% des cours est également obligatoire. L'évaluation du projet sera basée sur un rapport, une présentation et un pré-rapport à mi-session.

Timeline -- Dates Importantes

  • March 12th (11:59PM AoE): Extended Abstract submission -- Soumission du pré-rapport.
  • April 29th (11:59PM AoE): Project Report submission -- Soumission du rapport de projet.
  • End of April: Project Presentations (Optional if a paper presentation has already been done) -- Présentation des projets (facultative si une présentation de papier à déjà été faite)


Extended Abstract and Project Report

The project report and

Relevant references


  • GANs: https://arxiv.org/abs/1406.2661,
  • Big GAN: https://arxiv.org/abs/1809.11096
  • WGAN: https://arxiv.org/pdf/1701.07875.pdf
  • WGAN-GP: https://arxiv.org/pdf/1704.00028.pdf
  • Poker: https://www.cs.cmu.edu/~noamb/papers/19-Science-Superhuman.pdf, https://www.cs.cmu.edu/~noamb/papers/17-Science-Superhuman.pdf
  • Diplomacy: https://arxiv.org/pdf/2010.02923.pdf, https://arxiv.org/abs/2006.04635, https://arxiv.org/abs/1909.02128
  • Hanabi: https://arxiv.org/abs/1902.00506, https://arxiv.org/abs/1811.01458
  • StarCraft II: https://www.nature.com/articles/d41586-019-03343-4
  • AlphaGo: https://www.nature.com/articles/nature16961
  • AlphaGo zero: https://www.nature.com/articles/nature24270
  • Alpha zero: https://science.sciencemag.org/content/362/6419/1140
  • Open-ended learning: https://arxiv.org/abs/1901.08106
  • Spinning-top: https://arxiv.org/abs/2004.09468
  • Unified framework: https://arxiv.org/pdf/1711.00832.pdf
  • Re-evaluating Evaluation: https://papers.nips.cc/paper/2018/file/cdf1035c34ec380218a8cc9a43d438f9-Paper.pdf
  • Lola https://arxiv.org/abs/1709.04326
  • Numerics of GANs: https://arxiv.org/abs/1705.10461
  • Optimistic methods: https://arxiv.org/abs/1711.00141
  • Extragradient methods: https://arxiv.org/abs/1802.10551, https://arxiv.org/abs/1906.05945
  • Negative momentum: https://arxiv.org/abs/1807.04740
  • Optimal convergence rates in games: https://arxiv.org/abs/2001.00602
  • Noise in Games: https://arxiv.org/abs/1904.08598
  • A Unified Game-Theoretic Approach to Multiagent Reinforcement Learning: https://arxiv.org/pdf/1711.00832.pdf
  • Mean Field Multi-Agent Reinforcement Learning https://arxiv.org/pdf/1802.05438.pdf
  • Adversarial Training: https://arxiv.org/abs/1706.06083

Potential Projects


Critic of a paper --- Critique d'un papier (Experimental)

This kind of project, is about reproducing a research paper, criticizing their experimental method/results, and proposing an ablation study or new experiments that has not been done in the paper. One of the paper in the list above may for instance good candiate for such a project.

Reproduction d'un papier, puis critique de la méthode experimentale proposée. Enfin le projet doit se conclure par la proposition d'une nouvelle experience pour completer le papier.

Projects List --- Liste de projets

Read a paper from the list and send me an email for more details on the project:
Theoretical
  • Improving the lower bounds from: https://arxiv.org/abs/2001.0060
  • Last iterate convergence for Stochastic extragradient method: https://arxiv.org/abs/1905.11373
  • Re-evaluating evaluation of Multi-player games: https://papers.nips.cc/paper/2018/file/cdf1035c34ec380218a8cc9a43d438f9-Paper.pdf
  • Adversarial example Games for the theory of adversarial examples: https://arxiv.org/abs/2007.00720
  • Law of robustness for Neural Networks: https://arxiv.org/abs/2009.14444
  • New convergence rates for Alternated Gradient Method (extending the ones in https://arxiv.org/abs/1807.04740 )
  • Primal-Dual optimization in RL: New alorithm to solve the minimax formulation proposed in http://proceedings.mlr.press/v120/serrano20a.html
Experimental
  • Adversarial Example Games for Adversarial training: https://arxiv.org/abs/2007.00720
  • Try some optimizers (ExtraAdam, Negative Momentum) on text data

Propose your Own Project (higher risk but it will be taken into account) --- Proposition d'un projet personnel (plus risqué. Cela sera pris en compte dans l'évaluation)

The stage of the extended abstract is very important because the proposal might be refused at mid-term if it is judged that it does not fit the standard of the course.