Agents adaptatifs
Prise de décision séquentielle
Master 2 recherche en Informatique
Université de Lille 1
Philippe Preux

Cette page concerne la partie « Agents adaptatifs ; prise de décision séquenielle » du cours intitulé « Complexité et algorithmique du renforcement ». Jean-Paul Delahaye en assure l'autre moitié.

Quand : jeudi matin, 10h15-12h15, à partir du 29 octobre 2009, amphi Turing, bâtiment M3.

Planning de l'ensemble du cours :

Objectifs de ce module

L'objectif de ce cours est de réflêchir sur la notion d'agents adaptatifs et d'examiner les problèmes posés, les solutions existantes, et discuter les problèmes qui restent ouverts.

L'expression « agent adaptatif » représente un agent informatique :

Les exemples sont très nombreux : imaginez un agent qui apprend :

L'agent s'adapte au cours du temps ; aussi, il s'agît d'un processus qui se déroule au cours du temps ; à chaque instant, l'agent doit décider de l'action à effectuer (décider) en tenant compte de ce qui lui est arrivé précédemment, d'où la dénomination de « prise de décision séquentielle » d'une manière générale.

L'agent en question peut être virtuel ou matériel (un robot physique) ; l'environnement peut lui aussi être virtuel (dans un ordinateur, le web, ...), ou physique.
Selon les informations dont on dispose sur l'environnement et son évolution au cours du temps, différentes approches ont été développées :

Dans tous les cas, l'agent doit apprendre comment interagir avec son environnement : il est important de bien réaliser que l'on ne s'intéresse pas à des agents qui auraient une base de connaissance leur explicitant comment atteindre leur objectif. On suppose que la manière d'atteindre l'objectif est a priori inconnue et que l'agent doit découvrir comment l'atteindre.

Concernant l'environnement, celui-ci est non déterministe (stochastique) : les conséquences d'une action de l'agent peuvent être aléatoires. La perception de l'environnement par l'agent est par ailleurs incertaine.

L'intérêt d'une approche incrémentale est que l'agent adapte constamment son comportement à son environnement ; donc, si l'environnement change, le comportement de l'agent va s'y adapter de lui même.

Durant le cours, on présentera ce problème de décision séquentielle d'une manière générale et on se concentrera sur quelques cas particuliers importants. On verra les méthodes actuellement utilisées pour résoudre ces différentes variantes problèmes ; on verra comment on aborde un problème concret. À côté du cours, chacun est vivement invité à implanter les algorithmes qui seront vus en autonomie.

Pré-requis

Typiquement, une première année de master en informatique, laquelle s'appuie sur quelques années de mathématiques après le bac (licence ou prépa).

Plan du cours

Contrôle de connaissances

10 décembre 2009, 10h15-12h15.
Il comportera deux parties, l'une sur le cours de J-P. Delahaye, l'autre sur la mienne ; chacune est calibrée pour une heure de travail. Tous les documents papiers sont autorisés.

Équipe de recherche associée

Si ce cours vous a plu et que vous cherchez à effectuer un mémoire sur ce type de problématiques, vous pouvez essayer de rejoindre l'équipe SequeL de l'INRIA-Futurs à Lille et du LIFL.

Mémoires proposés en 2010 :

Quelques références et liens

Retour à ma page web.
Valid XHTML 1.0! Valid CSS!