next up previous
Next: ``Bien'' classifier et ``Bien'' Up: Apprentissage à partir d'exemples Previous: Fondements théoriques

La problématique réelle

On souhaite apprendre à établir un diagnostic médical. Les seules informations dont on dispose sont un ensemble d'observations pour un certain nombre de patients. Ces observations consistent par exemple, en des relevés de température, de tension, de la description de certains symptômes (maux de tête, douleurs abdominales), du groupe sanguin, .... Un ensemble d'observations associé à un patient est une description du patient. De plus, on suppose qu'à chaque description d'un patient particulier, on sait associer la classe correspondante. La classification peut être binaire (malade ou en bonne santé), ou non (possède telle maladie). Il est possible que le problème soit non déterministe, c'est-à-dire qu'à deux patients de classes différentes (par exemple l'un malade, l'autre pas) correspondent des ensembles d'observations identiques. On dispose donc d'un ensemble de descriptions et pour chacune d'elles de la classe associée (ou plus généralement, d'un multi-ensemble car une même information peut apparaitre plusieurs fois). Le but que l'on se fixe est de déterminer une procédure de classification qui à toute description associe une classe. On souhaite que cette procédure classifie le mieux possible les descriptions sur les cas connus, mais surtout, qu'elle classifie bien les descriptions correspondantes à de nouveaux patients.

Ce type de problème est bien connu. On parle de classification en reconnaissance de formes, de discrimination ou de prédiction en statistiques, d'apprentissage de concepts ou d'apprentissage inductif en IA.

Formalisons ce qui précède. Soit tex2html_wrap_inline2176 une population munie d'une probabilité P, soit D un espace de description de tex2html_wrap_inline2176 et tex2html_wrap_inline2436 l'application associée. Soit Cl un ensemble de classes réalisant une partition de tex2html_wrap_inline2176 et tex2html_wrap_inline2442 la fonction de classement associée. Un exemple est un couple (X(a), Y(a)) pour un élément a de tex2html_wrap_inline2176. Un échantillon est un ensemble fini d'exemples (ou plus généralement, un multi-ensemble d'exemples, c'est-à-dire un ensemble dans lequel certains éléments peuvent apparaître plusieurs fois). Apprendre, c'est, au vu d'un échantillon S, trouver une procédure de classification C telle que tex2html_wrap_inline2168 soit une bonne approximation de Y. Il serait vain de pouvoir espérer trouver une procédure de classification dans l'ensemble de toutes les applications de D dans Cl. On suppose donc que l'on dispose d'un ensemble tex2html_wrap_inline2462 de procédures de classification, c'est-à-dire d'applications de D vers Cl. Par exemple, on pourra prendre pour tex2html_wrap_inline2462 l'ensemble des procédures de classification qui peuvent être calculées par un arbre de décision, ou par un arbre de décision de taille inférieure ou égale à k, ou par un réseau de neurones ayant une certaine architecture. Apprendre, c'est donc, au vu d'un échantillon S, trouver une procédure de classification tex2html_wrap_inline2474 telle que tex2html_wrap_inline2168 soit une bonne approximation de Y.

Un ensemble de description D et un ensemble de classes tex2html_wrap_inline2242 étant fixés, un Système d'apprentissage doit, à partir d'un échantillon, rechercher dans un ensemble de procédures de classification une procédure de classification adaptée au problème particulier.

Les systèmes d'apprentissage peuvent être basés sur des méthodes statistiques (non abordées dans ce cours), sur des méthodes d'apprentissage automatique symbolique (arbres de décision), ou sur des méthodes adaptatives (réseaux de neurones). Il existe des méthodes statistiques paramétriques ou semi-paramétriques qui se basent sur des hypothèses sur la probabilité P (P est choisie dans un ensemble de probabilités définies en fonction de paramètres). Nous nous plaçons dans un cadre non paramétrique, c'est à dire un cadre non modélisé mathématiquement, c'est à dire encore un cadre dans lequel les probabilités nécessaires à l'application de la règle de Bayes sont inconnues.

 figure199
Figure 1.2: Description d'un système d'apprentissage

On peut faire les remarques suivantes :

Enfin, terminons ce paragraphe en rappelant les hypothèses que nous avons faites :

  1. On suppose que l'espace des exemples est probabilisé, mais que la loi est inconnue,
  2. On suppose que le langage de représentation est fixé, c'est-à-dire que l'ensemble des descriptions est fixé, la description se fait à l'aide d'un ensemble d'attributs,
  3. On suppose que les observations sont formalisées et donc que les descriptions sont manipulables par ordinateur.

Enfin, la qualité des systèmes est fortement dépendante du langage de description, du choix des exemples (aléatoires dans la population, aléatoires par classe,...), de la taille de l'échantillon. Nous verrons dans la suite de ce cours que certains systèmes se comportent mieux que d'autres en fonction de ces paramètres.


next up previous
Next: ``Bien'' classifier et ``Bien'' Up: Apprentissage à partir d'exemples Previous: Fondements théoriques

Marc Tommasi
Wed May 14 15:14:59 MET DST 1997