On souhaite apprendre à établir un diagnostic médical. Les seules informations dont on dispose sont un ensemble d'observations pour un certain nombre de patients. Ces observations consistent par exemple, en des relevés de température, de tension, de la description de certains symptômes (maux de tête, douleurs abdominales), du groupe sanguin, .... Un ensemble d'observations associé à un patient est une description du patient. De plus, on suppose qu'à chaque description d'un patient particulier, on sait associer la classe correspondante. La classification peut être binaire (malade ou en bonne santé), ou non (possède telle maladie). Il est possible que le problème soit non déterministe, c'est-à-dire qu'à deux patients de classes différentes (par exemple l'un malade, l'autre pas) correspondent des ensembles d'observations identiques. On dispose donc d'un ensemble de descriptions et pour chacune d'elles de la classe associée (ou plus généralement, d'un multi-ensemble car une même information peut apparaitre plusieurs fois). Le but que l'on se fixe est de déterminer une procédure de classification qui à toute description associe une classe. On souhaite que cette procédure classifie le mieux possible les descriptions sur les cas connus, mais surtout, qu'elle classifie bien les descriptions correspondantes à de nouveaux patients.
Ce type de problème est bien connu. On parle de classification en reconnaissance de formes, de discrimination ou de prédiction en statistiques, d'apprentissage de concepts ou d'apprentissage inductif en IA.
Formalisons ce qui précède. Soit
une population munie d'une
probabilité P, soit D un espace de description de
et
l'application associée. Soit Cl un ensemble de
classes réalisant une partition de
et
la fonction de classement associée. Un exemple est un couple
(X(a), Y(a)) pour un élément a de
. Un échantillon est
un ensemble fini d'exemples (ou plus généralement, un
multi-ensemble d'exemples, c'est-à-dire un ensemble dans lequel
certains éléments peuvent apparaître plusieurs fois). Apprendre,
c'est, au vu d'un échantillon S, trouver une procédure de
classification C telle que
soit une bonne approximation
de Y. Il serait vain de pouvoir espérer trouver une procédure de
classification dans l'ensemble de toutes les applications de D dans
Cl. On suppose donc que l'on dispose d'un ensemble
de
procédures de classification, c'est-à-dire d'applications de
D vers Cl. Par exemple, on pourra prendre pour
l'ensemble
des procédures de classification qui peuvent
être calculées par un arbre de décision, ou par un arbre de décision
de taille inférieure ou égale à k, ou par un réseau de neurones
ayant une certaine architecture. Apprendre, c'est donc, au vu d'un
échantillon S, trouver une procédure de classification
telle que
soit une bonne approximation de Y.
Un ensemble de description D et un ensemble de classesétant fixés, un Système d'apprentissage doit, à partir d'un échantillon, rechercher dans un ensemble de procédures de classification une procédure de classification adaptée au problème particulier.
Les systèmes d'apprentissage peuvent être basés sur des méthodes statistiques (non abordées dans ce cours), sur des méthodes d'apprentissage automatique symbolique (arbres de décision), ou sur des méthodes adaptatives (réseaux de neurones). Il existe des méthodes statistiques paramétriques ou semi-paramétriques qui se basent sur des hypothèses sur la probabilité P (P est choisie dans un ensemble de probabilités définies en fonction de paramètres). Nous nous plaçons dans un cadre non paramétrique, c'est à dire un cadre non modélisé mathématiquement, c'est à dire encore un cadre dans lequel les probabilités nécessaires à l'application de la règle de Bayes sont inconnues.

Figure 1.2: Description d'un système d'apprentissage
On peut faire les remarques suivantes :
Enfin, terminons ce paragraphe en rappelant les hypothèses que nous avons faites :
Enfin, la qualité des systèmes est fortement dépendante du langage de description, du choix des exemples (aléatoires dans la population, aléatoires par classe,...), de la taille de l'échantillon. Nous verrons dans la suite de ce cours que certains systèmes se comportent mieux que d'autres en fonction de ces paramètres.