next up previous
Next: La problématique réelle Up: Apprentissage à partir d'exemples Previous: Apprentissage à partir d'exemples

Fondements théoriques

 

Etablir un diagnostic dans le domaine médical, signifie être capable d'associer le nom d'une maladie à un certain nombre de symptomes présentés par les malades.

Si l'on analyse l'exemple précédent, on repère trois objets essentiels : les malades, les maladies et les symptômes. Les malades représentent la population de travail, les symptômes représentent les descriptions qui permettent d'appréhender la population tandis que les maladies représentent l'ensemble qui doit permettre de classer la population. On suppose qu'il existe un classement correct (c'est-à-dire une application de l'ensemble des malades vers l'ensemble des maladies). Apprendre à établir un diagnostic, c'est associer une maladie à une liste de symptômes de telle manière que cette association corresponde au classement défini ci-dessus.

On peut remarquer que l'on différencie la population de l'ensemble des descriptions, ce qui correspond à la situation réelle. On décrit par exemple un patient par une liste de symptômes. Par conséquent, il est possible que deux individus appartenant à des classes différentes aient les mêmes descriptions (pour deux patients présentant les mêmes symptômes, l'un est malade, l'autre pas).


notation89

 figure95
Figure 1.1: Apprendre, c'est trouver une fonction C

Dans la pratique, on dispose souvent d'un ensemble d'attributs tex2html_wrap_inline2160 logiques, symboliques ou numériques qui prennent leurs valeurs dans des domaines tex2html_wrap_inline2162. Décrire un élément de la population consiste alors à attribuer une valeur à chacun de ces attributs. L'espace de description D est alors égal au produit cartésien tex2html_wrap_inline2166. Par exemple, on décrira un patient par un ensemble de symptomes et une suite de mesures (tension, température, ...), on décrira un client par un ensemble de données que l'on possède sur lui (âge, sexe, catégorie socio-professionnelle, ...).

Comment exprimer le fait que tex2html_wrap_inline2168 doit être une bonne approximation de Y ? Intuitivement, cela signifie que tex2html_wrap_inline2168 est rarement différent de Y. Une manière de formaliser cela consiste à supposer l'existence d'une distribution de probabilité sur l'ensemble tex2html_wrap_inline2176 et à dire que tex2html_wrap_inline2168 est une bonne approximation de Y s'il est peu probable que ces deux fonctions diffèrent.

On supposera donc que l'ensemble tex2html_wrap_inline2176 est probabilisé et, pour simplifier la présentation, que l'ensemble D est discret. Soit P la probabilité définie sur la population tex2html_wrap_inline2176. On peut alors définir les probabilités et notations suivantes :
notation104

La formule de Bayes s'écrit alors :
displaymath2230

Supposons que nous soyons dans la situation idéale où nous pouvons évaluer les quantités P(d), P(k) et P(d/k) pour toutes les valeurs d de D et k de tex2html_wrap_inline2242 pour lesquelles elles ont un sens. Comment choisir la fonction C ?


exemple122

En résumé :


définition152

On peut définir la probabilité d'erreur d'une fonction de classement de la façon suivante :


 définition160

Le résultat suivant nous permet d'affirmer que, sous nos hypothèses, il existe une fonction de classement optimale au sens de la probabilité d'erreur.


 théorème166

Preuve. Soit C une fonction de classement. Pour toute description d, on a


displaymath2388

Or tex2html_wrap_inline2390 est la fonction de classement qui associe à d la classe k qui maximise P(Y = k / X=d), donc, pour toute description d, tex2html_wrap_inline2390 est la fonction de classement qui minimise E(d).

L'erreur E(C) d'une fonction de classement est la moyenne pondérée des erreurs sur les descriptions d, or tex2html_wrap_inline2390 minimise l'erreur pour tout d de D, donc
displaymath2414
tex2html_wrap_inline2416


exemple175

S'il existe une fonction de classement correcte, i.e. qui classifie sans erreur tous les individus au vu de leur description, on a alors tex2html_wrap_inline2424. Autrement dit, la fonction de classement définie par la règle de Bayes est correcte. On remarque qu'une fonction d'erreur nulle existe si et seulement si deux individus appartenant à des classes différentes ont des descriptions différentes. On dit dans ce cas que le problème est déterministe. Cette situation est très rare en pratique. En effet, il est rare que les paramètres descriptifs dont on dispose soient suffisants pour classifier correctement tous les individus de la population. Par exemple, deux patients peuvent avoir les mêmes decriptions et que l'un soit malade et l'autre non, deux clients ayant les mêmes descriptions peuvent pour l'un répondre à un mailing et pour l'autre non. De plus, on dispose rarement de données exactes et il suffit d'ajouter un peu de ``bruit'' à un problème déterministe pour le transformer en un problème non déterministe.

Le cadre théorique dans lequel nous nous sommes placés est purement théorique car il est difficile, voire impossible d'estimer les probabilités utiles à l'application de la règle de Bayes. Cependant, ces résultats permettent de décrire la solution optimale au sens de la probabilité d'erreur et sont à la base de nombreuses méthodes statistiques.


next up previous
Next: La problématique réelle Up: Apprentissage à partir d'exemples Previous: Apprentissage à partir d'exemples

Marc Tommasi
Wed May 14 15:14:59 MET DST 1997