Etablir un diagnostic dans le domaine médical, signifie être capable d'associer le nom d'une maladie à un certain nombre de symptomes présentés par les malades.
Si l'on analyse l'exemple précédent, on repère trois objets essentiels : les malades, les maladies et les symptômes. Les malades représentent la population de travail, les symptômes représentent les descriptions qui permettent d'appréhender la population tandis que les maladies représentent l'ensemble qui doit permettre de classer la population. On suppose qu'il existe un classement correct (c'est-à-dire une application de l'ensemble des malades vers l'ensemble des maladies). Apprendre à établir un diagnostic, c'est associer une maladie à une liste de symptômes de telle manière que cette association corresponde au classement défini ci-dessus.
On peut remarquer que l'on différencie la population de l'ensemble des descriptions, ce qui correspond à la situation réelle. On décrit par exemple un patient par une liste de symptômes. Par conséquent, il est possible que deux individus appartenant à des classes différentes aient les mêmes descriptions (pour deux patients présentant les mêmes symptômes, l'un est malade, l'autre pas).


Figure 1.1: Apprendre, c'est trouver une fonction C
Dans la pratique, on dispose souvent d'un ensemble d'attributs
logiques, symboliques ou numériques qui prennent leurs
valeurs dans des domaines
. Décrire un élément de la
population consiste alors à attribuer une valeur à chacun de ces
attributs. L'espace de description D est alors égal au produit
cartésien
. Par exemple, on décrira un
patient par un ensemble de symptomes et une suite de mesures (tension,
température, ...), on décrira un client par un ensemble de données que
l'on possède sur lui (âge, sexe, catégorie socio-professionnelle,
...).
Comment exprimer le fait que
doit être une bonne
approximation de Y ? Intuitivement, cela signifie que
est
rarement différent de Y. Une manière de formaliser cela
consiste à supposer l'existence d'une distribution de probabilité sur
l'ensemble
et à dire que
est une bonne approximation
de Y s'il est peu probable que ces deux fonctions diffèrent.
On supposera donc que l'ensemble
est probabilisé et, pour
simplifier la présentation, que l'ensemble D est discret.
Soit P la probabilité définie sur la population
. On peut alors
définir les probabilités et notations suivantes :

La formule de Bayes s'écrit alors :
![]()
Supposons que nous soyons dans la situation idéale où nous pouvons
évaluer les quantités P(d), P(k) et P(d/k) pour toutes les valeurs d
de D et k de
pour lesquelles elles ont un
sens. Comment choisir la fonction C ?

En résumé :

On peut définir la probabilité d'erreur d'une fonction de classement de la façon suivante :
Le résultat suivant nous permet d'affirmer que, sous nos hypothèses, il existe une fonction de classement optimale au sens de la probabilité d'erreur.
Preuve. Soit C une fonction de classement. Pour toute description d, on a
![]()
Or
est la fonction de classement qui associe à d la
classe k qui maximise P(Y = k / X=d), donc, pour toute description
d,
est la fonction de classement qui minimise E(d).
L'erreur E(C) d'une fonction de classement est la moyenne pondérée
des erreurs sur les descriptions d, or
minimise l'erreur
pour tout d de D, donc
![]()

S'il existe une fonction de classement correcte, i.e. qui classifie
sans erreur tous les individus au vu de leur description, on a alors
. Autrement dit, la fonction de classement définie par
la règle de Bayes est correcte. On remarque qu'une fonction d'erreur
nulle existe si et seulement si deux individus appartenant à des
classes différentes ont des descriptions différentes. On dit dans ce
cas que le problème est déterministe. Cette situation est très
rare en pratique. En effet, il est rare que les paramètres
descriptifs dont on dispose soient suffisants pour classifier
correctement tous les individus de la population. Par exemple, deux
patients peuvent avoir les mêmes decriptions et que l'un soit malade
et l'autre non, deux clients ayant les mêmes descriptions peuvent
pour l'un répondre à un mailing et pour l'autre non. De plus, on
dispose rarement de données exactes et il suffit d'ajouter un peu de
``bruit'' à un problème déterministe pour le transformer en un
problème non déterministe.
Le cadre théorique dans lequel nous nous sommes placés est purement théorique car il est difficile, voire impossible d'estimer les probabilités utiles à l'application de la règle de Bayes. Cependant, ces résultats permettent de décrire la solution optimale au sens de la probabilité d'erreur et sont à la base de nombreuses méthodes statistiques.