Next: Estimer a priori la
Up: Apprentissage à partir d'exemples
Previous: ``Bien'' classifier et ``Bien''
Un système d'apprentissage a induit une procédure de classification
à partir d'un échantillon ; on souhaite estimer la qualité
de la procédure induite en estimant l'erreur réelle
.
-
Train and Test. L'idée est de disposer d'un ensemble
permettant de tester la qualité de la procédure de classification
induite. On partitionne l'échantillon en un ensemble
d'apprentissage et un ensemble test. La répartition entre
les deux ensembles doit être faite aléatoirement. L'estimation de
l'erreur réelle est alors l'erreur apparente mesurée sur l'ensemble
test. La qualité de l'apprentissage augmente avec la taille de
l'ensemble d'apprentissage, de même, la précision de l'estimation
augmente avec la taille de l'ensemble test. Mais, dans la pratique, la
taille de l'échantillon est limitée. Cette méthode donne de bons
résultats lorsque l'échantillon est ``assez'' grand. Il existe peu
de résultats théoriques sur les tailles d'échantillon
nécessaires pour utiliser cette méthode, on ne dispose que de
résultats empiriques qui dépendent du problème (souvent,
plusieurs centaines d'exemples). La répartition de l'échantillon
entre les deux ensembles se fait en général dans des proportions
1/2, 1/2 pour chacun des deux ensembles ou 2/3 pour l'ensemble
d'apprentissage et 1/3 pour l'ensemble test.
- Resampling ou Reéchantillonage. Une première méthode
est la validation croisée. Elle consiste à découper
l'échantillon en k sous-ensembles. Un ensemble d'apprentissage
consiste en la réunion de k-1 sous-ensembles et un ensemble test
au k-ième sous ensemble. On exécute alors l'apprentissage sur
chacun des k ensembles d'apprentissage et on estime l'erreur
réelle par l'erreur apparente sur l'ensemble test correspondant.
L'estimation de l'erreur réelle est alors la moyenne des erreurs
apparentes obtenues. La deuxième méthode est celle du
bootstrap. Etant donné un échantillon S de taille n, on
tire avec remise un ensemble d'apprentissage de taille n (un
élément de S peut ne pas appartenir à l'ensemble
d'apprentissage, ou y figurer plusieurs fois), l'ensemble test est
S. L'estimation de l'erreur réelle est alors la moyenne des
erreurs apparentes obtenues pour un certain nombre d'itérations de
l'algorithme d'apprentissage.
Ces deux méthodes fournissent de
bons estimateurs de l'erreur réelle mais sont très couteuses en
temps de calcul. Elles sont très utiles pour les ``petits''
échantillons.
Next: Estimer a priori la
Up: Apprentissage à partir d'exemples
Previous: ``Bien'' classifier et ``Bien''
Marc Tommasi
Wed May 14 15:14:59 MET DST 1997