next up previous
Next: Résumons Up: Apprentissage à partir d'exemples Previous: Estimer a posteriori la

Estimer a priori la qualité de la procédure de classification

Dans le paragraphe précédent, nous avons mentionné différentes méthodes pous estimer a posteriori que le résultat de l'apprentissage a une certaine valeur prédictive. Mais, il est également souhaitable d'avoir certaines garanties a priori, pour ne pas faire tourner longuement un système d'apprentissage pour constater après coup que la valeur prédictive de la procédure de classification induite est faible. En effet, certains systèmes d'apprentissage sont très couteux en temps de calcul (par exemple, les réseaux de neurones) et il n'est pas envisageable, en général, de recommencer plusieurs fois la phase d'apprentissage. Malheureusement, les résultats théoriques sont peu nombreux et les garanties a priori restent faibles.

Soit tex2html_wrap_inline2390 la procédure de classification induite par la règle de décision de Bayes, la probabilité d'erreur tex2html_wrap_inline2580 est une borne indépassable (voir Théorème 1) qui représente d'une certaine manière la difficulté intrinsèque du problème. Soit tex2html_wrap_inline2462 l'ensemble des procédures de classification devant être explorées par le système d'apprentissage.

L'ensemble des procédures de classification est fixé. Dans la plupart des cas pratiques tex2html_wrap_inline2390 n'appartient pas tex2html_wrap_inline2462. Soit tex2html_wrap_inline2588 la procédure optimale de tex2html_wrap_inline2462 au sens de la probabilité d'erreur. tex2html_wrap_inline2462 étant fixé, le problème est de trouver ou d'approcher tex2html_wrap_inline2588, ce qui n'est pas facile en raison du biais inductif. En effet, si on sélectionne tex2html_wrap_inline2518 qui minimise le taux d'erreur apparent tex2html_wrap_inline2520, on n'a que peu d'indication sur l'erreur réelle tex2html_wrap_inline2522 et donc sur la proximité de tex2html_wrap_inline2518 et tex2html_wrap_inline2588. Les seuls résultats théoriques dont on dispose sont des résultats de convergence (en probabilité) de tex2html_wrap_inline2520 vers tex2html_wrap_inline2608 lorsque la taille de l'échantillon tend vers l'infini, sous certaines conditions sur tex2html_wrap_inline2462. Ces conditions sont : l'ensemble tex2html_wrap_inline2462 des procédures de classification est fini ou possède une dimension de Vapnik Chervonenkis finie (Vapnik Chervonenkis [16]).

Choisir l'ensemble des procédures de classification. Il est important de bien choisir tex2html_wrap_inline2462 pour que le système puisse inférer une ``bonne'' solution. Mais, si l'ensemble tex2html_wrap_inline2462 est trop petit (ou sa dimension de Vapnik Chervonenkis trop petite), tex2html_wrap_inline2588 peut être éloignée de tex2html_wrap_inline2390 et donc, il sera impossible que le système donne de bons résultats. Si l'ensemble tex2html_wrap_inline2462 est trop grand (ou sa dimension de Vapnik Chervonenkis trop grande), la recherche de tex2html_wrap_inline2518 devient plus complexe (le problème est alors un problème algorithmique, les problèmes sont souvent NP complets) et le biais inductif devient trop important (erreur apparente trop optimiste). Dans la plupart des situations pratiques, on peut considérer des suites emboitées d'ensembles de procédures de classification
displaymath2626
k représente une mesure de complexité (taille des arbres de décision, taille du réseau de neurones, ...). Il faut alors trouver la valeur du paramètre de complexité k telle que tex2html_wrap_inline2632, la procédure de tex2html_wrap_inline2634 qui minimise l'erreur apparente, ait la plus faible erreur réelle possible. Il existe en général un bon compromis ; en effet, lorsque k augmente, l'erreur réelle tex2html_wrap_inline2638 diminue lentement, se stabilise, puis croit lentement. Le bon compromis se situe dans la région où l'erreur réelle est stable. Ceci est illustré par une figure représentant l'évolution des erreurs réelle et apparente dans le cas d'un système d'apprentissage pour la reconnaissance de caractères utilisant des arbres de décision (voir figure 2.2).


next up previous
Next: Résumons Up: Apprentissage à partir d'exemples Previous: Estimer a posteriori la

Marc Tommasi
Wed May 14 15:14:59 MET DST 1997