Next: Apprentissage automatique : les
Up: Apprentissage à partir d'exemples
Previous: Estimer a priori la
- Une bonne connaissance du problème est nécessaire. La
difficulté intrinsèque du problème dépend de la qualité du langage
de représentation choisi (choix de D et X) et également de la
qualité des données (problème déterministe, existence de
bruit,...). Cette connaissance est nécessaire au choix de
, c'est à dire des procédures de classification (arbres de
décision, réseaux de neurones).
- Chercher une procédure d'erreur apparente minimale n'a
pas grand sens. En effet, d'un point de vue algorithmique, dans
la plupart des cas, chercher une procédure d'erreur apparente
minimale est un problème NP-complet. Par exemple, trouver une
formule booléenne somme de trois monômes compatible avec un
échantillon est un problème NP-complet. De plus, en raison du
biais inductif, l'erreur apparente n'est pas une bonne estimation
de l'erreur réelle.
- Il faut trouver un bon compromis adéquation aux
données/complexité. En effet, si les procédures sont peu
complexes (
est petit ou sa dimension de Vapnik
Chervonenkis est petite) alors aucune d'elles n'aura de
performances suffisantes. Si les procédures sont très complexes
(
est grand ou sa dimension de Vapnik
Chervonenkis est grande) alors le biais inductif devient très grand
et il est impossible de se rapprocher de l'optimum. Bien
évidemment la taille de l'échantillon disponible est importante :
plus on a d'exemples, plus des procédures complexes peuvent être
envisagées.
Marc Tommasi
Wed May 14 15:14:59 MET DST 1997