next up previous
Next: Conclusion Up: Le Perceptron Previous: Théorème d'apprentissage

Apprentissage par la méthode des moindres carrés ou de Widrow-Hoff

La méthode des moindres carrés, bien connues des statisticiens a été appliquée aux réseaux neuronaux par Widrow et Hoff en 1960.

On reprend le modèle classique du perceptron, mais en supposant cette fois que le seuil et les coefficients synaptiques sont réels et que la sortie du perceptron n'est pas corrigée par une fonction à seuil, c'est à dire que :
displaymath3246

Ce nouveau dispositif a été baptisé ADALINE pour ADAptative LINear Element.

Si S est l'échantillon d'apprentissage, on définit l'erreur pour un exemple s de S par :


displaymath3254
tex2html_wrap_inline3256 (resp. tex2html_wrap_inline3258) est la sortie attendue (resp. calculée). L'erreur mesure donc l'écart entre les sorties attendue et calculée.

L'erreur globale du perceptron sur l'échantillon S est alors égale à :
displaymath3262
.

On remarque que E(S) = 0 ssi tex2html_wrap_inline3266.

L'apprentissage consiste donc à trouver un minimum global de la fonction erreur E(S) considérée comme une fonction des poids et du seuil.

La méthode du gradient permet de résoudre ce problème.

Soit f une fonction (suffisamment dérivable) dont on recherche un minimum. La méthode du gradient construit une suite tex2html_wrap_inline3272 qui doit en principe s'approcher du minimum. Pour cela, on part d'une valeur quelconque tex2html_wrap_inline3274 et l'on construit la suite tex2html_wrap_inline3276tex2html_wrap_inline3238 est une valeur ``bien'' choisie.

On a : tex2html_wrap_inline3280 d'après le théorème des approximations finies si tex2html_wrap_inline3282 est ``suffisamment'' petit.

On voit que, sous réserve de la correction de l'approximation, tex2html_wrap_inline3284 est inférieur à tex2html_wrap_inline3286.

 figure653
Figure 3.9: La méthode du gradient

On remarque que tex2html_wrap_inline3288 est d'autant plus éloigné de tex2html_wrap_inline3272 que la pente de la courbe en tex2html_wrap_inline3272 est grande. On peut décider d'arrêter l'itération lorsque cette pente est suffisamment faible.

Les inconvénients bien connus de cette méthode sont :

  1. le choix de tex2html_wrap_inline3238 est empirique,
  2. si tex2html_wrap_inline3238 est trop petit, le nombre d'itérations peut être très élevé,
  3. si tex2html_wrap_inline3238 est trop grand, les valeurs de la suite risquent d'osciller autour du minimum sans converger,
  4. rien ne garantit que le minimum trouvé est un minimum global.

L'algorithme de Widrow-Hoff utilise la méthode du gradient appliquée non pas à l'erreur globale E(S) mais à chaque erreur locale E(s). On a :
displaymath3304

On a donc :
displaymath3306

De même,
displaymath3308

et
displaymath3310

Au coefficient tex2html_wrap_inline3238 près, on retrouve les valeurs de l'algorithme d'apprentissage du perceptron.

On notera LMS (Least Mean Square learning) cette méthode d'apprentissage. Elle s'écarte de la méthode du gradient sur un point important : on modifie les poids après présentation de chaque exemple s en fonction de l'erreur locale E(s) et non de l'erreur globale E. Rien ne prouve donc que la diminution de l'erreur en un point ne va pas être compensée par une augmentation de l'erreur pour les autres points. La justification empirique de cette manière de procéder est commune à toutes les méthodes adaptatives : le champ d'application des méthodes adaptatives est justement l'ensemble des problèmes pour lesquels des ajustements locaux vont finir par converger vers une solution globale.

On remarque que le LMS utilise les même valeurs de correction que l'algorithme d'apprentissage du perceptron mais qu'il y a correction chaque fois que la sortie totale (qui est un réel) est différente de la valeur attendue (égale à 0 ou 1). Ce n'est donc pas une méthode d'apprentissage par correction d'erreur puisqu'il y a modification du perceptron dans (presque) tous les cas.

L'avantage de cette méthode par rapport à la précédente est que, même si l'information est bruitée, (c'est-à-dire que certains exemples de l'échantillon sont mal classés et qu'il n'est donc plus nécessairement linéairement séparable), l'algorithme va converger vers une solution ``optimale'' (sous réserve du bon choix du paramètre tex2html_wrap_inline3238).


next up previous
Next: Conclusion Up: Le Perceptron Previous: Théorème d'apprentissage

Marc Tommasi
Wed May 14 15:14:59 MET DST 1997