La méthode des moindres carrés, bien connues des statisticiens a été appliquée aux réseaux neuronaux par Widrow et Hoff en 1960.
On reprend le modèle classique du perceptron, mais en supposant cette
fois que le seuil et les coefficients synaptiques sont réels et que la
sortie du perceptron n'est pas corrigée par une fonction à seuil,
c'est à dire que :
![]()
Ce nouveau dispositif a été baptisé ADALINE pour ADAptative LINear Element.
Si S est l'échantillon d'apprentissage, on définit l'erreur pour un exemple s de S par :
![]()
où
(resp.
) est la sortie
attendue (resp. calculée). L'erreur mesure donc l'écart entre les
sorties attendue et calculée.
L'erreur globale du perceptron sur l'échantillon S est alors égale à :
![]()
.
On remarque que E(S) = 0 ssi
.
L'apprentissage consiste donc à trouver un minimum global de la fonction erreur E(S) considérée comme une fonction des poids et du seuil.
La méthode du gradient permet de résoudre ce problème.
Soit f une fonction (suffisamment dérivable) dont on recherche un minimum.
La méthode du gradient construit une suite
qui doit en principe
s'approcher du minimum. Pour cela, on part d'une valeur quelconque
et
l'on construit la suite
où
est
une valeur ``bien'' choisie.
On a :
d'après le théorème des approximations finies si
est ``suffisamment'' petit.
On voit que, sous réserve de la correction de l'approximation,
est inférieur à
.

Figure 3.9: La méthode du gradient
On remarque que
est d'autant plus éloigné de
que la pente de
la courbe en
est grande. On peut décider d'arrêter l'itération lorsque
cette pente est suffisamment faible.
Les inconvénients bien connus de cette méthode sont :
L'algorithme de Widrow-Hoff utilise la méthode du gradient appliquée
non pas à l'erreur globale E(S) mais à chaque erreur locale E(s).
On a :
![]()
On a donc :
![]()
De même, ![]()
et
![]()
Au coefficient
près, on retrouve les valeurs de l'algorithme
d'apprentissage du perceptron.
On notera LMS (Least Mean Square learning) cette méthode d'apprentissage. Elle s'écarte de la méthode du gradient sur un point important : on modifie les poids après présentation de chaque exemple s en fonction de l'erreur locale E(s) et non de l'erreur globale E. Rien ne prouve donc que la diminution de l'erreur en un point ne va pas être compensée par une augmentation de l'erreur pour les autres points. La justification empirique de cette manière de procéder est commune à toutes les méthodes adaptatives : le champ d'application des méthodes adaptatives est justement l'ensemble des problèmes pour lesquels des ajustements locaux vont finir par converger vers une solution globale.
On remarque que le LMS utilise les même valeurs de correction que l'algorithme d'apprentissage du perceptron mais qu'il y a correction chaque fois que la sortie totale (qui est un réel) est différente de la valeur attendue (égale à 0 ou 1). Ce n'est donc pas une méthode d'apprentissage par correction d'erreur puisqu'il y a modification du perceptron dans (presque) tous les cas.
L'avantage de cette méthode par rapport à la précédente est que, même
si l'information est bruitée, (c'est-à-dire que certains exemples de
l'échantillon sont mal classés et qu'il n'est donc plus nécessairement
linéairement séparable), l'algorithme va converger vers une solution
``optimale'' (sous réserve du bon choix du paramètre
).