En conclusion, l'apprentissage par perceptron ou par la méthode des moindres carrés ne sont rien d'autres que des techniques de séparation linéaire qu'il faudrait comparer aux techniques utilisées habituellement en statistiques. Ces méthodes sont non paramétriques, c'est-à-dire qu'elles n'exigent aucune autre hypothèse sur les données que la séparabilité.
On peut montrer que ``presque'' tous les échantillons de moins de 2n exemples sont linéairement séparables lorsque n est le nombre de variables. Une classification correcte d'un petit échantillon n'a donc aucune valeur prédictive. Par contre, lorsque l'on travaille sur suffisamment de données et que le problème s'y prête, on constate empiriquement que le perceptron appris par un des deux algorithmes précédents a un bon pouvoir prédictif.
Il est bien évident que la plupart des problèmes d'apprentissage qui se posent naturellement ne peuvent pas être résolus par des méthodes aussi simples : il n'y a que très peu d'espoirs que les exemples ``naturels'' se répartissent ``sagement'' de part et d'autre d'un hyperplan. Une manière de résoudre cette difficulté serait soit de mettre au point des séparateurs non-linéaires, soit (ce qui revient à peu près au même) de complexifier l'espace de représentation de manière à linéariser le problème initial. C'est ce que permettent de faire les réseaux multicouches.