Les deux arbres généalogiques ci-dessous présentent les relations entre les membres de deux familles comprenant chacune 12 personnes. On remarque que ces arbres sont isomorphes. Les relations sont : père, mère, mari, femme, fils, fille, oncle, tante, frère, soeur, neveu et nièce.
On souhaite faire apprendre ces relations à un réseau de neurones, c'est-à-dire que pour tout triplet de la forme (<personne1>,<relation>,<personne2>) décrit dans l'un des deux arbres, et toute entrée égale à (<personne1>,<relation>), le réseau calcule la réponse (<personne2>).

Figure 3.16: Les familles américaines et italiennes de Hinton
Pour cela, Hinton utilise un réseau à 3 couches cachées dont l'architecture est décrite ci-dessous. Un groupe de 24 cellules d'entrée sert à coder les 24 personnes possibles. Un deuxième groupe de 12 cellules d'entrée sert à coder les relations. Chacun de ces groupes est connecté à un groupe de 6 cellules. Le rôle de cette couche est de coder l'information en entrée de manière optimale relativement au problème posé. La couche centrale contient 12 cellules ; c'est à ce niveau que la liaison persone-relation doit s'effectuer. L'avant dernière couche contient 6 cellules qui devra contenir une version codée de la sortie.
Le réseau a été entrainé sur 100 des 104 relations possibles et après apprentissage prolongé, il a été capable de généraliser correctement sur les 4 exemples restants. Citons Hinton à ce propos :
<<It generalized correctly because during the training it learned to represent each of the people in terms of important features such as age, nationality, and the branch of the family tree that they belonged to, even these ``semantic'' features were not at all explicit in the input or output vectors. Using these underlying features, much of the information about family relationships can be captured by a fairly small number of ``micro-inferences'' between features. For example, the father of a middle-aged person is an old person, and the father of an Italian person is an Italian person. So the features of the output person can be derived from the features of the input person and of relationship. The learning procedure can only discover these features by searching for a set of features that make it easy to express the associations. Once these features have been discovered, the internal representation of each person (in the first hidden layer) is a distributed pattern of activity and similar people are represented by similar patterns. Thus the network constructs its own internal similarity metric. This is a significant advance over simulations in which good generalization is achieved because the experimenter chooses representations that already have an appropriate similarity metric>>.