Cette méthode permet d'inférer des arbres de décision binaires,
i.e. tous les tests étiquetant les noeuds de décision sont
binaires. Le langage de représentation est constitué d'un certain
nombre d'attributs. Ces attributs peuvent être binaires, qualitatifs
(à valeurs dans un ensemble fini de modalités) ou continus (à valeurs
réelles). Le nombre de tests à explorer va dépendre de la nature
des attributs. A un attribut binaire correspond un test binaire. A un
attribut qualitatif ayant n modalités, on peut associer autant de
tests qu'il y a de partitions en deux classes, soit
tests
binaires possibles. Enfin, dans le cas d'attributs continus, il y a
une infinité de tests envisageables. Dans ce cas, on découpe
l'ensemble des valeurs possibles en segments, ce découpage peut être
fait par un expert ou fait de façon automatique.
Nous supposons prédéfini un ensemble de tests binaires. Pour définir l'algorithme, nous allons définir les trois opérateurs utilisés par la méthode CART pour calculer un bon arbre de décision (phase d'expansion), puis nous verrons la phase d'élagage. Nous nous plaçons dans le cas d'un échantillon S ``assez grand'' qui peut être découpé en un ensemble d'apprentissage A et un ensemble Test T.
Soit t l'arbre obtenu en sortie de la phase d'expansion.
On considère alors la position p pour laquelle g(p) est minimale
et
est l'élagué de
en position p.