|
Le déroulement d'un projet n'est pas linéaire. On peut constater dans l'étape de validation que les performances obtenues ne sont pas suffisantes ou que les utilisateurs du domaine jugent l'information inexploitable, il s'agira alors de choisir une autre méthode de fouille, ou de remettre en cause les codages, ou de chercher à enrichir les données. On évalue dans un projet le temps passé à l'étape de fouille de données (qui est l'étape de découverte d'informations proprement dite) à moins de 20% du temps. Par conséquent, plus de 80% du temps est dédié aux opérations de sélection, nettoyage, enrichissement et codage.
Un éditeur vend 5 sortes de magazines : sport, voiture, maison, musique et BD. Il souhaite mieux étudier ses clients pour découvrir de nouveaux marchés ou vendre plus de magazines à ses clients habituels. Les questions qu'il se pose sont :Les questions qui sont proposées ici sont de natures différentes et mettent en jeu des processus différents.
- << Combien de personnes ont pris un abonnement à un magazine de sport cette année ? >>
- << A-t-on vendu plus d'abonnements de magazines de sport cette année que l'année dernière ? >>
- << Est-ce que les acheteurs de magazines de BD sont aussi amateurs de sport ? >>
- << Quelles sont les caractéristiques principales de mes lecteurs de magazines de voiture ? >>
- << Peut-on prévoir les pertes de clients et prévoir des mesures pour les diminuer ? >>
|
Ces données sont tout d'abord copiées sur une machine adéquate, pour des questions de performance, mais surtout parce qu'elles seront modifiées.
client Nom Adresse Date d'abonnement Magazine 23134 Bemol Rue du moulin, Paris 7/10/96 Voiture 23134 Bemol Rue du moulin, Paris 12/5/96 Musique 23134 Bemol Rue du moulin, Paris 25/7/95 BD 31435 Bodinoz Rue verte, Nancy 11/11/11 BD 43342 Airinaire Rue de la source, Brest 30/5/95 Sport 25312 Talonion Rue du marché, Paris 25/02/98 NULL 43241 Manvussa NULL 14/04/96 Sport 23130 Bemolle Rue du moulin, Paris 11/11/11 Maison
Figure 2.2 : Obtention des données
|
Là encore, le langage SQL est utilisé pour la recherche de doublons et des informations manquantes.
client Nom Adresse Date d'abonnement Magazine 23134 Bemol Rue du moulin, Paris 7/10/96 Voiture 23134 Bemol Rue du moulin, Paris 12/5/96 Musique 23134 Bemol Rue du moulin, Paris 25/7/95 BD 31435 Bodinoz Rue verte, Nancy NULL BD 43342 Airinaire Rue de la source, Brest 30/5/95 Sport 43241 Manvussa NULL 14/04/96 Sport 23130 Bemol Rue du moulin, Paris NULL Maison
Figure 2.3 : Après nettoyage
|
client Date de naissance Revenus Propriétaire Voiture Bemol 13/1/50 20 000 F Oui Oui Bodinoz 21/5/70 12 000 F Non Oui Airinaire 15/06/63 9 000 F Non Non Manvussa 27/03/47 15 000 F Non Oui
Figure 2.4 : Enrichissment
|
La représentation horizontale est plus adaptée à la fouille de données et certains calculs sont simplifiés. Par exemple, la somme de la colonne sport que divise le nombre d'enregistrements calcule le pourcentage de clients ayant souscrit un abonnement à un magazine de sport. Notons que la date d'abonnement dépend du type de magazine. De façon générale, la modification présentée en figure 2.5 peut induire une perte d'information pour tous les champs en dépendance fonctionnelle avec le champ transformé. Nous choisissons de transformer le champ date d'abonnement en date du plus vieil abonnement. Il est à noter que cette transformation ne nous permet plus espérer générer des règles de la forme : un acheteur de BD s'abonne à un magazine de musique dans les deux ans qui suivent.
Sport BD Voiture Maison Musique 23134 0 1 1 0 1 31435 0 1 0 0 0 43342 1 0 0 0 0 43241 1 0 0 0 0
Figure 2.5 : Codage des attributs discrets
Sport BD Voiture Maison Musique Date de naissance Revenus Propriétaire Voiture Paris? Durée d'abonnement 23134 0 1 1 0 1 50 20 Oui Oui 1 4 31435 0 1 0 0 0 30 12 Non Oui 0 NULL 43342 1 0 0 0 0 37 9 Non Non 0 5 43241 1 0 0 0 0 53 15 Non Oui NULL 4
Figure 2.6 : Codage des attributs discrets et normalisation.
|
|
| Validation croisée (S,x) | |
| // S est un ensemble x est un entier | |
| Découper S en x parties égales {S1,...,Sx} | |
| Pour | i de 1 à x |
| Construire un modèle M avec l'ensemble S-Si | |
| Evaluer l'erreur ei de M avec Si | |
| Fin Pour | |
| Retourner la moyenne des ei=åi=1x ei/x |