Fouille de données
TP « visualisation de données (suite 5) »
Mise à l'échelle multi-dimensionnelle pour l'analyse de dissimilarité
Master MIASHS, Tronc commun
Université de Lille 3
Semestre 2
Objectifs du TP

On veut maintenant utiliser la MDS pour analyser un tableau de dissimilarités (ou de distances).

Le principe est le suivant : N objets sont caractérisés par leur dissimilarité les uns avec les autres. On veut obtenir une représentation 2D ou 3D de cette structure. Ces N objets peuvent donc être vus comme les nœuds d'un graphe totalement connecté.
Du point de vue du fichier décrivant le problème, chaque objet est donc vu comme le nœud d'un graphe et chaque couple de nœuds est relié par un arc caractérisé par la dissimilarité entre les deux objets/nœuds à ses extrémités. C'est donc exactement le même genre de fichier que pour le TP précédent.

À faire
Un réseau routier

On va considérer le réseau routier entre un certain nombre de grandes villes européennes. Les distances routières entre ces villes sont données dans le tableau ci-dessous (les distances sont symétriques) :

parislondresberlinmadrid bruxellesromeatheneslisbonne dublinamsterdamviennestockholm helsinkiluxembourg
londres439,4
berlin 1021,41096,9
madrid 1220,21641,92244
bruxelles 300,9371,9740,81523,5
rome 1475,41812,4 15042211,41494,7
athenes 2812,73120,32247,12837,4 2759 1282,3
lisbonne 1709,52131,22733,3625,22012,82576,54062,8
dublin 987,8550,7 15212190,3920,3 2360 3668,72979,6
amsterdam 502 546,5666,91724,6203,61649,73795,92213,9870,5
vienne 1208,91521,2616,62320,41126,91028,91643,22809,72069,61165,4
stockholm 1817,41864,71149,1 30401520,52597,7 33953629,32268,31382,11764,5
helsinki 2912,82988,31891,44135,42632,23197,83612,84624,73590,92558,32166,9494,7
luxembourg 332,7 574755,81535,61206,41299,22552,62024,91122,4387,3935,51552,62647,2
copenhague 1197,61244,9529,32420,2900,71977,92775,22909,51497,8801,21144,7616,21099,5932,8
  1. créer le fichier adéquat pour son analyse avec ggobi ;
  2. ouvrir ggobi sur ce fichier et accéder à l'outil MDS. Dans l'onglet « Task », cliquer sur « Dissiilarity analysis » ;
  3. lancez la MDS et interprêtez le résultat. Relancez plusieurs fois la MDS en mélangeant les points entre deux lancements. Notez la valeur de stress obtenue. Visualisez le nom des villes. Comparez MDS métrique et non métrique, ... Les résultats vous paraissentt-ils satisfaisants (par rapport à la géographie de l'Europe)
  4. faites une MDS en 3D puis en 2D. Comparez.

À ce stade, vous devez avoir manipulé tous les réglages possibles, et les avoir compris... Pour cela, si certaines choses vous échappent consultez la documentation déjà mentionnée lors du TP précédent : la documentation de l'outil ggvis et la documentation sur la MDS.

Pour compléter ce TP, il est particulièrement intéressant de faire le même type d'études en mesurant la dissimilarité entre les villes de différentes manières :

Valid XHTML 1.0! Valid CSS!