Contextualisation, Visualisation et Évaluation
en Apprentissage Non Supervisé

Télécharger la thèse / la présentation

Résumé :

Cette thèse se place dans le cadre de l'apprentissage non supervisé, qui consiste à former différents groupes à partir d'un ensemble de données, de telle manière que les données considérées comme les plus similaires soient associées au même groupe et qu'au contraire les données considérées comme différentes se retrouvent dans des groupes distincts, permettant ainsi d'extraire de la connaissance à partir de ces données.

Nous proposons d'abord deux nouvelles méthodes qui prennent en compte le contexte dans lequel les groupes sont créés, c'est-à-dire le fait que les caractéristiques des différents groupes peuvent être définies sur différents sous-ensembles des attributs décrivant les données. Dans la mise en oeuvre de ces méthodes, nous avons également considéré les problématiques de la minimisation du nombre de connaissances a priori requises de la part de l'utilisateur et de la présentation des résultats sous forme compréhensible et visuelle. Nous présentons ensuite plusieurs extensions possibles de ces méthodes, dans le cadre de l'apprentissage supervisé puis face à des données semi-structurées représentées sous forme arborescente.

Différentes expérimentations sur données artificielles puis sur données réelles sont présentées qui mettent en avant l'intérêt de ces méthodes. Le problème de l'évaluation des résultats produits par une méthode d'apprentissage non supervisé, et de la comparaison de telles méthodes, restant aujourd'hui un problème ouvert, nous proposons enfin une nouvelle méthode d'évaluation plus objective et quantitative que celles utilisées traditionnellement, et dont la pertinence est montrée expérimentalement.

Mots clés :

Summary :

This phd thesis lies in the framework of unsupervised learning, that consists in creating different groups from a given dataset, so that data objects that are considered as the most similar are associated to the same group whereas data objects that are considered as different are associated to distinct groups. It thus allows us to extract some knowledge from this set of data.

We first propose two new methods that take into account the context in which the clusters are created, that is the fact that the caracteristics of the different groups may be defined according to different subsets of the attributes that describe the data. In the design of these methods, we also considered the problems of minimizing the prior knowledge required from the user and of presenting the results in an interpretable and visual way. We then present some possible extensions of these methods, in the framework of supervised learning and then faced with semi-structured data represented as trees.

Many experiments conducted on artificial as well as real data are presented and show the interest of these methods. Finally, as evaluating the results produced by an unsupervised learning approach and comparing such methods are open problems, we propose a new evaluation method that is more objective and quantitative than the traditionally used ones, and we experimentally show its relevance.

Keywords :

Date de dernière modification: 18/09/2006