Laurent Candillier
Nationalité: français
Date et lieu de naissance: 29/11/1978 à Roubaix

E-mail: lcandillier@hotmail.com
Tél: 06 64 35 08 72
Adresse: 29 rue Pasteur, 59250 Halluin, France
(Permis B)

Cursus général

Travaux de recherche

La problématique générale de l'ensemble des travaux de recherche que j'ai menés s'inscrit dans le cadre de l'apprentissage automatique, qui constitue la thématique centrale du laboratoire GRAppA de l'université de Lille 3.

Dans un premier temps, j'ai travaillé sur l'apprentissage automatique de profils de lecteurs (rapport technique n°16). L'objectif de cette étude consistait à aider les lecteurs de sites d'informations en ligne à cibler au mieux l'information qui les intéresse. Nous avons identifié pour cela deux approches intéressantes et complémentaires, relevant respectivement du filtrage collaboratif et de l'extraction d'information. Dans le premier cas, un profil utilisateur consiste en un ensemble de notes sur un ensemble de pages déjà visitées, et dans l'autre cas, le profil est thématique et déduit du contenu textuel des pages visitées. Lors de mon stage de DEA, nous nous sommes concentrés principalement sur la première approche. J'ai d'abord développé une méthode permettant la génération automatique de notes d'utilisateurs sur les pages parcourues, à partir des informations contenues dans les fichiers de log des sites concernés. Puis j'ai développé plusieurs méthodes de filtrage collaboratif, ainsi que d'autres méthodes n'utilisant aucune notion de profil, et les expérimentations ont alors montré l'intérêt de la création de tels profils pour aider à déterminer l'intérêt d'un visiteur donné pour une page donnée non encore visitée.

Initialement soutenue par la société Rosebud, cette étude a été poursuivie en thèse. J'ai alors développé la seconde approche basée sur l'extraction d'information. Nous avons ainsi constaté son intérêt et avons observé sa complémentarité avec la première approche. Nos premières expérimentations visant à combiner les deux approches se sont alors avérées très prometteuses. Malheureusement, suite à un problème interne à la société Rosebud, cette recherche de thèse a rapidement été interrompue. Notons enfin qu'une autre piste envisagée dans ce cadre était de créer des communautés de lecteurs ayant les mêmes centres d'intérêt. On passe alors dans le domaine de la classification non supervisée, ou clustering.

C'est ce domaine du clustering qui a constitué la base des travaux que j'ai ensuite mené dans le cadre de ma thèse. L'objectif général du clustering est d'identifier, dans un ensemble de données, des groupes aux caractéristiques similaires. Nous nous sommes intéressés particulièrement aux cas où certains attributs composant les données ont plus ou moins d'importance dans la formation de certains groupes, c'est-à-dire aux cas où tous les attributs ne sont pas forcément utiles et où ces attributs pertinents ne sont pas nécessairement les mêmes d'un groupe à l'autre. Une première méthode, appelée Tuareg, a ainsi été mise en œuvre (publication n°10). Dans l'esprit, l'approche est comparable à celle de C4.5 en apprentissage supervisé : il s'agit de repérer à chaque étape l'attribut permettant le partitionnement le plus pertinent pour le groupe de données considéré, et d'itérer ce processus jusqu'à ce que plus aucun groupe ne soit amélioré par découpage.

Cependant, dans certains cas, fractionner l'ensemble des données en considérant les attributs indépendemment les uns des autres n'est pas suffisant. Nous avons donc proposé une autre méthode appelée SSC, basée sur l'utilisation de modèles probabilistes et d'une méthode originale permettant de fournir un résultat compréhensible (publications n° 4, 9 et 15). Cette méthode a par ailleurs été adaptée pour faire face à des données présentées sous forme d'arbres, des expérimentations à grande échelle ayant ainsi été menées lors du challenge INEX portant sur les données XML (publications n°6 et 14). Elle s'est alors avérée très efficace, même face à des données bruitées, et en particulier pour fournir des résultats compréhensibles. Puis nous avons étendu la méthode, alors appelée SuSE, pour ajouter une phase de sélection rigide des attributs les plus pertinents pendant l'apprentissage (publications n°7 et 11). Ces travaux ayant été soutenus par la société Pertinence, ils ont finalement donné lieu à un prototype utilisable dans le logiciel développé par la société.

Enfin, nous nous sommes également attaqué, lors de cette recherche en thèse, à la problématique ouverte importante de l'évaluation et de la comparaison d'algorithmes de clustering. La nouvelle méthode que nous avons proposée dans ce cadre, appelée évaluation en cascade (publications n° 3, 5, 8 et 12), consiste à comparer les résultats d'un algorithme supervisé lorsqu'il est (ou pas) aidé par de l'information issue d'un algorithme de clustering. Ainsi, si les résultats de l'algorithme supervisé sont améliorés lorsqu'il utilise de l'information fournie par un algorithme de clustering, alors cela signifie que cette information est nouvelle et utile, ce qui permet de caractériser objectivement l'intérêt du clustering.

Ces travaux ont donné lieu à une thèse intitulée Contextualisation, Visualisation et Évaluation en Apprentissage Non Supervisé, rapportée par les Professeurs Edwin Diday et Gérard Govaert, et soutenue le 15 septembre 2006 à l'université Charles de Gaulle de Lille 3, devant le jury composé des Professeurs Rémi Gilleron, Edwin Diday et Gérard Govaert, des Maîtres de Conférence Isabelle Tellier et Fabien Torre, et du chercheur Olivier Bousquet.

À la suite de cette thèse obtenue avec la mention très honorable, j'ai effectué un post-doctorat à France Telecom R&D sur les systèmes de recommandations. Nos travaux initiaux ont porté sur l'étude de l'état de l'art et l'expérimentation des méthodes principales de filtrage collaboratif. La publication n°2 fournit ainsi une vue générale clarifiée de l'existant dans ce domaine, mettant en avant les avantages et inconvénients de chaque approche, ainsi que certaines options qui ont mené à l'obtention de meilleurs résultats sur un jeu de données réel souvent utilisé comme référence dans la littérature : MovieLens. La publication suivante n°1, quant à elle, met en avant l'intérêt de mettre en place des mesures de similarité spécifiques pour le cadre de données creuses comme celles qui sont gérées en filtrage collaboratif. Les expérimentations ont été menées sur 2 jeux de données de référence : MovieLens et Netflix. Ce deuxième ayant une taille 100 fois supérieure à celle du premier, il soulève également les probématiques de tenue de charge des algortihmes implémentés. Enfin, la publication n°13 offre un tour d'horizon large du sujet, abordant également l'importante problématique des interactions des systèmes avec les utilisateurs.

Mots clés : Apprentissage Automatique, Fouille de Données, Extraction de Connaissances, Apprentissage Supervisé, Apprentissage Non Supervisé, Apprentissage Semi-Supervisé, Apprentissage par Renforcement, Apprentissage Statistique, Modèles Probabilistes, Subspace Clustering, Données semi-structurées, Documents XML, Évaluation d'Algorithmes, Profiling, Systèmes de Recommandations, Filtrage Collaboratif, Extraction d'Information

Publications

    Conférences internationales

  1. [2008] Designing Specific Weighted Similarity Measures to Improve Collaborative Filtering Systems
    Laurent Candillier, Frank Meyer, Françoise Fessant
    In Petra Perner, editor
    8th Industrial Conference on Data Mining
    ICDM'2008, Leipzig, Germany, 16-18 july 2008
    Lecture Notes in Computer Science

  2. [2007] Comparing state-of-the-art collaborative filtering systems
    Laurent Candillier, Frank Meyer, Marc Boullé
    In Petra Perner, editor
    5th International Conference on Machine Learning and Data Mining in Pattern Recognition
    MLDM'2007, Leipzig, Germany, 18-20 july 2007
    Lecture Notes in Computer Science, LNAI 4571, pages 548-562

  3. [2006] Cascade Evaluation of Clustering Algorithms
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Johannes Fürnkranz, Tobias Scheffer and Myra Spiliopoulou, editors
    17th European Conference on Machine Learning
    ECML'2006, Berlin, Germany, 18-22 september 2006
    Lecture Notes in Computer Science, LNAI 4212, pages 574-581

  4. [2005] SSC : Statistical Subspace Clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Petra Perner and Atsushi Imiya, editors
    4th International Conference on Machine Learning and Data Mining in Pattern Recognition
    MLDM'2005, Leipzig, Germany, 9-11 july 2005
    Lecture Notes in Computer Science, LNAI 3587, pages 100-109

    Workshops internationaux

  5. [2005] Cascade Evaluation of Clustering Algorithms
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    Workshop on Theoretical Foundations of Clustering
    NIPS'2005, Vancouver, Canada, 5-10 december 2005

  6. [2005] Transforming XML trees for efficient classification and clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre
    Workshop on Mining XML documents
    INEX'2005, Schloss Dagstuhl, Wadern, Germany, 28-30 november 2005

    Conférences françaises

  7. [2006] SuSE : Subspace Selection embedded in an EM algorithm
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Laurent Miclet, editor, pages 331-345
    8ème Conférence francophone sur l'Apprentissage automatique
    CAp'2006, Trégastel, 22-24 may 2006

  8. [2006] Évaluation en cascade d'algorithmes de clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Laurent Miclet, editor, pages 109-124
    8ème Conférence francophone sur l'Apprentissage automatique
    CAp'2006, Trégastel, 22-24 may 2006

  9. [2005] SSC : Statistical Subspace Clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    In Suzanne Pinson and Nicole Vincent, editors
    5èmes journées francophones d'Extraction et Gestion des Connaissances
    EGC'2005, Paris, 19-21 january 2005
    Revue des Nouvelles Technologies de l'Information (RNTI), volume 1, pages 177-182

  10. [2004] Tuareg : Classification non supervisée contextualisée
    Laurent Candillier, Isabelle Tellier, Fabien Torre
    In Michel Liquière and Marc Sebban, editors, pages 159-174
    6ème Conférence francophone sur l'Apprentissage automatique
    CAp'2004, Montpellier, 14-16 june 2004

    Workshops français

  11. [2006] SuSE: Subspace Selection embedded in an EM algorithm
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    2èmes Rencontres Inter-Associations sur la classification et ses applications
    RIAs'2006, Lyon, 20-21 march 2006

  12. [2006] Évaluation en cascade d'algorithmes de clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    2èmes Rencontres Inter-Associations sur la classification et ses applications
    RIAs'2006, Lyon, 20-21 march 2006

    Chapitres de livres

  13. [2008] State-of-the-Art Recommender Systems
    L. Candillier, K. Jack, F. Fessant, F. Meyer
    In Collaborative and Social Information Retrieval and Access: Techniques for Improved User Modeling, chapter 1

  14. [2007] Mining XML Documents
    L. Candillier, L. Denoyer, P. Gallinari, M.C. Rousset, A. Termier, A.M. Vercoustre
    In Data Mining Patterns : new Methods and Applications, chapter 8

    Rapports techniques

  15. [2005] SSC : Statistical Subspace Clustering
    Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
    Rapport technique GRAppA 2005 (version détaillée de l'article présenté à EGC'2005)

  16. [2001] Apprentissage Automatique de Profils de Lecteurs
    Laurent Candillier, Isabelle Tellier, Fabien Torre
    Rapport technique GRAppA 2001

Enseignement universitaire

Responsabilités collectives

Expérience professionnelle

Compétences en informatique

Langues parlées

Vie associative

Loisirs

Création de sites web