Laurent Candillier
Nationalité: français
Date et lieu de naissance: 29/11/1978 à Roubaix
E-mail: lcandillier@hotmail.com
Tél: 06 64 35 08 72
Adresse: 29 rue Pasteur, 59250 Halluin, France
(Permis B)
Cursus général
- 2006-2008:
Post-doctorat (systèmes de recommandations),
France Telecom R&D, Lannion
- 2003-2006:
Thèse informatique (clustering),
université de Lille 3,
laboratoire GRAppA
- 2001-2002:
Thèse informatique (profiling),
université de Lille 1,
LIFL / GRAppA
- 2000-2001:
DEA informatique, université de Lille 1, mention assez bien
- 1999-2000:
Maîtrise informatique, université de Lille 1 et
Aston University (Birmingham - Angleterre),
mention assez bien
- 1998-1999:
Licence informatique, université de Lille 1
- 1996-1998:
DEUG MIAS, université de Lille 1, mention assez bien
- 1995-1996:
Terminale Scientifique,
lycée Gambetta, Tourcoing, mention bien
Travaux de recherche
La problématique générale de l'ensemble des travaux de recherche
que j'ai menés s'inscrit dans le cadre de l'apprentissage automatique,
qui constitue la thématique centrale du laboratoire GRAppA de l'université
de Lille 3.
Dans un premier temps, j'ai travaillé sur l'apprentissage automatique
de profils de lecteurs (rapport technique n°16). L'objectif de cette étude
consistait à aider les lecteurs de sites d'informations en ligne à cibler
au mieux l'information qui les intéresse. Nous avons identifié pour cela deux
approches intéressantes et complémentaires, relevant respectivement du
filtrage collaboratif et de l'extraction d'information. Dans le
premier cas, un profil utilisateur consiste en un ensemble de notes sur
un ensemble de pages déjà visitées, et dans l'autre cas, le profil est thématique
et déduit du contenu textuel des pages visitées. Lors de mon stage de DEA, nous nous
sommes concentrés principalement sur la première approche. J'ai d'abord développé une
méthode permettant la génération automatique de notes d'utilisateurs sur les pages
parcourues, à partir des informations contenues dans les fichiers de log
des sites concernés. Puis j'ai développé plusieurs méthodes de
filtrage collaboratif, ainsi que d'autres méthodes n'utilisant aucune notion
de profil, et les expérimentations ont alors montré l'intérêt de la création de
tels profils pour aider à déterminer l'intérêt d'un visiteur donné pour
une page donnée non encore visitée.
Initialement soutenue par la société Rosebud, cette étude a été poursuivie
en thèse. J'ai alors développé la seconde approche basée sur
l'extraction d'information. Nous avons ainsi constaté son intérêt
et avons observé sa complémentarité avec la première approche. Nos
premières expérimentations visant à combiner les deux approches se sont alors
avérées très prometteuses. Malheureusement, suite à un problème interne à la
société Rosebud, cette recherche de thèse a rapidement été interrompue. Notons
enfin qu'une autre piste envisagée dans ce cadre était de créer des communautés
de lecteurs ayant les mêmes centres d'intérêt. On passe alors dans le
domaine de la classification non supervisée, ou clustering.
C'est ce domaine du clustering qui a constitué la base des travaux que
j'ai ensuite mené dans le cadre de ma thèse. L'objectif général du
clustering est d'identifier, dans un ensemble de données, des groupes
aux caractéristiques similaires. Nous nous sommes intéressés particulièrement
aux cas où certains attributs composant les données ont plus ou moins
d'importance dans la formation de certains groupes, c'est-à-dire aux cas où
tous les attributs ne sont pas forcément utiles et où ces attributs pertinents
ne sont pas nécessairement les mêmes d'un groupe à l'autre. Une première
méthode, appelée Tuareg, a ainsi été mise en uvre (publication n°10).
Dans l'esprit, l'approche est comparable à celle de C4.5 en
apprentissage supervisé : il s'agit de repérer à chaque étape l'attribut
permettant le partitionnement le plus pertinent pour le groupe de données
considéré, et d'itérer ce processus jusqu'à ce que plus aucun groupe ne soit
amélioré par découpage.
Cependant, dans certains cas, fractionner l'ensemble des données en considérant
les attributs indépendemment les uns des autres n'est pas suffisant. Nous avons
donc proposé une autre méthode appelée SSC, basée sur l'utilisation de
modèles probabilistes et d'une méthode originale permettant de fournir un
résultat compréhensible (publications n° 4, 9 et 15). Cette méthode a par ailleurs
été adaptée pour faire face à des données présentées sous forme d'arbres, des
expérimentations à grande échelle ayant ainsi été menées lors du challenge INEX
portant sur les données XML (publications n°6 et 14). Elle s'est alors avérée très
efficace, même face à des données bruitées, et en particulier pour fournir des
résultats compréhensibles. Puis nous avons étendu la méthode, alors appelée
SuSE, pour ajouter une phase de sélection rigide des attributs
les plus pertinents pendant l'apprentissage (publications n°7 et 11). Ces travaux
ayant été soutenus par la société Pertinence, ils ont finalement donné
lieu à un prototype utilisable dans le logiciel développé par la société.
Enfin, nous nous sommes également attaqué, lors de cette recherche en thèse, à la
problématique ouverte importante
de l'évaluation et de la comparaison d'algorithmes de clustering. La nouvelle
méthode que nous avons proposée dans ce cadre, appelée évaluation en cascade
(publications n° 3, 5, 8 et 12), consiste à comparer les résultats d'un algorithme
supervisé lorsqu'il est (ou pas) aidé par de l'information issue d'un algorithme
de clustering. Ainsi, si les résultats de l'algorithme supervisé sont
améliorés lorsqu'il utilise de l'information fournie par un algorithme de
clustering, alors cela signifie que cette information est nouvelle et utile,
ce qui permet de caractériser objectivement l'intérêt du clustering.
Ces travaux ont donné lieu à une thèse intitulée Contextualisation, Visualisation
et Évaluation en Apprentissage Non Supervisé, rapportée par les Professeurs
Edwin Diday et Gérard Govaert, et soutenue le 15 septembre 2006 à l'université Charles
de Gaulle de Lille 3, devant le jury composé des Professeurs Rémi Gilleron, Edwin Diday
et Gérard Govaert, des Maîtres de Conférence Isabelle Tellier et Fabien Torre, et du
chercheur Olivier Bousquet.
À la suite de cette thèse obtenue avec la mention très honorable, j'ai
effectué un post-doctorat à France Telecom R&D sur les systèmes de recommandations.
Nos travaux initiaux ont porté sur l'étude de l'état de l'art et l'expérimentation des
méthodes principales de filtrage collaboratif. La publication n°2 fournit ainsi une vue
générale clarifiée de l'existant dans ce domaine, mettant en avant les avantages et
inconvénients de chaque approche, ainsi que certaines options qui ont mené à l'obtention de
meilleurs résultats sur un jeu de données réel souvent utilisé comme référence dans la
littérature : MovieLens. La publication suivante n°1, quant à elle, met en avant
l'intérêt de mettre en place des mesures de similarité spécifiques pour le cadre de données
creuses comme celles qui sont gérées en filtrage collaboratif. Les expérimentations ont été
menées sur 2 jeux de données de référence : MovieLens et Netflix. Ce deuxième ayant
une taille 100 fois supérieure à celle du premier, il soulève également les probématiques
de tenue de charge des algortihmes implémentés. Enfin, la publication n°13 offre un tour
d'horizon large du sujet, abordant également l'importante problématique des interactions
des systèmes avec les utilisateurs.
Mots clés : Apprentissage Automatique, Fouille de Données, Extraction de Connaissances,
Apprentissage Supervisé, Apprentissage Non Supervisé, Apprentissage Semi-Supervisé,
Apprentissage par Renforcement, Apprentissage Statistique, Modèles Probabilistes,
Subspace Clustering, Données semi-structurées, Documents XML, Évaluation d'Algorithmes,
Profiling, Systèmes de Recommandations, Filtrage Collaboratif, Extraction d'Information
Publications
Conférences internationales
-
[2008] Designing Specific Weighted Similarity Measures to Improve Collaborative Filtering Systems
Laurent Candillier, Frank Meyer, Françoise Fessant
In Petra Perner, editor
8th Industrial Conference on Data Mining
ICDM'2008, Leipzig, Germany, 16-18 july 2008
Lecture Notes in Computer Science
-
[2007] Comparing state-of-the-art collaborative filtering systems
Laurent Candillier, Frank Meyer, Marc Boullé
In Petra Perner, editor
5th International Conference on Machine Learning and Data Mining in Pattern Recognition
MLDM'2007, Leipzig, Germany, 18-20 july 2007
Lecture Notes in Computer Science, LNAI 4571, pages 548-562
-
[2006] Cascade Evaluation of Clustering Algorithms
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Johannes Fürnkranz, Tobias Scheffer and Myra Spiliopoulou, editors
17th European Conference on Machine Learning
ECML'2006, Berlin, Germany, 18-22 september 2006
Lecture Notes in Computer Science, LNAI 4212, pages 574-581
-
[2005] SSC : Statistical Subspace Clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Petra Perner and Atsushi Imiya, editors
4th International Conference on Machine Learning and Data Mining in Pattern Recognition
MLDM'2005, Leipzig, Germany, 9-11 july 2005
Lecture Notes in Computer Science, LNAI 3587, pages 100-109
Workshops internationaux
-
[2005] Cascade Evaluation of Clustering Algorithms
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
Workshop on
Theoretical Foundations of Clustering
NIPS'2005, Vancouver, Canada, 5-10 december 2005
-
[2005] Transforming XML trees for efficient classification and clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre
Workshop on Mining XML documents
INEX'2005, Schloss Dagstuhl, Wadern, Germany, 28-30 november 2005
Conférences françaises
-
[2006] SuSE : Subspace Selection embedded in an EM algorithm
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Laurent Miclet, editor, pages 331-345
8ème Conférence francophone sur l'Apprentissage automatique
CAp'2006, Trégastel, 22-24 may 2006
-
[2006] Évaluation en cascade d'algorithmes de clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Laurent Miclet, editor, pages 109-124
8ème Conférence francophone sur l'Apprentissage automatique
CAp'2006, Trégastel, 22-24 may 2006
-
[2005] SSC : Statistical Subspace Clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
In Suzanne Pinson and Nicole Vincent, editors
5èmes journées francophones d'Extraction et Gestion des Connaissances
EGC'2005, Paris, 19-21 january 2005
Revue des Nouvelles Technologies de l'Information (RNTI), volume 1, pages 177-182
-
[2004] Tuareg : Classification non supervisée contextualisée
Laurent Candillier, Isabelle Tellier, Fabien Torre
In Michel Liquière and Marc Sebban, editors, pages 159-174
6ème Conférence francophone sur l'Apprentissage automatique
CAp'2004, Montpellier, 14-16 june 2004
Workshops français
-
[2006] SuSE: Subspace Selection embedded in an EM algorithm
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
2èmes Rencontres Inter-Associations sur
la classification et ses applications
RIAs'2006, Lyon, 20-21 march 2006
-
[2006] Évaluation en cascade d'algorithmes de clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
2èmes Rencontres Inter-Associations sur
la classification et ses applications
RIAs'2006, Lyon, 20-21 march 2006
Chapitres de livres
-
[2008] State-of-the-Art Recommender Systems
L. Candillier, K. Jack, F. Fessant, F. Meyer
In Collaborative and Social Information Retrieval and Access: Techniques for Improved User Modeling, chapter 1
-
[2007] Mining XML Documents
L. Candillier, L. Denoyer, P. Gallinari, M.C. Rousset, A. Termier, A.M. Vercoustre
In Data Mining Patterns : new Methods and Applications, chapter 8
Rapports techniques
-
[2005] SSC : Statistical Subspace Clustering
Laurent Candillier, Isabelle Tellier, Fabien Torre, Olivier Bousquet
Rapport technique GRAppA 2005 (version détaillée de l'article présenté à EGC'2005)
-
[2001] Apprentissage Automatique de Profils de Lecteurs
Laurent Candillier, Isabelle Tellier, Fabien Torre
Rapport technique GRAppA 2001
Enseignement universitaire
- 2005-2006:
- Bases de Données en Master 1 PSYCHO à Lille 3
32 heures TD-TP
- Programmation en python en Licence 2 MIASHS à Lille 3
16 heures TD-TP + co-préparation du projet, examens et corrections
- 2003-2004:
- Internet et Bases de Données en DEUG MASS 2 à Lille 3
46 heures CM-TD-TP + préparation du projet, examens et corrections
- 2001-2002:
- Pratique des tableurs en DEUG MASS 2 à Lille 3
28 heures TD-TP + corrections
- 2000-2001:
- Programmation en Ada en DEUG MIAS 2 à Lille 1
36 heures TD-TP
- Pratique des tableurs en DEUG MASS 2 à Lille 3
28 heures TD-TP
- Bases de Données en Maîtrise IDIST à Lille 3
16 heures TD-TP
Responsabilités collectives
- Séminaires au sein du Groupe de Recherche en Apprentissage par Renforcement (GARE)
- Membre du bureau de l'Association Française d'Intelligence Artificielle (AFIA)
- Encadrement d'une étudiante de Master 1 de Sciences Cognitives en TER :
étude des aptitudes humaines pour le partitionnement
Expérience professionnelle
- 2006-2008:
- Ingénieur de recherche en post-doctorat à France Telecom R&D
- 2003-2006:
- 2002-2003:
- Agent de niveau 2 à la Caisse Primaire d'Assurance Maladie (CPAM) de Tourcoing,
au service SCANNER (saisie simple de feuilles de soin)
- Cours particuliers d'espagnol et de mathématiques à un élève de Première STT
- Cours particuliers de mathématiques à un élève de Première S
- 2001-2002:
- Moniteur étudiant à la Bibliothèque Universitaire de Lille 1
dans le cadre du projet thèses électroniques
- Conception de QCM pour évaluer les métiers d'informaticiens
- Cours particuliers d'espagnol à un élève de Seconde
- Vendanges dans le Beaujolais et dans le Bordelais
- 1998-2001:
- Surveillant d'Externat au collège Robert Schuman à Halluin, et aide aux devoirs
- 1996-1999:
- Cours particuliers de mathématiques, physique, informatique
(introductions), français (à une espagnole), et anglais
- 1996:
- Vendanges dans le Bordelais
Compétences en informatique
- Thématiques maîtrisées: apprentissage automatique, fouille de données,
bases de données, programmation fonctionnelle et objet, concepts algorithmiques,
créations de sites web, pratique des tableurs, traitements de texte
- Langages de programmation: C, C++, perl, python, java, ada
- Web: html, css, php, mysql, postgresql
- Logiciels: eclipse, access, excel, word, open office
- Autres: latex, pstricks, xml, gnuplot
- Systèmes d'exploitation: windows, linux, Mac OS X
Langues parlées
- Français, espagnol, anglais trilingue
- Des notions d'allemand
- Plus de vingt séjours de un à deux mois en Espagne
- Cinq mois consécutifs en Angleterre (second semestre de maîtrise, programme ERASMUS)
Vie associative
Loisirs
- Sports, voyages, lecture, nature, jonglage, djembé, jeux d'échecs et de cartes
- Sports pratiqués: football (7 ans), volley-ball (6 ans), judo (5 ans),
tennis (2 ans), ski (15 saisons), snowboard (3 saisons), natation, escalade,
beach volley, plongée sous-marine (niveau 1), équitation
Création de sites web