Thématiques de recherche

  • extraction d'information
  • apprentissage automatique
  • classification supervisée

Sujet de recherche

Le développement d'Internet comme source d'informations a conduit à l'élaboration de programmes nommés wrappers pour collecter de l'information sur les sites WEB. Ces programmes sont difficiles à concevoir manuellement et à maintenir.

Deux approches sont alors envisageables. La première consiste à assister l'utilisateur, c'est le cas du système LIXTO dans lequel l'utilisateur spécifie le wrapper dans un langage logique avec l'aide d'un environnement visuel.

La seconde consiste à générer automatiquement le wrapper en limitant l'intervention de l'utilisateur à l'annotation des informations à extraire sur quelques documents. Cette approche est fondée sur le fait que la plupart des documents sur Internet sont générés par programme et présentent des régularités exploitables par les méthodes d'apprentissage automatique.

C'est dans cet esprit que PAF a été développé. PAF est un système pour l'inférence de programmes d'extraction de relations dans les documents en provenance du WEB. Il utilise les vues textuelle et structurelle sur les documents. L'extraction des relations est incrémentale et utilise des méthodes de composition et d'enrichissement. PAF est capable d'extraire des relations pour les organisations existantes dans les documents semi-structurés (listes, tables, tables tournées, tables croisées).

Publications

Liste des Publications