site de Fabien Torre, université de Lille


Réunion du Lot 2, extraction de contenu
4 décembre 2006, de 10h00 à 12h30
INA-PG (Paris 5)

Sommaire

Présents

  • Patrice Buche (INRA)
  • Gaël de Chalendar (CEA)
  • Romain Fouache (Exalead)
  • Patrick Gallinari (LIP 6)
  • Matthieu Keith (Mostrare)
  • Amar-Djalil Mezaour (Exalead)
  • Fabien Torre (Mostrare)

Excusé : David Faure (Thalès)

Données à traiter par Mostrare

Corpus INRA

Extraction à partir de tableaux XML : 

  • documents PDF contenant des tableaux
  • conversion en RTF
  • ScanSoft pour produire des tableaux au format XTAB
  • différentes organisations de tableaux au sein d'un même document
  • certains éléments de la relation cible ne sont pas dans les tableaux et sont donc perdus en route
  • étiquetage manuel par Patrice Buche

Classification de documents : 

  • documents PDF à catégoriser par thème, tâche supervisé, données disponibles au 2ème trimestre 2007

Corpus CEA

Document de type dépêche : il s'agit de récupérer le titre et le texte, sans l'habillage et la pub autour. Le CEA va fournir un rapport présentant la tâche et des résultats en non supervisé mais est curieux de connaître les résultats obtenus par une technique supervisée.

Il y a donc plusieurs paragraphes à extraire, en nombre variable, d'où une difficulté à définir la relation cible : 

  • à coder en relation unaire ?
  • sortir un noeud interne plutôt qu'une feuille, le noeud ancêtre de tous les paragraphes ?
  • ou alors à l'aide d'un attribut multi-valué ?
  • à discuter avec Gaël de Chalendar qui va réaliser l'étiquetage

Autres sujets abordés

Avancements respectifs

Voila... tout le monde avance !

Entités nommées

Exemple de traitement par Exalead sur des données du CEA : 

  • informations riches : 6 ou 7 types différents (date, lieu, personne, nombre, organisation, produit, événement), catégorie plus fine prise dans la hiérarchie wikipedia, etc.
  • enrichissement de taille variable

Nécessité d'avoir des ressources spécifiques pour le corpus alimentaire de l'INRA.

Discussion sur la suite : 

  • fichier XML séparé ?
  • résultat = annotation du document en RDF ?
  • OWL pour la représentation des ontologies
  • à reprendre dans le codage du système PAF ?

Convertisseur Exalead

  • en entrée : une url pointant un document dont le format est supporté par le crawler Exalead (HTML, Word, PDF, etc.)
  • en sortie : le document converti en texte
  • format WebContent à venir
Fabien Torre Valid HTML5! Valid CSS!
site de Fabien Torre, université de Lille