site de Fabien Torre, université de Lille


Réunion du Lot 2, extraction de contenu
9 juillet 2007, de 10h00 à 12h30
LIP 6, site Kennedy-Passy (Paris 16)

Sommaire

Présents

  • Patrice Buche (INRA)
  • Gaël de Chalendar (CEA)
  • Ludovic Denoyer (LIP 6)
  • Halima Dahmani (CEA)
  • Amar-Djalil Mezaour (Exalead)
  • David Sabino (INRA)
  • Lydie Soler (INRA)
  • Fabien Torre (Mostrare)

Retours

... sur le workshop

  • Les retours sont globalement positifs ; 
  • suggestion d'organiser le prochain workshop ailleurs qu'à Paris ; 
  • éviter les présentations trop techniques sur des technologies qui ne seront utilisées que par une minorité des partenaires.

... d'expérience livraisons M12

  • Retard de six mois dans les livraisons de Thalès ; 
  • service de reconnaissance d'entités nommées livré par le CEA ; 
  • le serveur du CEA et donc le service seront rendus accessibles durant l'été ; 
  • spécification livrée par Exalead :  découverte du web caché, moteur javascript.

Interfaces des services

Présentation des services développés par les partenaires du lot 2 et de leurs interfaces.

CEA (Gaël de Chalendar) : entités nommées

Présentation de quelques règles utilisées par LIMA pour l'extraction d'entités nommées. Forme générale : 


déclencheur : contexte gauche : contexte droit : 
type de l'entité => traitement

Exemple : 


siècle : : (dernier,prochain,précédent,suivant) : 
TIMEX => normalizeDate()

INRA (David Sabino) : passer du PDF au format pivot

  • Récupération de pdf depuis internet, API Exalead et fils RSS (voir « Web Of Knowledge ») ; 
  • filtre humain pour sélectionner les PDF pertinents ; 
  • service de formating extrayant le texte du PDF ; 
  • une autre déclinaison du service sera capable d'extraire les tableaux et les phrases faisant référence aux tableaux.

Cette dernière possibilité pourra être exploitée par le service Mostrare :  extraire depuis une table, mais aussi depuis les phrases qui référencent cette table.

Mostrare (Fabien Torre) : extraction de tuples

Services Filtering et StructuredInformationExtraction, voir le fichier PDF.

Patrice Buche (INRA) présente des données qui seront à traiter et amenant les problématiques suivantes : 

  • les tuples d'une même relation peuvent être présentés selon trois organisations distinctes, faut-il considérer un ou trois problèmes d'extraction ?
  • des valeurs sont manquantes dans certains tableaux (valeur - en lieu et place d'une valeur numérique), les tuples concernés ne sont pas à extraire ; 
  • l'INRA aimerait ne pouvoir annoter qu'une partie du document et bénéficier de scenarii interactifs.

Questions

  • Que fera le crawler fourni par Exalead des documents qui ne sont pas au format HTML (PDF par exemple) ?
  • Comment les services accéderont aux documents d'origine ?

Préparation du semestre suivant

En vue : les livrables de M18 (1er janvier 2008), dont le prototype de Mostrare.

Interrogation sur les livraisons logicielles :  binaires ou service en ligne, au choix.

Fabien Torre Valid HTML5! Valid CSS!
site de Fabien Torre, université de Lille