site de Fabien Torre, université de Lille


Réunion du Lot 2, extraction de contenu
28 janvier 2008, de 10h00 à 13h00
AgroParisTech (siège, Paris 5)

Sommaire

Présents

Informations générales

Halima Dahmani va quitter prochainement le CEA, Gaël de Chalendar reprendra alors la tête du projet.

Est annoncée une possible reprise de la responsabilité du Lot 2 par Thalès.

Retour sur les livraisons à M18

  • extraction de relation binaire entre entités par Thalès :  retard d'un mois ou deux sur le livrable ; 
  • moteur d'interprétation javascript pour l'extraction du web caché par Exalead : retard de deux mois ; 
  • analyse linguistique par le CEA : en attente de la mise en sécurité de la machine ; 
  • identification de domaines d'application pour l'extraction à partir de tableaux par l'INRA : ok ; 
  • livraison Mostrare : ok ; 
  • livraison par le LIP 6 : service mis en ligne en décembre, échanges en cours avec les relecteurs pour simplication de l'utilisation du service.

Patrice Buche (INRA) demande une liste des services disponibles au fur et à mesure de leur mise en ligne, ainsi que leurs modalités d'accès.

Retour d'expérience par le CEA

Gaël de Chalendar (CEA) est allé déployer le service du CEA dans un laboratoire multimédia italien (ISTI, CNR, Pise), en utilisant la technologie WebContent. Il s'agissait d'extraire depuis les méta-données de fichiers mpeg7.

Mise en place partielle en raison de quelques dysfonctionnements (bug MoneyDB et mise à jour du modèle WebContent pendant le déploiement...).

Travaux en cours et prévisions pour M24

CEA

  • mise en ligne rapide du service d'analyse linguistique ; 
  • réalisation d'un tutoriel à la suite de l'expérience de Pise ; 
  • documents à livrer à M24

INRA

  • livraison du système complet (AQWEB) à M24, utilisant le service Mostrare, application au risque alimentataire et données EADS
  • réalisation d'une IHM pour cette application (livrable du Lot 6).

Exalead

  • construction de packages (JAR)
  • webservice

Thalès

  • construction du webservice
  • évaluation utilisateur à M24

LIP6

  • tests du service à mener pour M24

Mostrare

  • interface d'étiquetage Miele (hors WebContent)
  • trouver remplaçant à C5.0 pour l'apprentissage et la manipulation d'extracteurs
  • réglages des entrées et sorties du service, demandes d'annotation par l'INRA : 
    • dc:source pour désigner le document d'origine
    • annotation du tableau pour préciser l'extracteur utilisé
  • détection d'entités nommées ? appel aux services appropriés avec un format pivot intermédiaire ? utilisation de gate ? pas dans l'esprit de l'enchaînement de services ? outil local ?
  • M24 : tests sur les domaines d'application identifiés par l'INRA
  • M30 : version finale du service

Les prochains rendez-vous : 

  • réunion du lot 2 : semaine du mardi 25 mars ? à Lille !
  • workshop externe : en juin
  • revue ANR : en septembre
Fabien Torre Valid HTML5! Valid CSS!
site de Fabien Torre, université de Lille