site de Fabien Torre, université de Lille


Réunion du Lot 2, extraction de contenu
2 octobre 2006, de 10h00 à 12h30
INA-PG (Paris 5)

Sommaire

Présents

Entités nommées et autres outils linguistiques

Plusieurs partenaires (Exalead, CEA) sont capables de repérer des entités nommées, on peut se préparer à enrichir notre codage pour utiliser ces informations.

Dans le même ordre d'idée, il faut voir si l'on veut intégrer des informations issues de l'analyseur syntaxique du CEA.

Entrée de LCI comme sous-traitant de INRIA-Gemo, amène des ressources dans le domaine de l'aéronautique (dictionnaires, synonymes, etc.).

Extraction dans les arbres

Mostrare

Les livrables (T0 = 1er juillet 2006) : 

  • M18 : intégration par Mostrare d'un système d'induction de wrappers ; 
  • M24 : rapport bilan sur les évaluations des utilisateurs ; 
  • M30 : version finale du système d'induction de wrappers.

David Faure propose une application à la veille :  si l'on a ciblé le contenu qui intéresse l'utilisateur, on est capables de lui signaler des mises à jour qui sont pertinentes pour lui, et seulement celles-ci.

Interaction avec Exalead

Chez Exalead, il y a eu cet été un stage de M2 Recherche encadré par Thierry Poibeau sur l'extraction utilisant la structure. Il s'agit de calcul d'une "signature" pour chaque noeud, l'objectif est de dégager le contenu des pages parmi l'habillement, la pub, etc.

Par ailleurs, Exalead va fournir dans le cadre du projet un extracteur d'URL capable d'aller chercher dans du code JavaScript.

Interaction avec l'INRA

Patrice Buche va nous fournir des tableaux HTML pour voir comment nos algorithmes se débrouillent dessus (ces documents sont issus de transformations PDF vers HTML).

L'objectif de l'INRA est de trouver les signatures des tableaux en s'aidant d'ontologies (mettre des concepts et des types sur les cases).

On leur fournit le lien vers les benchmarks de Patrick (en particulier les données DataFoot), pour montrer ce que l'on sait déjà faire.

Organisation

Lot 2

Prochaine réunion du Lot 2 : lundi 4 décembre 2006, 10h00, INA-PG.

On essaye d'établir un graphe de dépendances entre les livrables des différents partenaires.

Lot 0

On doit participer aux réunions du Lot 0 (Gestion du Projet). Prochaine réunion le vendredi 20 octobre 2006, de 9h30 à 18h00 chez EADS (porte d'Auteuil). Mostrare est représenté dans ce lot par Serge Abiteboul.

Disponible sur l'extranet

Plusieurs nouveautés sur l'extranet : 

  • Lien vers un article sur LIMA (analyseur du CEA) ; 
  • exemples de documents et d'ontologies (fournis par l'INRA) ; 
  • extrait du corpus de EADS.

Architecture de la plate-forme

Il y a opposition entre les partisans de Web Services et ceux d'une architecture de type CORBA... au final, on devrait pouvoir simuler les deux, au choix !

Fabien Torre Valid HTML5! Valid CSS!
site de Fabien Torre, université de Lille