site de Fabien Torre, université de Lille


Lancement du Lot 2, extraction de contenu
11 juillet 2006, CEA Fontenay-aux-Roses

Sommaire

Organisation

Présents

  • Gaël de Chalendar (CEA)
  • Halima Dahmani (CEA)
  • Patrick Gallinari (Apprentissage automatique, LIP 6)
  • Claire Laudy (Thalès)
  • Amar-Djalil Mezaour (Exalead)
  • Pierre Senellart (GEMO)
  • Lydie Soler (INRA INA-PG)
  • Fabien Torre (Mostrare)

Absents

  • Bernd Amann (Base de données, LIP 6)
  • Romaric Besançon (CEA) : croisé dans le couloir
  • Patrice Buche : représenté par Lydie Soler
  • David Faure (Thalès) : représenté par Claire Laudy

Ordre du Jour

  • présentation des apports et objectifs de chaque partenaire (10 minutes chacun)
  • discussion technique
  • organisation du travail
  • planning

Partenaires représentés

  • LIP 6 - Apprentissage
  • Mostrare
  • CEA
  • Exalead
  • (GEMO)

Présentations des partenaires

CEA-LIST (Gaël de Chalendar)

  • responsable du lot : planning, avancement, reporting vers le CP
  • identification d'entités nommées (personnes, lieux, dates, événements) pour plusieurs langues
  • reconnaissance par patrons (expressions régulières)
  • moteur de recherche, clustering de documents
  • utilisation d'en dictionnaire de synonymes
  • analyse syntaxique, format à définir

INRA INA-PG (Lydie Soler)

  • application AQWEB, projet E.dot
  • stocker des publis et les interroger
  • récupération semi-automatique de PDF depuis le web (API Google)
  • en particulier les tableaux (= synthèses)
  • conversion PDF vers XML en passant par word
  • stockage en XML, base de données Xylème

Thalès (Claire Laudy pour David Faure)

  • extraction de relations entre entités nommées
  • apprentissage de patrons à partir d'exemples fournis par l'utilisateur
  • algo de type Hearst : on enrichit les patrons grâce aux entités extraites, etc.
  • pondération des patrons

LIP6-Apprentissage (Patrick Gallinari)

  • Ludovic Denoyer en charge du lot 2
  • apprentissage statistique
  • extraction unaire, pas n-aire (j'ai bien compris ?)
  • pré-traitements du texte importants
  • proposition de collaboration avec Mostrare : pour compléter la structure par des infos sur le texte
  • problème de l'évaluation

Mostrare (Fabien Torre})

GEMO (Pierre Senellart)

  • rattaché à Mostrare pour le projet WebContent
  • Patrick Gallinari voit un lien entre la problématique de Pierre Senellart et le projet sur la conversation de documents par annotation
  • Pierre Senellart demande des nouvelles de ce que Florent et Patrick arrivent à faire sur ses données

Exalead (Amar-Djalil Mezaour)

  • détection d'entités nommées personnes, lieux géographiques, dates, quantités monétaires, organisations
  • transducteurs et thésaurus
  • prototype à la Google news : patrons faits à la main pour aller piocher sur des sites extérieurs

Discussions

Généralités

  • application au risque alimentaire (proposition de l'INRA INA-PG)
  • langue cible : anglais
  • discussion sur le web caché : tout ce qui n'est pas accessible par des liens
  • mélange des présentations Mostrare et Exalead ???
  • structurer les livrables par sous-lots, Mostrare dans le 2.1
  • prochaine réunion physique : lundi 2 octobre 2006 à 10h00 (réunion du Lot 2 suivie d'une réunion du sous groupe Mostrare-LIP6-Thalès)
  • Patrick Gallinari s'est retiré du lot 3

Mutualisation de l'analyse linguistique

  • besoin pour Mostrare et le LIP 6 : on peut bénéficier des sorties de l'analyseur du CEA
  • plusieurs formats de sortie possibles : étiquetage, graphes, arbres de syntagmes
  • vitesse d'analyse : 100 Mo à l'heure

Sous-sous-groupe Extraction et Apprentissage

  • LIP 6 - Apprentissage (Patrick Gallinari)
  • Thalès (David Faure, Bénédicte Gougin ?)
  • Mostrare (Fabien ? Rémi ? Marc ? Patrick ?)
Fabien Torre Valid HTML5! Valid CSS!
site de Fabien Torre, université de Lille