GRAppA : informatique a Lille 3

Thèmes de recherche : Apprentissage naturel et artificiel de langages naturels et artificiels
Maison des sciences de l'homme, Institut International Erasme

Résumé du projet


Le projet réunit des informaticiens et des linguistes autour du thème de l’apprentissage du langage. L’objectif est d’étudier et de modéliser les phénomènes psycholinguistiques mis en œuvre lors de l’acquisition d’une langue par des enfants.

Coordination du projet

Isabelle Tellier, MdC en informatique
Université Charles de Gaulle-Lille3, UFR IDIST
59 653 Villeneuve d’Ascq cedex
tel : 03 20 41 61 78, fax : 03 20 41 67 70
mel : i s a b e l l e . t e l l i e r @ u n i v - l i l l e 3 . f r
Web : http://www.grappa.univ-lille3.fr/~tellier

Partenaires du projet


En région
Grappa (Groupe de Recherche sur l'APPrentissage Automatique, informatique, Lille3) : Rémi Gilleron (professeur), Joachim Niehren (DR Inria), Aurélien Lemay, Isabelle Tellier, Alain Terlutte, Marc Tommasi (MdC) et Florent Jousse (thésard)
Silex (Syntaxe, Interprétation, LEXique, linguistique, Lille3) : Georgette Dal, Nathalie Gasiglia, Sandra Benazzo (MdC)
LIFL (Laboratoire d'Informatique Fondamentale de Lille, informatique, Lille1) : Sophie Tison (professeur), Anne-Cécile Caron (MdC)

En France
Irisa (Institut de Recherche en Informatique et Systèmes Aléatoires, informatique, Rennes) Annie Foret (MdC)
LINA (Laboratoire de Recherche en Informatique de Nantes, informatique, Nantes) : Alexandre Dikovsky (professeur), Denis Béchet (MdC), Erwan Moreau (thésard)

A l'étranger
Université de Iasi (informatique, Roumanie) : Dan Cristea, Liviu Ciotuz (associate professors)

1. Thème général

L'acquisition d'une langue (en particulier de la langue maternelle) constitue une phase de développement fondamentale et universelle chez tous les enfants humains. L'étude de ce phénomène est pourtant particulièrement difficile, à cause d'une part de la complexité intrinsèque des langues naturelles dont la linguistique a mis à jour différents niveaux d'organisation, fondamentalement intriqués les uns dans les autres (niveaux phonologique, morphologique, syntaxique, sémantique, pragmatique...) et d'autre part des liens étroits qui relient les compétences langagières à d'autres compétences cognitives plus générales (comme la perception, la catégorisation, le raisonnement...). Cet apprentissage est d'autant plus remarquable qu'il se fait très majoritairement sans leçons explicites, sur la seule base d'exemples extraits naturellement par les enfants de leur environnement quotidien (et donc aussi en absence de contre-exemples).

Ce champ a donné lieu à de nombreuses études, alliant la psychologie du développement et la linguistique. Ont ainsi été notamment mises en lumière la chronologie des acquisitions, les erreurs surmontées et les phases critiques pendant lesquelles elles interviennent généralement. Différents parcours d'apprentissage ont ainsi pu être mis en évidence, correspondant sans doute à des stratégies différentes mises en oeuvre de la part des apprenants (Boysson-Bardie 1996, Kail & Fayol 2000).

Les fondements neurologiques et psycholinguistiques qui rendent ce processus d’acquisition possible font toutefois encore l’objet de vives controverses. Le débat s’est ainsi cristallisé il y a quelque années autour des positions innéistes adoptées par Noam Chomsky, notamment à partir de l’argument de la « pauvreté du stimulus » évoqué plus haut (Chomsky 1970, voir aussi son célèbre débat avec Jean Piaget dans Piatelli-Palmarini 1979) ou plus récemment autour des thèses génétiques d’un de ses héritiers, Steven Pinker (Pinker 1997 et 1999).

2. Intéractions entre disciplines

Depuis quelques années, des informaticiens interviennent aussi dans ce débat et une nouvelle problématique de recherche émerge à l'intersection du traitement automatique du langage naturel (ou TALN) et de l'apprentissage automatique, qu'on pourrait appeler « apprentissage automatique du langage naturel » (Brent 1999). Elle emprunte au TALN la description de certains niveaux d'organisation linguistique par des modèles explicites (grammaires formelles, outils de représentation des connaissances...). Elle emprunte au domaine de l'apprentissage automatique la caractérisation de la notion d'apprenabilité par des critères formels, ainsi que la définition et l'évaluation d'algorithmes qui « apprennent », c'est-à-dire qui améliorent leurs performances au fur et à mesure de leur utilisation (Mitchell 1997) . Les chercheurs impliqués dans ce programme tentent donc de rendre compte par des arguments théoriques et expérimentaux de l'apprenabilité de modèles des différents niveaux d'analyse du langage et proposent pour cela différents types d'algorithmes (symboliques, statistiques, connexionnistes...) qui simulent l'apprentissage d'instances de ces modèles, à partir de données d'entrées aussi proches que possible de celles auxquelles sont confrontés les enfants (par exemple : en s'interdisant l'usage de contre-exemples). Ce programme de recherche se heurte encore à de nombreux écueils.

D'un côté, en effet, les modèles de la langue sur lesquels travaillent les chercheurs en TALN se sont affinés au cours des ans, pour tenter de se rapprocher de plus en plus des descriptions linguistiques. Mais aucun des modèles formels les plus usuels n'est encore capable de rendre compte de la majorité des faits de langues observés par les linguistes. De plus, à notre connaissance, quasiment aucune recherche relevant du TALN ne s'est attachée à décrire les états successifs des connaissances linguistiques d'un enfant en phase d'acquisition de sa langue maternelle, ni de celles mises en oeuvres par des patients atteints de déficiences du langage, et qui sont en position de devoir le ré-apprendre. La façon dont une grammaire évolue et se complexifie pour prendre en compte des données de plus en plus nombreuses et complexes n’a pas non plus donné lieu à des formalisations rigoureuses.

D'un autre côté, le domaine de l'apprentissage automatique a énormément progressé ces dernières années : la fouille de textes, l'extraction automatique d'informations à partir de textes et l'inférence grammaticale sont ainsi des disciplines récentes en plein essor qui mettent en oeuvre des techniques d'apprentissage automatique sur des corpus de données textuelles. L’objectif, dans tous les cas, est de partir de données non structurées (les textes) et d’en extraire des informations structurées (respectivement leur position dans une taxinomie, leur contenu informationnel ou les grammaires sous-jacentes qui ont présidé à leur production). Apprendre, en effet, dans une perspective cognitiviste, consiste principalement à repérer des régularités et à structurer ses connaissances. Mais, jusqu'à présent, les algorithmes les plus performants utilisés dans ce contexte sont encore ceux qui exploitent les propriétés statistiques élémentaires des textes, en négligeant précisément les modèles de la langue forgés par les linguistes.

Depuis quelque temps, on commence aussi à prendre en compte des données semi-structurées comme les structures arborescentes de traits propres aux grammaires lexicalisées, ou les fichiers aux formats HTML ou XML, en considérant que la structure est porteuse d’information. En situation d’acquisition d’une langue naturelle, des informations autres que purement linguistiques (régularités du monde physique, règles pragmatiques...) jouent peut-être aussi le rôle d’un étiquetage implicite qui facilite l’apprentissage.

3. Le projet

Les stratégies d’apprentissage que tous les algorithmes actuels mettent en œuvre sont la plupart du temps complètement déconnectées des observations de la psychologie. La linguistique et la psychologie peuvent être pour les informaticiens une source de données et d'heuristiques qui améliorent les performances de méthodes plus traditionnelles, et pourraient renouveler indirectement les champs du TALN ou de la fouille de textes.

Introduire l'informatique dans un domaine de recherche engage dans une démarche exigeante et rigoureuse de modélisation, d'explicitation. Pour le thème choisi, cette exigence porterait donc à la fois sur les modèles linguistiques et sur les stratégies d'apprentissage des apprenants. L'apport attendu en contrepartie est de rendre possibles des validations théoriques et expérimentales à grande échelle - impensables en milieu naturel - d'hypothèses psycholinguistiques.

Le problème épistémologique de la pertinence cognitive d’un modèle informatique, c’est-à-dire de sa capacité à rendre compte des processus réellement mis en œuvre par un apprenant humain se pose évidemment dans ce domaine, comme dans tout domaine des sciences cognitives. Nous ne prétendons pas y apporter une réponse nouvelle, mais le mettre à l’épreuve dans un contexte encore peu exploré.

L'objectif de ce projet est de confronter la culture de linguistes, de psychologues et d'informaticiens en vue de mettre à jour des modèles linguistiques et des stratégies d'apprentissage de la langue qui satisfassent les contraintes et les observations de chaque communauté.

Les psychologues sont encore peu représentés dans notre projet, mais nous espérons que d’autres pourront se joindre à nous prochainement.

4. Références bibliographiques

  • Boysson-Bardie Bénédicte (1996) : « Comment la parole vient aux enfants », Odile Jacob, Paris.
  • Brent Michael (1999) : « Computational Models of Language Acquisition », MIT Press.
  • Chomsky Noam (1970) : « Le langage et la pensée », Payot, Paris.
  • Kail Michel, Fayol Michel, dirs (2000) : « L'Acquisition du langage » (2 volumes), Presses Universitaires de France, Paris.
  • Mitchell Tom (1997) : « Machine learning », MIT Press & McGraw-Hill Companies.
  • Piatelli-Palmarini Massimo (1979) : « Théorie du langage, théories de l’apprentissage ; Le débat entre Jean Piaget et Noam Chomsky », Le Seuil, Paris.
  • Pinker Steven (1997) : « Language Acquisition », dans « An Invitation to Cognitive Science » par Lila. Gleitman et Mark Liberman (eds), p135-182, MIT Press.
  • Pinker Steven (1999) : « L’instinct du langage », Odile Jacob, Paris.

    Contexte Scientifique

    Les partenaires à l’initiative de ce projet proviennent de différentes équipes de Lille3, issues de disciplines différentes et cherchant à collaborer dans un cadre motivant. Ce projet s’inscrit également dans le prolongement d’actions nationales et internationales auxquelles ont contribué ces différents partenaires :
  • Le Silex et le Landisco-Atilf sont engagés sur la période 2000-2003 dans une ACI « jeunes chercheurs » nommée « Mortal : un analyseur morphologique pour le TAL » dont l'objectif est de constituer une base de données constructionnelles pour le TAL, en collaboration avec le groupe « langage et cognition » du Limsi (Orsay) et l'ERSS (Equipe de Recherche en Syntaxe et Sémantique, Toulouse).
  • Le Grappa, l’Irin, l’Irisa et le Loria collaborent déjà dans le cadre d’une Action de Recherche Coopérative de l’Inria nommée « Gracq », en cours jusqu’à fin 2002. Cette action porte sur l’apprentissage automatique de grammaires catégorielles, un formalisme syntaxique particulier pour lequel des résultats récents ont été trouvés.
  • L’Irisa et le Loria ont collaboré entre 1999 et 2000 avec l’OTS d’Utrecht dans le cadre d’une action de coopération franco-néerlandaise « Van Gogh ».
  • Le Grappa et le LIFL ont déjà collaboré avec l’Université de Sarrebruck entre 1998 et 2001 par le biais de projets de coopération franco-allemand « Procope ». Les thèmes abordés étaient la résolution de contraintes (méthode informatique) et son application à la modélisation linguistique.
  • Daniela Dudau-Sofronie, étudiante formée à Iasi en Roumanie, est en thèse au Grappa depuis septembre 2000, financée par une bourse de cotutelle franco-roumaine en collaboration avec l’université de Iasi. Son sujet de recherche est l’apprentissage automatique de grammaires formelles en tenant compte de données sémantiques.

    Description du projet

    Le thème proposé est évidemment très vaste. Il importe de se fixer des objectifs à court et moyen termes plus ciblés et de préciser les moyens envisagés pour y parvenir.

    Tout d'abord, on ne peut pas envisager d'étudier les mécanismes d'apprentissage mis en oeuvre à tous les niveaux de l'analyse linguistique. Les compétences des participants au projet invitent à se focaliser sur :

  • le niveau morphologique (Silex);
  • le niveau syntaxique (Grappa, Irisa, LINA) ;
  • le niveau sémantique, incluant la sémantique lexicale (Silex) et la sémantique de la proposition (Grappa, Iasi).

    Ainsi, par exemple, le traitement du signal acoustique, qui donne lieu à des analyses phonétiques et phonologiques, ne sera pas abordé. Les niveaux de complexité supérieurs (pragmatique, argumentation, structure du discours...) apparaissent, eux, comme des objectifs plus lointains. Néanmoins, il est important de signaler que les niveaux envisagés ci-dessus ne sont pas conçus comme autonomes et indépendants les uns des autres. Un des points clés que nous nous proposons d'étudier est précisément le rôle de l'articulation syntaxe/sémantique dans le processus d'apprentissage de la langue. Le « boosting sémantique » est ainsi une des hypothèses les plus séduisantes pour expliquer l’efficacité de l’apprentissage syntaxique. Elle est à la base des premiers travaux sur ce thème dans l’équipe Grappa.

    La recherche sera menée en parallèle sur les modèles de la langue et sur les stratégies d'apprentissage, mais les deux démarches sont conçues en interaction. Ainsi, les contraintes propres aux conditions d'apprentissage naturelles (par exemple le fait qu'il ait lieu sans la donnée explicite de contre-exemples) peuvent conditionner fortement les modèles de la langues acceptables. De même les modèles linguistiques adoptés devront être compatibles avec les données d'observation relevées par les psychologues.

    La mise en place concrète de ce projet pluridisciplinaire ne sera possible qu'à condition que les différents participants puissent comparer leurs démarches et leurs hypothèses sur des données communes. Un des premiers objectifs que nous nous proposons sera donc la constitution d'un corpus de référence, sur lequel diverses expériences pourront être menées et qui servira de corpus de validation aux divers efforts de modélisation. De tels corpus existent déjà pour la langue anglaise, mais leur absence en français se fait cruellement sentir chez la plupart des chercheurs engagés dans l’ingénierie de la langue. Plusieurs corpus seront sans doute nécessaires, différant par la nature et le degré de structuration de l’étiquetage nécessaires.

    Bibliographie sélective récente des partenaires

  • Besombes J, Marion J-Y. (2001) : « Identification of reversible dependency tree languages », actes du 3ème LLL workshop (Learning Language in Logic), p11-22.
  • Bonato R., Rétoré C. (2001) : « Learning Rigid Lambek Grammars and Minimalist Grammars from Structured Sentences », actes du 3ème LLL workshop (Learning Language in Logic), p23-34.
  • Costa-Florencio C. (2001) : « Consistent Identification in the Limit of Any of the Classes k-valued Is NP-hard », actes de LACL'01, (4th International Conference on Logical Aspects of Computational Linguistics), LNAI 2099, Springer, p125-138.
  • Cristea D., Ide N., Marcu D., and Tablan M-V. (2000) : « Discourse Structure and Co-Reference: An Empirical Study », actes COLING' 00 (COmputational LINGuistics).
  • Dal G & Namer F. (2000) : « Génération et analyse automatiques de ressources lexicales construites utilisables en recherche d’informations », Traitement Automatique des Langues 41-2, p. 423-446.
  • Denis F, Lemay A. & Terlutte A. (2002) : « Some language classes identifiable in the limit from positive data », accepté pour ICGI 2002 (International Conference on Grammatical Inference), à paraître dans LNAI, Springer.
  • Denis F, Lemay A. & Terlutte A. (2001) : « Learning regular languages using RFSA », actes de ALT 2001 (Algorihmic Learning Theory), LNAI 2225, Springer.
  • Dikovsky A. (2001) : « Polarized Non-projective Dependency Grammars », actes de LACL'01, (4th International Conference on Logical Aspects of Computational Linguistics), LNAI 2099, Springer, p139-157.
  • Dikovsky A. (2001) : « Grammars for Local and Long Dependencies » Actes de la 38ème conférence internationale de l’ACL (Association of Computational Linguistics), Morgan Kaufman, p156-163.
  • Dikovsky A., Modina L. S. (2000) : « Dependencies on the other side of the Curtain », Trairement Automatique des Langues (TAL), vol 41-1, p79-111, Hermès.
  • Dudau-Sofronie D., Tellier I., Tommasi M. (2001) : « Learning Categorial Grammars from Semantic Types », actes du 13eme Amsterdam Colloquium, p79-84.
  • Erk K, Mehlhorn K., Niehren J. (2000): « A Polynomial-Time Fragment of Dominance Constraints », actes de la 38ème conférence internationale de l’ACL (Association of Computational Linguistics), p368-375.
  • Erk K, Koller A., Niehren J. (2002) : « Processing Underspecified Semantic Representations in the Constraint Language for Lambda Structures », Journal of Logic, Language and Information, à paraître en 2002.
  • Foret A. (2001) : « Mixing deduction and substitution in Lambek categorial grammars, some investigations », actes de LACL'01, (4th International Conference on Logical Aspects of Computational Linguistics), LNAI 2099, Springer, p158-174
  • Foret A., Le Nir Y. (2002) : « Lambek rigid grammars are not learnable from strings », accepté pour COLING’ 2002 (Computational Linguistics).
  • Hathout N., Namer F. & Dal G. (2002) : « An experimental constructional database : the MorTAL project », in P. Boucher & M. Plénat (eds)., Many morphologies, Somerville, MA, Cascadilla Press, p. 178-209.
  • Le Pesant D., Michel Mathieu-Colas (1998) : « Introduction aux classes d’objets », Langages 131. Paris, Larousse.
  • Le Pesant D. (2002) : « La détermination dans les anaphores fidèles et infidèles », Langages 145. Paris, Larousse.
  • Moortgat M. (2001) : « Structural equations in language learning », actes de LACL'01 (4th International Conference on Logical Aspects of Computational Linguistics), LNAI 2099, Springer, p1-16.
  • Namer F. (2001) : « Génération automatique de néologismes bilingues morphologiquement construits en français et italien », Actes de la VIIIe conférence sur le Traitement Automatique des Langues Naturelles (TALN’01), p.287-296.
  • Tellier I. (1999) : « Towards a Semantic-based Theory of Language Learning », actes du 12ième Amsterdam Colloquium, p217-222.

    Programme des travaux

    Le mode de fonctionnement envisagé serait un système de 2 ou 3 seminaires/rencontres par an, partagés entre exposés et travail en commun. Une première rencontre a ainsi eu lieu le 14 février 2002 entre les partenaires de Lille3. Le financement accordé par la MSH pourrait servir :

  • à financer des visites conjointes entre partenaires ;
  • à constituer un fonds documentaire sur le thème ;
  • à financer l'achat d'outils d'ingénierie linguistique (corpus existant, logiciels) ;
  • à aider les partenaires à se constituer une culture commune (par exemple en permettant la participation de thésards à des écoles d'été) ;
  • à financer sous forme de vacations des stagiaires pouvant travailler à temps plein à la constitution de corpus ou à une expérimentation ;
  • à payer la participation à des conférences.
    Enfin, nous prévoyons d’organiser à Lille au terme du projet une conférence internationale de 3 jours réunissant tous les partenaires nationaux et internationaux.

    Retombées scientifiques

    Le principal défi scientifique auquel s’attaque ce projet est le travail pluridisciplinaire. Nous espérons le mener à bien jusqu'à l’écriture conjointe de publications scientifiques. La constitution de corpus communs serait aussi une retombée technologique majeure. Enfin, des sujets de stages de recherche devraient être proposés à des étudiants en maîtrise ou en DEA, dont nous espérons que certains pourraient se prolonger en thèses.

    Propriété intellectuelle

    Les corpus que nous nous proposons de contribuer à constituer seraient rendus disponibles gratuitement à l’ensemble de la communauté scientifique.

    Résultats attendus sur le plan scientifique

    Nous espérons évidemment que ce projet permettra une mise en commun des compétences qui sera bénéfique pour chacun des partenaires. Plusieurs d’entre eux ont déposé des projets de programmes européens (6ème PCRDT) mais il est encore trop tôt pour savoir ceux qui aboutiront.

    Il est à noter que ce projet s’insère également dans un environnement pédagogique en pleine évolution. Ainsi, un 2ème cycle sciences cognitives co-habilité par les universités de Lille1 et Lille3 a ouvert à la rentrée de septembre 2001. Les enseignements de la maquette de cette formation (dont font partie les signataires lillois de ce projet) mettent explicitement en avant la pluridisciplinarité. Sont ainsi notamment proposées aux étudiants des options qui associent soit l’informatique et la linguistique, soit l’informatique et la psychologie. Un projet de création de DEA de sciences cognitives doit être déposé, et constituerait un prolongement naturel de ce 2ème cycle. Les filières « lettres modernes » et « anglais » de Lille3 proposent également une mention « traitement automatique du langage ». Il est essentiel que des équipes d’enseignants-chercheurs pluridisciplinaires se constituent pour former à la recherche les étudiants qui seront issus de ces formations. Dans le cadre de ce projet, nous espérons pouvoir proposer chaque année des sujets de stage à ces étudiants, en espérant que certains d’entre eux puissent aboutir à des thèses.

    Résultats attendus sur le plan de la structuration de la recherche

    Les équipes nordistes impliquées dans ce projet sont membres du réseau Cognisciences-Nord. Ce réseau a pour objectif de promouvoir les sciences cognitives dans le Nord-Pas de Calais. Son existence a permis la mise en place du 2ème cycle de sciences cognitives, évoqué plus haut. Il propose quelques séminaires par ans. Dans le cadre de ce réseau, un groupe de réflexion sur la nature de l’apprentissage intitulé « Modélisations de l'apprentissage » a déjà permis à des informaticiens et psychologues de confronter leurs problématiques, leurs idées, leurs méthodes. Ces réunions pluridisciplinaires ont été fructueuses en ce qu'elles ont montré ce qu'il y avait de commun dans les pratiques de nos deux communautés (une thèse sur ce sujet, préparée au sein du Grappa par Jean Simon, a ainsi par exemple été soutenue en décembre 99 devant un jury également composé d'informaticiens et de psychologues).

    Ce projet semble une opportunité de développer les activités de ce réseau, qui ne bénéficie pour l’instant ni de statut ni de financement propre.

    De plus, le projet de constitution de corpus, déjà évoqué, constituerait une plate-forme de travail en commun précieuse pour les chercheurs, à l’échelle aussi bien régionale que nationale.

    Résultats attendus sur le plan du rayonnement

    Les invitations conjointes devraient permettre à plusieurs chercheurs nationaux et internationaux d’être invités dans la région Nord-Pas de Calais. La conférence internationale finale que nous prévoyons d’organiser à l’issue du projet sera un autre facteur de visibilité important.

    (Dernière mise à jour de ce descriptif : 26/09/2005.)

    Responsable de ces pages : D.Gonzalez (dominique point gonzalez à univ-lille3 point fr)
    apache   penguin   php Valid HTML 4.01! Valid CSS! Best viewed with any borowser, Optimisé pour tous les
navigateurs