Multi-lingual dependency parsing : word representation and joint training for syntactic analysis
(Parsing en dépendances multilingue : représentation de mots et apprentissage joint pour l’analyse syntaxique)

URL d'accès : http://ori-nuxeo.univ-lille1.fr/nuxeo/site/esupver...

Auteur(s):  Dehouck, Mathieu
Date de soutenance : 20/05/2019
Éditeur(s) : Université Lille1 - Sciences et Technologies 

Langue : Anglais
Directeur(s) de thèse :  Tommasi, Marc ; Denis, Pascal
Laboratoire : Centre de recherche en informatique, signal et automatique de Lille (CRIStAL)
Ecole doctorale : École doctorale Sciences pour l'Ingénieur (Lille)

Classification : Informatique
Discipline : Informatique et applications
Mots-clés : Apprentissage multilingue
Traitement automatique du langage naturel
Intelligence artificielle
Linguistique -- Informatique
Analyse automatique (linguistique)
Apprentissage automatique
Grammaire de dépendance

Résumé : Les parsers en dépendances modernes ont des résultats comparables à ceux d'experts humains. Cependant, ils sont encore gourmands en données annotées et ces données ne sont disponibles que pour quelques langues. Pour rendre l'analyse syntaxique accessible aussi aux langues peu dotées, de nombreuses méthodes sont apparues comme le transfert de modèle ou d'annotation. Dans cette thèse, nous proposons de nouvelles méthodes de partage de l'information entre plusieurs langues en utilisant leurs traits grammaticaux communs. Nous utilisons cette morphologie partagée pour apprendre des représentations de mots délexicalisés qui aideront l'apprentissage de modèles d'analyse syntaxique. Nous proposons aussi une nouvelle méthode d'apprentissage nommée apprentissage phylogénétique qui utilise l'arbre généalogique des langues pour guider l'apprentissage des modèles. Enfin, à l'aide de notre mesure de la complexité morphosyntaxique nous étudions le rôle de la morphologie pour l'analyse en dépendances.


Résumé (anglais) : While modern dependency parsers have become as good as human experts, they still rely heavily on hand annotated training examples which are available for a handful of languages only. Several methods such as model and annotation transfer have been proposed to make high quality syntactic analysis available to low resourced languages as well. In this thesis, we propose new approaches for sharing information across languages relying on their shared morphological features. In a fist time, we propose to use shared morphological features to induce cross-lingual delexicalised word representations that help learning syntactic analysis models. Then, we propose a new multi-task learning framework called phylogenetic learning which learns models for related tasks/languages guided by the tasks/languages evolutionary tree. Eventually, with our new measure of morphosyntactic complexity we investigate the intrinsic role of morphological information for dependency parsing.


Cité Scientifique BP 30155 59653 VILLENEUVE D'ASCQ CEDEX Tél.:+33 (0)3 20 43 44 10