Laboratoire de linguistique formelle
Présentation
à travers l'analyse formelle des unités traditionnelles du langage (le mot, la phrase, l'énoncé ou le discours) et l'analyse d'un ensemble de langues très diversifié, les chercheurs du Laboratoire de Linguistique Formelle explorent le système cognitif du langage dans son entier. Animé d'un esprit ouvert et collaboratif, le Laboratoire de Linguistique Formelle est membre du Labex EFL Empirical Foundations of Linguistics (2011-2021), et participe à de nombreuses collaborations nationales et internationales.
La spécificité du Laboratoire de Linguistique Formelle est la combinaison de deux diversités complémentaires : diversité des approches théoriques et diversité des langues étudiées.
L'unité des chercheurs du Laboratoire repose sur un ensemble de convictions partagées :
La linguistique se construit par une interaction constante entre description, analyse, formalisation et théorie ;
Il est possible d'analyser les données linguistiques de façon relativement indépendante des modèles théoriques ;
L'analyse se nourrit de la comparaison approfondie des langues.
Statut académique et histoire
Le Laboratoire de Linguistique Formelle est une unité mixte de recherche (UMR 7110) sous la double tutelle du CNRS et du ministère de l'éducation et de la Recherche. Elle est rattachée à l'Université Paris Diderot. Dirigée par Anne Abeillé depuis septembre 2011, elle compte 14 chercheurs CNRS, 3 ITA CNRS, 18 enseignants-chercheurs et 41 doctorants.
Fondé en 1972 par Antoine Culioli (initialement comme équipe de recherche associée, puis comme unité de recherche associée), le Laboratoire de Linguistique Formelle a été dirigé par Jean-Claude Milner (1990-1999), Jean Lowenstamm (1999-2005) et Alain Kihm (2005-2011).
La spécificité du Laboratoire de Linguistique Formelle est la combinaison de deux diversités complémentaires : diversité des approches théoriques et diversité des langues étudiées.
Thèmes de recherche
Grammaire du mot
Les travaux regroupés dans cet axe portent sur tous les aspects de la structure et de l'interprétation des objets lexicaux : morphophonologie et morphosyntaxe, morphologie flexionnelle et constructionnelle, sémantique lexicale. Le travail s'appuie sur divers projets de recherche en cours (LabEx EFL, Marie Curie Tameal avec l’Australie, Hubert Curien P7-Coimbra), de mise en réseau (ESF Networds), ou éditoriaux (GGHF, revue BAALL) et implique un large réseau de collaborateurs externes (28 institutions dans 12 pays).
Grammaire de la phrase
Les travaux regroupés dans cet axe portent sur l'étude de l'objet phrase sous ses aspects prosodiques, syntaxiques et sémantiques. Le travail s'appuie sur divers projets de recherche (LabEx EFL, Fédération TUL, French Tobi, ANR Asfalda…) ou de collaboration (PICS avec la Roumanie), et implique un large réseau de collaborateurs externes (12 institutions dans 7 pays) en particulier avec l’Australie et le Brésil. Certains projets de cet axe sont décrits dans la rubrique Langues romanes (Grande Grammaire du français, Essential Grammar of Romanian, enrichissement du Corpus arboré du français…).
Grammaire de l'énoncé et du discours
Les travaux regroupés dans cet axe portent sur l'interprétation des unités linguistiques en contexte, aussi bien du point de vue des paramètres discursifs structuraux (par ex. relations de discours) que de paramètres nonstructuraux (contexte énonciatif, structure informationnelle, connaissances partagées, question en discussion, etc.) L'interface sémantique/pragmatique, et toutes les interfaces entre sémantique/pragmatique et lexique, morphologie, et syntaxe, sont des lieux naturels d'exploration pour de tels phénomènes contextuels. Si le sujet n'est pas nouveau pour le laboratoire, il est renouvelé par une plus grande place donnée à la diversité des langues d'une part et aux approches expérimentales d'autre part.
Les travaux s’appuient sur plusieurs projets en cours : LabEx EFL (axes 2, 3 et 7), Marie-Curie TAMEAL, Projet Détermination et identification des événements (Fédération TUL FR 2559), notamment, ainsi que sur des collaborations internationales nourries, impliquant pas moins de 19 institutions extérieures (dont 16 situées à l’étranger).
Axes transverses
Langues afroasiatiques
Le laboratoire est dans une position doublement privilégiée pour l'étude des langues afroasiatiques. D'une part, il réunit des compétences sur les langues des cinq familles du phylum (berbère, couchitique, égyptien, sémitique, tchadique). D'autre part, il joue un rôle moteur dans l'édition de la revue internationale BAALL, seule reuve de linguistique formelle consacrée au domaine afro-asiatique.
Langues d'Asie orientale
Les travaux réunis dans ce domaine transversal portent sur les langues de la zone Asie orientale, et plus particulièrement sur le chinois (mandarin, cantonais, minnan de Taiwan), le khmer, les langues austronésiennes de Taiwan, le vietnamien, le coréen et le japonais. Ils couvrent les champs des trois domaines principaux: mot, phrase, énoncé et discours, et s’appuient sur des collaborations variées (Academia Sinica, Hanoi, Pekin National U., Hongkong Polytechnic U…)
Créolisation et acquisition des langues
Ce nouvel axe transversal réunit des spécialistes des langues créoles et de l’acquisition des langues. L’étude de ces deux domaines au sein de LLF a été renforcée par des recrutements de créolistes et de psycholinguistes, et par l’obtention du GDR-i Structure, émergence et évolution des pidgins et des créoles (Seepicla), dirigé par O. Bonami, pour 2012-2015. Tout en poursuivant des travaux en acquisition de L1 et L2, d’une part, des travaux de description grammaticale des créoles d’autre part, une des hypothèses que nous souhaitons tester est que la genèse des créoles, ainsi que certaines de leurs propriétés, reflète un processus d’acquisition L2 non supervisé.
Langues romanes
L'étude des langues romanes constitue depuis l'origine un des points forts du LLF. Les travaux qui s'initient ou se poursuivent relèvent des trois domaines principaux (mot, phrase, énoncé et discours) et sont surtout orientés sur une perspective synchronique. La constitution de ressources valorisables (grands corpus, grammaires de référence) constitue une part importante des travaux. Ils s’appuient sur des projets collaboratifs (LabEx EFL) et sur des réseaux internationaux (PICS avec la Roumanie, Hubert Curien avec Coimbra, Capes-Cofecub avec Florianopolis, French Tobi avec Cambridge et UAB Barcelone). Toutes les langues romanes sont étudiées au sein du laboratoire.
[hal-02106263] Literal Occurrences of Multiword Expressions: Rare Birds That Cause a Stir
Date: 22 Abr 2019 - 20:48
Desc: Multiword expressions can have both idiomatic and literal occurrences. For instance pulling strings can be understood either as making use of one's influence, or literally. Distinguishing these two cases has been addressed in linguistics and psycholinguistics studies, and is also considered one of the major challenges in MWE processing. We suggest that literal occurrences should be considered in both semantic and syntactic terms, which motivates their study in a treebank. We propose heuristics to automatically pre-identify candidate sentences that might contain literal occurrences of verbal VMWEs, and we apply them to existing treebanks in five typologically different languages: Basque, German, Greek, Polish and Portuguese. We also perform a linguistic study of the literal occurrences extracted by the different heuristics. The results suggest that literal occurrences constitute a rare phenomenon. We also identify some properties that may distinguish them from their idiomatic counterparts. This article is a largely extended version of Savary and Cordeiro (2018).
[hal-02318241] Without lexicons, multiword expression identification will never fly: A position statement
Date: 16 Oct 2019 - 18:25
Desc: Because most multiword expressions (MWEs), especially verbal ones, are semantically non-compositional, their automatic identification in running text is a prerequisite for semantically-oriented downstream applications. However, recent developments, driven notably by the PARSEME shared task on automatic identification of verbal MWEs, show that this task is harder than related tasks, despite recent contributions both in multilingual corpus annotation and in computational models. In this paper, we analyse possible reasons for this state of affairs. They lie in the nature of the MWE phenomenon, as well as in its distributional properties. We also offer a comparative analysis of the state-of-the-art systems, which exhibit particularly strong sensitivity to unseen data. On this basis, we claim that, in order to make strong headway in MWE identification, the community should bend its mind into coupling identification of MWEs with their discovery, via syntactic MWE lexicons. Such lexicons need not necessarily achieve a linguistically complete modelling of MWEs' behavior, but they should provide minimal morphosyntactic information to cover some potential uses, so as to complement existing MWE-annotated corpora. We define requirements for such a minimal NLP-oriented lexicon, and we propose a roadmap for the MWE community driven by these requirements.
[hal-03988695] Distribution is not enough: going Firther
Date: 14 Feb 2023 - 15:15
Desc: Much work in contemporary computational semantics follows the distributional hypothesis (DH), which is understood as an approach to semantics according to which the meaning of a word is a function of its distribution over contexts which is represented as vectors (word embeddings) within a multi-dimensional semantic space. In practice, use is identified with occurrence in text corpora, though there are some efforts to use corpora containing multi-modal information. In this paper we argue that the distributional hypothesis is intrinsically misguided as a self-supporting basis for semantics, as Firth was entirely aware. We mention philosophical arguments concerning the lack of normativity within DH data. Furthermore, we point out the shortcomings of DH as a model of learning, by discussing a variety of linguistic classes that cannot be learnt on a distributional basis, including indexicals, proper names, and wh-phrases. Instead of pursuing DH, we sketch an account of the problematic learning cases by integrating a rich, Firthian notion of dialogue context with interactive learning in signalling games backed by in probabilistic Type Theory with Records. We conclude that the success of the DH in computational semantics rests on a post hoc effect: DS presupposes a referential semantics on the basis of which utterances can be produced, comprehended and analysed in the first place.
Autres contacts
U.F.R. Linguistique (UFRL)
Bâtiment Olympe de Gouges - case courrier 7031
8 rue Albert Einstein
75013 PARIS