-A +A

French Treebank : un corpus de référence pour le français

Constitué à partir d’articles du quotidien Le Monde, le French Treebank (ou Corpus arboré pour le français) est une ressource lexicale et syntaxique de référence pour linguistes, informaticiens et les 157 laboratoires de recherche ou entreprises qui utilisent déjà l’outil.

Développé depuis 1997 au Laboratoire de linguistique formelle (CNRS/Université Paris-Diderot) par Anne Abeillé et avec le soutien de l’Institut Universitaire de France, il propose aujourd’hui 21 550 phrases richement annotées. Le French Treebank se distingue des autres corpus français en ce que la moindre annotation est validée à la main par les acteurs du projet, ingénieurs ou chercheurs, garantissant ainsi l’exactitude et la pertinence des données.

La distribution du corpus contient 44 fichiers avec métadonnées, annotations lexicales et syntaxiques, le tout disponible en plusieurs formats informatiques pour une utilisation avec des outils de requête, et trois guides d’annotation très détaillés. Les informaticiens et linguistes peuvent alors, après avoir lancé une requête informatique, repérer des phénomènes de langage.

Mais les débouchés possibles sont multiples et impliquent souvent l’exécution de méthodes liées à l’intelligence artificielle ou au deep learning : la traduction automatique, l’aide à l’apprentissage du français, à la communication pour un public avec un handicap, ou encore l’entraînement de programmes d’annotation.

De nombreux projets scientifiques ou industriels reposent déjà sur le Corpus arboré pour le français. Apple, Google, Microsoft et Intel sont quelques-unes des entreprises qui exploitent le corpus afin d’améliorer leurs algorithmes. Le corpus est très régulièrement utilisé en arrière-plan pour développer les outils de correction orthographique ou les suggestions de recherche sur Internet.

L’utilisation de grands corpus annotés est une tendance qui se répand dans toutes les langues, corrélée au développement de l’informatique, qui en facilite l’usage.

Le corpus est distribué gratuitement pour toute utilisation à fins de recherche. Pour l’obtenir, il suffit d’en effectuer la demande en ligne et d’accepter les conditions générales d’utilisation. La licence commerciale, quant à elle, s’acquiert en contactant directement ftb@linguist.univ-paris-diderot.fr. Et avant toute demande, il est possible de tester le corpus grâce à un échantillon accessible sur simple clic !

Spécifications techniques :

  • Version 1.0 du 3 avril 2017
  • 21 500 phrases issues du quotidien Le Monde (1990-1993)
  • 664 500 tokens
  • 44 fichiers aux formats XML, Tiger-XML, PTB et CoNNL
  • Métadonnées (auteur, date, domaine)
  • Annotations lexicales (catégories, flexions, mots composés, composants)
  • Annotations syntaxiques (constituants majeurs et fonctions grammaticales)
  • Annotations corrigées et validées manuellement
     

Site web du laboratoire : http://www.llf.cnrs.fr/

Laboratoire

Laboratoire de linguistique formelle

À travers l'analyse formelle des unités traditionnelles du langage (le mot, la phrase, l'énoncé ou le discours) et l'analyse d'un ensemble de langues très diversifié, les chercheurs du LLF explorent le système cognitif du langage dans son entier.