Projets
ColAnTal : Faire collaborer les anthropologues et les linguistes sur le Traitement Automatique des Langues peu dotées
Présentation
Projet lauréat de l’Appel à propositions « Faire à plusieurs, 2025 » (MSH Mondes)
Ce projet se situe à l’intersection du traitement automatique du langage (dorénavant TAL) et de l’anthropologie. Il est motivé par un double constat.
Premièrement, malgré des avancées récentes en TAL, la majorité du patrimoine linguistique du monde en reste exclue : sur quelque 7000 langues recensées, entre 200 et 500 bénéficient des outils les plus récents (Costa-jussà et al. 2022, Xue et al. 2021, Zeman et al. 2024). Ceci est dû au fait que ces technologies reposent sur des données écrites, le plus souvent récoltées sur Internet. Par conséquent, toute langue ayant une faible présence numérique s’en trouve exclue.
Deuxièmement, les données et archives de l’anthropologie représentent des trésors de données, qui font souvent l’objet d’une numérisation ou documentation partielle, limitant les possibilités de leur utilisation, mais aussi de leur pérennisation et valorisation.
Ce projet propose donc une exploration des collaborations possibles entre ces deux disciplines dans le but d’une mise en commun des données existantes. Cela aura deux résultats concrets : l’amélioration de la visibilité et de la pérennité des données anthropologiques, et l’amélioration de la couverture des langues en TAL.
Mots clés : TAL, langues peu dotées, anthropologie, données, archives, diversité et inclusion linguistique
Partenaires
- MSH Mondes, Musée du Quai Branly - Jacques Chirac