Projets
Kinsources
Présentation
L’objectif du projet est la création d’une plateforme interactive et ouverte pour archiver, partager, analyser et comparer des données de parenté (généalogiques, terminologiques et spatiales) utilisées dans la recherche scientifique.
La constitution de cette plateforme s’inscrit dans un programme de recherche qui vise à comprendre comment l’interaction entre généalogie, terminologie et espace fait émerger des structures de parenté. Fondé sur une base empirique croissante et sur des outils d’analyse de plus en plus intégrés, ce processus de recherche continue garantira l’adéquation de la plateforme aux besoins des chercheurs et assurera en même temps le développement de nouvelles méthodologies qui seront au fur et à mesure intégrées dans la boîte à outils commune.
L’ambition du projet est de rendre accessible, à moyen terme, une grande partie des données de parenté utilisées dans des travaux scientifiques (livres, articles, thèses, rapports de projet etc.). Cela concerne autant les corpus à venir que des corpus existants, qu’ils soient déjà informatisés, codés ou encore à l’état de dessins ou de notes, publiés dans des ouvrages ou enfermés dans les tiroirs des chercheurs ou conservés dans les archives des laboratoires.
Le site se distinguera par la sécurisation et la pérennisation des données (hébergement par le TGE Adonis) et par le contrôle de leur qualité (soumission à un processus d’évaluation). La publication d’un corpus sur ce site sera donc comparable à une publication dans une revue électronique à comité de lecture et indiquera son caractère scientifique.
Transmis de façon décentralisée par les chercheurs eux-mêmes, les corpus seront soumis à un contrôle qui portera d’un côté sur leur cohérence interne (évaluation technique), de l’autre, sur leur documentation scientifique (métadonnées concernant le contexte et les conditions de l’enquête, méthodes utilisées, localisation des documents premiers, etc.) ainsi que sur le respect de la protection des données et de la propriété intellectuelle.
S’intégrant dans la démarche des initiatives pour des archives ouvertes (OAI), la plateforme sera mise en place en respectant le protocole OAI-PMH et s’efforcera de prendre en compte les contraintes nécessaires à l’instauration d’un archivage pérenne à long terme (modèle OAIS). Elle privilégiera ainsi les formats ouverts de données (txt, xml, gedcom). Proposant une interface web d’accès aux métadonnées des corpus, elle pourra être moissonnée par de nombreux autres sites et services spécialisés, ce qui assurera aux contributeurs la visibilité de leur travail de publication de sources.
Pour assurer la pérennisation de l’intégralité des données tout en respectant la protection des données privées, le module d’exportation du site contiendra un filtre (y compris une fonctionnalité d’anonymisation) selon les options choisies par l’auteur, en conformité avec les règles du site. L’outil répondra ainsi à la double exigence du libre accès aux données et de l’évolution dynamique du corpus (qui nécessite l’intégration de certaines données non-publiques, notamment des noms propres).
La plateforme intégrera par ailleurs les liens aux sites des centres où se trouvent (physiquement ou sous forme numérisée) les corpus originaux, ainsi que les coordonnées de l’auteur, permettant ainsi aux utilisateurs d’approfondir leur connaissance du corpus au-delà de la version codée et publiée. À cet égard, la plateforme Kinsources coopérera étroitement avec les plateformes de numérisation (comme ODSAS, dont le centre porteur est partenaire externe du projet).
Afin de mettre en marche le processus de contributions, le projet adoptera une double stratégie :
- d’un côté, la construction d’un socle commun de corpus connus et de grande qualité, afin d’atteindre une « masse critique » suffisante pour inciter d’autres chercheurs à déposer leurs corpus. Ce travail de codage et de saisie pendant la durée du projet partira d’un capital de démarrage d’environ 90 corpus d’ores et déjà disponibles sur le prototype du site kinsource.net.
- de l’autre côté, le développement et la mise à disposition d’outils simples pour la saisie, le codage et la conversion en différents formats de corpus généalogiques (y compris des tutoriels destinés à guider l’enquête généalogique sur le terrain). Ce volet ne se bornera pas à des services web mais devra aussi impliquer des ateliers de formation (notamment pour les enseignants en anthropologie et en histoire).
L’accès au site sera ouvert, public et non-payant. Nous ne prévoyons pas la possibilité de stocker des données généalogiques entièrement en accès restreint. L’objectif du projet nécessitera donc aussi un changement de culture dans une partie de la communauté scientifique. L’effet de « masse critique » sera crucial de ce point de vue, ce qui donnera une grande importance aux efforts de valorisation et de diffusion.
L’objectif du site est de devenir le portail intégré des instruments informatiques les plus avancées pour la gestion, la visualisation et l’analyse des données de parenté. Plutôt que de construire un nième logiciel généalogique, il s’agira de développer une méta-API permettant la communication entre deux principaux outils existants : le logiciel KinOath développé au Max Planck Institut par Peter Withers et le logiciel Puck développé par Klaus Hamberger et Christian Momon dans le cadre des programmes ANR TIPP (Traitement informatique des phénomènes de parenté) et SimPa (Simulation et Parenté).
Cela étant, le programme pourra également donner lieu au développement de fonctionalités nouvelles, notamment pour l’analyse comparative (par exemple, la normalisation des taux de mariage consanguins pour deux corpus historiques de différentes taille et profondeur) et pour le traitement intégré de données hétérogènes (par exemple, la spatialisation d’un réseau généalogique sur une carte ou la projection d’un système terminologique sur une généalogie).
La production de ces outils nouveaux présuppose le développement de méthodologies nouvelles qui constitue le défi scientifique majeur du projet. Il n’existe en effet pas encore d’outil pour l’analyse comparative simultanée de données généalogiques, ni pour l’analyse intégrée de données généalogiques, terminologiques et spatiales. Ce manque tient moins aux difficultés d’ordre technique qu’à la complexité des problèmes méthodologiques posés par la comparaison entre réseaux de morphologie différente, et par la combinaison de liens généalogiques et non-généalogiques dans un même réseau.
Le projet s’inscrit ainsi dans une perspective de recherche à la fois appliquée et fondamentale. A ce dernier égard, il pourra bénéficier des avancées réalisées, au cours de projets préalables menés par les partenaires, dans le domaine de l’analyse des réseaux de parenté.
Qu’il s’agisse d’outils nouvellement développés ou d’outils existants, les principes de contribution décentralisée et d’accès ouvert valent pour les outils comme pour les données. Seront donc seuls intégrés dans le site des logiciels open source et tournant sur toutes les plateformes.
L’ambition à long terme est de rendre la recherche sur des données de parenté totalement indépendante de logiciels privés ou payants. Le projet Kinsources aura réussi s’il peut se transformer en programme pérenne, porté par la communauté des chercheurs et des développeurs et associant l’accumulation de données partagées à l’actualisation continue des outils de leur analyse.
Partenaires
- CRM Centre Roland Mousnier
- LaDeHiS - CRH Laboratoire de démographie et d'histoire sociale - Centre de recherches historiques
- LAS/CDF/EHESS/CNRS Laboratoire d'anthropologie sociale
- LESC Laboratoire d'ethnologie et sociologie comparative