MCP2 - Système d’information distribuée

MCP2 - Organisation et stockage des données, un système d'information pour le champ et la serre

Responsables: Pascal Neveu (INRA-MISTEA) et Cyril Pommier (INRA-URGI)

Bio-informatique pour le phénotypage

Les expériences phénotypiques sont coûteuses et ne peuvent pas être reproduites car on ne retrouvera jamais le climat exact dans lesquelles elles ont été réalisées. Il est donc nécessaires de pouvoir les ré-analyser conjointement avec d'autres, soit dans la même installation soit en combinant des expériences au champ et en serre. Le système d'information PHIS a été construit pour cela.

Développement du système d'information (PHIS)

PHIS permet d'organiser et de stocker des jeux de données provenant du champ et de serres. Il utilise des ontologies et des graphes sémantiques pour identifier et relier tous les objets, évènements et caractères phénotypiques dans une expérience. Ceci permet d'intégrer les informations provenant de plusieurs expériences. PHIS interagit avec d'autres systèmes d'information pour faciliter les analyses génétiques et la modélisation. Il est progressivement déployé dans les installations de Phenome Emphasis, mais aussi ailleurs en France, en Europe et d'autres pays.

  • Identification. Notre stratégie de données ouvertes et réutilisables demande que tous les objets d'une installation aient des identificateurs uniques et non ambigus (plantes, organes, capteurs ou éléments du robot), avec des identificateurs uniques (URI) et des QR codes.

Identification de tous les objets présents dans une image en serre (a) ou au champ (b)

  • Des ontologies et des graphes sémantiques sont élaborés pour relier les objets, événement (techniques appliquées aux plantes, erreurs, accidents comme la verse) et les caractères phénotypiques mesurés. Ceci est fait en interaction avec des partenaires internationaux. La figure ci- dessous présente un graphe sémantique qui relie des échantillons de feuille, des plantes, des événements, une année, une expérience et des utilisateurs 

Déploiement dans les infrastructures locales pour une science ouverte

Le système permet une stratégie de science ouverte, avec des accès différenciés pour les membres du consortium, pour les chercheurs académiques et pour les compagnies privées. Il  en cours de déploiement dans les infrastructures locales de Phenome Emphasis au champ et en serre, mais aussi chez des partenaires étrangers.

Un système d'archivage permet la conservation à long terme de 300 Tb/an pour un usage de proximité pour l'analyse, et des stockages à plus long terme moins coûteux pour éviter la perte de données.

Dans les prochaines années, une priorité aux stratégies "big data"

  • Nous développons des outils pour les analyses multi-échelle, en particulier pour les mêmes variétés analysées dans plusieurs installations au champ et en serre au niveau de l'organe, de plante entières et de couvert. Ceci demande de développer des ontologies trans-échelles.
  • Nous organisons une communauté d'utilisateurs pour PHIS, pour partager le travail de développement et de support.

Date de modification : 31 août 2023 | Date de création : 26 juillet 2013 | Rédaction : Inna Viriot