Mobiliser et redistribuer les données pour d'autres valorisations

Rendre mobilisable les volumes de données distribuées concernés :

Le système d'information sur l'eau collecte et diffuse depuis de nombreuses années des données techniques sur l'eau et les milieux aquatiques, librement réutilisables. Mais ces données, si elles sont formellement accessibles, restent compliquéees à utiliser et mobiliser pour des ré-utilisateurs, ou même pour des bureaux d'étude.

  •  En effet, les volumes de données en jeu, la diversité de la qualité des services web qui les proposent  (à un instant donné) et leur inter-relations rendent extrêmement complexes des opérations pourtant simples que peut souhaiter réaliser un internaute : rechercher des mesures de nitrate à une localisation donnée, connaitre les poissons connus sur telle station, .... Les exigences de disponibilité (tous les services doivent fonctionner parfaitement à cet instant), de performance (tous les services doivent répondre dans un délai court) et de l'utilisateur (disposer d'une information indexée et filtrée correctement même si elle provient de plusieurs sources) sont difficilement satisfaites,et le temps nécessaire pour comprnedre le fonctionnement de l'ensemble et l'interaction entre les différents services porposés est trop important.
  • La constitution d’un système de « cache  intelligent" alimenté par les services de diffusion du SIE est donc nécessaire pour offrir un hub efficace. Il est essentiel que ce cache soit capable de se rafraichir en fonction de la mise à jour des données produites par les services de diffusion du SIE, au fil de l’eau, tout en garantissant la performance d’accès aux données ; la mise en place d'un cache doit rester transparente pour l'utilisateur, afin de conserver la philosophie du système distribué interopérable.
  • L’hétérogénéité des types de données ainsi que la volumétrie en jeu, mais aussi l'extreme structuration des données, qui s'appuyent sur de nombreux référentiels, spécifications ou données,  sont des limitations importantes à l’utilisation des bases de données relationnelles actuelles pour la mise en œuvre d'un cache, la disponibilité des données étant plus importante que leur cohérence.

             Pour résoudre ces challenges, Hub'Eau sera conçu en utilisant des technologies en rupture avec celles utilisées actuellement dans le SIE.

Les grands principes retenus :

  • L'architecture de Hub'Eau sera fondée sur les technologies de traitement des données massives (big data) qui apportent des solutions pertinentes pour certains challenges du projet, en particulier sur le système de cache
  • La disponibilité d’une infrastructure technique distribuée orientée sur les données et les processus : l’utilisation de solutions libres comme Apache™ Hadoop® ou la valorisation des environnements de grappe de calcul du BRGM (basée sur Lustre pour le stockage par exemple) serait à la base du système de constitution du cache, en charge de réaliser les processus de consommation des services web puis de conversion vers des formats de réutilisation (map/shuffle/reduce)
  • Un stockage « NoSQL » sous forme de documents sans schéma spécifique garantissant l’évolution du stockage en fonction de nouvelles (types de) données
  • Les recherches se font par un axe géographique et temporel,

Fournir, à partir de cette infrastructure, des données adaptées aux besoins des ré-utilisateurs :

  • Afin de rendre les données exploitables facilement pour un réutilisateur non expert du domaine, Hub'Eau assurera la dénormalisation des données vis à vis à des modèles actuels en réintégrant les référentiels et les données pivots et éventuellement en supprimant des informations non pertinentes pour l'utilisateur final. Il devra pour cela disposer d’un système de configuration adaptable par un administrateur, afin de répondre aux besoins qui ne cesseront d’évoluer (nouvelles données en entrées, nouveaux besoins exprimés en sortie) ;
  • Hub'Eau fournira  une transformation des flux techniques XML SIE ou OGC vers des flux ou formats plus "ouverts" (CSV, JSON,  GéoJSON,…)  attendus par les ré-utilisateurs dans une logique d’accès ouvert aux données « OpenData »
  • Hub'Eau proposera d’accéder aux données sous forme de services rapidement compréhensibles par des développeurs en proposant une API conforme aux préconisations du web (appel simple de type REST,…), documentée, orientée vers la recherche de lots de données et leurs accès en valorisant en particulier l’accès spatial aux données. L’intérêt d’un moteur de recherche de type Apache Solr par exemple, sera à étudier dès les phases amont du projet.
  • Afin d’assurer la modularité de la plateforme, les ré-utilisateurs experts pourront  proposer leurs propres traitements de conversion des données SIE (jobs) qui seront exécutés par Hub'Eau. Ces traitements permettraient d’adapter les formats de sortie en fonction de leurs propres cas d’usage.

Dernière mise à jour le 14.04.2017