(par Alessandro Capezzuoli, responsable ISTAT et responsable des métiers et compétences de l'observatoire de données Aidr) On parle toujours peu de métadonnées, peut-être parce que le préfixe «méta» est inconsciemment associé à sa signification originale (μετά «avec, après») et à la connotation conséquente d'un concept à des domaines éthérés et insaisissables, comme la métaphysique ou les métaphores. Probablement, le mot lui-même, métadonnées, ne suscite pas autant d'intérêt que les mots blockchain, big data et machine learning. La définition réductrice qui est donnée aux métadonnées, l'information qui décrit les données, n'aide pas à comprendre pleinement leur fonction: elle semble se référer à quelque chose de secondaire aux données, dont on pourrait se passer. Il convient d'ajouter à la définition que sans métadonnées, une donnée perd son sens, n'a plus de cohérence et ne peut pas être lue correctement.
Réduire la fonction des métadonnées à une portée exclusivement «descriptive» est une dangereuse sous-estimation. Premièrement, parce que la fonction descriptive se réfère non pas à un mais à plusieurs aspects, qui peuvent inclure le contenu, la structure et le contexte liés aux données. C'est précisément pour cette raison qu'il n'existe pas de type unique de métadonnées. Il existe des métadonnées descriptives, constituées d'un ensemble de descriptions normalisées, utiles pour identifier les données et dans les systèmes de recherche sémantique qui utilisent des données ouvertes liées. Les métadonnées structurelles, quant à elles, décrivent l'architecture et les relations internes et sont essentielles pour utiliser correctement les données. Ensuite, il y a les métadonnées de gestion, qui incluent des informations techniques telles que les formats ou l'environnement technologique adopté.
Cet aperçu général, et, pour les initiés, les mots XSD et JSON Object, suffit à comprendre l'énorme potentiel associé aux métadonnées. S'il est relativement facile d'imaginer un système piloté par les données, il n'est pas si facile de penser à l'utilisation des métadonnées pour prendre des décisions. L'imagination peut cependant prendre une forme précise, si elle s'appuie sur un exemple pratique. Supposons, en théorie, qu'il y ait quelque part dans le monde une épidémie incontrôlable et que ce phénomène soit mesuré par une méthode scientifique rigoureuse qui détecte le nombre et la dynamique des infections et des décès. Supposons que, à travers ces «chiffres», il existe un risque élevé de contagion dans les restaurants et que les restaurants soient principalement fréquentés par un segment spécifique de la population composé d'hommes de plus de 70 ans.
Pour réduire les risques, on pourrait penser à fermer des restaurants, ou à refuser l'entrée aux individus indulgents et enclins à manger. Dans le premier cas, des métadonnées seraient nécessaires pour décrire principalement les activités économiques, afin d'identifier les entreprises qui s'occupent de l'approvisionnement en aliments et en boissons. Dans le second cas, une archive de la population serait nécessaire à partir de laquelle extraire une liste de noms auxquels envoyer le message «Aucune entrée aux restaurants». Dans les deux cas, des métadonnées descriptives et structurelles de qualité seraient nécessaires pour prendre une décision. Cet exemple, certainement un euphémisme, nous permet d'amorcer de nombreuses réflexions sur le rôle des métadonnées. La fermeture des restaurants, en période de risque Covid maximum, a été décidée par l'adoption de la nomenclature statistique ATECO, c'est-à-dire un ensemble de classes et de descripteurs qui identifient plus ou moins précisément les activités économiques exercées par les entreprises. Pureté statistique »D'un système de classification, mais on ne peut nier que la fermeture des restaurants a été guidée par des métadonnées. De même, s'il avait été décidé d'interdire l'accès aux restaurants à un certain segment de la population, les métadonnées auraient joué un rôle clé dans la sélection des individus. Les deux scénarios font ressortir des aspects qui ne font pas actuellement partie du débat public: la gouvernance des métadonnées, l'adoption de «langages» partagés pour décrire les données, ou plus généralement des phénomènes scientifiques, et la qualité des métadonnées. La décision de fermer les restaurants était fondamentalement possible pour une raison: toutes les entreprises ont un code ATECO qui se réfère à un seul système de classification partagé, il était donc relativement facile d'identifier les entreprises auxquelles le code 56.10.11 était associé - Restauration avec administration . La même disposition aurait pu être inapplicable dans un contexte où chaque région avait adopté un système de classification différent, peut-être moins rigoureux, et décontextualisé des autres.
Ceux qui traitent des métadonnées sont bien conscients des difficultés rencontrées pour intégrer différentes bases de données dans lesquelles, par exemple, le sexe est indiqué différemment, H / F, Homme / Femme, 0/1, 1/2, ou le territoire est codifié sur base de différentes classifications en termes méthodologiques et temporels. Malheureusement, il n'est pas toujours possible de construire un système de métadonnées uniforme: parfois cela dépend de la fermeture mentale des producteurs de données vis-à-vis de l'extérieur, parfois de revendications réelles ou supposées d'une plus (ou moins) rigueur scientifique d'un ensemble de métadonnées. qu'un autre, d'autres fois par l'adoption de procédures ou de séries chronologiques qui ne peuvent pas être interrompues.
L'utilisation partagée de métadonnées de qualité est loin d'être anodine et est souvent entravée par des problèmes politiques et non méthodologiques. Si le champ d'utilisation des métadonnées est limité au marché du travail et aux professions, un scénario sombre se dégage: d'une part, il y a la classification internationale ISCO (International Standard Classification of Occupation), qui serait très bien adaptée à décrire, avec un la langue partagée et de qualité, les métiers et leur représentation sous de multiples aspects, par contre il y a des intérêts partisans, des castes, des égocentrismes et une mauvaise connaissance du sujet, qui entravent leur application. Il en résulte que le recrutement, en particulier dans le secteur public, souffre depuis de nombreuses années d'une carence structurelle, à un moment où il ne peut être financé. Pour cette raison, il serait souhaitable que le point «Métadonnées, gouvernance, partage et qualité» soit inscrit à l'ordre du jour du thème «transformation numérique».