(door Alessandro Capezzuoli, ISTAT-ambtenaar en manager van de gegevensobservatoriumberoepen en -vaardigheden Aidr) Er is altijd weinig sprake van metadata, misschien omdat het voorvoegsel "meta" onbewust wordt geassocieerd met de oorspronkelijke betekenis (μετά «met, na») en met de daaruit voortvloeiende connotatie van een concept met etherische en ongrijpbare sferen, zoals metafysica of metaforen. Waarschijnlijk wekt het woord zelf, metadata, niet zoveel belangstelling als de woorden blockchain, big data en machine learning. De reductieve definitie die wordt gegeven aan metadata, de informatie die de data beschrijft, helpt niet om hun functie volledig te begrijpen: ze lijken te verwijzen naar iets secundairs aan de data, wat zonder zou kunnen. We moeten aan de definitie toevoegen dat zonder metadata gegevens hun betekenis verliezen, geen consistentie meer hebben en niet correct kunnen worden gelezen.
Het reduceren van de functie van metadata tot een uitsluitend "beschrijvend" bereik is een gevaarlijke onderschatting. Ten eerste omdat de beschrijvende functie niet naar één maar naar meerdere aspecten verwijst, waaronder de inhoud, structuur en context van de gegevens. Om deze reden is er niet één type metadata. Er zijn beschrijvende metadata, die zijn opgebouwd uit een set genormaliseerde beschrijvingen, handig voor het identificeren van gegevens en in semantische zoeksystemen die gebruik maken van Linked Open Data. Structurele metadata beschrijven daarentegen de architectuur en interne relaties en zijn essentieel voor het correct gebruiken van de data. Dan zijn er de managementmetadata, die technische informatie bevatten, zoals de formaten of de toegepaste technologische omgeving.
Dit algemene overzicht volstaat, en voor ingewijden de woorden XSD en JSON Object, om het enorme potentieel van metadata te begrijpen. Als het relatief eenvoudig is om je een datagedreven systeem voor te stellen, is het niet zo eenvoudig om na te denken over het gebruik van metadata om beslissingen te nemen. De verbeelding kan echter een precieze vorm aannemen, als deze wordt ondersteund door een praktisch voorbeeld. Stel hypothetisch dat er ergens in de wereld een uit de hand gelopen epidemie is en dat dit fenomeen wordt gemeten door middel van een rigoureuze wetenschappelijke methode die het aantal en de dynamiek van infecties en sterfgevallen detecteert. Laten we aannemen dat door deze "cijfers" een hoog besmettingsrisico in restaurants wordt benadrukt en dat restaurants voornamelijk worden bezocht door een specifiek segment van de bevolking dat bestaat uit mannen boven de 70.
Om de risico's te verminderen, zou kunnen worden gedacht aan het sluiten van restaurants, of het verbieden van de toegang van genotzuchtige personen die geneigd zijn tot de ondeugd van eten. In het eerste geval zouden metadata nodig zijn om vooral de economische activiteiten te beschrijven, om de bedrijven te identificeren die zich bezighouden met de levering van eten en drinken. In het tweede geval zou een archief van de bevolking nodig zijn waaruit een lijst met namen kan worden gehaald waarnaar de mededeling "Het is verboden restaurants binnen te gaan" kan worden verzonden. In beide gevallen zijn beschrijvende en structurele metadata van hoge kwaliteit nodig om een beslissing te nemen. Dit voorbeeld, ongetwijfeld simplistisch, stelt ons in staat om veel na te denken over de rol van metadata. De sluiting van restaurants, in de periode van maximaal Covid-risico, werd beslist door de goedkeuring van de ATECO-statistische classificatie, d.w.z. een reeks klassen en descriptoren die de economische activiteiten van bedrijven min of meer nauwkeurig identificeren. Men kan zeker discussiëren over de statistische "zuiverheid" van een classificatiesysteem, maar het valt niet te ontkennen dat de sluiting van restaurants werd geleid door metadata. Evenzo, als zou zijn besloten om restaurants uit een bepaald deel van de bevolking te weren, zouden metadata een sleutelrol hebben gespeeld bij het selecteren van individuen. De twee scenario's brengen aspecten naar voren die momenteel geen deel uitmaken van het publieke debat: het beheer van metadata, het gebruik van gedeelde "talen" om data te beschrijven, of meer in het algemeen wetenschappelijke fenomenen, en de kwaliteit van metadata. De beslissing om de restaurants te sluiten was in principe mogelijk om één reden: alle bedrijven hebben een ATECO-code die verwijst naar één gedeeld classificatiesysteem, dus het was relatief eenvoudig om de bedrijven te identificeren die waren gekoppeld aan de code 56.10.11 - Catering met administratie. Dezelfde bepaling zou niet van toepassing kunnen zijn in een context waarin elke regio een ander classificatiesysteem had aangenomen, misschien minder rigoureus, en uit de context gehaald van de andere.
Degenen die met metadata werken, zijn zich terdege bewust van de moeilijkheden die zich voordoen bij het integreren van verschillende databases waarin bijvoorbeeld het geslacht op een andere manier wordt aangegeven, M/V, Man/Vrouw, 0/1, 1/2, of het territorium wordt gecodificeerd op basis van verschillende classificaties in methodologische en temporele termen. Helaas is het niet altijd mogelijk om een uniform metadatasysteem op te bouwen: soms hangt het af van de bekrompenheid van dataproducenten ten opzichte van de buitenwereld, soms van echte of veronderstelde claims van grotere (of mindere) wetenschappelijke nauwkeurigheid van de ene set metadata dan de andere, de andere keer van het aannemen van procedures of historische reeksen die niet kunnen worden onderbroken.
Het gedeelde gebruik van hoogwaardige metadata is verre van triviaal en wordt vaak gehinderd door politieke en niet-methodologische kwesties. Als we de reikwijdte van het gebruik van metadata beperken tot de arbeidsmarkt en beroepen, ontstaat er een somber scenario: aan de ene kant is er de internationale classificatie ISCO (International Standard Classification of Occupation), die zich heel goed zou lenen om met een gedeelde en kwalitatieve taal beroepen en hun vertegenwoordiging onder vele aspecten te beschrijven, aan de andere kant zijn er partijdige belangen, kasten, egocentrisme en gebrek aan kennis van het onderwerp, die de toepassing ervan belemmeren. Het gevolg is dat rekrutering, met name in de publieke sector, al vele jaren met een structureel tekort kampt, terwijl het niet te betalen is. Om die reden zou het wenselijk zijn dat het item "Metadata, governance, delen en kwaliteit" op de agenda van het thema "digitale transformatie" komt te staan.