(av Alessandro Capezzuoli, ISTAT-tjänsteman och chef för dataobservationsyrken och färdigheter Aidr) Det är alltid lite tal om metadata, kanske för att prefixet "meta" är omedvetet associerat med dess ursprungliga betydelse (μετά "med, efter") och den därav följande konnotationen av ett koncept till eteriska och svårfångade områden, såsom metafysik eller metaforer. Förmodligen väcker inte själva ordet, metadata, lika stort intresse som orden blockchain, big data och maskininlärning. Den reduktiva definitionen som ges till metadata, informationen som beskriver data, hjälper inte till att förstå deras funktion fullt ut: den verkar hänvisa till något sekundärt till datan, som man skulle kunna göra utan. Det bör läggas till definitionen att utan metadata förlorar data sin betydelse, de har inte längre konsekvens och kan inte läsas korrekt.
Att reducera funktionen för metadata till en "beskrivande" omfattning är en farlig underskattning. För det första eftersom den beskrivande funktionen inte hänvisar till en utan till flera aspekter, som kan inkludera innehåll, struktur och sammanhang relaterat till data. Just av den anledningen finns det ingen enda typ av metadata. Det finns beskrivande metadata, som består av en uppsättning normaliserade beskrivningar, användbara för att identifiera data och i semantiska söksystem som använder sig av länkade öppna data. Strukturella metadata, å andra sidan, beskriver arkitekturen och interna relationer och är avgörande för att data ska användas korrekt. Sedan finns det förvaltningsmetadata, som inkluderar teknisk information som format eller den tekniska miljön som används.
Denna allmänna översikt, och för insiders, orden XSD och JSON Object, är tillräckligt för att förstå den enorma potentialen som är associerad med metadata. Om det är relativt enkelt att föreställa sig ett datadrivet system är det inte så lätt att tänka på användningen av metadata för att fatta beslut. Fantasin kan dock få en exakt form, om den stöds av ett praktiskt exempel. Antag, hypotetiskt, att någonstans i världen finns en out-of-control epidemi och att detta fenomen mäts genom en rigorös vetenskaplig metod som upptäcker antalet och dynamiken hos infektioner och dödsfall. Låt oss anta att det genom dessa "siffror" finns en hög risk för smitta i restauranger och att restauranger huvudsakligen besöks av ett specifikt segment av befolkningen som består av män över 70 år.
För att minska riskerna kan man tänka på att stänga restauranger eller neka inträde till övergiven och benägen att äta individer. I det första fallet behövs metadata för att huvudsakligen beskriva den ekonomiska verksamheten för att identifiera de företag som hanterar mat och dryck. I det andra fallet behövs ett arkiv av befolkningen för att extrahera en lista med namn som meddelandet "Ingen post till restauranger" ska skickas till. I båda fallen behövs kvalitetsbeskrivande och strukturella metadata för att fatta beslut. Detta exempel, definitivt reduktivt, tillåter oss att starta många reflektioner om metadataens roll. Stängningen av restaurangerna under perioden med maximal Covid-risk bestämdes genom antagandet av ATECO: s statistiska klassificering, det vill säga en uppsättning klasser och deskriptorer som mer eller mindre exakt identifierar de ekonomiska aktiviteter som bedrivs av företagen. ”I ett klassificeringssystem, men det kan inte förnekas att stängningen av restauranger drivs av metadata. På samma sätt, om det hade beslutats att förbjuda tillträde till restauranger för ett visst segment av befolkningen, skulle metadata ha spelat en nyckelroll i valet av individer. De två scenarierna visar aspekter som för närvarande inte ingår i den offentliga debatten: styrning av metadata, antagande av delade "språk" för att beskriva data eller mer allmänt vetenskapliga fenomen och kvaliteten på metadata. Beslutet att stänga restaurangerna var i grunden möjligt av en anledning: alla företag har en ATECO-kod som refererar till ett gemensamt klassificeringssystem, så det var relativt enkelt att identifiera de företag som koden 56.10.11 var kopplad till - Catering med administrationen . Samma bestämmelse kunde ha varit otillämplig i ett sammanhang där varje region hade antagit ett annat klassificeringssystem, kanske mindre rigoröst, och dekontextualiserat från de andra.
De som hanterar metadata är väl medvetna om svårigheterna med att integrera olika databaser där till exempel kön indikeras annorlunda, M / F, Man / Kvinna, 0/1, 1/2, eller territoriet kodas på grunden för olika klassificeringar i metodologiska och tidsmässiga termer. Tyvärr är det inte alltid möjligt att bygga ett enhetligt metadatasystem: ibland beror det på dataproducenternas mentala stängning med avseende på utsidan, ibland på verkliga eller förmodade påståenden om större (eller mindre) vetenskaplig stringens för en uppsättning metadata än en annan, andra gånger genom antagande av förfaranden eller tidsserier som inte kan avbrytas.
Den delade användningen av kvalitetsmetadata är långt ifrån trivial och hindras ofta av politiska och icke-metodiska frågor. Om användningsområdet för metadata är begränsat till arbetsmarknaden och yrken uppstår ett dyster scenario: å ena sidan finns den internationella klassificeringen ISCO (International Standard Classification of Occup), som skulle vara mycket lämplig att beskriva, med en delat och kvalitetsspråk, yrken och deras representation under flera aspekter, å andra sidan finns partisanintressen, kaster, egocentrismer och dålig kunskap om ämnet, vilket hindrar deras tillämpning. Som ett resultat har rekrytering, särskilt inom den offentliga sektorn, drabbats av en strukturell brist i många år nu, i en tid då det inte går att ge. Av denna anledning vore det önskvärt att posten "Metadata, styrning, delning och kvalitet" skulle tas med på dagordningen för ämnet "digital transformation".