(Алессандро Капеццуоли, официальный представитель ISTAT и менеджер по профессиям и навыкам обсерватории данных AidrО метаданных всегда мало говорят, возможно потому, что приставка «мета» бессознательно связана с ее первоначальным значением (μετά «с, после») и, как следствие, коннотацией концепции к неземным и неуловимым областям, таким как метафизика или метафоры. Наверное, само слово «метаданные» не вызывает такого интереса, как слова «блокчейн», «большие данные» и «машинное обучение». Редуктивное определение, которое дается метаданным, информации, описывающей данные, не помогает полностью понять их функцию: кажется, что это относится к чему-то вторичному по отношению к данным, без которых можно было бы обойтись. К определению следует добавить, что без метаданных данные теряют свое значение, теряют согласованность и не могут быть правильно прочитаны.
Сведение функции метаданных к исключительно «описательной» области - опасная недооценка. Во-первых, потому что описательная функция относится не к одному, а к нескольким аспектам, которые могут включать в себя контент, структуру и контекст, относящиеся к данным. Именно по этой причине не существует единого типа метаданных. Существуют описательные метаданные, которые состоят из набора нормализованных описаний, полезных для идентификации данных и в системах семантического поиска, которые используют связанные открытые данные. Структурные метаданные, с другой стороны, описывают архитектуру и внутренние отношения и необходимы для правильного использования данных. Затем идут метаданные управления, которые включают техническую информацию, такую как принятые форматы или технологическая среда.
Этого общего обзора и для инсайдеров слов XSD и JSON Object достаточно, чтобы понять огромный потенциал, связанный с метаданными. Если представить себе систему, управляемую данными, относительно легко, то не так-то просто подумать об использовании метаданных для принятия решений. Однако воображение может принять точную форму, если оно подкреплено практическим примером. Предположим, гипотетически, что где-то в мире существует неконтролируемая эпидемия и что это явление измеряется строгим научным методом, который определяет количество и динамику инфекций и смертей. Предположим, что с помощью этих «цифр» существует высокий риск заражения в ресторанах и что рестораны посещает в основном определенный сегмент населения, состоящий из мужчин старше 70 лет.
Чтобы снизить риски, можно подумать о закрытии ресторанов или отказе во входе индивидам, склонным к еде. В первом случае потребуются метаданные, с помощью которых можно будет описать в основном экономическую деятельность, чтобы идентифицировать компании, занимающиеся поставками продуктов питания и напитков. Во втором случае потребуется архив населения, из которого можно будет извлечь список имен, на которые будет отправлено сообщение «Вход в рестораны запрещен». В обоих случаях для принятия решения потребуются качественные описательные и структурные метаданные. Этот пример, безусловно, преуменьшающий, позволяет нам начать многочисленные размышления о роли метаданных. Решение о закрытии ресторанов в период максимального риска коронавируса было принято путем принятия статистической классификации ATECO, то есть набора классов и дескрипторов, которые более или менее точно определяют экономическую деятельность, осуществляемую компаниями. Статистическая чистота »Системы классификации, но нельзя отрицать, что закрытие ресторанов было вызвано метаданными. Точно так же, если бы было решено запретить доступ в рестораны для определенного сегмента населения, метаданные сыграли бы ключевую роль в отборе людей. Два сценария выявляют аспекты, которые в настоящее время не являются частью публичных дебатов: управление метаданными, принятие общих «языков» для описания данных или, в более общем плане, научных явлений и качество метаданных. Решение о закрытии ресторанов было в основном возможным по одной причине: все компании имеют код ATECO, который относится к единой общей системе классификации, поэтому было относительно легко определить компании, с которыми был связан код 56.10.11 - Кейтеринг с администрацией . То же положение могло быть неприменимо в контексте, в котором каждый регион принял другую систему классификации, возможно, менее строгую и деконтекстуализированную по сравнению с другими.
Те, кто имеет дело с метаданными, хорошо осведомлены о трудностях, возникающих при интеграции различных баз данных, в которых, например, пол указывается по-разному, M / F, Male / Female, 0/1, 1/2, или территория кодируется на основа различных классификаций в методологическом и временном плане. К сожалению, не всегда возможно построить единую систему метаданных: иногда это зависит от мысленной закрытости производителей данных по отношению к внешнему, иногда от реальных или предполагаемых заявлений о большей (или меньшей) научной строгости набора метаданных. по сравнению с другим, в других случаях путем принятия процедур или временных рядов, которые нельзя прерывать.
Совместное использование качественных метаданных далеко не тривиально и часто затрудняется политическими и неметодологическими проблемами. Если сфера использования метаданных ограничивается рынком труда и профессиями, возникает мрачный сценарий: с одной стороны, существует международная классификация ISCO (Международная стандартная классификация занятий), которую можно было бы очень хорошо описать с помощью общий и качественный язык, профессии и их представление во многих аспектах, с другой стороны, существуют партийные интересы, касты, эгоцентризм и плохое знание предмета, которые препятствуют их применению. В результате набор персонала, особенно в государственном секторе, уже много лет страдает структурным недостатком, в то время как это невозможно себе позволить. По этой причине было бы желательно, чтобы пункт «Метаданные, управление, совместное использование и качество» был включен в повестку дня темы «Цифровая трансформация».