(由ISTAT官员兼数据观测台专业和技能Aidr经理Alessandro Capezzuoli撰写)关于元数据的讨论很少,这可能是因为前缀“元”在不知不觉中与其原始含义相关联(μετά“带有,在……之后”)以及该概念在虚无和难以捉摸的领域(如形而上学或隐喻)的含义。 单词本身(元数据)可能不会像区块链,大数据和机器学习一词那样引起人们的兴趣。 赋予元数据的简化定义(描述数据的信息)无助于充分理解其功能:它似乎是指数据之外的其他事物,这可以不用做。 应该在定义中添加以下内容:没有元数据,数据将失去其含义,不再具有一致性,并且无法正确读取。
将元数据的功能降低到专门的“描述性”范围是一种危险的低估。 首先,因为描述功能不是指一个方面,而是指几个方面,这些方面可能包括与数据有关的内容,结构和上下文。 正是由于这个原因,没有单一类型的元数据。 存在描述性元数据,它由一组规范化的描述组成,可用于标识数据以及在使用链接的开放数据的语义搜索系统中使用。 另一方面,结构化元数据描述了体系结构和内部关系,对于正确使用数据至关重要。 然后是管理元数据,其中包括技术信息,例如采用的格式或技术环境。
概述以及对于内部人员来说,XSD和JSON Object一词足以理解与元数据相关的巨大潜力。 如果想像一个数据驱动的系统相对容易,那么考虑使用元数据进行决策就不那么容易了。 但是,如果有实际示例的支持,则可以将想象力呈现为精确的形式。 假设,假设世界上某处流行失控,并且该现象是通过严格的科学方法进行测量的,该方法可检测出感染和死亡的数量和动态。 让我们假设,通过这些“数字”,餐厅中传染病的风险很高,而餐厅主要是由70岁以上男性组成的特定人群所光顾的。
为了降低风险,可以考虑关闭餐厅,或拒绝进入放纵和容易进食的个人。 在第一种情况下,将需要元数据来主要描述经济活动,以识别从事食品和饮料供应的公司。 在第二种情况下,将需要一个人口档案,以从中提取名称列表,并向其发送消息“餐馆无门”。 在这两种情况下,都需要质量描述性和结构性元数据来做出决定。 这个例子,当然是一个轻描淡写的例子,使我们可以对元数据的作用进行许多反思。 在Covid风险最高的时期内,餐馆的关闭是通过采用ATECO统计分类法来决定的,ATECO统计分类法是一组类别或描述符,它们或多或少地准确地识别了公司开展的经济活动。 ”的分类系统,但不能否认餐馆的关闭是由元数据引导的。 同样,如果已决定禁止特定人群访问餐厅,则元数据将在选择个人方面发挥关键作用。 这两种情况带来了当前尚未公开辩论的方面:元数据的治理,采用共享的“语言”来描述数据(或更笼统地说是科学现象)以及元数据的质量。 关闭餐厅的决定基本上是有原因的:所有公司都有一个ATECO代码,该代码引用一个共享的分类系统,因此,识别与代码56.10.11相关的公司相对容易-配合行政管理。 在每个区域采用不同的分类系统(可能不太严格)并且与其他区域脱钩的情况下,同一条规定可能不适用。
那些处理元数据的人清楚地意识到在集成不同数据库时遇到的困难,例如,以不同的性别表示性别,男/女,男/女,0 / 1、1 / 2或将地区编入方法和时间方面的不同分类的基础。 不幸的是,构建统一的元数据系统并不总是可能的:有时取决于数据生产者相对于外部的思维封闭,有时取决于对一组元数据的科学严格性要求更高或更低的真实或假定主张。比其他时间更重要的是采用了不能中断的程序或时间序列。
质量元数据的共享使用绝非易事,而且常常受到政治和非方法论问题的阻碍。 如果元数据的使用范围仅限于劳动力市场和专业,则会出现一个惨淡的局面:一方面是国际分类标准ISCO(国际职业标准分类),非常适合用语言,专业及其在多个方面具有代表性的高质量共享语言,另一方面,党派利益,种姓,自我中心主义和对该主题的知识不足,阻碍了它们的应用。 结果是,招募,特别是在公共部门的招募,在无法承受的情况下,多年来一直遭受结构性短缺的困扰。 因此,希望将“元数据,治理,共享和质量”项目包括在“数字转换”主题的议程中。