数据治理的基石之元数据应该怎么做?

meta的起源

据说,英语中元数据meta一词最早出现于1968年,其是对希腊语前缀"meta-"的粗略翻译,用于表明更抽象层次的事物。尽管元数据一词只有几十年的历史,然而几千年的图书馆管理员们一直在工作中使用着元数据,只不过我们先所谓的“元数据”是历史上被称为"图书馆目录信息"。图书目录中的信息解决了一个十分关键的问题,就是如何帮助用户在图书馆快速地、准确地找到想要的资料。

图书目录中依然延续至今的信息片段:书名、作者或整理、主题、简介和篇幅。但如今其含有更多的信息,如出版社、出版时间、定价、条形码和上架建议等等。

数据治理的基石之元数据应该怎么做?

如今的图书目录采用更多的信息片段。每本著作都有唯一的编码号码(图书馆的书一般带有手写或机打标签),根据某种编码方案(如杜威十进制分类法等)设计的纯数字或字母数字混编字符串,来帮助图书馆用户在书架上准确地快速地找到著作。

试想几种场景,一个藏有几千万册的图书馆没有分类编码存储;著作没有著作名称、作者、简介等;著作封面简介与内容不符;著作没有目录等等。就会出现这样的结果:

    • 图书馆无法管理的自己图书,很难统计馆内多少图书、每类图书多少
    • 图书馆无法根据大众读者喜好摆放某类图书的位置
    • 读者无法找到自己想读的图书
    • 读者费时费力地找到了图书,但内容与描述不符
    • 读者精疲力尽地找到了图书,但无法快速定位到某些章节
    • 读者心平气和地找到了图书,但内容是错误的
    • 读者心满意足地找到了图书,但内容是下册的,又必须从上册读起
    • 读者喜出望外地找到了图书,但内容是用甲骨文写的,用梵文作的注解(读者看不懂)
    • 读者欲哭无泪地找到了图书,但图书馆要下班关门了
    • ......读者崩溃了.....

同样道理,若企业没有做好元数据管理,那么数据消费者或数据分析师会面临上述读者的同类困境:找不到数据、找到没有上下文无法理解数据、理解了数据因数据格式无法使用、内容有误导致结果错误、查询性能低、数据加工好已经错过时效等等问题。解决上述困境或管好这些对事物的描述信息都属于元数据管理的概念范畴。

如果没有元数据管理,数据无法被有效地组织起来、被准确地理解、被合理地使用和产出预期的结果,那么数据价值无法发挥出来,于是数据变成了数据负债;如果没有元数据,那么数据的内容和真实性就难以估量,继而可能造成数据价值和可用性的降低。元数据是发挥数据价值的前提,是数据治理的基石。

何为元数据

“元数据是关于数据的数据”(准确地说这个定义不大实用,且不易被理解)。从数据、信息、知识和智慧人类认知领域的层次结构来讲,数据是通过工具或机器搜集的原始资料。确切地说,数据是原始、未经处理的资料或潜在信息。信息就是经过某种处理并供人使用的数据。知识指的是你知道的事情,也就是经过内化的信息,而智慧则是指了解如何运用知识。元数据是对潜在信息的信息,是关于数据的更高层次抽象,是对数据的描述

准确的元数据是必不可少的,也是迅速有效地对数据去粗取精的关键。没有元数据,数据就毫无意义,只不过是一堆数字或文字而已。

元数据只是发挥数据价值的充分条件,“酒香也怕巷子深”如制定了合理并严格执行数据标准,通用的易用的模型设计数仓底座,极高的良性循环的数据质量,安全的顺滑的数据访问和数据共享机制和合理的高效的管理流程等,就亟须统一标准的、合理的、易用理解的、易用使用的元数据管理系统,不能把“好酒”(数据)埋没掉,要把数据宣传出去,让更多用户知晓、理解和高效使用,并使数据价值得最大发挥。

同时也应避免言过其实的“金玉其外,败絮其中”即数据不标准、数据质量较差、数据存在异常和形散而神散、重复建设及计算的数仓等等,即使有个华丽的元数据可视化展示,只会换来业务用户更多抱怨。

总之,名副其实是最好的,数据与元数据同步持续良性迭代优化。

元数据应用领域较广,种类甚多, 按照不同应用领域或功能,元数据分类有很多种方法或种类,元数据一般大致可为三类:业务元数据、技术元数据和操作元数据。各自包含内容如下:

业务元数据:

    • 指标名称、计算口径、业务术语解释、衍生指标等
    • 数据概念模型和逻辑模型
    • 业务规则引擎的规则、数据质量检测规则、数据挖掘算法等
    • 数据血缘和影响分析
    • 数据的安全或敏感级别等

技术元数据:

    • 物理数据库表名称、列名称、列属性、备注、约束信息等
    • 数据存储类型、位置、数据存储文件格式或数据压缩类型等
    • 数据访问权限、组和角色
    • 字段级血缘关系、ETL抽取加载转换信息
    • 调度依赖关系、进度和数据更新频率

操作元数据:

    • 系统执行日志
    • 访问模式、访问频率和执行时间
    • 程序名称和描述
    • 版本维护等
    • 备份、归档时间、归档存储信息

上述只是大致的分为三类,简单地列举常用的元数据信息,其实还包括结构性元数据、保存性和权限元数据等等这里就不一一列举了。

元数据管理

元数据也是数据,同样适用数据生命周期管理。元数据生命周期可分为采集、整合、存储、分析、应用、价值和服务几个阶段。

元数据架构

元数据战略是关于企业元数据管理目标的说明,也是开发团队的参考框架。元数据战略决定了企业元数据架构。元数据架构可分为三类:集中式元数据架构、分布式元数据架构和混合元数据架构。

  • 集中式元数据架构

集中式架构包括一个集中的元数据存储,在这里保存了来自各个元数据来源的元数据最新副本。保证了其独立于源系统的元数据高可用性;加强了元数据存储的统一性和一致性;通过结构化、标准化元数据及其附件的元数据信息,提升了元数据数据质量。集中式元数据架构有利于元数据标准化统一管理与应用。

  • 分布式元数据架构

分布式架构包括一个完整的分布式系统架构只维护一个单一访问点,元数据获取引擎响应用户的需求,从元数据来源系统实时获取元数据,而不存在统一集中元数据存储。虽然此架构保证了元数据始终是最新且有效的,但是源系统的元数据没有经过标准化或附加元数据的整合,且查询能力直接受限于相关元数据来源系统的可用性。

  • 混合式元数据架构

这是一种折中的架构方案,元数据依然从元数据来源系统进入存储库。但是存储库的设计只考虑用户增加的元数据、高度标准化的元数据以及手工获取的元数据。

这三类各有千秋,但为了更好发挥数据价值,就需要对元数据标准化、集中整合化、统一化管理。如果企业做功能较为完善的数据资产管理平台可采用集中式元数据架构。

元数据管理

亿信华辰的元数据管理内置丰富的采集适配器,端到端的自动化采集,一键元数据分析,快速理清数据资源,了解数据来龙去脉,构建数据地图,为数据标准建设和数据质量提供基础支撑。

数据治理的基石之元数据应该怎么做?

数据治理的基石之元数据应该怎么做?

如何从数据中探索信息、发现知识,寻找隐藏在数据中的趋势、模式、相关性及隐含规律,都要我们用于更好的数据洞察力,而这种洞察力的基础来自我们对元数据的理解。

元数据是用数据管理数据,是快速查找数据、精确定位数据、准确地理解数据和快速使用数据的关键。元数据管理还须符合数据标准、较高的数据质量、数据安全、数据共享、合理顺滑管理流程。在存储、计算和人力成本合理可控、可管理的前提下,使数据价值得最大发挥,是数据全生命周期管理重要组成部分。是提升数据价值发挥的前提,是数据治理的基石。


分享到:


相關文章: