ods|数据中台:怎样评价数据资产的健康度?( 二 )


DWT/DWA/APP层完善度:主要看汇总数据能直接满足多少查询需求,也就是用汇总层数据的查询比例,如果汇总数据无法满足需求,使用数据的人就必须使用明细数据,甚至是原始数据。
汇总数据查询比例:DWT/DWA/APP层的查询占所有查询的比例。
跨层引用率越低越好,在数据中台模型设计规范中,一般不允许出现跨层引用,例如ODS层数据只能被 DWD引用。
4. 复用度复用度顾名思义,资产建设完成后,被不同业务或用户复用的情况,复用才会减少重复开。
可以用引用系数作为数据中台资产复用度评价指标。引用系数越高,说明复用性越好。
引用系数:数据表被读取,产出下游模型的平均数量。例如一张DWD 层表被8张 DWS层表引用,这个表的引用系数就是8,把拥有下游的DWD 层表(有下游表的)引用系数取平均值,则为DWD 层的平均引用系数。
5. 数据质量数据质量问题产生的原因包括开发质量问题、集群稳定性、以及业务变更等多种问题,对于难以掌控的外部因素,只能是早发现早修复,数据资产的评价维度主要是监控体系的覆盖度、监控报警的处理率以及平均处理时长。
6. 成本优化维度数据成本的管控需要建立自上而下的成本分摊与评价体系,才能自下而上形成主动治理、优化的意识。例如考核每个数据开发人员待治理的任务数量以及治理成效。
在成本优化中,最常关注的包括:资产存储、计算耗时/资源情况折算成成本。产生的小文件合并问题、冷热数据分级及归档、HDFS路径治理等。
7. 数据安全随着数据安全法以及个人信息保护法相继生效,手机号、身份证等绝密信息进入集群后是严禁明文传输的。数据开发在数据工作是否做到了对所有敏感信息的加密脱敏处理,也是资产健康度的评价维度之一。
三、资产健康分的计算逻辑及应用健康分价值:从数仓总体到组织部门以及一线的数据开发者,形成统一的量化标准,客观评价资产建设工作。对于最最细粒度度的单个模型,可以直观展示模型健康度,责任到人,形成自上而下的考核以及自下而上的管理、治理动作。
健康分的计算逻辑:根据企业自身关注的重点,多方讨论确认评价指标以及权重系数。从单个表的健康分,汇总到个人数据开发者,以及数据团队的健康分。评价指标可以从前面章节中的七大维度进行筛选,主要可以包括:

  • 建设规范度:不符合建表或命名规范;
  • 信息丰富度:元数据是否缺失,字段描述100%覆盖,主题、标签是否缺失等;
  • 完善度:跨层引用比例;
  • 复用度:模型引用系数;
  • 数据质量:监控覆盖度、平均异常次数(延迟、数据错误)、平均处理时长;
  • 成本优化:存储成本、计算成本、近X天使用情况、小文件数量;
  • 数据安全:是否存在敏感字段未脱敏。
四、基于健康分的资产管理工作台除了数据工作者主动治理和规范的意识外,很多时候是缺少有效的工具。将资产健康分以及治理动作进行可视化展示,为数据工作者提供一站式工作台,不仅可以让大家养成规范化、周期性治理的习惯,也可以形成上下一致的资产管理及治理标准。
工作台产品设计中的核心原则:客观评估现状,给出原因及可执行的动作,量化治理效果。即:每天上班打开工作台,知道自己数仓工作目前的定位及问题,如何去优化改善,做了一系列的动作后,效果如何了。
ods|数据中台:怎样评价数据资产的健康度?
文章插图
五、小结利用资产健康分,量化资产建设及管理效果,可以做到自上而下的上传下达管理,也可以为一线数据工作者提供追踪、可执行的行动指南,相比较过去以统计为主的资产“大盘”,资产健康分可以更精细化地指导数据资产管理及治理工作。