ods|数据中台:怎样评价数据资产的健康度?
【 ods|数据中台:怎样评价数据资产的健康度?】编辑导语:作为数据中台能力的根基,对数据资产的管理则必然提至中台建设日程当中。那么,数据资产管理过程中可能会出现什么问题?数据资产健康管理又可以从哪些方面入手呢?本篇文章里,作者就数据资产管理、数据资产健康度评价方面的问题做了总结,一起来看一下。
文章插图
数据资产是数据中台能力的根基,数据资产的健康度直接关系到中台建设的成败。那么在数据中台建设过程中究竟该如何评价数据资产建设及管理的情况呢?
一、数据资产管理过程常见问题规范不统一,不同业务部门、不同开发人员发现习惯及意识不同,缺少统一的资产建设规范管控时,会带来命名不规范、建模不标准等问题。
数据复用低,元数据信息缺失、数据权限申请及审批流程断层、缺少高效易用的数据地图检索工具等会带来数仓人员开发了很多模型,但是业务并不知晓,重复造轮子。
考核难量化,对于数仓开发人员的绩效该如何量化评估呢?开发的模型数量?Bug数?还是数据质量问题的次数?
上传不下达,管理层及数据管理者希望不断降低数据的存储及计算成本,但由于成本核算粒度粗,无法将成本追溯到个人开发者。对于一线开发同学来说,短期内只要能最快完成业务需求即可,不会过多关注成本问题。对于低效高耗任务、冷数据缺乏主动治理意识。
二、数据资产健康度评价维度
文章插图
1. 规范性库名、表名、指标及字段名是否符合约定的规范,例如:数仓分层、业务线、数据域、业务过程的组合,形成可以通过名称识别出数据的基本内容,而不是随心所欲的中英文混合、缩写,只有熟悉的人才可以知道表是干什么用的。
资产建设过程中,可以将集团或者数据部门的规范抽象、集成到ETL过程,在系统层面做拦截,事前监测不规范的数据开发过程。可以参考阿里的dataphin。
2. 丰富性元数据覆盖度,包括资产技术元数据、业务元数据等信息,元数据越完善,才能为使用者提供更准确的决策依据,减少沟通成本,提升数据复用度。
例如,表的责任人、业务描述信息、主题、层级、标签丰富度,字段说明及加工逻辑使用文档。技术元数据主要以数据开发人员使用为主,例如存储大小、小文件数量、使用热度(近X天使用人次)。
除系统可以自动获取的外,其他相关元数据需要数据开发人员进行常态化的维护和更新。
3. 完善度数仓模型对业务的支撑和覆盖情况,完善度越高的数仓体系,业务获取和使用数据的成本就越低。即当业务需要数据时,已经相应的模型在哪里等着使用了,而不是再去对接业务沟通需求,排期开发。
例如当管理者问数仓负责人,你们天天搞数仓建设,现在到底建设到什么程度了呢?有了完善度评价标准,可以量化数仓建设成熟度。一般来说,典型的数仓体系架构如下:
文章插图
通过数据血缘及查询日志,可以对数据加工任务以及Adhoc查询进行统计分析。
例如,在数据查询中,直接查询ODS的任务占比,占比越高说明有大量任务基于原始数据加工,中间模型DWD、DWT、DWA复用性很差。在技术上,直接查询底层表,查询扫描的数据量会越大,查询时间会越长,查询的资源消耗也越大,使用数据的人满意度会低。可以跨层引用率来衡量支持完善度。
DWD层:看 ODS层有多少表被DWT/DWA/APP 层引用,占所有活跃的ODS 层表比例。
- 创业|八成互联网电视非法采集用户数据, 彩电企业怎么办?
- 新书推荐 │ 大数据算法设计与分析
- AirPods|如何进行微信活动运营才有效?
- |一招教你入门数据可视化!
- 固态硬盘|PCI-E 4.0新选择,西部数据WD_BLCK SN770固态硬盘体验
- 原神|原神:说好数据互通的,为什么自己不能用电脑玩?多数人都没注意
- 客户端|多平台分析618数据,看清家居人未来方向!
- 芯片|芯片数据出炉!情况出现反转,美企们坐不住了
- 网络安全|数据安全的三大特性!重要性和意义!
- 操作系统|AirPods3和AirPodsPro之间有什么区别?哪款耳机最值得购买?
