为什么需要数据建模?
数据建模解决什么问题?
提供数据建模方法论,自顶向下进行规范构建数仓,包含数据标准、数仓规划、数据指标及维度建模四大模块,帮助政府及企事业单位在搭建数据中台、数据集市建设过程中提升建模能力,并通过数据建模快速构建政府及企事业单位的数据资产。
数据标准
制定数据标准,规范定义,为数仓规划的各个要素、数据指标、表名等提供标准和约束,从源头保障标准化生产。主要包含命名词典、字段标准、标准值域、表名规范、指标规范等。
命名词典
命名词典为您提供管理各个数据要素,如业务名词、物理表、字段、原子指标的词根和词缀及其标准化翻译功能。在各个数据要素命名时,可以参考命名词典进行命名。命名词典模块支持新建、修改、删除命名词典,同时支持批量导入导出命名词典。
字段标准
字段标准是对含义相同但字段名称不同的数据进行统一规范管理的数据准则。可将多个表中含义相同但字段名不同的内容进行关联,并对该字段制定相关的取值范围、度量单位、标准值域等内容。
标准值域
标准值域是字段标准的取值范围,在标准值域中可设置字段标准可选择的数据内容及范围。标准值域与枚举维度相似,但数据治理的作用要强于枚举维度,标准值域可以与数据质量打通,某个字段被关联标准值域后,该字段的取值范围必须在标准值域内,如取值范围不在其内,需要马上治理。
表名规范与指标规范
系统提供规范管理功能,用以规范表模型及指标的命名,制定表模型及指标的命名规范,在模型和指标创建时,系统会根据规范推荐表名和自动生成指标名,使用方能通过表名和指标名快速了解对应的业务信息。如果不符合表名规范的表,则在“待治理清单”中展示,形成治理闭环。
数仓规划
背景知识
业务分类
所在的集团或公司业务复杂且较为庞大时,可创建业务分类,对数据进行业务区分,便于对业务数据进行更加方便的管理。
数据域
数据域是联系较为紧密的数据主题的集合,通常是根据业务类别、数据来源、数据用途等多个维度,对企业的业务数据进行的区域划分,将同类型数据存放在一起。
业务过程
业务过程是企业在指定的数据域中所执行的业务活动,是数据建模所需要分析的逻辑主体。例如,交易域中可以有加入购物车、下单、支付等业务过程。
数据集市
数据集市是基于业务分类,面向特定应用场景或者产品的数据组织。通常位于数据应用层,依赖于整合数据。
分析主题
分析主题用于将数据集市按照分析视角进行划分,通常是联系较为紧密的数据主题的集合。如盘货分析、关键指标分析等。
数仓设计实践
根据规划的数据要素,进行分层划域和表模型设计。
数据指标
原子指标
用于明确业务的统计口径和计算逻辑,是基于用户的业务活动(即业务过程)创建的,用于统计业务活动中某一业务状况的数值。例如,用户的业务活动为购买,则原子指标就可以指定为支付金额。
业务限定
业务限定用于限定统计数据的业务范围。
统计周期
统计周期即统计数据的时间范围,例如近7天、近30天等。用于在统计派生指标时,限定业务统计的时间范围。
维度及维度属性
维度是人们观察事物的角度,进行统计的对象。例如客户、货品、场景等具体的业务对象;地域、组织关系和产品类目等抽象的业务对象。
维度属性:是用于具象化维度,比如货品的ID、货品的名称。
派生指标
派生指标是由原子指标、业务限定、统计周期、统计粒度(维度属性)组成,用于反映某个粒度某一业务活动在指定时间周期及目标范围中的业务状况。例如,品牌ID粒度一周华南地域的销售金额。
维度建模
维度建模四步曲
- 选定业务过程为下单。
- 定义业务处理的粒度:订单商品粒度。
- 选定每个事实表行的维度:订单id+商品id。
- 确定用于形成每个事实表行的数字型事实。
怎么在维度建模中进行过程治理
- 设置非空,联动质检。
- 关联字段标准,联动质检。
- 关联标准值域,联动质检。
- 语义化维度/指标。
- 设置主键,联动质检。