DataArts Studio数据架构以关系建模、维度建模理论支撑,实现规范化、可视化、标准化数据模型开发,定位于数据治理流程设计落地阶段,输出成果用于指导开发人员实践落地数据治理方法论。
本章节操作场景如下:
- 对MRS Hive数据湖中的出租车出行数据进行数据模型设计。
- 数据库demo_sdi_db中已具备出租车出行原始数据表sdi_taxi_trip_data。
- 原始数据表sdi_taxi_trip_data的数据字段介绍如下:
数据说明如下:
下表为出租车行程数据
序号 | 字段名称 | 字段描述 |
---|---|---|
1 | VendorID | 供应商编号 取值如下: 1=A Company 2=B Company |
2 | tpep_pickup_datetime | 上车时间 |
3 | tpep_dropoff_datetime | 下车时间 |
4 | passenger_count | 乘客人数 |
5 | trip_distance | 行驶距离 |
6 | ratecodeid | 费率代码 取值如下: 1=Standard rate 2=JFK 3=Newark 4=Nassau or Westchester 5=Negotiated fare 6=Group ride |
7 | store_fwd_flag | 存储转发标识 |
8 | PULocationID | 上车地点 |
9 | DOLocationID | 下车地点 |
10 | payment_type | 付款方式代码 取值如下: 1=Credit card 2=Cash 3=No charge 4=Dispute 5=Unknown 6=Voided trip |
11 | fare_amount | 车费 |
12 | extra | 加收 |
13 | mta_tax | MTA税 |
14 | tip_amount | 手续费 |
15 | tolls_amount | 通行费 |
16 | improvement_surcharge | 改善附加费 |
17 | total_amount | 总车费 |
数据架构的流程如下:
- 准备工作 :
- 添加审核人 :在数据架构中,业务流程中的步骤都需要经过审批,因此,需要先添加审核人。只有工作空间管理员角色的用户才具有添加审核人的权限。
- 管理配置中心 :数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您需要根据自己的业务需要进行自定义配置。
- 数据调研 :基于现有业务数据、行业现状进行数据调查、需求梳理、业务调研,输出企业业务流程以及数据主题划分。
- 主题设计 :通过分层架构表达对数据的分类和定义,帮助厘清数据资产,明确业务领域和业务对象的关联关系。
- 流程设计 :本例暂不涉及。流程设计是针对流程的一个结构化的整体框架,描述了企业流程的分类、层级以及边界、范围、输入/输出关系等,反映了企业的商业模式及业务特点。
- 标准设计 :新建码表&数据标准。
- 新建码表并发布 :通常只包括一系列允许的值和附加文本描述,与数据标准关联用于生成值域校验质量监控。
- 新建数据标准并发布 :用于描述公司层面需共同遵守的属性层数据含义和业务规则。其描述了公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守。
- 模型设计: 应用关系建模和维度建模的方法,进行分层建模。
- 关系建模:新建SDI 层和DWI层两个模型 。
-SDI :Source Data Integration,又称贴源数据层。SDI是源系统数据的简单落地。
-DWI :Data Warehouse Integration,又称数据整合层。DWI整合多个源系统数据,对源系统进来的数据进行整合、清洗,并基于三范式进行关系建模。
- 维度建模:在DWR层新建并发布维度 & 维度建模:在DWR层新建并发布事实表。
-DWR :Data Warehouse Report,又称数据报告层。DWR基于多维模型,和DWI层数据粒度保持一致。
-维度 :维度是用于观察和分析业务数据的视角,支撑对数据进行汇聚、钻取、切片分析,用于SQL中的GROUP BY条件。
-事实表 :归属于某个业务过程的事实逻辑表,可以丰富具体业务过程所对应事务的详细信息。
- 指标设计:新建并发布技术指标 :新建业务指标(本例不涉及)和技术指标,技术指标又分为原子指标、衍生指标和复合指标。
- 指标 :指标一般由指标名称和指标数值两部分组成,指标名称及其涵义体现了指标质的规定性和量的规定性两个方面的特点,指标数值反映了指标在具体时间、地点、条件下的数量表现。
业务指标用于指导技术指标,而技术指标是对业务指标的具体实现。
- 原子指标 :原子指标中的度量和属性来源于多维模型中的维度表和事实表,与多维模型所属的业务对象保持一致,与多维模型中的最细数据粒度保持一致。
原子指标中仅含有唯一度量,所含其它所有与该度量、该业务对象相关的属性,旨在用于支撑指标的敏捷自助消费。
- 衍生指标 :是原子指标通过添加限定、维度卷积而成,限定、维度均来源于原子指标关联表的属性。
- 复合指标 :由一个或多个衍生指标叠加计算而成,其中的维度、限定均继承于衍生指标。
注意,不能脱离衍生指标、维度和限定的范围,去产生新的维度和限定。
- 维度建模:在DM 层新建并发布汇总表 。
- DM (Data Mart) :又称数据集市。DM面向展现层,数据有多级汇总。
- 汇总表 :汇总表是由一个特定的分析对象(如会员)及其相关的统计指标组成的。组成一个汇总逻辑表的统计指标都具有相同的统计粒度(如会员),汇总逻辑表面向用户提供了以统计粒度(如会员)为主题的所有统计数据(如会员主题集市)。
添加审核人
在数据架构中,数据建模流程中的步骤都需要经过审批,因此,需要先添加审核人。DAYU Administrator角色或该工作空间管理员,具备对应的添加审核人的权限。
- 在DataArts Studio控制台首页,选择实例,点击“进入控制台”,选择对应工作空间的“数据架构”模块,进入数据架构页面。
- 单击左侧导航树中的“配置中心”,进入相应页面后,在“审核人管理”页签,单击“添加”按钮。
- 选择审核人(工作空间管理员或开发者),输入正确的电子邮箱和手机号,单击“确定”完成审核人添加。
您也可以添加自己当前帐号为审核人,在后续提交审批的相关操作中,支持进行“自助审批”。根据需要,可以添加多个审核人。
管理配置中心
数据架构中提供了丰富的自定义选项,统一通过配置中心提供,您可有根据自己的业务需要进行自定义配置。
- 在数据架构控制台,单击左侧菜单栏的“配置中心”,进入配置中心页面。
- 进入“功能配置”页签,按照您的需求,进行自定义设置。
- 单击“确定”完成配置。
主题设计
在本示例中,主题设计如表所示,说明如下:
- 新建1个主题域分组:城市交通。
- 在主题域分组“城市交通”下,新建4个主题域:行程记录、集团、时空、公共维度。
- 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。
- 在主题域“集团”下,新建1个业务对象:供应商。
- 在主题域“时空”下,新建1个业务对象:时间。
- 在主题域“公共维度”下,新建1个业务对象:公共维度。
下表为主题设计信息
主题域分组名称(L1) | 主题域分组编码(L1) | 主题域名称(L2) | 主题域编码(L2) | 业务对象名称(L3) | 业务对象编码(L3) |
---|---|---|---|---|---|
城市交通 | city_traffic | 行程记录 | stroke_reminder | 原始记录 | origin_stroke |
城市交通 | city_traffic | 行程记录 | stroke_reminder | 标准记录 | stand_stroke |
城市交通 | city_traffic | 行程记录 | stroke_reminder | 行程事实 | stroke_fact |
城市交通 | city_traffic | 行程记录 | stroke_reminder | 记录统计 | stroke_statistic |
城市交通 | city_traffic | 集团 | people | 供应商 | vendor |
城市交通 | city_traffic | 时空 | time_location | 时间 | date |
城市交通 | city_traffic | 公共维度 | public_dimension | 公共维度 | public_dimension |
操作步骤如下:
- 登录DataArts Studio控制台。找到已创建的DataArts Studio实例,单击实例卡片上的“进入控制台”。
- 在工作空间概览列表中,找到所需要的工作空间,单击“数据架构”,进入数据架构控制台。
- 在数据架构控制台,单击左侧菜单栏的“配置中心”。选择“ 主题层级”,使用默认的3层层级。
L1-L7表示主题层级,默认3层,最大7层,最少2层,最后一层是业务对象,其他层级名称可编辑修改。配置中心配置的层级数,将在“主题设计”模块生效。
- 在数据架构控制台,单击左侧菜单栏的“主题设计”,进入相应页面后,单击“新建”创建L1层主题,即主题域分组。
在弹出窗口中,按图所示填写参数,然后单击“确定”完成主题域分组的创建。
- 在L1层主题“城市交通”下,依次新建4个L2层主题,即主题域:行程记录、集团、时空、公共维度。
以主题域“行程记录”为例,新建主题域的步骤如下,其他主题域也请参照以下步骤进行添加:
a.选中已创建的L1层主题“城市交通”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
b.在弹出窗口中,“名称”和“编码”请参照上方 主题设计信息 表中的“主题域名称”和“主题域编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成主题域的新建。
- 新建业务对象。
- 在主题域“行程记录”下,新建4个业务对象:原始记录、标准记录、行程事实、记录统计。
- 在主题域“集团”下,新建1个业务对象:供应商。
- 在主题域“时空”下,新建1个业务对象:时间。
- 在主题域“公共维度”下,新建1个业务对象:公共维度。
以在主题域“行程记录”下新建业务对象“原始记录”为例,新建业务对象的步骤如下,其他业务对象也请参照以下步骤进行添加:
a.选中已创建的L2层主题“行程记录”。单击右键,选择“新建”。或者单击右侧的“新建”按钮。
b.在弹出窗口中,“名称”和“编码”请参照上方 主题设计信息 表中的“业务对象名称”和“业务对象编码”进行填写,其他参数可根据实际情况进行填写,配置完成后单击“确定”完成业务对象新建。
新建码表并发布
在本示例中,您需要新建如表所示的3个码表:
目录 | *表名称 | *表编码 | 表描述 | *字段名称 | *字段编码 | *字段数据类型 | 字段描述 |
---|---|---|---|---|---|---|---|
付款方式 | 付款方式 | payment_type | 无 | 付款方式编码 | payment_type_id | BIGINT | 无 |
付款方式 | 付款方式 | payment_type | 无 | 付款方式值 | payment_type_value | STRING | 无 |
供应商 | 供应商 | vendor | 无 | 供应商id | vendor_id | BIGINT | 无 |
供应商 | 供应商 | vendor | 无 | 供应商 | vendor_value | STRING | 无 |
费率 | 费率代码 | rate_code | 无 | 费率id | rate_code_id | BIGINT | 无 |
费率 | 费率代码 | rate_code | 无 | 费率说明 | rate_code_value | STRING | 无 |
操作步骤如下:
- 在数据架构控制台,单击左侧导航树中的“码表管理”,进入码表管理页面。
- 新建3个码表目录:付款方式、供应商、费率。
以新建“付款方式”目录为例,新建目录步骤如下,其他目录也请参照以下步骤进行新建。
a.在码表管理页面,单击码表目录树中上方的新建目录。
b.在弹出框中,输入目录名称,选择目录,然后单击“确定”。
- 新建3个码表:付款方式、供应商、费率代码。
以新建“付款方式”码表为例,新建码表步骤如下,其他码表也请参照以下步骤完成新建:
a.在码表管理页面,在码表目录树中选择一个目录,然后在右侧单击“新建”按钮。
b.在新建码表页面中,请参考表配置参数,然后单击“保存”。
c.参考步骤步骤3.1~步骤3.2,在供应商目录下创建供应商码表,在费率目录下创建费率码表。
- 分别为付款方式、供应商、费率3个码表填写数值。
在“码表管理”页面,找到码表“付款方式”,然后在该码表所在行选择“更多 > 填写数值”。在填写数值页面,依次单击“新建”添加如下表所示的数值。
下表为付款方式码表的数值
付款方式编码payment_type_id | 付款方式值payment_type_value |
---|---|
1 | Credit card |
2 | Cash |
3 | No charge |
4 | Dispute |
5 | Unknown |
6 | Voided trip |
返回“码表管理”页面,找到码表“供应商”,然后在该码表所在行选择“更多 > 填写数值”。在填写数值页面,依次单击“新建”添加如下表所示的数值。
下表为供应商码表的数值
供应商idvendor_id | 供应商vendor_value |
---|---|
1 | A Company |
2 | B Company |
返回“码表管理”页面,找到码表“费率代码”,然后在该码表所在行选择“更多 > 填写数值”。在填写数值页面,依次单击“新建”添加如下表所示的数值。
下表为费率码表的数值
费率idrate_code_id | 费率说明rate_code_value |
---|---|
1 | Standard rate |
2 | JFK |
3 | Newark |
4 | Nassau or Westchester |
5 | Negotiated fare |
6 | Group ride |
- 返回码表管理页面后,在码表列表中,选中刚才新建的3个码表,然后单击“发布”发布码表。
- 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,码表发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
新建数据标准并发布
在本示例中,您需要新建如表所示的3个数据标准:
下表为数据标准
目录 | *标准名称 | *标准编码(自定义) | *数据类型 | 数据长度 | 引用码表 | *码表字段 | 描述 |
---|---|---|---|---|---|---|---|
付款方式 | 付款方式 | payment_type | 长整型(BIGINT) | 无 | 付款方式 | 付款方式编码 | 无 |
供应商 | 供应商 | vendor | 长整型(BIGINT) | 无 | 供应商 | 供应商id | 无 |
费率 | 费率代码 | rate_code | 长整型(BIGINT) | 无 | 费率代码 | 费率id | 无 |
- 在数据架构控制台,单击左侧导航树中的“数据标准”,进入数据标准页面。
- 首次进入“数据标准”页面,需要定制模板,定制的模板后续可以在配置中心进行更改。本示例需要额外勾选“引用码表”,如图所示。
- 请参考以下步骤,分别新建3个数据标准的目录:付款方式、供应商、费率。
在数据标准页面的目录树上方,单击新建目录,然后在弹出框中输入目录名称“付款方式”并选择目录,单击“确定”完成目录的新建。
- 请参考以下步骤,分别新建3个数据标准:付款方式、供应商、费率。
a.在数据标准页面的目录树中,选中所需要的目录,然后在右侧页面中单击“新建”。
b.在新建数据标准页面中,3个数据标准可分别参考如下配置,配置完成后单击“保存”。在本示例中,数据标准模板只选取了几个参数,您可以参考用户指南中的“数据架构> 管理配置中心”的“标准模板管理”定制数据标准模板。
- 返回数据标准页面后,在列表中勾选刚才新建的3个数据标准,然后单击“发布”发布数据标准。
- 在“批量发布”对话框中选择审核人,再单击“确认提交”,等待审核人员审核通过后,数据标准发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
关系建模:新建SDI层和DWI层两个模型
在关系建模中,分别新建SDI层和DWI层两个关系模型,并通过逆向数据库导入原始数据表到SDI层的关系模型中,在DWI层模型中新建一个“标准出行数据”的标准化的业务表。
- 在数据架构控制台,单击左侧导航树中的“关系建模”。
- 如果当前未创建过关系模型,系统会弹出“新建分层治理模型”提示框。您可以新建一个SDI层关系模型,命名为“sdi”,再新建一个DWI层关系模型,命名为“dwi”。单击“确定”即可。
- 如果不是首次创建,单击新建物理模型,如下图所示。
a. 先新建一个SDI层关系模型,命名为“sdi”。在物理模型页签中,单击,新建模型,配置如下参数,单击“确定”。
b. 再新建一个DWI层关系模型,命名为“dwi”。在物理模型页签中,单击,新建模型,配置如下参数,单击“确定”。
- 在“数仓分层”页签中,单击新建的SDI关系模型,展开,选中业务对象“城市交通 > 行程记录 > 原始记录”,单击“逆向数据库”,通过逆向数据库,导入原始表。
在“逆向数据库”窗口中,配置如下所示参数,然后单击“确定”。在本示例中选择贴源层数据库demo_sdi_db中的原始数据表。
逆向数据库成功后,单击“关闭”。您可以在列表中查看导入的表:
- 请参照以下步骤,新建一个“标准出行数据”的标准化的业务表。
a.在“数仓分层”页签中,单击新建的DWI关系模型,展开,选中DWI模型中的业务对象“城市交通 > 行程记录 > 原始记录”,然后在右侧列表上方单击“新建”按钮,进入新建表页面。
b.在新建表的“基本配置”标签页中,配置如下:
c.进入“表字段”标签页,单击“新建”,在标准出行数据表中,依次添加如下表所示的字段,并单击字段供应商编号、费率代码、付款方式的“数据标准”列中的按钮,分别关联数据标准“供应商”、“费率代码”和“付款方式”。
下表为标准出行数据表字段
序号 | 名称 | 编码 | 数据类型 | 数据标准 | 主键 | 分区 | 不为空 | 标签 |
---|---|---|---|---|---|---|---|---|
1 | 供应商编号 | vendor_id | 长整型(BIGINT) | 供应商 | 不勾选 | 不勾选 | 勾选 | - |
2 | 上车时间 | tpep_pickup_datetime | 时间戳类型(TIMESTAMP) | - | 不勾选 | 不勾选 | 勾选 | - |
3 | 下车时间 | tpep_dropoff_datetime | 时间戳类型(TIMESTAMP) | - | 不勾选 | 不勾选 | 勾选 | - |
4 | 乘客人数 | passenger_count | 字符类型(STRING) | - | 不勾选 | 不勾选 | 勾选 | - |
5 | 行驶距离 | trip_distance | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
6 | 费率代码 | rate_code_id | 长整型(BIGINT) | 费率代码 | 不勾选 | 不勾选 | 勾选 | - |
7 | 存储转发标识 | store_fwd_flag | 字符类型(STRING) | - | 不勾选 | 不勾选 | 勾选 | - |
8 | 上车地点 | pu_location_id | 字符类型(STRING) | - | 不勾选 | 不勾选 | 勾选 | - |
9 | 下车地点 | do_location_id | 字符类型(STRING) | - | 不勾选 | 不勾选 | 勾选 | - |
10 | 付款方式代码 | payment_type | 长整型(BIGINT) | 付款方式 | 不勾选 | 不勾选 | 勾选 | - |
11 | 车费 | fare_amount | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
12 | 加收 | extra | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
13 | MTA税 | mta_tax | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
14 | 手续费 | tip_amount | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
15 | 通行费 | tolls_amount | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
16 | 改善附加费 | improvement_surcharge | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
17 | 总车费 | total_amount | 高精度(DECIMAL)(10,2) | - | 不勾选 | 不勾选 | 勾选 | - |
对于标准出行数据表中的字段,您可以执行以下操作。
- 关联数据标准
在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“数据标准”列,单击按钮可以选择一个数据标准与字段相关联。将字段关联数据标准后,表发布上线后,就会自动生成一个质量作业,每个关联了数据标准的字段会生成一个质量规则,基于数据标准对字段进行质量监控,您可以前往DataArts Studio数据质量模块的“质量作业”页面进行查看。有关关联数据标准的更多信息,请参见用户指南中的“数据架构> 关系建模 > 物理模型设计”中的“新建表并发布”。
- 添加标签
标签是用户自定义的标识。添加标签后,您就可以在DataArts Studio数据目录模块中通过标签搜索相关的数据资产。
在新建表或编辑表时,进入“表字段”标签页,在字段所在行的“标签”列,单击按钮可以添加标签,在弹出框中,您可以输入新的标签名称后按回车,也可以在下拉列表中选择已有标签。
- 关联质量规则
完成表的新建后,您可以在表中为字段关联质量规则,完成关联后,当表发布成功后,就会在DataArts Studio数据质量中自动创建质量作业,如果当前表已经发布,则系统会自动更新质量作业。有关关联质量规则的更多信息,请参见用户指南中的“数据架构> 关系建模 > 关联质量规则”。
d.接下来,进入“映射”标签页,通过新建映射设计表的数据来源。
- 如果表中的字段数据来源于不同的关系模型,您需要创建多个映射。在每个映射中,您只需要为来源于当前映射的字段设置源字段,其他字段可以不设置。
- 如果表中的字段数据来源于同一个关系模型中的多个表,您可以新建一个映射。在该映射的“源表”中,您可以将多个表设置Join,然后再为表中的字段设置源字段。
本示例只需要新建一个映射。单击“新建”,新建一个映射,如下图。
- 映射名称 :新建映射时会自动生成,您也可以修改。
- 来源模型 :本示例选择“sdi”。
- 源表 :本示例选择原始数据表“sdi_taxi_trip_data”,标准出行数据表的数据均来源于该原始数据表。
- 字段映射 :
在“字段映射”区域,依次为表中的字段设置源字段,所选择的源字段应与表中的字段代表相同含义,一一对应。如下图所示,在字段映射的底部,会显示生成的SQL语句,可供参考。
说明
如果在“数据架构 > 配置中心 > 功能配置”页面中开启了“模型设计业务流程步骤 > 创建数据开发作业”(默认为关闭),发布表时,系统支持根据表的映射信息,在数据开发中自动创建一个ETL作业,每一个映射会生成一个ETL节点,作业名称以“ *数据库名称_表编码* ”开头。当前该功能处于内测阶段,仅支持DLI->DLI和DLI->DWS两种映射的作业创建。
已创建的ETL作业可以进入“数据开发 > 作业开发”页面查看。ETL作业默认每天0点启动调度。
- 在本示例中,不支持自动创建ETL作业,映射信息仅为数据开发提供数据的ETL流向。在做数据开发的过程中,可以参考此处的映射关系编写SQL脚本。
e.完成映射的配置后,出租车行程数据表配置完成,单击“保存”。
- 模型创建好之后,勾选已创建的模型,选择“更多 > 导出”,然后在弹出框中选中“表”并单击“确定”,可以将整个模型导出。参考同样的方法导出模型“sdi”。导出后的模型,可以作为备份,今后可用于模型导入。
- 发布表模型。
a.发布步骤2中通过逆向数据库导入SDI模型的原始表,发布后,就可以通过DataArts Studio对原始表进行管理和监控。
返回关系建模页面,在模型目录选择“sdi”模型,然后在右侧的列表中,勾选表sdi_taxi_trip_data,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“sdi”模型发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
b.发布DWI模型中的表。
返回关系建模页面,在模型目录中选择“dwi”模型,然后在右侧的列表中,勾选表“标准出行数据”,再单击“发布”,然后在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,“dwi”模型发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 当表模型发布成功后,进入数据架构的“关系建模”页面可以查看表的“状态”和“同步状态”。
发布是一个异步操作,您可以单击按钮刷新状态。表发布并通过审核后,系统会依据“配置中心 > 功能配置”页面中的“模型设计业务流程步骤”进行创建表、同步技术资产、同步业务资产等操作,在表的“同步状态”一列中将显示同步状态。
- “同步状态”若均显示成功,则说明表发布成功。鼠标移至“同步状态”中的图标之上,若显示“创建表: 创建成功”说明该表在对应的数据源下已经创建成功。
- “同步状态”若显示某一项或某几项失败,可以先刷新状态。如果仍失败,可以选择操作列的“更多 > 发布历史”,然后进入“发布日志”标签页查看日志。
请根据错误日志定位失败原因,问题解决后,再返回“关系建模”页面,在列表中勾选需同步的表,然后选择“更多 > 同步”尝试重新同步。如果仍同步失败,请联系技术支持人员协助解决。
在列表中单击表名,可以查看表的详情,其中“数据源”显示了表的位置。
维度建模:在DWR层新建并发布维度
在维度建模中,在DWR数据报告层中新建3个码表维度(供应商、费率代码和付款方式)和1个层级维度(日期维度)。
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 新建如表所示的3个码表维度。
*所属主题 | *维度名称 | *维度英文名称 | *维度类型 | *资产责任人 | 描述 | *数据连接类型 | *数据连接 | *数据库 | 选择码表 |
---|---|---|---|---|---|---|---|---|---|
供应商 | 供应商 | dim_vendor | 码表维度 | - | 无 | MRS_HIVE | mrs_hive_link | demo_dwr_db | 供应商 |
公共维度 | 费率代码 | dim_rate_code | 码表维度 | - | 无 | MRS_HIVE | mrs_hive_link | demo_dwr_db | 费率 |
公共维度 | 付款方式 | dim_payment_type | 码表维度 | - | 无 | MRS_HIVE | mrs_hive_link | demo_dwr_db | 付款方式 |
a.在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 集团 > 供应商”,然后单击“新建”新建供应商维度。
b.在新建维度页面,如下图所示配置参数,然后单击“保存”完成维度的新建。
c.在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 公共维度 > 公共维度”,然后单击“新建”新建费率代码维度。在新建维度页面,配置如下,配置完成后单击“保存”。
d.在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 公共维度 > 公共维度”,然后单击“新建”新建付款方式维度。在新建维度页面,维度配置如下,配置完成后单击“保存”。
- 新建一个层级维度“日期维度”。
a.在“维度建模”页面进入“维度”标签页,在主题树中选中“城市交通 > 时空 > 时间”,然后单击“新建”新建日期维度。
b.基本配置和物化配置如下:
下表为日期维度
*所属主题 | *维度名称 | *维度英文名称 | *维度类型 | *资产责任人 | 描述 | *数据连接类型 | *数据连接 | *数据库 |
---|---|---|---|---|---|---|---|---|
时间 | 日期维度 | dim_date | 层级维度 | - | 无 | MRS_HIVE | mrs_hive_link | demo_dwr_db |
c.属性配置如下:
序号 | 属性名称 | 属性英文名称 | 数据标准 | 数据类型 | 代理键 | 主键 | 分区 | 不为空 |
---|---|---|---|---|---|---|---|---|
1 | 日期维度 | dim_date_key | - | TIMESTAMP | 选中 | 选中 | 不勾选 | 勾选 |
2 | 时间 | real_time | - | TIMESTAMP | 不选 | 不选 | 不勾选 | 不勾选 |
3 | 分id | minute_id | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
4 | 分 | minute | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
5 | 时id | hour_id | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
6 | 时 | hour | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
7 | 日id | day_id | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
8 | 日 | day | - | STRING | 不选 | 不选 | 不勾选 | 不勾选 |
9 | 月id | month_id | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
10 | 月 | month | - | STRING | 不选 | 不选 | 不勾选 | 不勾选 |
11 | 年id | year_id | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
12 | 年 | year | - | BIGINT | 不选 | 不选 | 不勾选 | 不勾选 |
d.在层级配置区域,单击“新建”,新建如下2个层级:
e.新建维度页面配置完成后,单击“保存”。
- 返回维度页面后,在维度列表中,勾选刚才新建的4个维度,再单击“发布”。
- 在“批量发布”对话框中,选择审核人,单击“确认提交”,等待审核人员审核通过后,维度发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 完成所有维度的新建和发布,待审核通过后,系统会自动创建与维度相对应的维度表,维度表的名称和编码均与维度相同。在“维度建模”页面,选择“维度表”页签,可以查看建好的维度表。
在维度表列表中,在“同步状态”一列中可以查看维度表的同步状态。
- 如果同步状态均显示成功,则说明维度发布成功,维度表在数据库中创建成功。
- 如果同步状态中存在失败,可单击该维度表所在行的“发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以勾选该维度表,再单击列表上方的“同步”按钮尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
维度建模:在DWR层新建并发布事实表
在维度建模中,在DWR数据报告层中新建一个事实表“行程订单”。
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 单击“事实表”页签,进入事实表页面。在左侧的主题树中选择业务对象“城市交通 > 行程记录 > 行程事实”,然后单击“新建”按钮开始新建行程订单表。
在新建事实表页面的“基本配置”区域,配置如下:
- 所属主题:主题域分组:城市交通>主题域:行程记录>业务对象:行程事实
- 表名称:行程订单
- 表英文名称:fact_stroke_order
- 数据连接类型:MRS_HIVE
- 数据连接:mrs_hive_link
- 数据库:demo_dwr_db
- 表类型:HIVE_TABLE
- 资产责任人:在下拉列表中选择一个责任人。
- 描述:无
在“字段配置”区域,选择 " 新建 > 维度",在弹出框中选择维度“费率代码”、“供应商”、“付款方式”、“日期维度”,单击“确定”。再次选择 " 新建 > 维度",在弹出框中选择“日期维度”并单击“确定”。然后,在维度字段列表中,调整维度字段的顺序,并修改2个日期维度的信息,如表所示。
序号 | 字段名称 | 字段英文名称 | 数据类型 | 主键 | 分区 | 不为空 | 关联数据标准 | 关联维度 | 角色 | 描述 |
---|---|---|---|---|---|---|---|---|---|---|
1 | 费率id | rate_code_id | BIGINT | 不勾选 | 不勾选 | 不勾选 | - | 费率代码 | dim_ | - |
2 | 供应商id | vendor_id | BIGINT | 不勾选 | 不勾选 | 不勾选 | - | 供应商 | dim_ | - |
3 | 付款方式编码 | payment_type_id | BIGINT | 不勾选 | 不勾选 | 不勾选 | - | 付款方式 | dim_ | - |
4 | 上车时间 | dim_pickup_date_key | TIMESTAMP | 不勾选 | 不勾选 | 不勾选 | - | 日期维度 | dim_pickup | 日期层维表 |
5 | 下车时间 | dim_dropoff_date_key | TIMESTAMP | 不勾选 | 不勾选 | 不勾选 | - | 日期维度 | dim_dropoff | 日期层维表 |
在“字段配置”区域,选择“新建 > 度量”,依次新建如表所示的字段。
序号 | 字段名称 | 字段英文名称 | 数据类型 | 主键 | 分区 | 不为空 | 关联数据标准 |
---|---|---|---|---|---|---|---|
6 | 上车地点 | pu_location_id | 字符类型(STRING) | 不勾选 | 不勾选 | 不勾选 | - |
7 | 下车地点 | do_location_id | 字符类型(STRING) | 不勾选 | 不勾选 | 不勾选 | - |
8 | 车费 | fare_amount | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
9 | 加收 | extra | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
10 | MTA税 | mta_tax | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
11 | 手续费 | tip_amount | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
12 | 通行费 | tolls_amount | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
13 | 改善附加费 | improvement_surcharge | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
14 | 总车费 | total_amount | 高精度(DECIMAL) (10,2) | 不勾选 | 不勾选 | 不勾选 | - |
- 新建事实表页面配置完成后,单击“发布”提交审核。
- 在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 返回“维度建模 > 事实表”页面,在列表中找到刚发布的事实表,在“同步状态”一列中可以查看事实表的同步状态。
- 如果同步状态均显示成功,则说明事实表发布成功,事实表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该事实表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在事实表页面勾选该事实表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。
指标设计:新建并发布技术指标
在本示例中,您需要新建如表所示的技术指标:
*指标名称 | *指标英文名称 | 数据表 | *所属主题 | *设定表达式 | 描述 |
---|---|---|---|---|---|
总车费 | sum_total_amount | 行程订单 | 行程事实 | sum (总车费) | 无 |
指标 | *数据表 | *所属主题 | *原子指标 | 统计维度 | 时间限定 | 通用限定 |
---|---|---|---|---|---|---|
基于付款方式维度统计总车费 | 行程订单 | 记录统计 | 总车费 | 付款方式 | 无 | 无 |
基于费率代码维度统计总车费 | 行程订单 | 记录统计 | 总车费 | 费率代码 | 无 | 无 |
基于供应商和下车时间维度统计总车费 | 行程订单 | 记录统计 | 总车费 | 供应商,行程订单.下车时间 | 无 | 无 |
- 在数据架构控制台,单击左侧导航树中的“技术指标”,进入技术指标页面。
- 新建一个原子指标“总车费”,用于统计总车费。
a.在技术指标页面,进入“原子指标”标签页,然后单击“新建”按钮。
b.在新建原子指标页面配置如下,配置完成后单击“发布”。
c.等待审核人审核通过。审核通过后,原子指标就创建好了。
- 当原子指标通过审核后,新建以下3个衍生指标。
- 总车费(付款方式):基于付款方式维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
- 总车费(费率代码):基于费率代码维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
- 截止当日_总车费(供应商,行程订单.下车时间):基于供应商维度统计总车费
在技术指标页面,进入“衍生指标”标签页,然后单击“新建”按钮,在新建衍生指标页面,配置如下。配置完成后,单击“试运行”,并在弹出窗口中单击“执行”,如果运行通过单击“保存”。
- 返回技术指标页面的“衍生指标”标签页后,勾选建好的3个衍生指标,单击“发布”,在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,事实表发布成功。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
维度建模:在DM层新建并发布汇总表
在DM数据集市层,您需要新建如表所示的汇总表。
*所属主题 | *表名称 | *表英文名称 | 统计维度 | 数据连接类型 | *数据连接 | *数据库 | 资产责任人 | 描述 |
---|---|---|---|---|---|---|---|---|
记录统计 | 付款方式统计汇总 | dws_payment_type | 付款方式 | MRS_HIVE | mrs_hive_link | demo_dm_db | - | 无 |
记录统计 | 费率统计汇总 | dws_rate_code | 费率代码 | MRS_HIVE | mrs_hive_link | demo_dm_db | - | 无 |
记录统计 | 供应商统计汇总 | dws_vendor | 供应商,行程订单.下车时间 | MRS_HIVE | mrs_hive_link | demo_dm_db | - | 无 |
- 在数据架构控制台,单击左侧导航树中的“维度建模”,进入维度建模页面。
- 单击“汇总表”页签,进入汇总表页面。
- 新建3个汇总表:付款方式统计汇总表、费率统计汇总表、供应商统计汇总表。
a.在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建付款方式统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
在新建汇总表页面,基本配置如下:
在“时间分区”区域,输入字段编码以及选择数据类型。当表发布成功后,在往表里写数据时,将根据该时间分区字段进行分区。
在“指标配置”区域,单击“添加”,添加衍生指标“总车费(付款方式)”。此处只能添加与所指定的“统计维度”相关联的并且已发布的衍生指标或复合指标。
完成上述配置后,单击“保存”。
b.在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建费率统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
c.在“汇总表”页面,在主题树中选中“城市交通 > 行程记录 > 记录统计”,然后单击“新建”新建供应商统计汇总表。在新建汇总表页面,配置如下,配置完成后单击“保存”。
- 返回维度建模页面的“汇总表”标签页后,勾选建好的3个汇总表,单击“发布”。
- 在弹出框中选择审核人,单击“确认提交”,等待审核人员审核通过后,汇总表会自动创建。如果当前帐号具备审核人权限,也可以勾选“自助审批”,直接提交即可以审核通过。
- 返回“维度建模 > 汇总表”页面,在列表中找到刚发布的汇总表,在“同步状态”一列中可以查看汇总表的同步状态。
- 如果同步状态均显示成功,则说明汇总表发布成功,汇总表在数据库中已创建成功。
- 如果同步状态中存在失败,可单击该汇总表所在行的“更多 > 发布历史”,然后在展开的页面中进入“发布日志”页签查看日志。请根据错误日志定位失败原因,问题解决后,您可以在汇总表页面勾选该汇总表,再单击列表上方的“更多 > 同步”尝试重新同步。如果问题仍未能解决,请联系技术支持人员协助处理。