searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

企业和政府面临的数据问题及数据治理解决方案

2023-09-01 08:18:12
7
0

2022年10月16日,第二十次全国代表大会上的报告中提出:加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数据是数字经济发展的关键要素,加快推进数据治理工作是保障数字经济高质量发展的重要前提。

我国经过 30多年的信息化建设,企业和政府部门都围绕着业务需求建设了众多的业务系统,从而导致数据的种类和数量大增,看似积累了众多的数据资产,实则在需要使用时,困难重重。

因为各个业务系统的建设都是围绕着业务需求来建设的,当业务环境发生变化时,原来的业务系统不能互联互通,不能满足跨部门、跨职能、跨组织的协作需求。

各个业务系统所产生的海量数据以复杂而分散的形式存储,导致数据之间的不一致和冲突等质量问题,从而导致数据在应用过程中的无所适从,难以实现数据的深度利用,从而难以实现业务模式创新和经营风险控制。

因此,企业需要通过系统性的数据治理工作,保证数据的可用性、一致性、完整性、合规性和安全性。确保在整个数据生命周期中,都具有较高的数据质量,将数据价值最大化。

企业和政府部门在使用数据过程中,往往面临着以下几类问题和痛点,而数据治理,就是从问题出发,通过平台工具、数据标准、数仓建模、数据开发、API开发等工具和方法,解决一系列数据问题,实现数据的高可用和高价值。

1 数据孤岛问题严重

(1)问题现状

随着企业和政府部门的不断发展扩大,各业务模块的信息化建设工作也在不断完善。但由于信息化建设的不平衡,造成了“数据孤岛”现象的产生。

单位内部不同的部门都有各自的数据,部门之间的数据往往都各自存储,各自定义,形成不同的子系统。而子系统之间并未建立有效的数据交换服务,各业务系统数据描述标准不一,造成严重的数据不一致。各个子系统内所存储占有的数据,就像一个个孤岛,难以和其他数据进行连接互动,彼此无法兼容,大大制约了企业和政府部门业务和管理工作的顺畅开展。

(2)数据治理解决方案

为了解决数据孤岛问题,需要进行数据集成。通过数据中台工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

业务大数据来源多样、要素关系分散,使得业务大数据呈现出跨时间、跨地域、跨模态、跨领域等特征,且碎片化、分散化。不同场景下的数据集可能是结构化的、半结构化的,非结构化的。不同结构的数据需要整合成统一的结构才能够进行统计和分析。因此数据采集需要对分散在各部门、各系统、各层级等各类型的主题数据进行全方位汇聚。

数据集成是指按照统一的标准规范对多源数据分别采集汇集到统一的大数据平台的过程。主要可分为数据接入、数据预处理、数据加载等环节。

2 缺乏统一的数据标准

(1)问题现状

多数企业和政府部门在数据采集、数据资产编目和数据共享、应用开发等领域,缺少统一的数据标准等。没有指导单位内各部门的业务形成一体化的信息化建设、应用、管理的格局。业务系统各自独立、烟囱林立的分散状态,系统对接、数据共享困难。无法将业界最新的技术优势持续转换为业务优势和管理优势,形成全局效应最大化。

(2)数据治理解决方案

设计一套符合单位业务特色的数据标准,保障业务数据的内外部使用与交换的一致性和准确性的规范性约束,包含数据集的术语、结构、组织,数据存储,使用目的等。数据标准就是对数据的命名、数据类型、长度、业务含义、计算口径、归属部门等,定义一套统一的规范,保证各业务系统对数据的统一理解、对数据定义和使用的一致性,提升数据质量,为后续业务发展、系统建设提供保障。

3数据融合共享困难

(1)问题现状

基于单独业务场景建设数据,相互之间数据不互通,导致不论是中间数据还是结果数据,可能只能被单个业务场景使用。其他业务场景有哪些数据,数据是否适用无法确认。数据无法有效融合共享,具体体现为:

解决问题范围有限:因为数据不互通,对一个系统或业务的理解有限,无法最大化应用数据的价值。

效率不足:烟囱数据每次都穿透使用贴源数据,没有公共数据沉淀,无法高效复用。每次都要重复开发,费时费力。

成本不可控:由于大量重复建设,在计算和存储方面都有大量浪费,例如海量的监控数据,不知道存储周期设定多久合适,按照存越久越好,造成价值发挥有限,却花费大量实际成本。

(2)数据治理解决方案

通过设计、开发一套符合企业或政府部门业务特点的大数据仓库,来解决数据融合共享困难的问题。数据仓库建设的主要目标是有效地管理数据,有效地管理存储和使用数据,确保数据一致,数据共享。便于业务管理及分析挖掘数据潜在价值。支撑当前及未来管理及分析应用。

4数据质量不高

(1)问题现状

随着企业和政府部门业务和规模的发展,数据类型、数据来源越来越丰富,数据量也随之快速增长,各单位在数据管理工作和数据流程中面临着越来越多的数据质量问题。数据问题产生于从数据输入到数据存储、管理、使用的各个环节。

数据质量问题可以总结为以下几点:

数据不规范:因不同的业务系统是在不同的时期,基于不同的业务需求,由不同的厂商设计开发的,甚至很多业务没有系统支持,大量数据通过手工填报、收集产生的,造成数据没有按统一格式存储。数据的内容、格式和展现形式,各不相同。

数据准确性不足:数据和信息的内容是否正确,有没有无效数据、错误数据或超期数据等,没有统一的校验和保证。

数据唯一性无法保证:数据是否存在重复,或者数据的某些属性是否重复无法识别和保证。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

数据完整性不足:存在数据缺失、丢失,或者不可用的情况。比如模型设计不完整、数据条目不完整、数据属性不完整等情况。

数据一致性不足:数据的值在信息含义上存在冲突的情况。

(2)数据治理解决方案

通过建立质量保障体系,来解决、规避数据质量不高的问题,包括设计质量保障策略、建立质量稽核规则等。

质量保障策略

质量保障策略主要包括以下4部分内容:

1.数据完整性保障策略

2.数据准确性保障策略

3.数据一致性保障策略

4.数据及时性保障策略

质量稽核规则

要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。

首先需要梳理和分析数据质量问题,摸清楚数据质量的现状;然后针对不同的质量问题选择适合的解决办法,制定出详细的解决方案;接着是问题的认责,追踪方案执行的效果,监督检查,持续优化;最后形成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,形成数据质量管理的闭环。

5数据难以利用

(1)问题现状

企业和政府部门当前的业务系统是根据各个业务场景的需求,独立构建非常多的数据接口与应用产品对接,来满足各自的业务数据使用需求,造成大量接口的重复建设,修改、运维、监控的成本大。这种做法的问题具体体现在:

1) 数据分布碎片化,互通共享不足:各部门数据建设均聚焦于本部门业务,数据采集、数据管理、数据构成以及数据的应用模式具有典型的领域特征和私有化特征,数据相对封闭,跨部门、跨领域数据的互联互通性差,数据整体呈碎片化分布。

2) 缺乏深度加工,数据利用不足:多数的数据服务于行政业务、日常统计等基础应用,缺乏数据深度应用,难于为上层综合应用提供有效支撑,无法满足精准化管理的需求。

 

(2)数据治理解决方案

数据服务是支撑数据应用的重要支撑。学校数据资产只要形成数据服务被各业务部门、业务系统使用,才能体现价值。因此,需要构建可管理、可复用、可监控的统一标准下的数据服务体系,提供统一的 API 接口控制数据的流入及流出,通过数据服务体系快速对接业务系统或应用系统,提升效率。

6数据指标统计困难

(1)问题现状

受限于数据孤岛问题和数据质量问题,各部门日常工作中涉及到的业务指标存在着较多手工统计计算的情况,统计效率低,口径一致性难以保证,指标数据很验证共享和应用,发挥其业务价值。

因无法获取指标数据或指标统计困难,直接影响到业务成果展示、业务分析和业务改进等工作的开展。

(2)数据治理解决方案

基于大数据仓库的建设和完善,建立多级指标管理体系,为各部门提供统一的指标服务,实现指标口径统一、查询便捷、快速支撑业务分析和决策的目标,解决现实工作中数据获取困难、统计混乱、口径不一致、责任不清晰等问题。

0条评论
作者已关闭评论
刘****鑫
5文章数
0粉丝数
刘****鑫
5 文章 | 0 粉丝
原创

企业和政府面临的数据问题及数据治理解决方案

2023-09-01 08:18:12
7
0

2022年10月16日,第二十次全国代表大会上的报告中提出:加快发展数字经济,促进数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群。数据是数字经济发展的关键要素,加快推进数据治理工作是保障数字经济高质量发展的重要前提。

我国经过 30多年的信息化建设,企业和政府部门都围绕着业务需求建设了众多的业务系统,从而导致数据的种类和数量大增,看似积累了众多的数据资产,实则在需要使用时,困难重重。

因为各个业务系统的建设都是围绕着业务需求来建设的,当业务环境发生变化时,原来的业务系统不能互联互通,不能满足跨部门、跨职能、跨组织的协作需求。

各个业务系统所产生的海量数据以复杂而分散的形式存储,导致数据之间的不一致和冲突等质量问题,从而导致数据在应用过程中的无所适从,难以实现数据的深度利用,从而难以实现业务模式创新和经营风险控制。

因此,企业需要通过系统性的数据治理工作,保证数据的可用性、一致性、完整性、合规性和安全性。确保在整个数据生命周期中,都具有较高的数据质量,将数据价值最大化。

企业和政府部门在使用数据过程中,往往面临着以下几类问题和痛点,而数据治理,就是从问题出发,通过平台工具、数据标准、数仓建模、数据开发、API开发等工具和方法,解决一系列数据问题,实现数据的高可用和高价值。

1 数据孤岛问题严重

(1)问题现状

随着企业和政府部门的不断发展扩大,各业务模块的信息化建设工作也在不断完善。但由于信息化建设的不平衡,造成了“数据孤岛”现象的产生。

单位内部不同的部门都有各自的数据,部门之间的数据往往都各自存储,各自定义,形成不同的子系统。而子系统之间并未建立有效的数据交换服务,各业务系统数据描述标准不一,造成严重的数据不一致。各个子系统内所存储占有的数据,就像一个个孤岛,难以和其他数据进行连接互动,彼此无法兼容,大大制约了企业和政府部门业务和管理工作的顺畅开展。

(2)数据治理解决方案

为了解决数据孤岛问题,需要进行数据集成。通过数据中台工具将数据从来源端经过抽取 (extract)、转换 (transform)、加载 (load) 至目的端的过程,目的是将散落和零乱的数据集中存储起来。

业务大数据来源多样、要素关系分散,使得业务大数据呈现出跨时间、跨地域、跨模态、跨领域等特征,且碎片化、分散化。不同场景下的数据集可能是结构化的、半结构化的,非结构化的。不同结构的数据需要整合成统一的结构才能够进行统计和分析。因此数据采集需要对分散在各部门、各系统、各层级等各类型的主题数据进行全方位汇聚。

数据集成是指按照统一的标准规范对多源数据分别采集汇集到统一的大数据平台的过程。主要可分为数据接入、数据预处理、数据加载等环节。

2 缺乏统一的数据标准

(1)问题现状

多数企业和政府部门在数据采集、数据资产编目和数据共享、应用开发等领域,缺少统一的数据标准等。没有指导单位内各部门的业务形成一体化的信息化建设、应用、管理的格局。业务系统各自独立、烟囱林立的分散状态,系统对接、数据共享困难。无法将业界最新的技术优势持续转换为业务优势和管理优势,形成全局效应最大化。

(2)数据治理解决方案

设计一套符合单位业务特色的数据标准,保障业务数据的内外部使用与交换的一致性和准确性的规范性约束,包含数据集的术语、结构、组织,数据存储,使用目的等。数据标准就是对数据的命名、数据类型、长度、业务含义、计算口径、归属部门等,定义一套统一的规范,保证各业务系统对数据的统一理解、对数据定义和使用的一致性,提升数据质量,为后续业务发展、系统建设提供保障。

3数据融合共享困难

(1)问题现状

基于单独业务场景建设数据,相互之间数据不互通,导致不论是中间数据还是结果数据,可能只能被单个业务场景使用。其他业务场景有哪些数据,数据是否适用无法确认。数据无法有效融合共享,具体体现为:

解决问题范围有限:因为数据不互通,对一个系统或业务的理解有限,无法最大化应用数据的价值。

效率不足:烟囱数据每次都穿透使用贴源数据,没有公共数据沉淀,无法高效复用。每次都要重复开发,费时费力。

成本不可控:由于大量重复建设,在计算和存储方面都有大量浪费,例如海量的监控数据,不知道存储周期设定多久合适,按照存越久越好,造成价值发挥有限,却花费大量实际成本。

(2)数据治理解决方案

通过设计、开发一套符合企业或政府部门业务特点的大数据仓库,来解决数据融合共享困难的问题。数据仓库建设的主要目标是有效地管理数据,有效地管理存储和使用数据,确保数据一致,数据共享。便于业务管理及分析挖掘数据潜在价值。支撑当前及未来管理及分析应用。

4数据质量不高

(1)问题现状

随着企业和政府部门业务和规模的发展,数据类型、数据来源越来越丰富,数据量也随之快速增长,各单位在数据管理工作和数据流程中面临着越来越多的数据质量问题。数据问题产生于从数据输入到数据存储、管理、使用的各个环节。

数据质量问题可以总结为以下几点:

数据不规范:因不同的业务系统是在不同的时期,基于不同的业务需求,由不同的厂商设计开发的,甚至很多业务没有系统支持,大量数据通过手工填报、收集产生的,造成数据没有按统一格式存储。数据的内容、格式和展现形式,各不相同。

数据准确性不足:数据和信息的内容是否正确,有没有无效数据、错误数据或超期数据等,没有统一的校验和保证。

数据唯一性无法保证:数据是否存在重复,或者数据的某些属性是否重复无法识别和保证。重复数据是导致业务无法协同、流程无法追溯的重要因素,也是数据治理需要解决的最基本的数据问题。

数据完整性不足:存在数据缺失、丢失,或者不可用的情况。比如模型设计不完整、数据条目不完整、数据属性不完整等情况。

数据一致性不足:数据的值在信息含义上存在冲突的情况。

(2)数据治理解决方案

通过建立质量保障体系,来解决、规避数据质量不高的问题,包括设计质量保障策略、建立质量稽核规则等。

质量保障策略

质量保障策略主要包括以下4部分内容:

1.数据完整性保障策略

2.数据准确性保障策略

3.数据一致性保障策略

4.数据及时性保障策略

质量稽核规则

要提升数据质量,需要以问题数据为切入点,注重问题的分析、解决、跟踪、持续优化、知识积累,形成数据质量持续提升的闭环。

首先需要梳理和分析数据质量问题,摸清楚数据质量的现状;然后针对不同的质量问题选择适合的解决办法,制定出详细的解决方案;接着是问题的认责,追踪方案执行的效果,监督检查,持续优化;最后形成数据质量问题解决的知识库,以供后来者参考。上述步骤不断迭代,形成数据质量管理的闭环。

5数据难以利用

(1)问题现状

企业和政府部门当前的业务系统是根据各个业务场景的需求,独立构建非常多的数据接口与应用产品对接,来满足各自的业务数据使用需求,造成大量接口的重复建设,修改、运维、监控的成本大。这种做法的问题具体体现在:

1) 数据分布碎片化,互通共享不足:各部门数据建设均聚焦于本部门业务,数据采集、数据管理、数据构成以及数据的应用模式具有典型的领域特征和私有化特征,数据相对封闭,跨部门、跨领域数据的互联互通性差,数据整体呈碎片化分布。

2) 缺乏深度加工,数据利用不足:多数的数据服务于行政业务、日常统计等基础应用,缺乏数据深度应用,难于为上层综合应用提供有效支撑,无法满足精准化管理的需求。

 

(2)数据治理解决方案

数据服务是支撑数据应用的重要支撑。学校数据资产只要形成数据服务被各业务部门、业务系统使用,才能体现价值。因此,需要构建可管理、可复用、可监控的统一标准下的数据服务体系,提供统一的 API 接口控制数据的流入及流出,通过数据服务体系快速对接业务系统或应用系统,提升效率。

6数据指标统计困难

(1)问题现状

受限于数据孤岛问题和数据质量问题,各部门日常工作中涉及到的业务指标存在着较多手工统计计算的情况,统计效率低,口径一致性难以保证,指标数据很验证共享和应用,发挥其业务价值。

因无法获取指标数据或指标统计困难,直接影响到业务成果展示、业务分析和业务改进等工作的开展。

(2)数据治理解决方案

基于大数据仓库的建设和完善,建立多级指标管理体系,为各部门提供统一的指标服务,实现指标口径统一、查询便捷、快速支撑业务分析和决策的目标,解决现实工作中数据获取困难、统计混乱、口径不一致、责任不清晰等问题。

文章来自个人专栏
数据治理与大数据分析
5 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0