1、什么是DataOps?
DataOps借鉴了软件开发领域DevOps的理念(Dev指的是Development(开发),Ops指的是Operations(运维),突出重视软件开发人员和运维人员的沟通合作,通过自动化流程来使得软件的构建、测试、发布更加快捷、频繁和可靠。)
DataOps在2014年国外首次提出,2018年正式被纳入Gartner的数据管理技术成熟度曲线中,在2022年关注度达到顶峰,预计2024-2027年DataOps将得到广泛的实践应用。
Gartner:DataOps(Data Operations)是一种协作性的数据管理实践,专注于改善整个组织的数据管理者和消费者之间的沟通、整合和数据流的自动化。
2、DataOps出现的背景
外部:
1)爆炸性增长的数据量
2)多样的数据来源(结构化、半结构化、非结构化)
3)业务需求的迅速变化(数据科学、数据分析、数字化转型的崛起,云计算和大数据技术的普及)
4)DevOps方法论的成功(代码管理、构建、CICD、容器化等)
内部:
1)数据项目链路长、协作效率低(跨团队,跨系统,跨数据分层)
2)开发、协作流程不规范,没有系统的代码管理、环境管理、测试发布等机制
3)数据任务变更容易导致生产环境出现问题或者事故
4)数据交付质量低
3、DataOps与数据治理的关系
类型 |
DataOps |
数据治理 |
定义 |
强调通过自动化和协作来加速数据开发、测试和部署的过程 |
确保数据质量、安全性和合规性自动化和流程 |
自动化和流程 |
通过工具和流程来优化数据管道的构建和维护 |
通过自动化来实现数据质量检查、元数据管理等方面的目标 |
数据质量 |
通过自动化测试、监控和持续集成等方法,也可以提高数据质量,并确保在流程中迅速发现和修复问题 |
数据治理关注数据的质量,包括确保数据的准确性、一致性和可信度 |
4、DataOps实践
4.1 数据需求管理
1)构建数据需求全生命周期的管理能力
2)支持流程的设计和共享
4.2 数据研发治理一体化
1)遵循“先设计、后开发、先标准、后建模”的研发设计原则
2)构建设计管理、开发管理、应用管理能力
3)达到规范即设计、设计即开发、开发即治理的效果
4.3 数据自动化交付部署
1)构建环境管理、版本管理、测试管理、发布管理一系列自动化交付能力
2)支持持续集成、自动化测试、数据开发流水线
3)上线代码、数据统一管理
4.4 数据运维一体化
以全面立体的持续监控,发现、处理数据问题为目标,构建全链路可观测能力。