一、行业背景
随着互联网的快速发展,大数据技术已经成为推动企业创新和竞争力的核心因素。然而,大数据的处理和分析需要使用多个复杂的组件和工具,如Hadoop、Spark、Hive等。这些组件的部署、配置和管理通常需要大量的时间和精力,并且容易出现配置错误和操作失误,给企业带来了不少的困扰。为了解决这些问题,天翼云自研开发了大数据运维管理平台翼MR Manager。
二、翼MR Manager产品简介
翼MR Manager由天翼云自主研发,主要为运维工程师提供日常的大数据组件运维管理操作能力。通过可视化、流程化的方式对系统中的各个系统资源和数据资产进行管理,并支持自动化的运维调度,统一的配置文件管理、统一运维监控,支持组件集群服务管理、多租户管理、资源管理等功能。在提高运维人员工作的效率同时,并为大数据运维工作者,提供专业全面的大数据运维能力,大大降低大数据平台运维门槛。
图 翼MR Manager架构
如图所示,翼MR Manager整体架构由上往下及有左往右的功能依次为:平台基础服务和核心运维服务。其中,平台基础服务包括统一网关、安全审计、身份与权限管理;核心运维服务包括集群服务管理、租户与资源管理、配置中心、监控与告警、运维自动化和日志管理功能。
三、翼MR Manager术语介绍
环境
- 环境是一个逻辑实体,包括一组主机,以及运行在这些主机上的角色实例构建的集群。一个主机只属于一个环境,一个环境下有多台主机。一个集群只属于一个环境,一个环境下有多个集群
- 一个环境下只有一套用户身份认证体系,也就是说一个环境下只有一个OpenLDAP集群保存集群用户,只有一个Kerbeos集群用于用户身份认证
- 环境与环境之间逻辑上是隔离的,不共用一套用户认证体系,不同环境下的集群如果要相互访问,就需要开通互信
- 通常我们说的某个Hadoop大数据集群或EMR集群,在翼MRManager平台中,对应的是一个环境
集群服务
- 同一个组件的多个角色实例组成的服务,比如HDFS集群属于HDFS组件,Zookeeper集群属于Zookeeper组件
- 集群服务之间存在依赖,如果要提供完整正常的服务,集群服务及其依赖的集群服务都要正常运行
- 集群服务,也称为组件实例或服务
主机
- 用于运行角色实例的物理主机或虚拟主机,一个主机只属于一个环境
- 主机也可以称为节点(Node)
组件类型
- HDFS, YARN, Spark, Flink 等 都是组件类型
组件角色
- 一个组件下,包含多个角色,比如HDFS组件包含NameNode, DataNode, HDFSClient, ZKFC, JournalNode等,它们在组件中起到不同的作用,就像扮演着不同的角色,相互通信协调,提供分布式文件存储能力
实例分组
- 相同角色的实例组合成实例分组,通常实例分组对应一个角色,名称一般和角色的名称一样
角色实例
- 一个角色实例,指的是组件角色运行在一台主机上的一个具体实例
- 一台主机上可能有多个不同组件角色的实例,例如:主机host1上可以有角色实例NameNode-host1, DataNode-host1
- 一种组件角色在一台主机上只会有一个角色实例,也就是说主机 + 组件角色可以唯一标识一个角色实例
- 除客户端外,角色实例通常会映射为一个Unix进程,有时候也可能是对应多个Unix进程,比如Krb5kdc在host1上并发度设置为24,那么就会有24个Krb5c进程,这些Krb5kdc进程,都对应Krb5kdc-host1这一个角色实例
四、翼MR Manager核心优势
优开源
基于Hadoop 3.3等开源最新组件,保证版本性能的同时,优化了底层资源占用,对任务和引擎进行定制化管控
松耦合
灵活适应大数据底座平台的变化,降低风险,保障运维平台文稳定性
高安全
结合Kerberos和Ranger企业级的大数据标准安全验证体系,支持细粒度的权限管控
轻运维
通过运维流水线编排技术,可完全自定义专属的自动化运维操作
全监控
实现多层次、全视角的监控覆盖,实时掌握主机、实例、集群健康状态
五、翼MR Manager功能简介
1、集群服务管理
- 提供环境、集群、主机维度的日常运维管理
- 支持多种类型大数据组件的引导式部署和集群服务录入
- 丰富的运维操作:环境下集群服务的一键启停、单集群的启停重启、角色实例的启停重启以及扩容等操作
2、租户与资源
- 租户与资源管理,贴合企业多租户场景,并以环境为维度对LDAP用户、Kerberos安全凭证、HDFS目录浏览器、YARN队列、HBase数据库进行管理
- 对不同环境之间的租户与资源进行了安全隔离
3、运维自动化
- 基于流水线的编排技术,灵活组合Playbook实现对各集群、主机、组件、实例等自动化运维管理
- 在运维流水线的基础上提供Restful调用接口,方便其他服务调用
4、监控告警
- 通过流水线进行监控部署与配置、检测集群健康状态
- 通过集群服务管理获取主机和集群信息
- 通过监控服务端、告警服务端、监控可视化系统进行监控采集、告警推送、大屏展示
- 通过用户中心,第一时间调用消息通知中心进行告警消息下发
5、配置中心
- 在集群部署时,通过配置模板生成初始化属性,并推送配置文件到主机
- 部署完成后,支持对各集群服务的配置文件进行修改、同步、回滚等操作
6、日志管理
- 采用高效的日志采集方式,通过一系列日志采集、解析、存储等流程,为运维人员提供多维度可视化日志查询,辅助运维人员快速定位问题
六、结语
翼MR Manager大数据运维管理平台致力成为现代化大数据运维重要工具,帮助企业实现了大数据环境的集中化管理和自动化运维。通过提升效率、简化操作和降低成本,为企业高效、可靠地处理大数据提供了强有力的支持,并帮助企业更好地应对日益复杂的数据挑战。