searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

天翼云大数据平台 翼MR Manager介绍

2023-07-28 02:13:44
121
0

一、行业背景

随着互联网的快速发展,大数据技术已经成为推动企业创新和竞争力的核心因素。然而,大数据的处理和分析需要使用多个复杂的组件和工具,如Hadoop、Spark、Hive等。这些组件的部署、配置和管理通常需要大量的时间和精力,并且容易出现配置错误和操作失误,给企业带来了不少的困扰。为了解决这些问题,天翼云自研开发了大数据运维管理平台翼MR Manager。

二、翼MR Manager产品简介

翼MR Manager由天翼云自主研发,主要为运维工程师提供日常的大数据组件运维管理操作能力。通过可视化、流程化的方式对系统中的各个系统资源和数据资产进行管理,并支持自动化的运维调度,统一的配置文件管理、统一运维监控,支持组件集群服务管理、多租户管理、资源管理等功能。在提高运维人员工作的效率同时,并为大数据运维工作者,提供专业全面的大数据运维能力,大大降低大数据平台运维门槛。

图 翼MR Manager架构

如图所示,翼MR Manager整体架构由上往下及有左往右的功能依次为:平台基础服务和核心运维服务。其中,平台基础服务包括统一网关、安全审计、身份与权限管理;核心运维服务包括集群服务管理、租户与资源管理、配置中心、监控与告警、运维自动化和日志管理功能。

三、翼MR Manager术语介绍

环境

  • 环境是一个逻辑实体,包括一组主机,以及运行在这些主机上的角色实例构建的集群。一个主机只属于一个环境,一个环境下有多台主机。一个集群只属于一个环境,一个环境下有多个集群
  • 一个环境下只有一套用户身份认证体系,也就是说一个环境下只有一个OpenLDAP集群保存集群用户,只有一个Kerbeos集群用于用户身份认证
  • 环境与环境之间逻辑上是隔离的,不共用一套用户认证体系,不同环境下的集群如果要相互访问,就需要开通互信
  • 通常我们说的某个Hadoop大数据集群或EMR集群,在翼MRManager平台中,对应的是一个环境

集群服务

  • 同一个组件的多个角色实例组成的服务,比如HDFS集群属于HDFS组件,Zookeeper集群属于Zookeeper组件
  • 集群服务之间存在依赖,如果要提供完整正常的服务,集群服务及其依赖的集群服务都要正常运行
  • 集群服务,也称为组件实例或服务

主机

  • 用于运行角色实例的物理主机或虚拟主机,一个主机只属于一个环境
  • 主机也可以称为节点(Node)

组件类型

  • HDFS, YARN, Spark, Flink 等 都是组件类型

组件角色

  • 一个组件下,包含多个角色,比如HDFS组件包含NameNode, DataNode, HDFSClient, ZKFC, JournalNode等,它们在组件中起到不同的作用,就像扮演着不同的角色,相互通信协调,提供分布式文件存储能力

实例分组

  • 相同角色的实例组合成实例分组,通常实例分组对应一个角色,名称一般和角色的名称一样

角色实例

  • 一个角色实例,指的是组件角色运行在一台主机上的一个具体实例
  • 一台主机上可能有多个不同组件角色的实例,例如:主机host1上可以有角色实例NameNode-host1, DataNode-host1
  • 一种组件角色在一台主机上只会有一个角色实例,也就是说主机 + 组件角色可以唯一标识一个角色实例
  • 除客户端外,角色实例通常会映射为一个Unix进程,有时候也可能是对应多个Unix进程,比如Krb5kdc在host1上并发度设置为24,那么就会有24个Krb5c进程,这些Krb5kdc进程,都对应Krb5kdc-host1这一个角色实例

四、翼MR Manager核心优势

优开源

基于Hadoop 3.3等开源最新组件,保证版本性能的同时,优化了底层资源占用,对任务和引擎进行定制化管控

松耦合

灵活适应大数据底座平台的变化,降低风险,保障运维平台文稳定性

高安全

结合Kerberos和Ranger企业级的大数据标准安全验证体系,支持细粒度的权限管控

轻运维

通过运维流水线编排技术,可完全自定义专属的自动化运维操作

全监控

实现多层次、全视角的监控覆盖,实时掌握主机、实例、集群健康状态

五、翼MR Manager功能简介

1、集群服务管理

  • 提供环境、集群、主机维度的日常运维管理
  • 支持多种类型大数据组件的引导式部署和集群服务录入
  • 丰富的运维操作:环境下集群服务的一键启停、单集群的启停重启、角色实例的启停重启以及扩容等操作

2、租户与资源

  • 租户与资源管理,贴合企业多租户场景,并以环境为维度对LDAP用户、Kerberos安全凭证、HDFS目录浏览器、YARN队列、HBase数据库进行管理
  • 对不同环境之间的租户与资源进行了安全隔离

3、运维自动化

  • 基于流水线的编排技术,灵活组合Playbook实现对各集群、主机、组件、实例等自动化运维管理
  • 在运维流水线的基础上提供Restful调用接口,方便其他服务调用

4、监控告警

  • 通过流水线进行监控部署与配置、检测集群健康状态
  • 通过集群服务管理获取主机和集群信息
  • 通过监控服务端、告警服务端、监控可视化系统进行监控采集、告警推送、大屏展示
  • 通过用户中心,第一时间调用消息通知中心进行告警消息下发

5、配置中心

  • 在集群部署时,通过配置模板生成初始化属性,并推送配置文件到主机
  • 部署完成后,支持对各集群服务的配置文件进行修改、同步、回滚等操作

6、日志管理

  • 采用高效的日志采集方式,通过一系列日志采集、解析、存储等流程,为运维人员提供多维度可视化日志查询,辅助运维人员快速定位问题

六、结语

翼MR Manager大数据运维管理平台致力成为现代化大数据运维重要工具,帮助企业实现了大数据环境的集中化管理和自动化运维。通过提升效率、简化操作和降低成本,为企业高效、可靠地处理大数据提供了强有力的支持,并帮助企业更好地应对日益复杂的数据挑战。

0条评论
作者已关闭评论
尚红磊
2文章数
0粉丝数
尚红磊
2 文章 | 0 粉丝
尚红磊
2文章数
0粉丝数
尚红磊
2 文章 | 0 粉丝
原创

天翼云大数据平台 翼MR Manager介绍

2023-07-28 02:13:44
121
0

一、行业背景

随着互联网的快速发展,大数据技术已经成为推动企业创新和竞争力的核心因素。然而,大数据的处理和分析需要使用多个复杂的组件和工具,如Hadoop、Spark、Hive等。这些组件的部署、配置和管理通常需要大量的时间和精力,并且容易出现配置错误和操作失误,给企业带来了不少的困扰。为了解决这些问题,天翼云自研开发了大数据运维管理平台翼MR Manager。

二、翼MR Manager产品简介

翼MR Manager由天翼云自主研发,主要为运维工程师提供日常的大数据组件运维管理操作能力。通过可视化、流程化的方式对系统中的各个系统资源和数据资产进行管理,并支持自动化的运维调度,统一的配置文件管理、统一运维监控,支持组件集群服务管理、多租户管理、资源管理等功能。在提高运维人员工作的效率同时,并为大数据运维工作者,提供专业全面的大数据运维能力,大大降低大数据平台运维门槛。

图 翼MR Manager架构

如图所示,翼MR Manager整体架构由上往下及有左往右的功能依次为:平台基础服务和核心运维服务。其中,平台基础服务包括统一网关、安全审计、身份与权限管理;核心运维服务包括集群服务管理、租户与资源管理、配置中心、监控与告警、运维自动化和日志管理功能。

三、翼MR Manager术语介绍

环境

  • 环境是一个逻辑实体,包括一组主机,以及运行在这些主机上的角色实例构建的集群。一个主机只属于一个环境,一个环境下有多台主机。一个集群只属于一个环境,一个环境下有多个集群
  • 一个环境下只有一套用户身份认证体系,也就是说一个环境下只有一个OpenLDAP集群保存集群用户,只有一个Kerbeos集群用于用户身份认证
  • 环境与环境之间逻辑上是隔离的,不共用一套用户认证体系,不同环境下的集群如果要相互访问,就需要开通互信
  • 通常我们说的某个Hadoop大数据集群或EMR集群,在翼MRManager平台中,对应的是一个环境

集群服务

  • 同一个组件的多个角色实例组成的服务,比如HDFS集群属于HDFS组件,Zookeeper集群属于Zookeeper组件
  • 集群服务之间存在依赖,如果要提供完整正常的服务,集群服务及其依赖的集群服务都要正常运行
  • 集群服务,也称为组件实例或服务

主机

  • 用于运行角色实例的物理主机或虚拟主机,一个主机只属于一个环境
  • 主机也可以称为节点(Node)

组件类型

  • HDFS, YARN, Spark, Flink 等 都是组件类型

组件角色

  • 一个组件下,包含多个角色,比如HDFS组件包含NameNode, DataNode, HDFSClient, ZKFC, JournalNode等,它们在组件中起到不同的作用,就像扮演着不同的角色,相互通信协调,提供分布式文件存储能力

实例分组

  • 相同角色的实例组合成实例分组,通常实例分组对应一个角色,名称一般和角色的名称一样

角色实例

  • 一个角色实例,指的是组件角色运行在一台主机上的一个具体实例
  • 一台主机上可能有多个不同组件角色的实例,例如:主机host1上可以有角色实例NameNode-host1, DataNode-host1
  • 一种组件角色在一台主机上只会有一个角色实例,也就是说主机 + 组件角色可以唯一标识一个角色实例
  • 除客户端外,角色实例通常会映射为一个Unix进程,有时候也可能是对应多个Unix进程,比如Krb5kdc在host1上并发度设置为24,那么就会有24个Krb5c进程,这些Krb5kdc进程,都对应Krb5kdc-host1这一个角色实例

四、翼MR Manager核心优势

优开源

基于Hadoop 3.3等开源最新组件,保证版本性能的同时,优化了底层资源占用,对任务和引擎进行定制化管控

松耦合

灵活适应大数据底座平台的变化,降低风险,保障运维平台文稳定性

高安全

结合Kerberos和Ranger企业级的大数据标准安全验证体系,支持细粒度的权限管控

轻运维

通过运维流水线编排技术,可完全自定义专属的自动化运维操作

全监控

实现多层次、全视角的监控覆盖,实时掌握主机、实例、集群健康状态

五、翼MR Manager功能简介

1、集群服务管理

  • 提供环境、集群、主机维度的日常运维管理
  • 支持多种类型大数据组件的引导式部署和集群服务录入
  • 丰富的运维操作:环境下集群服务的一键启停、单集群的启停重启、角色实例的启停重启以及扩容等操作

2、租户与资源

  • 租户与资源管理,贴合企业多租户场景,并以环境为维度对LDAP用户、Kerberos安全凭证、HDFS目录浏览器、YARN队列、HBase数据库进行管理
  • 对不同环境之间的租户与资源进行了安全隔离

3、运维自动化

  • 基于流水线的编排技术,灵活组合Playbook实现对各集群、主机、组件、实例等自动化运维管理
  • 在运维流水线的基础上提供Restful调用接口,方便其他服务调用

4、监控告警

  • 通过流水线进行监控部署与配置、检测集群健康状态
  • 通过集群服务管理获取主机和集群信息
  • 通过监控服务端、告警服务端、监控可视化系统进行监控采集、告警推送、大屏展示
  • 通过用户中心,第一时间调用消息通知中心进行告警消息下发

5、配置中心

  • 在集群部署时,通过配置模板生成初始化属性,并推送配置文件到主机
  • 部署完成后,支持对各集群服务的配置文件进行修改、同步、回滚等操作

6、日志管理

  • 采用高效的日志采集方式,通过一系列日志采集、解析、存储等流程,为运维人员提供多维度可视化日志查询,辅助运维人员快速定位问题

六、结语

翼MR Manager大数据运维管理平台致力成为现代化大数据运维重要工具,帮助企业实现了大数据环境的集中化管理和自动化运维。通过提升效率、简化操作和降低成本,为企业高效、可靠地处理大数据提供了强有力的支持,并帮助企业更好地应对日益复杂的数据挑战。

文章来自个人专栏
翼MR Manager
2 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
1
1