一、行业背景
随着互联网的快速发展,大数据技术已经成为推动企业创新和竞争力的核心因素。然而,大数据的处理和分析需要使用多个复杂的组件和工具,如Hadoop、Spark、Hive等。这些组件的部署、配置和管理通常需要大量的时间和精力,并且容易出现配置错误和操作失误,给企业带来了不少的困扰。为了解决这些问题,天翼云自研开发了大数据运维管理平台翼MR Manager。
二、翼MR Manager产品介绍
翼MR Manager由天翼云自主研发,主要为运维工程师提供日常的大数据组件运维管理操作能力。通过可视化、流程化的方式对系统中的各个系统资源和数据资产进行管理,并支持自动化的运维调度,统一的配置文件管理、统一运维监控,支持组件集群服务管理、多租户管理、资源管理、工具箱等功能。在提高运维人员工作的效率同时,并为大数据运维工作者,提供专业全面的大数据运维能力,大大降低大数据平台运维门槛。
图 翼MR Manager架构
如图所示,翼MR Manager整体架构由上往下及有左往右的功能依次为:平台基础服务和核心运维服务。其中,平台基础服务包括统一网关、安全审计、身份与权限管理;核心运维服务包括集群服务管理、租户与资源管理、配置中心、监控与告警、运维自动化和日志管理功能。
三、翼MR Manager核心优势
优开源
基于Hadoop 3.3等开源最新组件,保证版本性能的同时,优化了底层资源占用,对任务和引擎进行定制化管控
松耦合
灵活适应大数据底座平台的变化,降低风险,保障运维平台文稳定性
高安全
结合Kerberos和Ranger企业级的大数据标准安全验证体系,支持细粒度的权限管控
轻运维
通过运维流水线编排技术,可完全自定义专属的自动化运维操作
全监控
实现多层次、全视角的监控覆盖,实时掌握主机、实例、集群健康状态
四、翼MR Manager功能简介
4.1集群服务管理
提供18+大数据组件的引导式集群部署,以及以环境、集群、主机维度的日常运维管理。
环境大屏
- 基于监控报警系统和可视化大屏,以可视化的形式,实时监控展示环境下各集群、各组件的主要运行指标状态。
环境管理
环境管理展示目前平台所有的环境信息,环境信息以卡片视图列出,每个卡片为一个环境信息,包括名称,域名,主机数,集群数,负责人数等信息。
- 支持修改环境基础信息,设置环境负责人、环境下相关功能的启用禁用;
- 支持查看该环境的运维操作历史;
- 支持X86、arm架构的客户端下载;
- 支持查看该环境下所有主机的资源概览:CPU使用率、磁盘使用率、内存使用率、网络发送速率等。
集群管理
展示当前环境下的所有集群,集群列表按组件类型,列表视图列出,在集群列表处支持新增集群、一键启动所有集群、一键停止所有集群。
- 支持单集群的启动、停止、重启、滚动重启等操作;
- 支持角色实例的添加、卸载、启动、停止、重启、滚动停止、滚动重启、实例置维护等操作;
- 支持设置集群的基础属性、负责人、运维操作、实例分组等;
- 支持集群健康检查、查看健康检查报告并导出、支持周期健康检查设置;
- 支持查看集群的运维历史、告警历史和监控看板等;
- 展示集群WebUI地址并支持跳转。
主机管理
默认展示当前环境下的所有主机列表,可查看当前运维平台的所有主机信息。
- 支持新增主机、主机初始化、主机探测、主机置维护/取消维护等操作;
- 支持查看单个主机的详细信息、主机状态、主机上安装的角色实例;
- 支持查看单个主机的变更记录、告警历史、监控看板;
- 支持指定主机健康检查、查看健康检查报告并导出、支持周期健康检查设置。
4.2租户与资源
租户与资源管理,贴合企业多租户场景,并以环境为维度对LDAP用户、Kerberos安全凭证、HDFS目录浏览器、YARN队列、HBase数据库进行管理,并对不同环境之间的租户与资源进行了安全隔离。
LDAP用户
展示当前环境下的LDAP用户和用户组。
- 支持新增租户、新增租户并分配资源两种新增租户的方式;
- 支持为用户关联用户组、用户组关联用户以及取消关联关系;
- 支持以用户为维度的Principal管理以及Keytab的分发。
Kerberos安全凭证
展示当前环境下的Kerberos安全凭证。
- 支持新建Principal、删除Principal;
- 支持Keytab分发与下载,并支持查看Keytab的分发记录。
HDFS目录浏览器
- 支持查看不同HDFS集群的目录信息;
- 支持创建子目录、删除目录,以及目录授权;
- 支持单目录的数据冗余策略,支持EC、多副本两种方式;
- 支持目录空间配额、文件数配额设置,并支持查看目录配额使用情况。
HDFS存储分析
- 支持查看HDFS的总文件数、总存储量、存储使用分布、文件数分布等。
Hive数据库管理
- 支持查看不同Hive集群的数据库表信息;
- 支持新建数据库、删除数据库、查看数据库详情;
- 支持设置数据库授权和ACL权限配置;
- 支持设置指定数据库、数据表的小文件合并策略设置;
- 支持查看数据表的表信息、表结构、分区键,并支持分区生命周期设置。
YARN队列管理
- 支持调度器配置的导入和删除;
- 支持YARN队列新建、编辑与删除;
- 支持YARN队列启动与停止;
- 支持YARN队列容量设置和YARN队列授权;
- 支持YARN队列capacity-scheduler.xml的全局属性配置;
- 支持YARN队列的同步生效并支持查看同步生效记录。
HBase数据库管理
- 支持查看不同HBase集群的数据库表信息;
- 支持新建数据库、查看数据库信息、编辑数据库和删除数据库;
- 支持数据库用户的管理、数据库存储配额设置;
- 支持数据库下新建表、查看表信息、编辑表信息和删除表;
- 支持数据表存储配额设置、导出表和禁用表;
- 支持表列蔟信息查看、权限设置;
- 支持表分区信息查看和表用户管理;
- 支持对数据表新建快照并支持数据恢复。
HBase快照备份
- 支持指定命名空间、指定表的数据备份;
- 支持延时、周期两种备份策略。
4.3配置中心
配置中心为运维用户提供方便快捷的配置文件管理,支持对集群进行:修改配置、新增配置、配置同步等操作。配置中心包含:配置规则、配置模板、配置管理、配置同步历史、配置历史。在集群部署时,通过配置模板生成初始化属性,并推送配置文件到主机;部署完成后,支持对各集群服务的配置文件进行修改、同步、回滚等操作。
配置管理
- 支持查看不同集群的配置文件;
- 支持对不同集群新增配置组、查看配置组信息、删除配置组;
- 支持新增配置文件、查看配置文件详情、预览和下载配置文件,以及删除配置文件;
- 支持按主机维度的配置同步、查看配置状态,配置回滚等操作。
配置历史
- 支持查看不同配置文件的所有历史版本信息;
- 支持查看配置文件不同版本的配置内容、并支持不同版本之前的内容对比;
- 支持查看配置文件当前版本的同步详情。
配置同步历史
- 支持查看不同环境的配置同步历史、配置同步操作人,以及配置同步详情。
配置规则
- 用于定义配置时的配置项的规则,定义配置项的输入规范。
配置模板
- 根据专业运维人员经验,提供常用大数据组件的配置模板,并支持配置模板的新增、编辑和删除。
4.4监控与告警
监控告警通过监控服务端、告警服务端、监控可视化系统进行监控采集、告警推送、大屏展示等,提供专业全面的大数据组件、集群、角色实例的监控与告警。
指标查询
- 支持查询角色实例级、主机级的监控指标;
- 支持指标结果的绘图操作,让用户更直观获取监控项变化。
指标字典
- 展示主机和大数据组件的监控指标;
- 支持新增、查看、编辑和删除监控指标。
告警规则
- 支持新增、查看、编辑和删除告警规则;
- 支持同步告警规则到监控服务端。
告警历史
- 展示所有历史告警内容;
- 支持按照集群级、角色实例级、主机级查询告警内容。
告警订阅
- 新增、编辑订阅告警信息,并支持微信、邮件、短信三种方式发送告警消息。
4.5运维自动化
基于流水线的编排技术,灵活组合Playbook实现对各集群、主机、组件、实例等自动化运维管理,满足用户实际运维场景下的操作需求。
流水线
- 支持流水线新增、编排、删除操作;
- 支持按需进行流水线运行,并查看流水线运行详情;
- 支持查看当前流水线的运行历史,并支持重新运行。
流水线历史
- 展示所有流水线的运行历史记录,以及操作人。
作业模板
- 支持playbook作业模板的新增、编辑和删除,用户流水线编排使用。
4.6日志管理
采用高效的日志采集方式,通过一系列日志采集、解析、存储等流程,为运维人员提供多维度可视化日志查询,辅助运维人员快速定位问题。
日志查询
- 支持多种方式的日志筛选,助力运维人员快速定位问题。
日志源设置
- 支持日志源的灵活配置,字段列表的展示和排序字段的设置。
4.7身份与权限
对运维管理平台中的用户、用户组、角色以及第三方SSO系统进行管理,并对用户登录认证、用户与用户组的关联角色进行管理,角色管理中可支持操作级(例如:新增、删除、编辑等)的权限策略配。
用户管理
- 支持新增、编辑、删除用户,以及用户的启用、禁用操作;
- 支持对用户进行登录认证设置、修改登录密码;
- 支持对关联用户组、关联角色的管理;
- 支持查看用户的近30天登录历史。
用户组管理
- 支持新增、编辑、删除用户组,以及用户组的启用、禁用操作;
- 支持对关联用户、关联角色的管理。
角色管理
- 支持新增、编辑、删除角色,以及角色的启用、禁用操作;
- 支持操作级(例如:新增、删除、编辑等)的权限策略配置、菜单权限设置;
- 支持关联用户、用户组的管理。
第三方SSO管理
- 支持第三方SSO系统的新增、编辑、删除操作,并支持设置默认登录方式。
4.8工具箱
集成数据迁移工具,可支持对HDFS、Hive进行数据迁移,并提供数据迁移工具监控看板。
数据迁移
- 支持针对HDFS/Hive数据迁移策略的创建,路径设置、迁移各个参数、周期任务等详细策略内容设置;
- 支持策略类型、策略名称、策略状态条件组合筛选查询;
- 支持可通过策略列表对策略的基本状态和信息进行管理;
- 支持通过数据同步服务监控面板掌握从时间维度的策略、作业、迁移数据、迁移时间、内存资源占用等各个指标。