searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

天翼云大数据平台 翼MR Manager功能简介

2024-05-30 08:45:33
81
0

一、行业背景

随着互联网的快速发展,大数据技术已经成为推动企业创新和竞争力的核心因素。然而,大数据的处理和分析需要使用多个复杂的组件和工具,如Hadoop、Spark、Hive等。这些组件的部署、配置和管理通常需要大量的时间和精力,并且容易出现配置错误和操作失误,给企业带来了不少的困扰。为了解决这些问题,天翼云自研开发了大数据运维管理平台翼MR Manager。

二、翼MR Manager产品介绍

翼MR Manager由天翼云自主研发,主要为运维工程师提供日常的大数据组件运维管理操作能力。通过可视化、流程化的方式对系统中的各个系统资源和数据资产进行管理,并支持自动化的运维调度,统一的配置文件管理、统一运维监控,支持组件集群服务管理、多租户管理、资源管理、工具箱等功能。在提高运维人员工作的效率同时,并为大数据运维工作者,提供专业全面的大数据运维能力,大大降低大数据平台运维门槛。

图 翼MR Manager架构

如图所示,翼MR Manager整体架构由上往下及有左往右的功能依次为:平台基础服务和核心运维服务。其中,平台基础服务包括统一网关、安全审计、身份与权限管理;核心运维服务包括集群服务管理、租户与资源管理、配置中心、监控与告警、运维自动化和日志管理功能。

三、翼MR Manager核心优势

优开源

基于Hadoop 3.3等开源最新组件,保证版本性能的同时,优化了底层资源占用,对任务和引擎进行定制化管控

松耦合

灵活适应大数据底座平台的变化,降低风险,保障运维平台文稳定性

高安全

结合Kerberos和Ranger企业级的大数据标准安全验证体系,支持细粒度的权限管控

轻运维

通过运维流水线编排技术,可完全自定义专属的自动化运维操作

全监控

实现多层次、全视角的监控覆盖,实时掌握主机、实例、集群健康状态

四、翼MR Manager功能简介

4.1集群服务管理

提供18+大数据组件的引导式集群部署,以及以环境、集群、主机维度的日常运维管理。

环境大屏

  • 基于监控报警系统和可视化大屏,以可视化的形式,实时监控展示环境下各集群、各组件的主要运行指标状态。

环境管理

环境管理展示目前平台所有的环境信息,环境信息以卡片视图列出,每个卡片为一个环境信息,包括名称,域名,主机数,集群数,负责人数等信息。

  • 支持修改环境基础信息,设置环境负责人、环境下相关功能的启用禁用;
  • 支持查看该环境的运维操作历史;
  • 支持X86、arm架构的客户端下载;
  • 支持查看该环境下所有主机的资源概览:CPU使用率、磁盘使用率、内存使用率、网络发送速率等。

集群管理

展示当前环境下的所有集群,集群列表按组件类型,列表视图列出,在集群列表处支持新增集群、一键启动所有集群、一键停止所有集群。

  • 支持单集群的启动、停止、重启、滚动重启等操作;
  • 支持角色实例的添加、卸载、启动、停止、重启、滚动停止、滚动重启、实例置维护等操作;
  • 支持设置集群的基础属性、负责人、运维操作、实例分组等;
  • 支持集群健康检查、查看健康检查报告并导出、支持周期健康检查设置;
  • 支持查看集群的运维历史、告警历史和监控看板等;
  • 展示集群WebUI地址并支持跳转。

主机管理

默认展示当前环境下的所有主机列表,可查看当前运维平台的所有主机信息。

  • 支持新增主机、主机初始化、主机探测、主机置维护/取消维护等操作;
  • 支持查看单个主机的详细信息、主机状态、主机上安装的角色实例;
  • 支持查看单个主机的变更记录、告警历史、监控看板;
  • 支持指定主机健康检查、查看健康检查报告并导出、支持周期健康检查设置。

4.2租户与资源

租户与资源管理,贴合企业多租户场景,并以环境为维度对LDAP用户、Kerberos安全凭证、HDFS目录浏览器、YARN队列、HBase数据库进行管理,并对不同环境之间的租户与资源进行了安全隔离。

LDAP用户

展示当前环境下的LDAP用户和用户组。

  • 支持新增租户、新增租户并分配资源两种新增租户的方式;
  • 支持为用户关联用户组、用户组关联用户以及取消关联关系;
  • 支持以用户为维度的Principal管理以及Keytab的分发。

Kerberos安全凭证

展示当前环境下的Kerberos安全凭证。

  • 支持新建Principal、删除Principal;
  • 支持Keytab分发与下载,并支持查看Keytab的分发记录。

HDFS目录浏览器

  • 支持查看不同HDFS集群的目录信息;
  • 支持创建子目录、删除目录,以及目录授权;
  • 支持单目录的数据冗余策略,支持EC、多副本两种方式;
  • 支持目录空间配额、文件数配额设置,并支持查看目录配额使用情况。

HDFS存储分析

  • 支持查看HDFS的总文件数、总存储量、存储使用分布、文件数分布等。

Hive数据库管理

  • 支持查看不同Hive集群的数据库表信息;
  • 支持新建数据库、删除数据库、查看数据库详情;
  • 支持设置数据库授权和ACL权限配置;
  • 支持设置指定数据库、数据表的小文件合并策略设置;
  • 支持查看数据表的表信息、表结构、分区键,并支持分区生命周期设置。

YARN队列管理

  • 支持调度器配置的导入和删除;
  • 支持YARN队列新建、编辑与删除;
  • 支持YARN队列启动与停止;
  • 支持YARN队列容量设置和YARN队列授权;
  • 支持YARN队列capacity-scheduler.xml的全局属性配置;
  • 支持YARN队列的同步生效并支持查看同步生效记录。

HBase数据库管理

  • 支持查看不同HBase集群的数据库表信息;
  • 支持新建数据库、查看数据库信息、编辑数据库和删除数据库;
  • 支持数据库用户的管理、数据库存储配额设置;
  • 支持数据库下新建表、查看表信息、编辑表信息和删除表;
  • 支持数据表存储配额设置、导出表和禁用表;
  • 支持表列蔟信息查看、权限设置;
  • 支持表分区信息查看和表用户管理;
  • 支持对数据表新建快照并支持数据恢复。

HBase快照备份

  • 支持指定命名空间、指定表的数据备份;
  • 支持延时、周期两种备份策略。

4.3配置中心

配置中心为运维用户提供方便快捷的配置文件管理,支持对集群进行:修改配置、新增配置、配置同步等操作。配置中心包含:配置规则、配置模板、配置管理、配置同步历史、配置历史。在集群部署时,通过配置模板生成初始化属性,并推送配置文件到主机;部署完成后,支持对各集群服务的配置文件进行修改、同步、回滚等操作。

配置管理

  • 支持查看不同集群的配置文件;
  • 支持对不同集群新增配置组、查看配置组信息、删除配置组;
  • 支持新增配置文件、查看配置文件详情、预览和下载配置文件,以及删除配置文件;
  • 支持按主机维度的配置同步、查看配置状态,配置回滚等操作。

配置历史

  • 支持查看不同配置文件的所有历史版本信息;
  • 支持查看配置文件不同版本的配置内容、并支持不同版本之前的内容对比;
  • 支持查看配置文件当前版本的同步详情。

 配置同步历史

  • 支持查看不同环境的配置同步历史、配置同步操作人,以及配置同步详情。

配置规则

  • 用于定义配置时的配置项的规则,定义配置项的输入规范。

 配置模板

  • 根据专业运维人员经验,提供常用大数据组件的配置模板,并支持配置模板的新增、编辑和删除。

4.4监控与告警

监控告警通过监控服务端、告警服务端、监控可视化系统进行监控采集、告警推送、大屏展示等,提供专业全面的大数据组件、集群、角色实例的监控与告警。

指标查询

  • 支持查询角色实例级、主机级的监控指标;
  • 支持指标结果的绘图操作,让用户更直观获取监控项变化。

指标字典

  • 展示主机和大数据组件的监控指标;
  • 支持新增、查看、编辑和删除监控指标。

告警规则

  • 支持新增、查看、编辑和删除告警规则;
  • 支持同步告警规则到监控服务端。

告警历史

  • 展示所有历史告警内容;
  • 支持按照集群级、角色实例级、主机级查询告警内容。

告警订阅

  • 新增、编辑订阅告警信息,并支持微信、邮件、短信三种方式发送告警消息。

4.5运维自动化

基于流水线的编排技术,灵活组合Playbook实现对各集群、主机、组件、实例等自动化运维管理,满足用户实际运维场景下的操作需求。

流水线

  • 支持流水线新增、编排、删除操作;
  • 支持按需进行流水线运行,并查看流水线运行详情;
  • 支持查看当前流水线的运行历史,并支持重新运行。

流水线历史

  • 展示所有流水线的运行历史记录,以及操作人。

作业模板

  • 支持playbook作业模板的新增、编辑和删除,用户流水线编排使用。

4.6日志管理

采用高效的日志采集方式,通过一系列日志采集、解析、存储等流程,为运维人员提供多维度可视化日志查询,辅助运维人员快速定位问题。

日志查询

  • 支持多种方式的日志筛选,助力运维人员快速定位问题。

日志源设置

  • 支持日志源的灵活配置,字段列表的展示和排序字段的设置。

4.7身份与权限

对运维管理平台中的用户、用户组、角色以及第三方SSO系统进行管理,并对用户登录认证、用户与用户组的关联角色进行管理,角色管理中可支持操作级(例如:新增、删除、编辑等)的权限策略配。

用户管理

  • 支持新增、编辑、删除用户,以及用户的启用、禁用操作;
  • 支持对用户进行登录认证设置、修改登录密码;
  • 支持对关联用户组、关联角色的管理;
  • 支持查看用户的近30天登录历史。

用户组管理

  • 支持新增、编辑、删除用户组,以及用户组的启用、禁用操作;
  • 支持对关联用户、关联角色的管理。

角色管理

  • 支持新增、编辑、删除角色,以及角色的启用、禁用操作;
  • 支持操作级(例如:新增、删除、编辑等)的权限策略配置、菜单权限设置;
  • 支持关联用户、用户组的管理。

第三方SSO管理

  • 支持第三方SSO系统的新增、编辑、删除操作,并支持设置默认登录方式。

4.8工具箱

集成数据迁移工具,可支持对HDFS、Hive进行数据迁移,并提供数据迁移工具监控看板。

数据迁移

  • 支持针对HDFS/Hive数据迁移策略的创建,路径设置、迁移各个参数、周期任务等详细策略内容设置;
  • 支持策略类型、策略名称、策略状态条件组合筛选查询;
  • 支持可通过策略列表对策略的基本状态和信息进行管理;
  • 支持通过数据同步服务监控面板掌握从时间维度的策略、作业、迁移数据、迁移时间、内存资源占用等各个指标。
0条评论
作者已关闭评论
尚红磊
2文章数
0粉丝数
尚红磊
2 文章 | 0 粉丝
尚红磊
2文章数
0粉丝数
尚红磊
2 文章 | 0 粉丝
原创

天翼云大数据平台 翼MR Manager功能简介

2024-05-30 08:45:33
81
0

一、行业背景

随着互联网的快速发展,大数据技术已经成为推动企业创新和竞争力的核心因素。然而,大数据的处理和分析需要使用多个复杂的组件和工具,如Hadoop、Spark、Hive等。这些组件的部署、配置和管理通常需要大量的时间和精力,并且容易出现配置错误和操作失误,给企业带来了不少的困扰。为了解决这些问题,天翼云自研开发了大数据运维管理平台翼MR Manager。

二、翼MR Manager产品介绍

翼MR Manager由天翼云自主研发,主要为运维工程师提供日常的大数据组件运维管理操作能力。通过可视化、流程化的方式对系统中的各个系统资源和数据资产进行管理,并支持自动化的运维调度,统一的配置文件管理、统一运维监控,支持组件集群服务管理、多租户管理、资源管理、工具箱等功能。在提高运维人员工作的效率同时,并为大数据运维工作者,提供专业全面的大数据运维能力,大大降低大数据平台运维门槛。

图 翼MR Manager架构

如图所示,翼MR Manager整体架构由上往下及有左往右的功能依次为:平台基础服务和核心运维服务。其中,平台基础服务包括统一网关、安全审计、身份与权限管理;核心运维服务包括集群服务管理、租户与资源管理、配置中心、监控与告警、运维自动化和日志管理功能。

三、翼MR Manager核心优势

优开源

基于Hadoop 3.3等开源最新组件,保证版本性能的同时,优化了底层资源占用,对任务和引擎进行定制化管控

松耦合

灵活适应大数据底座平台的变化,降低风险,保障运维平台文稳定性

高安全

结合Kerberos和Ranger企业级的大数据标准安全验证体系,支持细粒度的权限管控

轻运维

通过运维流水线编排技术,可完全自定义专属的自动化运维操作

全监控

实现多层次、全视角的监控覆盖,实时掌握主机、实例、集群健康状态

四、翼MR Manager功能简介

4.1集群服务管理

提供18+大数据组件的引导式集群部署,以及以环境、集群、主机维度的日常运维管理。

环境大屏

  • 基于监控报警系统和可视化大屏,以可视化的形式,实时监控展示环境下各集群、各组件的主要运行指标状态。

环境管理

环境管理展示目前平台所有的环境信息,环境信息以卡片视图列出,每个卡片为一个环境信息,包括名称,域名,主机数,集群数,负责人数等信息。

  • 支持修改环境基础信息,设置环境负责人、环境下相关功能的启用禁用;
  • 支持查看该环境的运维操作历史;
  • 支持X86、arm架构的客户端下载;
  • 支持查看该环境下所有主机的资源概览:CPU使用率、磁盘使用率、内存使用率、网络发送速率等。

集群管理

展示当前环境下的所有集群,集群列表按组件类型,列表视图列出,在集群列表处支持新增集群、一键启动所有集群、一键停止所有集群。

  • 支持单集群的启动、停止、重启、滚动重启等操作;
  • 支持角色实例的添加、卸载、启动、停止、重启、滚动停止、滚动重启、实例置维护等操作;
  • 支持设置集群的基础属性、负责人、运维操作、实例分组等;
  • 支持集群健康检查、查看健康检查报告并导出、支持周期健康检查设置;
  • 支持查看集群的运维历史、告警历史和监控看板等;
  • 展示集群WebUI地址并支持跳转。

主机管理

默认展示当前环境下的所有主机列表,可查看当前运维平台的所有主机信息。

  • 支持新增主机、主机初始化、主机探测、主机置维护/取消维护等操作;
  • 支持查看单个主机的详细信息、主机状态、主机上安装的角色实例;
  • 支持查看单个主机的变更记录、告警历史、监控看板;
  • 支持指定主机健康检查、查看健康检查报告并导出、支持周期健康检查设置。

4.2租户与资源

租户与资源管理,贴合企业多租户场景,并以环境为维度对LDAP用户、Kerberos安全凭证、HDFS目录浏览器、YARN队列、HBase数据库进行管理,并对不同环境之间的租户与资源进行了安全隔离。

LDAP用户

展示当前环境下的LDAP用户和用户组。

  • 支持新增租户、新增租户并分配资源两种新增租户的方式;
  • 支持为用户关联用户组、用户组关联用户以及取消关联关系;
  • 支持以用户为维度的Principal管理以及Keytab的分发。

Kerberos安全凭证

展示当前环境下的Kerberos安全凭证。

  • 支持新建Principal、删除Principal;
  • 支持Keytab分发与下载,并支持查看Keytab的分发记录。

HDFS目录浏览器

  • 支持查看不同HDFS集群的目录信息;
  • 支持创建子目录、删除目录,以及目录授权;
  • 支持单目录的数据冗余策略,支持EC、多副本两种方式;
  • 支持目录空间配额、文件数配额设置,并支持查看目录配额使用情况。

HDFS存储分析

  • 支持查看HDFS的总文件数、总存储量、存储使用分布、文件数分布等。

Hive数据库管理

  • 支持查看不同Hive集群的数据库表信息;
  • 支持新建数据库、删除数据库、查看数据库详情;
  • 支持设置数据库授权和ACL权限配置;
  • 支持设置指定数据库、数据表的小文件合并策略设置;
  • 支持查看数据表的表信息、表结构、分区键,并支持分区生命周期设置。

YARN队列管理

  • 支持调度器配置的导入和删除;
  • 支持YARN队列新建、编辑与删除;
  • 支持YARN队列启动与停止;
  • 支持YARN队列容量设置和YARN队列授权;
  • 支持YARN队列capacity-scheduler.xml的全局属性配置;
  • 支持YARN队列的同步生效并支持查看同步生效记录。

HBase数据库管理

  • 支持查看不同HBase集群的数据库表信息;
  • 支持新建数据库、查看数据库信息、编辑数据库和删除数据库;
  • 支持数据库用户的管理、数据库存储配额设置;
  • 支持数据库下新建表、查看表信息、编辑表信息和删除表;
  • 支持数据表存储配额设置、导出表和禁用表;
  • 支持表列蔟信息查看、权限设置;
  • 支持表分区信息查看和表用户管理;
  • 支持对数据表新建快照并支持数据恢复。

HBase快照备份

  • 支持指定命名空间、指定表的数据备份;
  • 支持延时、周期两种备份策略。

4.3配置中心

配置中心为运维用户提供方便快捷的配置文件管理,支持对集群进行:修改配置、新增配置、配置同步等操作。配置中心包含:配置规则、配置模板、配置管理、配置同步历史、配置历史。在集群部署时,通过配置模板生成初始化属性,并推送配置文件到主机;部署完成后,支持对各集群服务的配置文件进行修改、同步、回滚等操作。

配置管理

  • 支持查看不同集群的配置文件;
  • 支持对不同集群新增配置组、查看配置组信息、删除配置组;
  • 支持新增配置文件、查看配置文件详情、预览和下载配置文件,以及删除配置文件;
  • 支持按主机维度的配置同步、查看配置状态,配置回滚等操作。

配置历史

  • 支持查看不同配置文件的所有历史版本信息;
  • 支持查看配置文件不同版本的配置内容、并支持不同版本之前的内容对比;
  • 支持查看配置文件当前版本的同步详情。

 配置同步历史

  • 支持查看不同环境的配置同步历史、配置同步操作人,以及配置同步详情。

配置规则

  • 用于定义配置时的配置项的规则,定义配置项的输入规范。

 配置模板

  • 根据专业运维人员经验,提供常用大数据组件的配置模板,并支持配置模板的新增、编辑和删除。

4.4监控与告警

监控告警通过监控服务端、告警服务端、监控可视化系统进行监控采集、告警推送、大屏展示等,提供专业全面的大数据组件、集群、角色实例的监控与告警。

指标查询

  • 支持查询角色实例级、主机级的监控指标;
  • 支持指标结果的绘图操作,让用户更直观获取监控项变化。

指标字典

  • 展示主机和大数据组件的监控指标;
  • 支持新增、查看、编辑和删除监控指标。

告警规则

  • 支持新增、查看、编辑和删除告警规则;
  • 支持同步告警规则到监控服务端。

告警历史

  • 展示所有历史告警内容;
  • 支持按照集群级、角色实例级、主机级查询告警内容。

告警订阅

  • 新增、编辑订阅告警信息,并支持微信、邮件、短信三种方式发送告警消息。

4.5运维自动化

基于流水线的编排技术,灵活组合Playbook实现对各集群、主机、组件、实例等自动化运维管理,满足用户实际运维场景下的操作需求。

流水线

  • 支持流水线新增、编排、删除操作;
  • 支持按需进行流水线运行,并查看流水线运行详情;
  • 支持查看当前流水线的运行历史,并支持重新运行。

流水线历史

  • 展示所有流水线的运行历史记录,以及操作人。

作业模板

  • 支持playbook作业模板的新增、编辑和删除,用户流水线编排使用。

4.6日志管理

采用高效的日志采集方式,通过一系列日志采集、解析、存储等流程,为运维人员提供多维度可视化日志查询,辅助运维人员快速定位问题。

日志查询

  • 支持多种方式的日志筛选,助力运维人员快速定位问题。

日志源设置

  • 支持日志源的灵活配置,字段列表的展示和排序字段的设置。

4.7身份与权限

对运维管理平台中的用户、用户组、角色以及第三方SSO系统进行管理,并对用户登录认证、用户与用户组的关联角色进行管理,角色管理中可支持操作级(例如:新增、删除、编辑等)的权限策略配。

用户管理

  • 支持新增、编辑、删除用户,以及用户的启用、禁用操作;
  • 支持对用户进行登录认证设置、修改登录密码;
  • 支持对关联用户组、关联角色的管理;
  • 支持查看用户的近30天登录历史。

用户组管理

  • 支持新增、编辑、删除用户组,以及用户组的启用、禁用操作;
  • 支持对关联用户、关联角色的管理。

角色管理

  • 支持新增、编辑、删除角色,以及角色的启用、禁用操作;
  • 支持操作级(例如:新增、删除、编辑等)的权限策略配置、菜单权限设置;
  • 支持关联用户、用户组的管理。

第三方SSO管理

  • 支持第三方SSO系统的新增、编辑、删除操作,并支持设置默认登录方式。

4.8工具箱

集成数据迁移工具,可支持对HDFS、Hive进行数据迁移,并提供数据迁移工具监控看板。

数据迁移

  • 支持针对HDFS/Hive数据迁移策略的创建,路径设置、迁移各个参数、周期任务等详细策略内容设置;
  • 支持策略类型、策略名称、策略状态条件组合筛选查询;
  • 支持可通过策略列表对策略的基本状态和信息进行管理;
  • 支持通过数据同步服务监控面板掌握从时间维度的策略、作业、迁移数据、迁移时间、内存资源占用等各个指标。
文章来自个人专栏
翼MR Manager
2 文章 | 1 订阅
0条评论
作者已关闭评论
作者已关闭评论
0
0