活动

天翼云最新优惠活动,涵盖免费试用,产品折扣等,助您降本增效!
查看全部活动
热门活动
  • 免费体验DeepSeek,上天翼云息壤 NEW 新老用户均可免费体验2500万Tokens,限时两周
  • 云上钜惠 HOT 爆款云主机全场特惠,更有万元锦鲤券等你来领!
  • 算力套餐 HOT 让算力触手可及
  • 天翼云脑AOne NEW 连接、保护、办公,All-in-One!
  • 一键部署Llama3大模型学习机 0代码一键部署,预装最新主流大模型Llama3与StableDiffusion
  • 中小企业应用上云专场 产品组合下单即享折上9折起,助力企业快速上云
  • 息壤高校钜惠活动 NEW 天翼云息壤杯高校AI大赛,数款产品享受线上订购超值特惠
  • 天翼云电脑专场 HOT 移动办公新选择,爆款4核8G畅享1年3.5折起,快来抢购!
  • 天翼云奖励推广计划 加入成为云推官,推荐新用户注册下单得现金奖励
免费活动
  • 免费试用中心 HOT 多款云产品免费试用,快来开启云上之旅
  • 天翼云用户体验官 NEW 您的洞察,重塑科技边界

智算服务

打造统一的产品能力,实现算网调度、训练推理、技术架构、资源管理一体化智算服务
智算云(DeepSeek专区)
科研助手
  • 算力商城
  • 应用商城
  • 开发机
  • 并行计算
算力互联调度平台
  • 应用市场
  • 算力市场
  • 算力调度推荐
一站式智算服务平台
  • 模型广场
  • 体验中心
  • 服务接入
智算一体机
  • 智算一体机
大模型
  • DeepSeek-R1-昇腾版(671B)
  • DeepSeek-R1-英伟达版(671B)
  • DeepSeek-V3-昇腾版(671B)
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-32B
  • Qwen2-72B-Instruct
  • StableDiffusion-V2.1
  • TeleChat-12B

应用商城

天翼云精选行业优秀合作伙伴及千余款商品,提供一站式云上应用服务
进入甄选商城进入云市场创新解决方案
办公协同
  • WPS云文档
  • 安全邮箱
  • EMM手机管家
  • 智能商业平台
财务管理
  • 工资条
  • 税务风控云
企业应用
  • 翼信息化运维服务
  • 翼视频云归档解决方案
工业能源
  • 智慧工厂_生产流程管理解决方案
  • 智慧工地
建站工具
  • SSL证书
  • 新域名服务
网络工具
  • 翼云加速
灾备迁移
  • 云管家2.0
  • 翼备份
资源管理
  • 全栈混合云敏捷版(软件)
  • 全栈混合云敏捷版(一体机)
行业应用
  • 翼电子教室
  • 翼智慧显示一体化解决方案

合作伙伴

天翼云携手合作伙伴,共创云上生态,合作共赢
天翼云生态合作中心
  • 天翼云生态合作中心
天翼云渠道合作伙伴
  • 天翼云代理渠道合作伙伴
天翼云服务合作伙伴
  • 天翼云集成商交付能力认证
天翼云应用合作伙伴
  • 天翼云云市场合作伙伴
  • 天翼云甄选商城合作伙伴
天翼云技术合作伙伴
  • 天翼云OpenAPI中心
  • 天翼云EasyCoding平台
天翼云培训认证
  • 天翼云学堂
  • 天翼云市场商学院
天翼云合作计划
  • 云汇计划
天翼云东升计划
  • 适配中心
  • 东升计划
  • 适配互认证

开发者

开发者相关功能入口汇聚
技术社区
  • 专栏文章
  • 互动问答
  • 技术视频
资源与工具
  • OpenAPI中心
开放能力
  • EasyCoding敏捷开发平台
培训与认证
  • 天翼云学堂
  • 天翼云认证
魔乐社区
  • 魔乐社区

支持与服务

为您提供全方位支持与服务,全流程技术保障,助您轻松上云,安全无忧
文档与工具
  • 文档中心
  • 新手上云
  • 自助服务
  • OpenAPI中心
定价
  • 价格计算器
  • 定价策略
基础服务
  • 售前咨询
  • 在线支持
  • 在线支持
  • 工单服务
  • 建议与反馈
  • 用户体验官
  • 服务保障
  • 客户公告
  • 会员中心
增值服务
  • 红心服务
  • 首保服务
  • 客户支持计划
  • 专家技术服务
  • 备案管家

了解天翼云

天翼云秉承央企使命,致力于成为数字经济主力军,投身科技强国伟大事业,为用户提供安全、普惠云服务
品牌介绍
  • 关于天翼云
  • 智算云
  • 天翼云4.0
  • 新闻资讯
  • 天翼云APP
基础设施
  • 全球基础设施
  • 信任中心
最佳实践
  • 精选案例
  • 超级探访
  • 云杂志
  • 分析师和白皮书
  • 天翼云·创新直播间
市场活动
  • 2025智能云生态大会
  • 2024智算云生态大会
  • 2023云生态大会
  • 2022云生态大会
  • 天翼云中国行
天翼云
  • 活动
  • 智算服务
  • 产品
  • 解决方案
  • 应用商城
  • 合作伙伴
  • 开发者
  • 支持与服务
  • 了解天翼云
      • 文档
      • 控制中心
      • 备案
      • 管理中心

      查看所有产品

      翼MapReduce

      翼MapReduce

      目录
        • 产品动态
        • 产品简介
        • 产品定义
        • 产品优势
        • 功能特性
        • 多租户
        • 安全增强
        • 组件Web UI便捷访问
        • 可靠性增强
        • 作业管理
        • 自定义引导操作
        • 企业项目管理
        • 元数据
        • 集群管理
        • 应用场景
        • 术语解释
        • 与其他产品的关系
        • 权限管理
        • 约束与限制
        • 计费说明
        • 资源节点
        • 产品规格
        • 产品价格
        • 计费模式
        • 购买
        • 变更
        • 续订
        • 退订
        • 快速入门
        • 如何使用翼MapReduce
        • 创建集群
        • 上传示例数据和程序
        • 添加作业
        • 从零开始使用Kerberos认证集群
        • 删除集群
        • 用户指南
        • 准备用户
        • 创建MRS操作用户
        • 创建MRS自定义策略
        • IAM用户同步MRS说明
        • 配置集群
        • 创建方式简介
        • 快速创建集群
        • 快速创建Hadoop分析集群
        • 快速创建HBase查询集群
        • 快速创建Kafka流式集群
        • 快速创建ClickHouse集群
        • 快速创建实时分析集群
        • 创建自定义集群
        • 创建自定义拓扑集群
        • 添加集群标签
        • 授权安全通信
        • 配置弹性伸缩规则
        • 管理数据连接
        • 配置数据连接
        • 配置Ranger数据连接
        • 配置Hive数据连接
        • 通过引导操作安装第三方软件
        • 查看失败的集群操作任务
        • 查看历史集群信息
        • 管理集群
        • 登录集群
        • MRS集群节点简介
        • 登录集群节点
        • 如何确认Manager的主备管理节点
        • 集群概览
        • 集群列表简介
        • 查看集群状态
        • 查看集群基本信息
        • 查看集群补丁信息
        • 查看和定制集群监控指标
        • 管理组件和主机监控
        • 集群运维
        • 导入导出数据
        • 切换集群子网
        • 配置消息通知
        • 健康检查
        • 远程运维
        • 查看MRS服务操作日志
        • 删除集群
        • 节点管理
        • 扩容集群
        • 缩容集群
        • 管理主机(节点)操作
        • 隔离主机
        • 取消隔离主机
        • 作业管理
        • MRS作业简介
        • 运行MapReduce作业
        • 运行SparkSubmit作业
        • 运行HiveSql作业
        • 运行SparkSql作业
        • 运行Flink作业
        • 运行Kafka作业
        • 查看作业配置信息和日志
        • 停止作业
        • 删除作业
        • 使用OBS加密数据运行作业
        • 配置作业消息通知
        • 组件管理
        • 对象管理简介
        • 查看配置
        • 管理服务操作
        • 配置服务参数
        • 配置服务自定义参数
        • 同步服务配置
        • 管理角色实例操作
        • 配置角色实例参数
        • 同步角色实例配置
        • 退服和入服角色实例
        • 启动及停止集群
        • 同步集群配置
        • 导出集群的配置数据
        • 支持滚动重启
        • 告警管理
        • 查看告警列表
        • 查看事件列表
        • 查看与手动清除告警
        • 补丁管理
        • 补丁操作指导
        • 滚动补丁
        • 修复隔离主机补丁
        • 租户管理
        • 使用前须知
        • 租户简介
        • 添加租户
        • 添加子租户
        • 删除租户
        • 管理租户目录
        • 恢复租户数据
        • 添加资源池
        • 修改资源池
        • 删除资源池
        • 配置队列
        • 配置资源池的队列容量策略
        • 清除队列配置
        • 引导操作
        • 引导操作简介
        • 准备引导操作脚本
        • 查看执行记录
        • 添加引导操作
        • 修改引导操作
        • 删除引导操作
        • 使用MRS客户端
        • 安装客户端
        • 安装客户端(3.x及之后版本)
        • 安装客户端(3.x之前版本)
        • 更新客户端
        • 更新客户端(3.x及之后版本)
        • 更新客户端(3.x之前版本)
        • 各组件客户端使用实践
        • 使用ClickHouse客户端
        • 使用Flink客户端
        • 使用Flume客户端
        • 使用HBase客户端
        • 使用HDFS客户端
        • 使用Hive客户端
        • 使用Impala客户端
        • 使用Kafka客户端
        • 使用Kudu客户端
        • 使用Oozie客户端
        • 使用Storm客户端
        • 使用Yarn客户端
        • 配置存算分离
        • 存算分离简介
        • 配置存算分离集群(委托方式)
        • 配置存算分离集群(AKSK方式)
        • 使用存算分离集群
        • Flink对接OBS文件系统
        • Flume对接OBS文件系统
        • HDFS客户端对接OBS文件系统
        • Hive对接OBS文件系统
        • MapReduce对接OBS文件系统
        • Spark2x对接OBS文件系统
        • Sqoop对接外部存储系统
        • Hudi对接OBS文件系统
        • 访问MRS集群上托管的开源组件Web页面
        • 开源组件Web站点
        • 开源组件端口列表
        • 通过专线访问
        • 通过弹性公网IP访问
        • 通过Windows弹性云主机访问
        • 创建连接MRS集群的SSH隧道并配置浏览器
        • 访问集群Manager
        • 访问FusionInsight Manager(MRS 3.x及之后版本)
        • 访问MRS Manager(MRS 2.x及之前版本)
        • FusionInsight Manager操作指导(适用于3.x)
        • 从这里开始
        • FusionInsight Manager入门指导
        • 查询FusionInsight Manager版本号
        • 登录管理系统
        • 登录管理节点
        • 主页
        • 主页概述
        • 管理监控指标数据报表
        • 主机管理
        • 主机管理页面
        • 查看主机列表
        • 查看主机概览
        • 查看主机进程及资源
        • 主机维护操作
        • 启动、停止主机上的所有实例
        • 执行主机健康检查
        • 分配机架
        • 隔离主机
        • 导出主机信息
        • 资源概况
        • 分布
        • 趋势
        • 集群
        • 主机
        • 运维
        • 告警
        • 告警与事件概述
        • 配置阈值
        • 配置告警屏蔽状态
        • 日志
        • 在线检索日志
        • 下载日志
        • 健康检查
        • 查看健康检查任务
        • 管理健康检查报告
        • 修改健康检查配置
        • 备份恢复设置
        • 创建备份任务
        • 创建恢复任务
        • 其他任务管理说明
        • 审计
        • 审计管理页面概述
        • 配置审计日志转储
        • 租户资源
        • 多租户介绍
        • 简介
        • 技术原理
        • 多租户管理页面概述
        • 相关模型
        • 资源概述
        • 动态资源
        • 存储资源
        • 多租户使用
        • 使用说明
        • 流程概述
        • 使用Superior调度器的租户业务
        • 创建租户
        • 添加租户
        • 添加子租户
        • 添加用户并绑定租户的角色
        • 管理租户
        • 管理租户目录
        • 恢复租户数据
        • 删除租户
        • 管理资源
        • 添加资源池
        • 修改资源池
        • 删除资源池
        • 配置队列
        • 配置资源池的队列容量策略
        • 清除队列容量配置
        • 管理全局用户策略
        • 使用Capacity调度器的租户业务
        • 创建租户
        • 添加租户
        • 添加子租户
        • 添加用户并绑定租户的角色
        • 管理租户
        • 管理租户目录
        • 恢复租户数据
        • 删除租户
        • Capacity Scheduler模式下清除租户非关联队列
        • 管理资源
        • 添加资源池
        • 修改资源池
        • 删除资源池
        • 配置队列
        • 配置资源池的队列容量策略
        • 清除队列容量配置
        • 切换调度器
        • 系统设置
        • 权限设置
        • 用户管理
        • 创建用户
        • 修改用户信息
        • 导出用户信息
        • 锁定用户
        • 解锁用户
        • 删除用户
        • 修改用户密码
        • 初始化用户密码
        • 导出认证凭据文件
        • 用户组管理
        • 角色管理
        • 安全策略
        • 配置密码策略
        • 配置私有属性
        • 对接设置
        • 配置SNMP北向参数
        • 配置Syslog北向参数
        • 配置监控指标数据转储
        • 导入证书
        • OMS管理
        • OMS维护页面概述
        • 修改OMS服务配置参数
        • 部件管理
        • 查看部件包
        • 集群管理
        • 配置客户端
        • 安装客户端
        • 使用客户端
        • 更新已安装客户端的配置
        • 管理集群
        • 集群管理概述
        • 滚动重启集群
        • 管理配置过期
        • 下载客户端
        • 修改集群属性
        • 管理集群配置
        • 静态服务池
        • 静态服务资源
        • 配置集群静态资源
        • 查看集群静态资源
        • 客户端管理
        • 管理客户端
        • 批量升级客户端
        • 批量刷新hosts文件
        • 管理服务
        • 服务管理概述
        • 其他服务管理操作
        • 服务详情概述
        • 执行角色实例主备倒换
        • 资源监控
        • 采集堆栈信息
        • 切换Ranger鉴权
        • 服务配置
        • 修改服务配置参数
        • 修改服务自定义配置参数
        • 集群互信管理
        • 集群互信概述
        • 修改Manager系统域名
        • 配置跨Manager集群互信
        • 配置跨集群互信后的用户权限
        • 配置定时备份告警与审计信息
        • 管理实例
        • 实例管理概述
        • 入服与退服实例
        • 管理实例配置
        • 查看实例配置文件
        • 实例组
        • 管理实例组
        • 查看实例组信息
        • 配置实例组参数
        • 修改FusionInsight Manager添加的路由表
        • 切换维护模式
        • 例行维护
        • 日志管理
        • 关于日志
        • Manager日志清单
        • 配置日志级别与文件大小
        • 配置审计日志本地备份数
        • 查看角色实例日志
        • 备份恢复管理
        • 备份恢复简介
        • 备份数据
        • 备份OMS数据
        • 备份DBService数据
        • 备份HBase元数据
        • 备份HBase业务数据
        • 备份NameNode数据
        • 备份HDFS业务数据
        • 备份Hive业务数据
        • 备份Kafka元数据
        • 恢复数据
        • 恢复OMS数据
        • 恢复DBService数据
        • 恢复HBase元数据
        • 恢复HBase业务数据
        • 恢复NameNode数据
        • 恢复HDFS业务数据
        • 恢复Hive业务数据
        • 恢复Kafka元数据
        • 启用集群间拷贝功能
        • 管理本地快速恢复任务
        • 修改备份任务
        • 查看备份恢复任务
        • 安全管理
        • 安全概述
        • 权限模型
        • 权限机制
        • 认证策略
        • 鉴权策略
        • 用户帐号一览表
        • 默认权限信息一览
        • FusionInsight Manager安全功能
        • 帐户管理
        • 帐户安全设置
        • 解锁LDAP用户和管理帐户
        • 解锁系统内部用户
        • 修改集群组件鉴权配置开关
        • 使用普通模式集群用户在非集群节点登录
        • 修改系统用户密码
        • 修改admin密码
        • 修改操作系统用户密码
        • 修改系统内部用户密码
        • 修改Kerberos管理员密码
        • 修改OMS Kerberos管理员密码
        • 修改LDAP管理员和LDAP用户密码(含OMS LDAP)
        • 修改LDAP管理帐户密码
        • 修改组件运行用户密码
        • 修改默认数据库用户密码
        • 修改OMS数据库管理员密码
        • 修改OMS数据库访问用户密码
        • 修改组件数据库用户密码
        • 修改DBService数据库omm用户密码
        • 证书管理
        • 更换CA证书
        • 更换HA证书
        • 安全加固
        • 加固策略
        • 配置受信任IP访问LDAP
        • 加密HFile和WAL内容
        • 安全配置
        • 配置HBase允许修改操作的IP地址白名单
        • 更新集群密钥
        • 加固LDAP
        • 配置Kafka数据传输加密
        • 配置HDFS数据传输加密
        • 配置Controller与Agent间通信加密
        • 更新omm用户ssh密钥
        • 安全维护
        • 帐户维护建议
        • 密码维护建议
        • 日志维护建议
        • 安全声明
        • 告警参考(适用于MRS 3.x版本)
        • ALM-12001 审计日志转储失败
        • ALM-12004 OLdap资源异常
        • ALM-12005 OKerberos资源异常
        • ALM-12006 节点故障
        • ALM-12007 进程故障
        • ALM-12010 Manager主备节点间心跳中断
        • ALM-12011 Manager主备节点同步数据异常
        • ALM-12014 设备分区丢失
        • ALM-12015 设备分区文件系统只读
        • ALM-12016 CPU使用率超过阈值
        • ALM-12017 磁盘容量不足
        • ALM-12018 内存使用率超过阈值
        • ALM-12027 主机PID使用率超过阈值
        • ALM-12028 主机D状态进程数超过阈值
        • ALM-12033 慢盘故障
        • ALM-12034 周期备份任务失败
        • ALM-12035 恢复任务失败后数据状态未知
        • ALM-12038 监控指标转储失败
        • ALM-12039 OMS数据库主备不同步
        • ALM-12040 系统熵值不足
        • ALM-12041 关键文件权限异常
        • ALM-12042 关键文件配置异常
        • ALM-12045 网络读包丢包率超过阈值
        • ALM-12046 网络写包丢包率超过阈值
        • ALM-12047 网络读包错误率超过阈值
        • ALM-12048 网络写包错误率超过阈值
        • ALM-12049 网络读吞吐率超过阈值
        • ALM-12050 网络写吞吐率超过阈值
        • ALM-12051 磁盘Inode使用率超过阈值
        • ALM-12052 TCP临时端口使用率超过阈值
        • ALM-12053 主机文件句柄使用率超过阈值
        • ALM-12054 证书文件失效
        • ALM-12055 证书文件即将过期
        • ALM-12057 元数据未配置周期备份到第三方服务器的任务
        • ALM-12061 进程使用率超过阈值
        • ALM-12062 OMS参数配置同集群规模不匹配
        • ALM-12063 磁盘不可用
        • ALM-12064 主机随机端口范围配置与集群使用端口冲突
        • ALM-12066 节点间互信失效
        • ALM-12067 tomcat资源异常
        • ALM-12068 acs资源异常
        • ALM-12069 aos资源异常
        • ALM-12070 controller资源异常
        • ALM-12071 httpd资源异常
        • ALM-12072 floatip资源异常
        • ALM-12073 cep资源异常
        • ALM-12074 fms资源异常
        • ALM-12075 pms资源异常
        • ALM-12076 gaussDB资源异常
        • ALM-12077 omm用户过期
        • ALM-12078 omm密码过期
        • ALM-12079 omm用户即将过期
        • ALM-12080 omm密码即将过期
        • ALM-12081 ommdba用户过期
        • ALM-12082 ommdba用户即将过期
        • ALM-12083 ommdba密码即将过期
        • ALM-12084 ommdba密码过期
        • ALM-12085 服务审计日志转储失败
        • ALM-12087 系统处于升级观察期
        • ALM-12089 节点间网络互通异常
        • ALM-12101 AZ不健康
        • ALM-12102 AZ高可用组件未按容灾需求部署
        • ALM-12110 获取ECS临时ak/sk失败
        • ALM-13000 ZooKeeper服务不可用
        • ALM-13001 ZooKeeper可用连接数不足
        • ALM-13002 ZooKeeper直接内存使用率超过阈值
        • ALM-13003 ZooKeeper进程垃圾回收(GC)时间超过阈值
        • ALM-13004 ZooKeeper堆内存使用率超过阈值
        • ALM-13005 ZooKeeper中组件顶层目录的配额设置失败
        • ALM-13006 Znode数量或容量超过阈值
        • ALM-13007 ZooKeeper客户端可用连接数不足
        • ALM-13008 ZooKeeper Znode数量使用率超出阈值
        • ALM-13009 ZooKeeper Znode容量使用率超出阈值
        • ALM-13010 配置quota的目录Znode使用率超出阈值
        • ALM-14000 HDFS服务不可用
        • ALM-14001 HDFS磁盘空间使用率超过阈值
        • ALM-14002 DataNode磁盘空间使用率超过阈值
        • ALM-14003 丢失的HDFS块数量超过阈值
        • ALM-14006 HDFS文件数超过阈值
        • ALM-14007 NameNode堆内存使用率超过阈值
        • ALM-14008 DataNode堆内存使用率超过阈值
        • ALM-14009 Dead DataNode数量超过阈值
        • ALM-14010 NameService服务异常
        • ALM-14011 DataNode数据目录配置不合理
        • ALM-14012 Journalnode数据不同步
        • ALM-14013 NameNode FsImage文件更新失败
        • ALM-14014 NameNode进程垃圾回收(GC)时间超过阈值
        • ALM-14015 DataNode进程垃圾回收(GC)时间超过阈值
        • ALM-14016 DataNode直接内存使用率超过阈值
        • ALM-14017 NameNode直接内存使用率超过阈值
        • ALM-14018 NameNode非堆内存使用率超过阈值
        • ALM-14019 DataNode非堆内存使用率超过阈值
        • ALM-14020 HDFS目录条目数量超过阈值
        • ALM-14021 NameNode RPC处理平均时间超过阈值
        • ALM-14022 NameNode RPC队列平均时间超过阈值
        • ALM-14023 总副本预留磁盘空间所占比率超过阈值
        • ALM-14024 租户空间使用率超过阈值
        • ALM-14025 租户文件对象使用率超过阈值
        • ALM-14026 DataNode块数超过阈值
        • ALM-14027 DataNode磁盘故障
        • ALM-14028 待补齐的块数超过阈值
        • ALM-14029 单副本的块数超过阈值
        • ALM-16000 连接到HiveServer的session数占最大允许数的百分比超过阈值
        • ALM-16001 Hive数据仓库空间使用率超过阈值
        • ALM-16002 Hive SQL执行成功率低于阈值
        • ALM-16003 Background线程使用率超过阈值
        • ALM-16004 Hive服务不可用
        • ALM-16005 Hive服务进程堆内存使用超出阈值
        • ALM-16006 Hive服务进程直接内存使用超出阈值
        • ALM-16007 Hive GC 时间超出阈值
        • ALM-16008 Hive服务进程非堆内存使用超出阈值
        • ALM-16009 Map数超过阈值
        • ALM-16045 Hive数据仓库被删除
        • ALM-16046 Hive数据仓库权限被修改
        • ALM-16047 HiveServer已从Zookeeper注销
        • ALM-16048 Tez或者Spark库路径不存在
        • ALM-17003 Oozie服务不可用
        • ALM-17004 Oozie堆内存使用率超过阈值
        • ALM-17005 Oozie非堆内存使用率超过阈值
        • ALM-17006 Oozie直接内存使用率超过阈值
        • ALM-17007 Oozie进程垃圾回收(GC)时间超过阈值
        • ALM-18000 Yarn服务不可用
        • ALM-18002 NodeManager心跳丢失
        • ALM-18003 NodeManager不健康
        • ALM-18008 ResourceManager堆内存使用率超过阈值
        • ALM-18009 JobHistoryServer堆内存使用率超过阈值
        • ALM-18010 ResourceManager进程垃圾回收(GC)时间超过阈值
        • ALM-18011 NodeManager进程垃圾回收(GC)时间超过阈值
        • ALM-18012 JobHistoryServer进程垃圾回收(GC)时间超过阈值
        • ALM-18013 ResourceManager直接内存使用率超过阈值
        • ALM-18014 NodeManager直接内存使用率超过阈值
        • ALM-18015 JobHistoryServer直接内存使用率超过阈值
        • ALM-18016 ResourceManager非堆内存使用率超过阈值
        • ALM-18017 NodeManager非堆内存使用率超过阈值
        • ALM-18018 NodeManager堆内存使用率超过阈值
        • ALM-18019 JobHistoryServer非堆内存使用率超过阈值
        • ALM-18020 Yarn任务执行超时
        • ALM-18021 Mapreduce服务不可用
        • ALM-18022 Yarn队列资源不足
        • ALM-18023 Yarn任务挂起数超过阈值
        • ALM-18024 Yarn任务挂起内存量超阈值
        • ALM-18025 Yarn被终止的任务数超过阈值
        • ALM-18026 Yarn上运行失败的任务数超过阈值
        • ALM-19000 HBase服务不可用
        • ALM-19006 HBase容灾同步失败
        • ALM-19007 HBase GC时间超出阈值
        • ALM-19008 HBase服务进程堆内存使用率超出阈值
        • ALM-19009 HBase服务进程直接内存使用率超出阈值
        • ALM-19011 RegionServer的Region数量超出阈值
        • ALM-19012 HBase系统表目录或文件丢失
        • ALM-19013 region处在RIT状态的时长超过阈值
        • ALM-19014 在ZooKeeper上的容量配额使用率严重超过阈值
        • ALM-19015 在ZooKeeper上的数量配额使用率超过阈值
        • ALM-19016 在ZooKeeper上的数量配额使用率严重超过阈值
        • ALM-19017 在ZooKeeper上的容量配额使用率超过阈值
        • ALM-19018 HBase合并队列超出阈值
        • ALM-19019 HBase容灾等待同步的HFile文件数量超过阈值
        • ALM-19020 HBase容灾等待同步的wal文件数量超过阈值
        • ALM-20002 Hue服务不可用
        • ALM-24000 Flume服务不可用
        • ALM-24001 Flume Agent异常
        • ALM-24003 Flume Client连接中断
        • ALM-24004 Flume读取数据异常
        • ALM-24005 Flume传输数据异常
        • ALM-24006 Flume Server堆内存使用率超过阈值
        • ALM-24007 Flume Server直接内存使用率超过阈值
        • ALM-24008 Flume Server非堆内存使用率超过阈值
        • ALM-24009 Flume Server垃圾回收(GC)时间超过阈值
        • ALM-24010 Flume证书文件非法或已损坏
        • ALM-24011 Flume证书文件即将过期
        • ALM-24012 Flume证书文件已过期
        • ALM-24013 Flume MonitorServer证书文件非法或已损坏
        • ALM-24014 Flume MonitorServer证书文件即将过期
        • ALM-24015 Flume MonitorServer证书文件已过期
        • ALM-25000 LdapServer服务不可用
        • ALM-25004 LdapServer数据同步异常
        • ALM-25005 Nscd服务异常
        • ALM-25006 Sssd服务异常
        • ALM-25500 KrbServer服务不可用
        • ALM-26051 Storm服务不可用
        • ALM-26052 Storm服务可用Supervisor数量小于阈值
        • ALM-26053 Storm Slot使用率超过阈值
        • ALM-26054 Nimbus堆内存使用率超过阈值
        • ALM-27001 DBService服务不可用
        • ALM-27003 DBService主备节点间心跳中断
        • ALM-27004 DBService主备数据不同步
        • ALM-27005 数据库连接数使用率超过阈值
        • ALM-27006 数据目录磁盘空间使用率超过阈值
        • ALM-28001 Spark服务不可用(2.x及以前版本)
        • ALM-27007 数据库进入只读模式
        • ALM-29000 Impala服务不可用
        • ALM-29004 Impalad进程内存占用率超过阈值
        • ALM-29005 Impalad JDBC连接数超过阈值
        • ALM-29006 Impalad ODBC连接数超过阈值
        • ALM-29100 Kudu服务不可用
        • ALM-29104 Tserver进程内存占用率超过阈值
        • ALM-29106 Tserver进程CPU占用率过高
        • ALM-29107 Tserver进程内存使用百分比超过阈值
        • ALM-38000 Kafka服务不可用
        • ALM-38001 Kafka磁盘容量不足
        • ALM-38002 Kafka堆内存使用率超过阈值
        • ALM-38004 Kafka直接内存使用率超过阈值
        • ALM-38005 Broker进程垃圾回收(GC)时间超过阈值
        • ALM-38006 Kafka未完全同步的Partition百分比超过阈值
        • ALM-38007 Kafka默认用户状态异常
        • ALM-38008 Kafka数据目录状态异常
        • ALM-38009 Broker磁盘IO繁忙
        • ALM-38010 存在单副本的Topic
        • ALM-43001 Spark2x服务不可用
        • ALM-43006 JobHistory2x进程堆内存使用超出阈值
        • ALM-43007 JobHistory2x进程非堆内存使用超出阈值
        • ALM-43008 JobHistory2x进程直接内存使用超出阈值
        • ALM-43009 JobHistory2x进程GC时间超出阈值
        • ALM-43010 JDBCServer2x进程堆内存使用超出阈值
        • ALM-43011 JDBCServer2x进程非堆内存使用超出阈值
        • ALM-43012 JDBCServer2x进程直接内存使用超出阈值
        • ALM-43013 JDBCServer2x进程GC时间超出阈值
        • ALM-43017 JDBCServer2x进程Full GC次数超出阈值
        • ALM-43018 JobHistory2x进程Full GC次数超出阈值
        • ALM-43019 IndexServer2x进程堆内存使用超出阈值
        • ALM-43020 IndexServer2x进程非堆内存使用超出阈值
        • ALM-43021 IndexServer2x进程直接内存使用超出阈值
        • ALM-43022 IndexServer2x进程GC时间超出阈值
        • ALM-43023 IndexServer2x进程Full GC次数超出阈值
        • ALM-44004 Presto Coordinator资源组排队任务超过阈值
        • ALM-44005 Presto Coordinator进程垃圾收集时间超出阈值
        • ALM-44006 Presto Worker进程垃圾收集时间超出阈值
        • ALM-45175 OBS元数据接口调用平均时间超过阈值
        • ALM-45176 OBS元数据接口调用成功率低于阈值
        • ALM-45177 OBS数据读操作接口调用成功率低于阈值
        • ALM-45178 OBS数据写操作接口调用成功率低于阈值
        • ALM-45275 Ranger服务不可用
        • ALM-45276 RangerAdmin状态异常
        • ALM-45277 RangerAdmin堆内存使用率超过阈值
        • ALM-45278 RangerAdmin直接内存使用率超过阈值
        • ALM-45279 RangerAdmin非堆内存使用率超过阈值
        • ALM-45280 RangerAdmin垃圾回收(GC)时间超过阈值
        • ALM-45281 UserSync堆内存使用率超过阈值
        • ALM-45282 UserSync直接内存使用率超过阈值
        • ALM-45283 UserSync非堆内存使用率超过阈值
        • ALM-45284 UserSync垃圾回收(GC)时间超过阈值
        • ALM-45285 TagSync堆内存使用率超过阈值
        • ALM-45286 TagSync直接内存使用率超过阈值
        • ALM-45287 TagSync非堆内存使用率超过阈值
        • ALM-45288 TagSync垃圾回收(GC)时间超过阈值
        • ALM-45425 ClickHouse服务不可用
        • ALM-45426 ClickHouse服务在ZooKeeper的数量配额使用率超过阈值
        • ALM-45427 ClickHouse服务在ZooKeeper的容量配额使用率超过阈值
        • ALM-45736 Guardian服务不可用
        • MRS Manager操作指导(适用于2.x及之前)
        • MRS Manager简介
        • 查看集群运行任务
        • 监控管理
        • 系统概览
        • 管理服务和主机监控
        • 管理资源分布
        • 配置监控指标转储
        • 告警管理
        • 查看与手动清除告警
        • 配置监控与告警阈值
        • 配置Syslog北向参数
        • 配置SNMP北向参数
        • 对象管理
        • 对象管理简介
        • 查看配置
        • 管理服务操作
        • 配置服务参数
        • 配置服务自定义参数
        • 同步服务配置
        • 管理角色实例操作
        • 配置角色实例参数
        • 同步角色实例配置
        • 退服和入服务角色实例
        • 管理主机操作
        • 隔离主机
        • 取消隔离主机
        • 启动及停止集群
        • 同步集群配置
        • 导出集群的配置数据
        • 日志管理
        • 关于日志
        • Manager日志清单
        • 查看及导出审计日志
        • 导出服务日志
        • 配置审计日志导出参数
        • 健康检查管理
        • 执行健康检查
        • 查看并导出检查报告
        • 配置健康检查报告保存数
        • 管理健康检查报告
        • DBService健康检查指标项说明
        • Flume 健康检查指标项说明
        • HBase健康检查指标项说明
        • Host健康检查指标项说明
        • HDFS健康检查指标项说明
        • Hive健康检查指标项说明
        • Kafka健康检查指标项说明
        • KrbServer健康检查指标项说明
        • LdapServer健康检查指标项说明
        • Loader健康检查指标项说明
        • MapReduce健康检查指标项说明
        • OMS健康检查指标项说明
        • Spark健康检查指标项说明
        • Storm健康检查指标项说明
        • Yarn健康检查指标项说明
        • ZooKeeper健康检查指标项说明
        • 静态服务池管理
        • 查看静态服务池状态
        • 配置静态服务池
        • 租户管理
        • 租户简介
        • 添加租户
        • 添加子租户
        • 删除租户
        • 管理租户目录
        • 恢复租户数据
        • 添加资源池
        • 修改资源池
        • 删除资源池
        • 配置队列
        • 配置资源池的队列容量策略
        • 清除队列配置
        • 备份与恢复
        • 备份与恢复简介
        • 备份元数据
        • 恢复元数据
        • 修改备份任务
        • 查看备份恢复任务
        • 安全管理
        • 未开启Kerberos认证集群中的默认用户清单
        • 开启Kerberos认证集群中的默认用户清单
        • 修改操作系统用户密码
        • 修改admin密码
        • 修改Kerberos管理员密码
        • 修改LDAP管理员和LDAP用户密码
        • 修改组件运行用户密码
        • 修改OMS数据库管理员密码
        • 修改OMS数据库数据访问用户密码
        • 修改组件数据库用户密码
        • 更换HA证书
        • 更新集群密钥
        • 权限管理
        • 创建角色
        • 创建用户组
        • 创建用户
        • 修改用户信息
        • 锁定用户
        • 解锁用户
        • 删除用户
        • 修改操作用户密码
        • 初始化系统用户密码
        • 下载用户认证文件
        • 修改密码策略
        • MRS多用户权限管理
        • MRS集群中的用户与权限
        • 开启Kerberos认证集群中的默认用户清单
        • 创建角色
        • 创建用户组
        • 创建用户
        • 修改用户信息
        • 锁定用户
        • 解锁用户
        • 删除用户
        • 修改操作用户密码
        • 初始化系统用户密码
        • 下载用户认证文件
        • 修改密码策略
        • 配置跨集群互信
        • 配置并使用互信集群的用户
        • 配置MRS多用户访问OBS细粒度权限
        • 补丁操作指导
        • 安装与卸载补丁
        • 支持滚动补丁
        • 修复隔离主机补丁
        • 支持滚动重启
        • 安全性说明
        • 集群(未启用Kerberos认证)安全配置建议
        • 安全认证原理和认证机制
        • 高危操作一览表
        • 附录
        • MRS 3.x版本操作注意事项
        • 最佳实践
        • 数据分析
        • 使用Hive加载HDFS数据并分析图书评分情况
        • 通过Flink作业处理OBS数据
        • 常见问题
        • 计费类
        • 购买类
        • 操作类
        • 集群创建类
        • 帐号密码类
        • 帐号权限类
        • 客户端使用类
        • Web页面访问类
        • 监控告警类
        • 性能优化类
        • 作业开发类
        • 集群升级/补丁
        • 集群访问类
        • 大数据业务开发
        • API使用类
        • 集群管理类
        • Kerberos使用
        • 元数据管理
        • 文档下载
        • 翼MapReduce服务用户操作指南
        • 翼MapReduce服务组件操作指南
        • 翼MapReduce服务故障排除
        • 相关协议
        • 天翼云翼MapReduce服务协议
          无相关产品

          本页目录

          概述

          原理

          任务

          快照

          DistCp

          本地快速恢复

          NAS

          规格

          帮助中心 翼MapReduce 用户指南 FusionInsight Manager操作指导(适用于3.x) 备份恢复管理 备份恢复简介
          备份恢复简介
          更新时间 2023-12-11 16:23:14
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          最近更新时间: 2023-12-11 16:23:14
          下载本页

          备份恢复简介

          2023-12-11 08:23:14

          概述

          FusionInsight Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。

          备份功能支持将数据备份至本地磁盘(LocalDir)、本端HDFS(LocalHDFS)、远端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服务器(SFTP)、OBS,具体操作请参考备份数据。

          对于支持多服务的组件,支持同服务多个实例的备份恢复功能且备份恢复操作与自身服务实例一致。

          说明

          MRS 3.1.0及之后版本才支持备份数据到OBS。

          备份恢复任务的使用场景如下:

          • 用于日常备份,确保系统及组件的数据安全。
          • 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。
          • 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。

          根据业务需要备份Manager配置数据

          备份类型备份内容备份目录类型

          OMS

          默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。

          l    LocalDir

          l    LocalHDFS

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          l    OBS

          根据业务需要备份组件元数据或其他数据

          备份类型备份内容备份目录类型
          DBService

          备份DBService管理的组件(Loader、Hive、Spark、Oozie、Hue)的元数据。对于安装了多服务的集群,包含多个Hive和Spark服务实例的元数据。

          l    LocalDir

          l    LocalHDFS

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          l    OBS

          Kafka

          Kafka的元数据。

          l    LocalDir

          l    LocalHDFS

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    OBS

          NameNode

          备份HDFS元数据。添加多个NameService后,支持不同NameService的备份恢复功能且备份恢复操作与默认实例“hacluster”一致。

          l    LocalDir

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          l    OBS

          Yarn

          备份Yarn服务资源池相关信息。

          HBase

          HBase系统表的tableinfo文件和数据文件。

          根据业务需要备份特定组件业务数据

          备份类型备份内容备份目录类型

          HBase

          备份表级别的用户数据。对于安装了多服务的集群,支持多个HBase服务实例的备份恢复功能且备份恢复操作与HBase服务实例一致。

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          HDFS

          备份用户业务对应的目录或文件。

          说明

          加密目录不支持备份恢复。

          Hive

          备份表级别的用户数据。对于安装了多服务的集群,支持多个Hive服务实例的备份恢复功能且备份恢复操作与Hive服务实例一致。

          需要特别说明的是,部分组件不提供单独的数据备份与恢复功能:

          • Kafka支持副本特性,在创建主题时可指定多个副本来备份数据。
          • Mapreduce和Yarn的数据存放在HDFS上,故其依赖HDFS提供备份与恢复即可。
          • ZooKeeper中存储的业务数据,其备份恢复能力由各上层组件按需独立实现。

          原理

          任务

          在进行备份恢复之前,需要先创建备份恢复任务,并指定任务的参数,例如任务名称、备份数据源和备份文件保存的目录类型等等。通过执行备份恢复任务,用户可完成数据的备份恢复需求。在使用Manager执行恢复HDFS、HBase、Hive和NameNode数据时,无法访问集群。

          每个备份任务可同时备份不同的数据源,每个数据源将生成独立的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。

          备份任务提供全量备份或增量备份的策略,云数据备份任务不支持增量备份策略。如果备份的路径类型是NFS或CIFS,不建议使用增量备份功能。因为在NFS或CIFS备份时使用增量备份时,每次增量备份都会刷新最近一次全量备份的备份数据,所以不会产生新的恢复点。

          说明

          任务运行规则:

          • 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。

          • 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒以上,否则任务推迟到下个周期启动。手动启动任务无时间间隔限制。

          • 周期任务自动执行时,当前时间不得晚于任务开始时间120秒以上,否则任务推迟到下个周期启动。

          • 周期任务锁定时无法自动执行,需要手动解锁。

          • OMS、DBService、Kafka和NameNode备份任务开始执行前,若主管理节点“LocalBackup”分区可用空间小于20GB,则无法开始执行。

          管理员在规划备份恢复任务时,请严格根据业务逻辑、数据存储结构、数据库或表关联关系,选择需要备份或者恢复的数据。系统默认创建间隔为1小时的周期备份任务“default-oms”、“default- 集群ID ”,支持全量备份OMS及集群的DBService、NameNode等元数据到本地磁盘。

          快照

          系统通过快照技术,快速备份数据。快照包含HBase快照、HDFS快照快照。

          • HBase快照

          HBase快照是HBase表在特定时间的一个备份,该备份文件不复制业务数据,不影响RegionServer。HBase快照主要复制表的元数据,包含table descriptor,region info和HFile的引用信息。通过这些元数据信息可以恢复快照时间点之前的数据。

          • HDFS快照

          HDFS快照是HDFS文件系统在特定时间点的只读备份副本,主要用于数据备份、用户误操作保护和灾难恢复的场景。

          任意HDFS目录均可以配置启用快照功能并创建对应的快照文件,为目录创建快照前系统会自动启用此目录的快照功能。创建快照不会对正常的HDFS操作有任何影响。每个HDFS目录最多可创建65536个快照。

          如果一个HDFS目录已创建快照,那么在快照完全删除以前,此目录无法删除或修改名称。该目录的上级目录或子目录也无法再创建快照。

          DistCp

          DistCp(distributed copy)是一个用于在本集群HDFS中或不同集群HDFS间进行大量数据复制的工具。在HBase、HDFS或Hive元数据的备份恢复任务中,如果选择将数据备份在备集群HDFS中,系统将调用DistCp完成操作。主备集群请选择安装相同版本的MRS软件版本并安装集群系统。

          DistCp使用Mapreduce来影响数据的分布、异常处理及恢复和报告,此工具会把指定列表中包含的多个源文件和目录输入不同的Map任务,每个Map任务将复制列表中指定文件对应分区的数据。

          使用DistCp在两个集群的HDFS间进行数据复制,集群双方需要分别配置互信(同一个FusionInsight Manager管理下的集群不需要配置互信)和启用集群间拷贝功能。集群数据备份到另一个集群的HDFS时,需要安装Yarn组件,否则备份失败。

          本地快速恢复

          使用DistCp将本集群HBase、HDFS和Hive数据备份在备集群HDFS中以后,本集群HDFS保留了备份数据的快照。用户可以通过创建本地快速恢复任务,直接从本集群HDFS的快照文件中恢复数据。

          NAS

          NAS(Network Attached Storage)是一种特殊的专用数据存储服务器,包括存储器件和内嵌系统软件,可提供跨平台文件共享功能。利用NFS(支持NFSv3、NFSv4)和CIFS(支持SMBv2、SMBv3)协议,用户可以连通MRS的业务平面与NAS服务器,将数据备份至NAS或从NAS恢复数据。

          说明
          • 数据备份至NAS前,系统会自动将NAS共享地址挂载为本地分区。在备份结束后,系统会卸载NAS共享分区。

          • 为防止备份恢复失败,数据备份及恢复期间,请勿访问NAS服务器挂载至本地的共享地址,如:“/srv/BigData/LocalBackup/nas”。

          • 业务数据备份至NAS时,会使用DistCp。

          规格

          备份恢复特性规格

          项目 参数
          备份或恢复任务最大数量(个) 100
          同一集群同时运行的任务数量(个) 1
          等待运行的任务最大数量(个) 199
          Linux本地磁盘最大备份文件大小(GB) 600
          说明

          若业务数据存储在ZooKeeper中的上层组件,在备份恢复这类数据时,需确保单个备份或恢复任务的znode数量不会过大,否则会造成任务失败,并影响Zookeeper的服务性能。可通过如下方法确认单个备份或恢复任务的znode数量:

          l  单个备份或恢复任务的znode数量要少于操作系统的文件句柄限制。查看句柄限制的方式如下:

          l  使用shell命令输入:cat /proc/sys/fs/file-max,用于查看系统级的最大限制。

          1.    使用shell命令输入:ulimit -n,用于查看用户级的限制。

          l  对于父目录的znode数量超过上述限制的情形,可以通过其子目录进行批量备份与恢复。使用Zookeeper提供的客户端脚本查看znode数量的方式:

          l  在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Zookeeper > 实例”,查看Zookeeper各角色的管理IP。

          1.    登录客户端所在节点,执行如下命令:

          zkCli.sh -server ip:port,其中ip可以为任意管理IP,port默认值是2181。

          2.    当看到如下输出信息时,表示已经成功连接上Zookeeper服务器。

          WatchedEvent state:SyncConnected type:None path:null
          [zk: ip:port(CONNECIED) 0]

          3.    使用getusage命令查看待备份目录的znode数量,例如:

          getusage /hbase/region,输出结果中"Node count=xxxxxx"即表示region目录下存储的znode数量。

          “default”任务规格

          项目 OMS HBase Kafka DBService NameNode
          备份周期 1小时 1小时 1小时 1小时 1小时
          最大备份数 168个(7天历史数据) 168个(7天历史数据) 168个(7天历史数据) 168个(7天历史数据) 24个(1天历史数据)
          单个备份文件最大大小 10MB 10 MB 512MB 100MB 20GB
          最大占用磁盘大小 1.64GB 1.64 GB 84GB 16.41GB 480GB
          备份数据保存位置 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/”
          说明
          • 默认任务保存的备份数据,请管理员根据企业运维要求,定期转移并保存到集群外部。

          • 管理员可直接创建DistCp备份任务将OMS、DBService和NameNode等的数据保存到外部集群。

          • 集群数据的备份任务运行时长可根据要备份的数据量除以集群与备份设备之间的网络带宽来计算得出,在实际场景中,建议将计算得出的时常乘以1.5作为任务执行时长参考值。

          • 执行数据备份任务会对集群的最大IO性能产生影响,建议备份任务运行时间与集群业务高峰错开。

          分享文章
          • 新浪微博
          • 微信
            扫码分享
          • 复制链接
          本章主要介绍翼MapReduce的备份恢复简介。

          概述

          FusionInsight Manager提供对集群内的用户数据及系统数据的备份恢复能力,备份功能按组件提供。系统支持备份Manager的数据、组件元数据及业务数据。

          备份功能支持将数据备份至本地磁盘(LocalDir)、本端HDFS(LocalHDFS)、远端HDFS(RemoteHDFS)、NAS(NFS/CIFS)、SFTP服务器(SFTP)、OBS,具体操作请参考备份数据。

          对于支持多服务的组件,支持同服务多个实例的备份恢复功能且备份恢复操作与自身服务实例一致。

          说明

          MRS 3.1.0及之后版本才支持备份数据到OBS。

          备份恢复任务的使用场景如下:

          • 用于日常备份,确保系统及组件的数据安全。
          • 当系统故障导致无法工作时,使用已备份的数据完成恢复操作。
          • 当主集群完全故障,需要创建一个与主集群完全相同的镜像集群,可以使用已备份的数据完成恢复操作。

          根据业务需要备份Manager配置数据

          备份类型备份内容备份目录类型

          OMS

          默认备份集群管理系统中的数据库数据(不包含告警数据)以及配置数据。

          l    LocalDir

          l    LocalHDFS

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          l    OBS

          备份类型备份内容备份目录类型

          根据业务需要备份组件元数据或其他数据

          备份类型备份内容备份目录类型
          DBService

          备份DBService管理的组件(Loader、Hive、Spark、Oozie、Hue)的元数据。对于安装了多服务的集群,包含多个Hive和Spark服务实例的元数据。

          l    LocalDir

          l    LocalHDFS

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          l    OBS

          Kafka

          Kafka的元数据。

          l    LocalDir

          l    LocalHDFS

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    OBS

          NameNode

          备份HDFS元数据。添加多个NameService后,支持不同NameService的备份恢复功能且备份恢复操作与默认实例“hacluster”一致。

          l    LocalDir

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          l    OBS

          Yarn

          备份Yarn服务资源池相关信息。

          HBase

          HBase系统表的tableinfo文件和数据文件。

          备份类型备份内容备份目录类型

          根据业务需要备份特定组件业务数据

          备份类型备份内容备份目录类型

          HBase

          备份表级别的用户数据。对于安装了多服务的集群,支持多个HBase服务实例的备份恢复功能且备份恢复操作与HBase服务实例一致。

          l    RemoteHDFS

          l    NFS

          l    CIFS

          l    SFTP

          HDFS

          备份用户业务对应的目录或文件。

          说明

          加密目录不支持备份恢复。

          Hive

          备份表级别的用户数据。对于安装了多服务的集群,支持多个Hive服务实例的备份恢复功能且备份恢复操作与Hive服务实例一致。

          备份类型备份内容备份目录类型

          需要特别说明的是,部分组件不提供单独的数据备份与恢复功能:

          • Kafka支持副本特性,在创建主题时可指定多个副本来备份数据。
          • Mapreduce和Yarn的数据存放在HDFS上,故其依赖HDFS提供备份与恢复即可。
          • ZooKeeper中存储的业务数据,其备份恢复能力由各上层组件按需独立实现。

          原理

          任务

          在进行备份恢复之前,需要先创建备份恢复任务,并指定任务的参数,例如任务名称、备份数据源和备份文件保存的目录类型等等。通过执行备份恢复任务,用户可完成数据的备份恢复需求。在使用Manager执行恢复HDFS、HBase、Hive和NameNode数据时,无法访问集群。

          每个备份任务可同时备份不同的数据源,每个数据源将生成独立的备份文件,每次备份的所有备份文件组成一个备份文件集,可用于恢复任务。备份任务支持将备份文件保存在Linux本地磁盘、本集群HDFS与备集群HDFS中。

          备份任务提供全量备份或增量备份的策略,云数据备份任务不支持增量备份策略。如果备份的路径类型是NFS或CIFS,不建议使用增量备份功能。因为在NFS或CIFS备份时使用增量备份时,每次增量备份都会刷新最近一次全量备份的备份数据,所以不会产生新的恢复点。

          说明

          任务运行规则:

          • 某个任务已经处于执行状态,则当前任务无法重复执行,其他任务也无法启动。

          • 周期任务自动执行时,距离该任务上次执行的时间间隔需要在120秒以上,否则任务推迟到下个周期启动。手动启动任务无时间间隔限制。

          • 周期任务自动执行时,当前时间不得晚于任务开始时间120秒以上,否则任务推迟到下个周期启动。

          • 周期任务锁定时无法自动执行,需要手动解锁。

          • OMS、DBService、Kafka和NameNode备份任务开始执行前,若主管理节点“LocalBackup”分区可用空间小于20GB,则无法开始执行。

          管理员在规划备份恢复任务时,请严格根据业务逻辑、数据存储结构、数据库或表关联关系,选择需要备份或者恢复的数据。系统默认创建间隔为1小时的周期备份任务“default-oms”、“default- 集群ID ”,支持全量备份OMS及集群的DBService、NameNode等元数据到本地磁盘。

          快照

          系统通过快照技术,快速备份数据。快照包含HBase快照、HDFS快照快照。

          • HBase快照

          HBase快照是HBase表在特定时间的一个备份,该备份文件不复制业务数据,不影响RegionServer。HBase快照主要复制表的元数据,包含table descriptor,region info和HFile的引用信息。通过这些元数据信息可以恢复快照时间点之前的数据。

          • HDFS快照

          HDFS快照是HDFS文件系统在特定时间点的只读备份副本,主要用于数据备份、用户误操作保护和灾难恢复的场景。

          任意HDFS目录均可以配置启用快照功能并创建对应的快照文件,为目录创建快照前系统会自动启用此目录的快照功能。创建快照不会对正常的HDFS操作有任何影响。每个HDFS目录最多可创建65536个快照。

          如果一个HDFS目录已创建快照,那么在快照完全删除以前,此目录无法删除或修改名称。该目录的上级目录或子目录也无法再创建快照。

          DistCp

          DistCp(distributed copy)是一个用于在本集群HDFS中或不同集群HDFS间进行大量数据复制的工具。在HBase、HDFS或Hive元数据的备份恢复任务中,如果选择将数据备份在备集群HDFS中,系统将调用DistCp完成操作。主备集群请选择安装相同版本的MRS软件版本并安装集群系统。

          DistCp使用Mapreduce来影响数据的分布、异常处理及恢复和报告,此工具会把指定列表中包含的多个源文件和目录输入不同的Map任务,每个Map任务将复制列表中指定文件对应分区的数据。

          使用DistCp在两个集群的HDFS间进行数据复制,集群双方需要分别配置互信(同一个FusionInsight Manager管理下的集群不需要配置互信)和启用集群间拷贝功能。集群数据备份到另一个集群的HDFS时,需要安装Yarn组件,否则备份失败。

          本地快速恢复

          使用DistCp将本集群HBase、HDFS和Hive数据备份在备集群HDFS中以后,本集群HDFS保留了备份数据的快照。用户可以通过创建本地快速恢复任务,直接从本集群HDFS的快照文件中恢复数据。

          NAS

          NAS(Network Attached Storage)是一种特殊的专用数据存储服务器,包括存储器件和内嵌系统软件,可提供跨平台文件共享功能。利用NFS(支持NFSv3、NFSv4)和CIFS(支持SMBv2、SMBv3)协议,用户可以连通MRS的业务平面与NAS服务器,将数据备份至NAS或从NAS恢复数据。

          说明
          • 数据备份至NAS前,系统会自动将NAS共享地址挂载为本地分区。在备份结束后,系统会卸载NAS共享分区。

          • 为防止备份恢复失败,数据备份及恢复期间,请勿访问NAS服务器挂载至本地的共享地址,如:“/srv/BigData/LocalBackup/nas”。

          • 业务数据备份至NAS时,会使用DistCp。

          规格

          备份恢复特性规格

          项目 参数
          备份或恢复任务最大数量(个) 100
          同一集群同时运行的任务数量(个) 1
          等待运行的任务最大数量(个) 199
          Linux本地磁盘最大备份文件大小(GB) 600
          项目 参数
          说明

          若业务数据存储在ZooKeeper中的上层组件,在备份恢复这类数据时,需确保单个备份或恢复任务的znode数量不会过大,否则会造成任务失败,并影响Zookeeper的服务性能。可通过如下方法确认单个备份或恢复任务的znode数量:

          l  单个备份或恢复任务的znode数量要少于操作系统的文件句柄限制。查看句柄限制的方式如下:

          l  使用shell命令输入:cat /proc/sys/fs/file-max,用于查看系统级的最大限制。

          1.    使用shell命令输入:ulimit -n,用于查看用户级的限制。

          l  对于父目录的znode数量超过上述限制的情形,可以通过其子目录进行批量备份与恢复。使用Zookeeper提供的客户端脚本查看znode数量的方式:

          l  在FusionInsight Manager首页,选择“集群 > 待操作集群的名称 > 服务 > Zookeeper > 实例”,查看Zookeeper各角色的管理IP。

          1.    登录客户端所在节点,执行如下命令:

          zkCli.sh -server ip:port,其中ip可以为任意管理IP,port默认值是2181。

          2.    当看到如下输出信息时,表示已经成功连接上Zookeeper服务器。

          WatchedEvent state:SyncConnected type:None path:null
          [zk: ip:port(CONNECIED) 0]

          3.    使用getusage命令查看待备份目录的znode数量,例如:

          getusage /hbase/region,输出结果中"Node count=xxxxxx"即表示region目录下存储的znode数量。

          “default”任务规格

          项目 OMS HBase Kafka DBService NameNode
          备份周期 1小时 1小时 1小时 1小时 1小时
          最大备份数 168个(7天历史数据) 168个(7天历史数据) 168个(7天历史数据) 168个(7天历史数据) 24个(1天历史数据)
          单个备份文件最大大小 10MB 10 MB 512MB 100MB 20GB
          最大占用磁盘大小 1.64GB 1.64 GB 84GB 16.41GB 480GB
          备份数据保存位置 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/” 主备管理节点“数据存放路径/LocalBackup/”
          项目 OMS HBase Kafka DBService NameNode
          说明
          • 默认任务保存的备份数据,请管理员根据企业运维要求,定期转移并保存到集群外部。

          • 管理员可直接创建DistCp备份任务将OMS、DBService和NameNode等的数据保存到外部集群。

          • 集群数据的备份任务运行时长可根据要备份的数据量除以集群与备份设备之间的网络带宽来计算得出,在实际场景中,建议将计算得出的时常乘以1.5作为任务执行时长参考值。

          • 执行数据备份任务会对集群的最大IO性能产生影响,建议备份任务运行时间与集群业务高峰错开。

          上一篇 :  备份恢复管理
          下一篇 :  备份数据
          建议与反馈
          以上内容是否对您有帮助?
          有 没有
          感谢您的反馈,您的支持是我们前进的动力!
          您的操作过于频繁,清稍后再试
          文档反馈

          建议您登录后反馈,可在建议与反馈里查看问题处理进度

          鼠标选中文档,精准反馈问题

          选中存在疑惑的内容,即可快速反馈问题,我们会跟进处理

          知道了

           文本反馈

          本页目录

          概述
          原理
          任务
          快照
          DistCp
          本地快速恢复
          NAS
          规格
          搜索
            无相关产品
            ©2025 天翼云科技有限公司版权所有 增值电信业务经营许可证A2.B1.B2-20090001
            公司地址:北京市东城区青龙胡同甲1号、3号2幢2层205-32室
            备案 京公网安备11010802043424号 京ICP备 2021034386号
            ©2025天翼云科技有限公司版权所有
            京ICP备 2021034386号
            备案 京公网安备11010802043424号
            增值电信业务经营许可证A2.B1.B2-20090001
            用户协议 隐私政策 法律声明