集群生命周期管理
翼MR支持集群的生命周期管理包括创建集群和删除集群。
- 创建集群:支持用户定制集群的类型,组件范围,各类型的节点数、虚拟机规格、可用区、VPC网络、认证信息,翼MR将为用户自动创建一个符合配置的集群,全程无需用户参与;同时支持用户在集群中运行自定义内容;支持快速创建多应用场景集群,比如创建Hadoop分析集群、HBase集群、Kafka集群。大数据平台同时支持部署异构集群,在集群中存在不同规格的虚机,允许在CPU类型,硬盘容量,硬盘类型,内存大小灵活组合。在集群中支持多种虚机规格混合使用。
- 删除集群:当按需计费的集群不再需要时(包括集群中的数据和配置),用户可以选择删除集群,翼MR会将集群相关的资源全部删除。
创建集群
通过在翼MR服务管理面,客户可以按需创建翼MR集群,通过选择集群所建的区域及使用的云资源规格,一键式创建适合企业业务的翼MR集群。翼MR服务会根据用户选择的集群类型、版本和节点规格,帮助客户自动完成企业级大数据平台的安装部署和参数调优。
翼MR服务为客户提供完全可控的大数据集群,客户在创建时可设置虚拟机的登录方式(密码或者密钥对),所创建的翼MR集群资源完全归客户所用。同时翼MR支持在最小可在两节点4U8G的ECS上部署大数据集群,为客户测试开发提供更多的灵活选择。
翼MR集群类型包括分析集群、流式集群和混合集群。
- 分析集群:用来做离线数据分析,提供的是Hadoop体系的组件。
- 流式集群:用来做流处理任务,提供的是流式处理组件。
- 混合集群:既可以用来做离线数据分析,又可以用来做流处理任务,提供的是Hadoop体系的组件和流式处理组件。
- 自定义:根据业务需求,可以灵活搭配所需组件(翼MR 3.x及后续版本)。
翼MR集群节点类型包括Master节点、Core节点和Task节点。
- Master节点:集群中的管理节点,分布式系统的Master进程和Manager以及数据库均部署在该节点;该类型节点不可扩容。该类型节点的处理能力决定了整个集群的管理上限,MRS服务支持将Master节点规格提高,以支持更大集群的管理。
- Core节点:支持存储和计算两种目标的节点,可扩容、缩容。因承载的数据存储,因此在缩容时,为保证数据不丢失,有较多限制,无法进行弹性伸缩。
- Task节点:仅用于计算的节点,可扩容、缩容。因只承载计算任务,因此可以进行弹性伸缩。
翼MR创建集群方式支持自定义创建集群和快速创建集群两种。
- 自定义创建集群:自定义创建可以灵活地选择计费模式、配置项,针对不同的应用场景,可以选择不同规格的弹性云服务器,全方位贴合您的业务诉求。
- 快速创建集群:用户可以根据应用场景,快速创建对应配置的集群,提高了配置效率,更加方便快捷。当前支持快速创建Hadoop分析集群、HBase集群、Kafka集群。
− Hadoop分析集群:Hadoop分析集群完全使用开源Hadoop生态,采用YARN管理集群资源,提供Hive、Spark离线大规模分布式数据存储和计算,SparkStreaming、Flink流式数据计算,Presto交互式查询,Tez有向无环图的分布式计算框等Hadoop生态圈的组件,进行海量数据分析与查询。
− HBase集群:HBase集群使用Hadoop和HBase组件提供一个稳定可靠,性能卓越、可伸缩、面向列的分布式云存储系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。
− Kafka集群:Kafka集群使用Kafka和Storm组件提供一个开源高吞吐量,可扩展性的消息系统。广泛用于日志收集、监控数据聚合等场景,实现高效的流式数据采集,实时数据处理存储等。
删除集群
翼MR服务支持用户在不需要大数据集群时执行删除集群操作,集群删除后,所有大数据使用的相关云资源都会同时被释放。删除集群前,建议完成数据搬迁或者备份,确认集群无任何业务运行或者集群异常且经运维分析无法继续提供服务时再执行集群删除操作。对于数据存放在云硬盘EVS或直通盘的大数据集群,集群删除后,数据也随之删除,强烈建议您慎重选择删除集群。
集群扩缩容
大数据集群的处理能力通常可以通过增加集群的节点数来横向扩展,当集群规模不符合业务要求时,用户可以通过该功能进行集群节点规模的调整,进行扩容或者缩容;在缩容节点时,翼MR会智能地选择负载最少或者迁移数据量最小节点,并且在缩容过程中,缩容节点不再接收新的任务,正在执行的任务继续执行,同时将该节点数据拷贝至其他节点,该节点进入退服状态,当该节点任务长时间运行无法结束时,会迁移至其他节点运行,最大限度地减少对集群业务的影响。
扩容集群
目前支持扩容集群Core节点或Task节点,用户可通过增加节点数量处理业务峰值负载。MRS集群节点扩容中和扩容后对现有集群的业务没有影响,扩容后引起的数据倾斜问题可参考页面内容进行规避。
包周期集群扩容
当用户创建了翼MR包周期集群后,在订购的周期之内,用户的业务增长超过预期时,就会出现超出包周期订单规模外的扩容诉求。翼MR服务支持包周期集群扩容能力,做到了在轻松帮助您完成扩容的前提下,让您继续享受着包周期的优惠。
您只需要在您业务需要的时候,打开翼MR服务页面,点两下鼠标,便可扩容出您需要的节点数。整个扩容过程无需后台人工介入,只需几分钟,即可完美解决您遇到的日益上涨的业务数据压力。
缩容集群
用户可以根据业务需求量,通过简单的缩减Core节点或者Task节点,对集群进行缩容,以使MRS拥有更优的存储、计算能力,降低运维成本。用户执行MRS集群缩容后,MRS服务将根据节点已安装的服务类型自动选择可以缩容的节点。
Core节点在缩容的时候,会对原节点上的数据进行迁移。业务上如果对数据位置做了缓存,客户端自动刷新位置信息可能会影响时延。缩容节点可能会影响部分HBase on HDFS数据的第一次访问响应时长,可以重启HBase或者对相关的表Disable/Enable来避免。
Task节点本身不存储集群数据,属于计算节点,不存在节点数据迁移的问题。
自动弹性伸缩
特性简介
随着企业的数据越来越多,越来越多的企业选择使用Spark/Hive等技术来进行分析,由于数据量大,处理任务繁重,资源的消耗比较高,因此使用成本也是比较高。当前并不是每个企业在每时每刻在进行分析,而一般是在一天的一个时间段内进行分析汇总,因此翼MR提供了弹性伸缩能力,可以自动在业务在繁忙时申请额外资源,业务不繁忙时释放闲置资源,让用户按需使用,尽可能的帮助客户降低使用成本,聚焦核心业务。
在大数据应用,尤其是周期性的数据分析处理场景中,需要根据业务数据的周期变化,动态调整集群计算资源以满足业务需要。翼MR的弹性伸缩规则功能支持根据集群负载对集群进行弹性伸缩。此外,如果数据量为周期有规律的变化,并且希望在数据量变化前提前完成集群的扩缩容,可以使用翼MR的资源计划特性。
翼MR服务支持规则和时间计划两种弹性伸缩的策略:
- 弹性伸缩规则:根据集群实时负载对Task节点数量进行调整,数据量变化后触发扩缩容,有一定的延后性。
- 资源计划:若数据量变化存在周期性规律,则可通过资源计划在数据量变化前提前完成集群的扩缩容,避免出现增加或减少资源的延后。
弹性伸缩规则与资源计划均可触发弹性伸缩,两者即可同时配置也可单独配置。资源计划与基于负载的弹性伸缩规则叠加使用可以使得集群节点的弹性更好,足以应对偶尔超出预期的数据峰值出现。
当某些业务场景要求在集群扩缩容之后,根据节点数量的变化对资源分配或业务逻辑进行更改时,手动扩缩容的场景客户可以登录集群节点进行操作。对于弹性伸缩场景,翼MR支持通过自定义弹性伸缩自动化脚本来解决。自动化脚本可以在弹性伸缩前后执行相应操作,自动适应业务负载的变化,免去了人工操作。同时,自动化脚本给用户实现个性需求提供了途径,完全自定义的脚本与多个可选的执行时机基本可以满足用户的各项需求,使弹性伸缩更具灵活性。
客户价值
翼MR的自动弹性伸缩可以帮助用户实现以下价值。
- 降低使用成本
部分企业在进行批量分析时,并不是时时刻刻都在进行分析,例如一般都存在数据持续接入,而到了特定时间段(例如凌晨3点)进行批量分析,可能仅需要消耗2小时。
翼MR提供的弹性伸缩能力,可以帮助客户,在晚上的时候,将分析节点扩容到指定规模,而计算完毕后,则自动释放计算节点,尽可能的降低使用成本。
- 平衡突发查询
大数据集群上,由于有大量的数据,企业会经常面临临时的分析任务,例如支撑企业决策的临时数据报表等,都会导致对于资源的消耗在极短时间内剧增。翼MR提供的弹性伸缩能力,可以让突发大数据分析时,可以及时的补充计算节点,避免因为计算能力不足,导致业务宕机,使用户无需创建额外资源,当突发事件结束后,翼MR会自动判断缩容时机,自动完成缩容。
- 聚焦核心业务
大数据作为二次开发平台,开发人员非常难判断具体的资源消耗,因为查询分析的条件复杂性(例如全局排序,过滤,合并等)以及数据的复杂性,例如增量数据的不确定性等,都会导致预估多少计算量是非常困难的行为,而使用弹性伸缩能力,可以让业务人员专注于业务开发,无需分心再做各种资源评估。
创建Task节点
特性简介
支持创建Task节点,只作为计算节点,不存放持久化的数据,是实现弹性伸缩的基础。
客户价值
在翼MR服务只作为计算资源的场景下,使用Task节点可以节省成本,并可以更加方便快捷地对集群节点进行扩缩容,满足用户对集群计算能力随时增减的需求。
用户场景
当集群数据量变化不大而集群业务处理能力需求变化比较大,大的业务处理能力只是临时需要,此时选择添加Task节点。
- 临时业务量增大,如年底报表处理。
- 需要在短时间内处理完原来需要处理很久的任务,如一些紧急分析任务。
升级Master节点规格
翼MR大数据集群采用Manager实现集群的管理,而管理集群的相关服务,如HDFS存储系统的NameNode,Yarn资源管理的ResourceManager,以及MRS的Manager管理服务都部署在集群的Master节点。
随着新业务的上线,集群规模不断扩大,Master节点承担的管理负荷也越来越高,企业用户面临CPU负载过高,内存使用率超过阈值的问题。通常自建大数据集群需要完成数据搬迁,采购升级节点硬件配置实现Master规格提升,而MRS服务借助云服务的优势,实现一键式Master节点升级,并在升级过程中通过Master节点的主备HA保证已有业务的不间断,方便快捷帮助用户解决主节点规格升级问题。
隔离主机
用户发现某个主机出现异常或故障,无法提供服务或影响集群整体性能时,可以临时将主机从集群可用节点排除,使客户端访问其他可用的正常节点。在为集群安装补丁的场景中,也支持排除指定节点不安装补丁。隔离主机仅支持隔离非管理节点。
主机隔离后该主机上的所有角色实例将被停止,且不能对主机及主机上的所有实例进行启动、停止和配置等操作。另外,主机隔离后无法统计并显示该主机硬件和主机上实例的监控状态及指标数据。
标签管理
标签是集群的标识,为集群添加标签,可以方便用户识别和管理拥有的集群资源。翼MR服务通过与标签管理服务(TMS)关联,可以让拥有大量云资源的用户,通过给云资源打标签,快速查找具有同一标签属性的云资源,进行统一检视、修改、删除等管理操作,方便用户对大数据集群及其他相关云资源的统一管理。
您可以在创建集群时添加标签,也可以在集群创建完成后,在集群的详情页添加标签,您最多可以给集群添加10个标签。
集群运维
告警管理
翼MR可以实时监控大数据集群,通过告警和事件可以识别系统健康状态。同时翼MR也支持用户自定义配置监控与告警阈值用于关注各指标的健康情况,当监控数据达到告警阈值,系统将会触发一条告警信息。
翼MR还可以与消息通知服务(SMN)的消息服务系统对接,将告警信息通过短信或者邮件等形式推送给用户。
补丁管理
翼MR集群支持补丁操作,会及时发布开源大数据组件的补丁。用户能够在翼MR集群管理页面上查看到运行集群相关的补丁发布信息,包括其修复问题的详细说明及影响场景,客户可以根据业务运行情况自行选择是否安装补丁。补丁安装过程是一键式操作,无需人工干预,通过滚动安装,补丁升级不会停止业务,保障用户集群长期可用。
翼MR服务可以展示详细的补丁安装过程,补丁管理也支持补丁的卸载和失败回滚。
说明翼MR 3.x及之后版本暂不支持在管理控制台执行补丁管理操作。
运维支撑
翼MR提供的集群的资源是完全属于用户的,通常情况下,当集群出现问题,需要运维人员支撑时,运维人员是无法直接访问的。为了更好的服务客户,翼MR提供两种方式来减少定位问题时的信息传递:
- 日志共享:用户可以在翼MR 页面发起日志共享,选择日志范围共享给运维人员,以便运维人员在不接触集群的情况下帮助定位问题。
- 运维授权:翼MR服务提供运维授权功能,用户在使用翼MR集群过程中,发生问题可以在翼MR页面发起运维授权,由运维人员帮助客户快速定位问题,用户可以随时收回该授权。
健康检查
翼MR为用户提供界面化的系统运行环境自动检查服务,帮助用户实现一键式系统运行健康度巡检和审计,保障系统的正常运行,降低系统运维成本。用户查看检查结果后,还可导出检查报告用于存档及问题分析。
消息通知
特性简介
大数据集群运行过程中经常会进行如下操作:
- 大数据集群经常会发生变更,比如扩容、缩容集群。
- 业务数据量突然变化,集群触发弹性伸缩。
- 相关业务结束,需要终止大数据集群等。
用户想要及时得知这些操作是否成功了,以及当集群出现大数据服务不可用,或节点故障时,用户希望不用隔段时间就登录集群查看,而是可以及时地收到告警通知。翼MR联合消息通知服务(SMN),可以将以上信息主动地通知到用户的手机及邮箱,让维护更加省心省力。
客户价值
配置消息通知后,可以实时给用户发送翼MR集群健康状态,用户可以通过手机短信或邮箱实时接收到翼MR集群变更及组件告警信息。翼MR可以帮助用户轻松运维,实时监控,实时发送告警,操作灵活,大数据业务部署更加省心省力。
特性描述
翼MR联合消息通知服务(SMN),采用主题订阅模型,提供一对多的消息订阅以及通知功能,能够实现一站式集成多种推送通知方式。
首先,作为主题拥有者,我们可以先创建一个主题,并对主题设置访问控制权限来决定哪些发布者和订阅者可以通过该主题进行交流。翼MR将集群消息发送至您有权限发布消息的主题,然后所有订阅了该主题的订阅者(可以是手机短信、邮箱等)都将收到集群变更以及组件告警的消息。