禁用操作
下表中描述了在集群操作与维护阶段,进行日常操作时应注意的禁用操作。
类别 |
操作风险 |
严禁删除ZooKeeper相关数据目录 |
HDFS/Yarn/HBase/Hive等很多组件都依赖于ZooKeeper,在ZooKeeper中保存元数据信息。删除ZooKeeper中相关数据目录将会影响相关组件的正常运行。 |
严禁手动修改Hive元数据库的数据(Hivemeta数据库) |
修改Hive元数据可能会导致Hive数据解析错误,Hive无法正常提供服务。 |
禁止对Hive的元数据表手动进行insert和update操作 |
修改Hive元数据可能会导致Hive数据解析错误,Hive无法正常提供服务。 |
严禁修改Hive私有文件目录的权限 |
修改该目录权限可能会导致Hive服务不可用。 |
严禁修改Kafka配置文件中broker.id |
修改Kafka配置文件中broker.id将会导致该节点数据失效。 |
严禁修改节点主机名 |
主机名修改后会导致该主机上相关实例和上层组件无法正常提供服务,且无法修复。 |
禁止重装节点OS |
该操作会导致翼MR集群进入异常状态,影响翼MR集群使用。 |
禁止使用私有镜像 |
该操作会导致翼MR集群进入异常状态,影响翼MR集群使用。 |
高危操作
以下各表分别描述了各组件在操作与维护阶段,进行日常操作时应注意的高危操作。
集群高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
绑定弹性公网IP |
该操作会将集群服务的相关主节点如:HDFS NameNode所在的master节点暴露在公网,会增大来自互联网的网络攻击风险可能性。 |
★★★★★ |
请确认绑定的弹性公网IP为可信任的公网访问IP,确认是否针对开放的相关端口进行设置安全组规则,只允许可信的IP可以访问该端口,入方向规则不推荐设置允许0.0.0.0可以访问。 |
无 |
开放集群22端口安全组规则 |
该操作会增大用户利用22进行漏洞攻击的风险。 |
★★★★★ |
针对开放的22端口进行设置安全组规则,只允许可信的IP可以访问该端口,入方向规则不推荐设置允许0.0.0.0可以访问。 |
无 |
删除集群或删除集群数据 |
该操作会导致数据丢失。 |
★★★★★ |
删除前请务必再次确认该操作的必要性,同时要保证数据已完成备份。 |
无 |
缩容集群 |
该操作会导致数据丢失。 |
★★★★★ |
缩容前请务必再次确认该操作的必要性,同时要保证数据已完成备份。 |
无 |
卸载磁盘或格式化数据盘 |
该操作会导致数据丢失。 |
★★★★★ |
操作前请务必再次确认该操作的必要性,同时要保证数据已完成备份。 |
无 |
翼MR Manager高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改日志级别 |
如果修改为DEBUG,会导致Manager运行速度明显降低。 |
★★ |
修改前确认操作的必要性,并及时修改回默认设定。 |
无 |
重启下层服务时,如果勾选同时重启上层服务 |
该操作会导致上层服务业务中断,影响集群的管理维护和业务。 |
★★★★ |
操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作。 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常。 |
修改OLDAP端口 |
修改该参数时,会重启LdapServer和Kerberos服务和其关联的所有服务,会影响业务运行。 |
★★★★★ |
操作前确认操作的必要性,操作时确保同一时间无其它管理维护操作。 |
无 |
重启服务 |
重启过程中会中断服务,勾选同时重启上层服务会导致依赖该服务的上层服务中断。 |
★★★ |
操作前确认重启的必要性。 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常。 |
修改节点SSH默认端口 |
修改默认端口(22)将导致创建集群、添加服务/实例、添加主机、重装主机等功能无法正常使用,并且会导致集群健康检查结果中节点互信等检查项不准确。 |
★★★ |
执行相关操作前将SSH端口改回默认值。 |
无 |
Flink高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改日志级别 |
如果修改为DEBUG,会影响任务运行性能。 |
★★ |
修改前确认操作的必要性,并及时修改回默认设定。 |
无。 |
修改文件权限 |
该操作可能导致任务运行失败。 |
★★★ |
修改前确认操作的必要性。 |
观察相关业务操作是否正常。 |
HBase高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改加密的相关配置项:hbase.regionserver.wal.encryption、hbase.crypto.keyprovider.parameters.uri、hbase.crypto.keyprovider.parameters.encryptedtext |
导致服务启动异常。 |
★★★★ |
修改相关配置项时请严格按照提示描述,加密相关配置项是有关联的,确保修改后的值有效。 |
观察服务能否正常启动。 |
已使用加密的情况下关闭或者切换加密算法,关闭主要指修改hbase.regionserver.wal.encryption为false,切换主要指AES和SMS4的切换 |
导致服务启动失败,数据丢失。 |
★★★★ |
加密HFile和WAL内容的时候,如果已经使用一种加密算法加密并且已经建表,请不要随意关闭或者切换加密算法。未建加密表(ENCRYPTION=>AES/SMS4)的情况下可以切换,否则禁止操作。 |
无。 |
修改HBase实例的启动参数GC_OPTS、HBASE_HEAPSIZE |
导致服务启动异常。 |
★★ |
修改相关配置项时请严格按照提示描述,确保修改后的值有效,且GC_OPTS与HBASE_HEAPSIZE参数值无冲突。 |
观察服务能否正常启动。 |
使用OfflineMetaRepair工具 |
导致服务启动异常。 |
★★★★ |
必须在HBase下线的情况下才可以使用该命令,而且不能在数据迁移的场景中使用该命令。 |
观察HBase服务是否可以正常启动。 |
HDFS高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改HDFS的NameNode的数据存储目录dfs.namenode.name.dir、DataNode的数据配置目录dfs.datanode.data.dir |
导致服务启动异常。 |
★★★★★ |
修改相关配置项时请严格按照提示描述,确保修改后的值有效。 |
观察服务能否正常启动。 |
执行hadoop distcp命令时,使用-delete参数 |
Distcp拷贝时,源集群没有而目的集群存在的文件,会在目的集群删除。 |
★★ |
在使用Distcp的时候,确保是否保留目的集群多余的文件,谨慎使用-delete参数。 |
Distcp数据拷贝后,查看目的的数据是否按照参数配置保留或删除。 |
修改HDFS实例的启动参数GC_OPTS、HADOOP_HEAPSIZE和GC_PROFILE |
导致服务启动异常 |
★★ |
修改相关配置项时请严格按照提示描述,确保修改后的值有效,且GC_OPTS与HADOOP_HEAPSIZE参数值无冲突。 |
观察服务能否正常启动。 |
修改HDFS的副本数目dfs.replication,将默认值由3改为1 |
1. 存储可靠性下降,磁盘故障时,会发生数据丢失。 2. NameNode重启失败,HDFS服务不可用。 |
★★★★ |
修改相关配置项时,请仔细查看参数说明。保证数据存储的副本数不低于2。 |
观察默认的副本值是否不为1,HDFS服务是否可以正常提供服务。 |
修改Hadoop中各模块的RPC通道的加密方式hadoop.rpc.protection |
导致服务故障及业务异常。 |
★★★★★ |
修改相关配置项时请严格按照提示描述,确保修改后的值有效。 |
观察HDFS及其他依赖HDFS的服务能否正常启动,并提供服务。 |
Hive高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改Hive实例的启动参数GC_OPTS |
修改该参数可能会导致Hive实例无法启动。 |
★★ |
修改相关配置项时请严格按照提示描述,确保修改后的值有效。 |
观察服务能否正常启动。 |
删除MetaStore所有实例 |
Hive元数据丢失,Hive无法提供服务。 |
★★★ |
除非确定丢弃Hive所有表信息,否则不要执行该操作。 |
观察服务能否正常启动。 |
使用HDFS文件系统接口或者HBase接口删除或修改Hive表对应的文件 |
该操作会导致Hive业务数据丢失或被篡改。 |
★★ |
除非确定丢弃这些数据,或者确保该修改操作符合业务需求,否则不要执行该操作。 |
观察Hive数据是否完整。 |
使用HDFS文件系统接口或者HBase接口修改Hive表对应的文件或目录访问权限 |
该操作可能会导致相关业务场景不可用。 |
★★★ |
请勿执行该操作。 |
观察相关业务操作是否正常。 |
导出表数据覆盖写入本地目录,例如将t1表中数据导出,覆盖到“/opt/dir”路径下:insert overwrite local directory '/opt/dir' select * from t1 |
该操作会删除目标目录,如果设置错误,会导致软件或者操作系统无法启动。 |
★★★★★ |
确认需要写入的路径下不要包含任何文件;或者不要使用overwrite关键字。 |
观察目标路径是否有文件丢失。 |
将不同的数据库、表或分区文件指定至相同路径,例如默认仓库路径“/user/hive/warehouse” |
执行创建操作后数据可能会紊乱,如果删除其中一个数据库、表或分区,会导致其他对象数据丢失。 |
★★★★★ |
请勿执行该操作。 |
观察目标路径是否有文件丢失。 |
Kafka高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
删除Topic |
该操作将会删除已有的主题和数据。 |
★★★ |
采用Kerberos认证,保证合法用户具有操作权限,并确保主题名称正确。 |
观察主题是否正常处理。 |
删除数据目录 |
该操作将会导致业务信息丢失。 |
★★★ |
请勿手动删除数据目录。 |
观察数据目录是否正常。 |
修改数据目录下内容(创建文件、文件夹) |
该操作将会导致该节点上的Broker实例故障。 |
★★★ |
请勿手动在数据目录下创建或修改文件及文件夹。 |
观察数据目录是否正常。 |
修改磁盘自适应功能“disk.adapter.enable”参数 |
该操作会在磁盘使用空间达到阈值时调整Topic数据保存周期,超出保存周期的历史数据可能被清除。 |
★★★ |
若个别Topic不能做保存周期调整,将该Topic配置在“disk.adapter.topic.blacklist”参数中。 |
在KafkaTopic监控页面观察数据的存储周期。 |
修改数据目录“log.dirs”配置 |
该配置不正确将会导致进程故障。 |
★★★ |
确保所修改或者添加的数据目录为空目录,且权限正确。 |
观察数据目录是否正常。 |
减容Kafka集群 |
该操作将会导致部分Topic数据副本数量减少,可能会导致Topic无法访问。 |
★★ |
请先做好数据副本转移工作,然后再进行减容操作。 |
观察分区所在备份节点是否都存活,确保数据安全。 |
单独启停基础组件 |
该操作将会影响服务的一些基础功能导致业务失败。 |
★★★ |
请勿单独启停ZooKeeper/Kerberos/LDAP等基础组件启停基础组件请勾选关联服务。 |
观察服务状态是否正常。 |
重启/停止服务 |
该操作将会导致业务中断。 |
★★ |
确保在必要时重启/停止服务。 |
观察服务是否运行正常。 |
修改配置参数 |
该操作将需要重启服务使得配置生效。 |
★★ |
确保在必要时修改配置。 |
观察服务是否运行正常。 |
删除/修改元数据 |
修改或者删除ZooKeeper上Kafka的元数据可能导致Topic或者Kafka服务不可用。 |
★★★ |
请勿删除或者修改Kafka在ZooKeeper上保存的元数据信息。 |
观察Topic或者Kafka服务是否可用。 |
修改元数据备份文件 |
修改Kafka元数据备份文件,并被使用进行Kafka元数据恢复成功后,可能导致Topic或者Kafka服务不可用。 |
★★★ |
请勿修改Kafka元数据备份文件。 |
观察Topic或者Kafka服务是否可用。 |
KrbServer高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改KrbServer的参数KADMIN_PORT |
修改该参数后,若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行。 |
★★★★★ |
修改该参数后,请重启KrbServer服务和其关联的所有服务。 |
无。 |
修改KrbServer的参数kdc_ports |
修改该参数后,若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行。 |
★★★★★ |
修改该参数后,请重启KrbServer服务和其关联的所有服务。 |
无。 |
修改KrbServer的参数KPASSWD_PORT |
修改该参数后,若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行。 |
★★★★★ |
修改该参数后,请重启KrbServer服务和其关联的所有服务。 |
无。 |
修改Manager系统域名 |
若没有及时重启KrbServer服务和其关联的所有服务,会导致集群内部KrbClient的配置参数异常,影响业务运行。 |
★★★★★ |
修改该参数后,请重启KrbServer服务和其关联的所有服务。 |
无。 |
配置跨集群互信 |
该操作会重启KrbServer服务和其关联的所有服务,影响集群的管理维护和业务。 |
★★★★★ |
更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作。 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常。 |
LdapServer高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
修改LdapServer的参数LDAP_SERVER_PORT |
修改该参数后,若没有及时重启LdapServer服务和其关联的所有服务,会导致集群内部LdapClient的配置参数异常,影响业务运行。 |
★★★★★ |
修改该参数后,请重启LdapServer服务和其关联的所有服务。 |
无。 |
恢复LdapServer数据 |
该操作会重启Manager和整个集群,影响集群的管理维护和业务。 |
★★★★★ |
修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作。 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常。 |
更换LdapServer所在节点 |
该操作会导致部署在该节点上的服务中断,且当该节点为管理节点时,更换节点会导致重启OMS各进程,影响集群的管理维护。 |
★★★ |
更换前确认操作的必要性,更换时确保同一时间无其它管理维护操作。 |
观察是否有未恢复的告警产生,观察集群的管理维护是否正常,业务是否正常。 |
修改LdapServer密码 |
修改密码需要重启LdapServer和Kerberos服务,影响集群的管理维护和业务。 |
★★★★ |
修改前确认操作的必要性,修改时确保同一时间无其它管理维护操作。 |
无。 |
节点重启导致LdapServer数据损坏 |
如果未停止LdapServer服务,直接重启LdapServer所在节点,可能导致LdapServer数据损坏。 |
★★★★★ |
使用LdapServer备份数据进行恢复。 |
无。 |
YARN高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
删除或者修改数据目录yarn.nodemanager.local-dirs和yarn.nodemanager.log-dirs |
该操作将会导致业务信息丢失。 |
★★★ |
请勿手动删除数据目录。 |
观察数据目录是否正常。 |
ZooKeeper高危操作
操作名称 |
操作风险 |
风险等级 |
规避措施 |
重大操作观察项目 |
删除或者修改ZooKeeper的数据目录 |
该操作将会导致业务信息丢失。 |
★★★ |
修改ZooKeeper目录时候,严格按照扩容指导操作。 |
观察服务能否正常启动,关联组件能否正常启动。 |
修改ZooKeeper实例的启动参数GC_OPTS |
导致服务启动异常。 |
★★ |
修改相关配置项时请严格按照提示描述,确保修改后的值有效。 |
观察服务能否正常启动。 |
设置ZooKeeper中znode的ACL信息 |
修改ZooKeeper中znode的权限,可能会导致其他用户无权限访问该znode,导致系统功能异常。 |
★★★★ |
修改相关配置项时请严格按照“ZooKeeper权限设置指南”章节操作,确保修改ACL信息,不会影响其他组件正常使用ZooKeeper。 |
观察项目观察其他依赖ZooKeeper的组件能否正常启动,并提供服务。 |