建议的Cloudera组网配置如下图,主要包含数据网络和管理网络。
2.数据网络
数据网络是用于数据访问的节点之间的私有集群数据互连,比如在集群内的节点之间移动数据,或者将数据导入到CDH集群。CDH集群通常会连接到企业内部的数据网络。
需要2个TOR交换机:一个是用作带外管理,一个是用于CDH的数据网络。节点的带外管理至少需要一个1GbE交换机。数据网络的交换机一般为10GbE,具体取决于工作负载。
推荐的1GbE交换机是Lenovo RackSwitch G8052。10Gb以太网交换机可以提供额外的I/O带宽,以获得更好的性能。推荐的10GbE交换机是Lenovo System NetworkingRackSwitch 8272。
每个节点的两个Broadcom 10GbE端口可以绑定后连接到G8272交换机,从而提高性能或配置HA。数据网络可以配置为使用VLAN。
注:无论是工作节点还是管理节点,Cloudera都不支持multi-homing。
3.硬件管理网络
硬件管理网络是用于带外硬件管理的1 GbE网络。通过System x3650 M5服务器中的集成管理模块II(IMM2),带外管理可实现集群节点的硬件级管理,如节点部署,基本输入/输出系统(BIOS)配置,状态和电源状态。
Hadoop不依赖于IMM2。根据客户要求,管理链接可以分隔到不同的VLAN或子网上。 管理网络通常直接连接到客户的管理网络。
参考架构需要一个1 Gb以太网TOR交换机用于硬件管理网络。管理员还可以通过客户管理网络访问集群中的所有节点,在第一章的图中,管理链路连接到集成的1 GBaseT适配器上的专用IMM2端口。
4.多机架的网络
以上谈到的数据网络的参考架构配置是由单个网络拓扑构成的。如果是多机架的架构,还需要一个联想RackSwitch G8316核心交换机。 在这种情况下,第二个Broadcom10 GbE端口可以连接到第二个Lenovo RackSwitch G8272。G8272的过载率(over-subscription ratio)是1:2.
下图展示了当CDH集群安装在多个机架上时,如何配置网络。每个机架的G8272交换机通过两个聚合的40 GbE上行链路连接到核心G8316交换机。
注:为了简化这个图,图中仅绘制了一个G8272,但是推荐使用两个G8272并配置为HA。
跨机架的交换机推荐40GbE的,可以用Lenovo System NetworkingRackSwitch G8316。最佳实践是为每个机架安装冗余的核心交换机,以避免单点故障。在每个机架内,G8052交换机可以选择配置为具有两个G8272交换机的上行链路,以允许通过G8316核心交换机在集群机架之间传播管理VLAN。对于大型集群,推荐使用Lenovo System NetworkingRackSwitch G8332,因为每个40 Gb的端口的价格比G8316要更低。可以配置成许多机架能互相访问网络,但可能需要做一些特定的部署配置来满足超过3个机架的快速寻址。
如果开始规划的就是多机架的解决方案,或者随着系统的扩容后面慢慢的加入了一些机架,CDH管理服务相关的节点我们建议分开部署在不同的机架从而最大化容错。
5.CDH其他网络要求
Hadoop网络要求:
1.所有的Hadoop服务器节点应该是独有的网络,而不存在跟其他应用程序的节点共享网络I/O的情况。
2.每个服务器应该都配置静态IP。如果配置了动态IP,在机器重启或者DNS租约过期时,机器的IP地址会改变,这将导致Hadoop服务故障。
3.专用TOR交换机。
4.专用的核心交换刀片或者核心交换机。
5.尽量保证应用服务器与Hadoop“近”一些。
6.CDH只支持IPv4,不支持IPv6
7.机架之间的网络连接速度应该足够快。
8.确保网络接口对于集群中的所有节点应该是一致的。(比如MTU设置应该一样)
9.关闭所有节点的Huge Page compaction
10.确保集群中的所有网络连接都会被监控,比如冲突和丢包问题。以方便后期进行排障。