一、 方案简述
公有云服务器模型的建立是为了让产品线团队在工程建设时可以快速的选择合理的配置,22年服务器公有云模型分为针对扩容工程的3.0版本和针对新建工程的4.0版本,建设模型为Excel格式,总体分为管理服务器、计算、网络、存储几大类,每个大类还分为若干个小类,在建设模型中都有对应的测算公式和服务器配置,在做方案设计时,根据需求选择相应模块即可。
本方案针对2022年新建工程,在综合考虑了硬件资源和部署环境的前提下制定了本方案。方案作为“附件2:云主机资源池服务器测算标准产品&2022年新建工程4.0版本v1.30”表格的说明文档,方便建设相关人员合理选择和配置IT硬件。此文档中引用的表格配置截图,均可以在表格中找到详细的原始配置说明。
在表格和方案中所列出的唯一硬件,即代表推荐配置,当出现多个配置的时候表格中会增加如何选择的说明。
二、 模型的更新逻辑
- 电信集团IT基础设施集中采购触发,固定的每年一次招标。公开招标确定了服务器的配置模型,模型分为典配件和选配件;
- 随着云产品的更新、资源利用率优化、软件版本迭代、系统架构变更等触发不定期更新。
- 由本条目触发更新可通过调整本年度集采中同一标包内典配件或选配件配置出新的模型。需要注意的,调整后的成本对平台TCO的影响;
- 本条目触发的需求,本年度硬件需求无法满足的,提交数据后作为下一年度的集采需求。
三、 技术规范
“2022年云公司资源池服务器技术需求”作为各模型的通用技术标准,即作为Cloud OS 4.0 、Cloud OS 3.0的对IT硬件的基本需求。部分更细节的配置要求,则会写到对应的模型配置里。
四、 总体选型原则
- 目前资源池IT设施已经迭代更新到新集采的Ice Lake平台(指intel),宿主机CPU以定制化8378系列为主,各产品模型中CPU也均由第二代可扩展处理器升级到第三代可扩展处理器(intel ice Lake);
- 产品线根据业务类型选择对应的硬件,在器件的选择上除了考虑硬件性能外,还需充分考虑到器件成本和对云产品TCO的影响;
- 工程项目要确认同一个资源池、同一批次、同一型号服务器硬件配置必须一致,相同类型配件需同品牌同规格;
- 同种类型规格服务器,CPU、网卡插槽、内存插槽、磁盘顺序的需按统一方式进行装配;
- 内存选型原则
以SPR平台为基准,内存数量最高数量,并不是所有服务器都有32个插槽,具体还需核实机型。
如果选择兼容内存,请做好记录,并保证记录可传递到交付&部署团队(记录一般是指,厂商确认的邮件,会议纪要等重要信息)。
五、 服务器选型
1.管理服务器(必选)
上表为公有云建设管理群集阶梯表,管理服务器方案由2022年8月起变更为本地盘方案,管理区方案做如下变更:
- 管理服务器考虑到高可用,最小建设单位为3台(小规模建设环境);
- 云平台管理开销统一采用本地盘方案,按照表格配置含本地盘的管理服务器;
- 在管理区中的安全组件(翼盾)启用HA并挂载Ceph,磁盘开销放入Ceph的需求中进行建设;
- 单台典型配置管理主机可用vCPU 375,可用内存 902GB(加载DPDK);
- 各服务都默认部署为S7系列虚拟机,1-100台规模,每台服务器2块8TB机械盘(创建RAID 1),采用1-1型管理服务器;超过100台的规模配置,每台服务器配置1块68TB SSD,采用1-2型管理服务器。
2.宿主机(必选)
- M7:C7:S7对应宿主机台数建设比例为=1:9:10(独享跟共享的比例是1:1);
- 第一阶段M7:C7:S7对应宿主机将采用不同配置的物理机(目前是同配置物理,会有资源浪费,不同配置后需要部署和纳管时区分对应配置,云平台感知)。
- 上表为公有云建设模型中的8378系列CPU宿主机服务器测算公式(表中内置计算公式,填写输入值后可自动计算结果);
- C2代表的是CPU物理核数;
- B3对应的是S7云产品可用vCPU;
- B4对应的是M7、C7产品的可用vCPU;
- E2是需求计算公式,这里的公式针对S7(CPU超配)公有云模型;
- K1是为满足云产品网络需求,在宿主机侧增加DPDK服务,以云产品中标注的云主机网络参数作为需求,根据实际测算得出占用20个物理Core;
- C6是为服务、中间价等预留的vCPU资源总和。
- 上表为宿主机内存配置计算公式,可用vCPU数作为计算的输入值,根据云产品的规格,参照运营数据配置vCPU和内存的比例,并结合业务需求预制了M7、C7、S7的CPU分配值,从而计算出各产品vCPU所需的内存数值;
- 实际配置内存是使用实际需求内存+系统占用内存,再把服务器内存插槽支持情况和CPU内存控制器参数考虑进去,即为实际配置的内存容量。
3.块存储(必选)
- 上表为公有云块存储SSD型(按vCPU及弹性裸金属台数测算)测算公式,支持以建设需求中的vCPU作为测算输入。采用3副本方式部署,为公有云提供块存储服务;
- A1需要输入 M6、C6、S7宿主机和GPU群集等所有vCPU总和。
除以上测算公式外,其他还有SSD型(按容量测算)、HDD型(按vCPU测算)、HDD型(按IOPS测算)(vCPU与IOPS测算结果取最大值)、HDD型(按容量测算)等类型,在公有云模型表格中都有相关测算方法。
4.云内网络(必选)
- 云内网络分为vNET轻量化型和标准型两种部署方案,上表为相关测算公式;
- vNET轻量化方案适用于宿主机数量小于300台的资源池,D3为输入值,是指拟建宿主机数量,按实际情况输入;D5是需要建设网元服务器的数量;
- vNET物理网元方案适用于大规模部署场景。表格中适用于300台宿主机场景;超过300台宿主机的大规模公有云资源池,当每增加150台宿主机或者40G带宽需增加IGW/SGW/AGW/VGW各各一台。
5.广域网络(可选)
- 上表为广域网络测算公式,衡量云外网络建设量的关键指标是入云带宽和云间带宽,这两个值作为需求输入,表格中公式会根据网络速率、网卡端口数量、虚拟化开销等参数计算出所需云网关服务器的数量;
- 最小建设规模为4台;
- 在部署时按照实际需求规划数量。
6.对象存储(可选)
自研分布式对象存储ZOS由对象存储节点、对象存储网关节点和元数据节点构成,支持纠删码和多副本数据冗余保护方式。
1.存储节点测算模型(单AZ数据池)
公有云对象存储(单AZ数据池),支持以建设需求中的存储容量作为测算输入。根据实际配置选择配比,填写每台服务器HDD数量B1及单HDD容量B2,就可以计算出存储服务器数量S2。
2.存储节点测算模型(多AZ数据池)
公有云对象存储(多AZ数据池),支持以建设需求中的存储容量作为测算输入。根据实际配置选择配比,填写每台服务器HDD数量B1、单HDD容量B2及AZ数量A6,就可以计算出存储服务器数量S3。
3.对象网关节点测算模型
通过对象存储节点测算公式得到的存储服务器数量作为A1的输入值,客户带宽需求作为A2的输入值,可以计算出对象存储网关服务器数量S2。
每个AZ内总的存储网关服务器数量S1,按照集群存储节点规模及带宽两种测算方法取大值。
4.对象元数据节点测算模型
通过AZ数量,可以计算出对象存储元数据服务器数量S1,单AZ建设时,至少建设4台。
7.文件存储(可选)
公有云分布式文件存储,分为标准型和性能性。
1.存储节点测算模型
公有云文件存储,支持以建设需求中的存储容量作为测算输入。采用3副本方式部署,根据实际配置填写每台服务器HDD数量B1及单HDD容量B2,就可以计算出存储服务器数量S2。
2.网关、管理节点测算模型(标准型)
通过文件存储节点测算公式得到的存储服务器数量作为A1的输入值,客户带宽需求作为A2的输入值,可以计算出文件网关服务器数量S1及文件管理服务器数量S3。
S1按照集群存储节点规模及带宽两种测算方法取大值。
3.网关、管理节点测算模型(性能型)
性能型测算方法同标准型一样。
4.自研资源池建设最小规格
- 自研分布式文件存储(标准型)由文件存储节点、文件存储网关节点、管理节点构成,支持三副本数据冗余保护方式。
根据文件存储架构设计,存储集群最小规模为2台对象存储网关节点、2台管理节点和9台标准型对象存储节点,提供640TB可用空间。
- 自研分布式文件存储(性能型)由文件存储节点、文件存储网关节点、管理节点构成,支持三副本数据冗余保护方式。
根据文件存储架构设计,存储集群最小规模为2台对象存储网关节点、2台管理节点和7台性能型对象存储节点,提供100TB可用空间。
8.弹性裸金属(可选)
1.如客户有明确需求,以客户需求按需建设;
2.弹性裸金属服务器必须支持智能网卡的SOL功能;
3.弹性裸金属和存储网关指定使用锐捷25G交换机型号RG-S6510-48VS8CQ;
4.针对通用型、计算型和内存型弹性裸金属的1*480 SSD本地系统盘的说明:
- 仅用于云公司内部集成实施和故障排查;
- 对外提供给用户的规格中不应包括此1*480 SSD本地系统盘,同时天翼云标准资费未计算此1*480 SSD本地系统盘;
- 存在用户登录裸机系统后可见此1*480 SSD本地系统盘的可能性,不建议用户使用,如使用此本地盘后出现问题,不保障解决。
9.GPU物理裸机/宿主机(可选)
考虑到A100等GPU模型单台服务器采购成本是宿主机的数倍,成本较高,原则上按照需求进行建设。为解决紧急需求,可在年度规划中加入2台A100G AI训练服务器的建设,如遇紧急需求可对其进行调拨。
六、 选型建议
- 对于新建工程,建议使用新一代M7、C7、S7产品进行建设;
- 模型测算时,建议使用新模型中的测算公式;
- “附件2:全栈云资源池服务器测算标准产品&2022年新建工程0版本v1.30”中都有各模块对应的服务器配置,在进行配置选择的时候,建议以模型中的配置为准。