1. 传统的基于Hadoop的大数据平台
(1) 传统Hadoop大数据平台的架构
(2) 上云后的2种平台架构
- 共享大集群(左侧):虽然Hadoop HDFS和YARN都有一定的多租户隔离能力,但在数据安全等方面还是存在致命漏洞,所以类似产品对外服务时,会严格限制用户编程的自由度,只能开发运行SQL,且无法使用UDF,产品能力大打折扣,无法满足用户多样的编程模型需求
- 每个租户单独集群(右侧):为每个租户在其虚机和VPC中部署独立的集群,依靠IaaS的隔离能力,数据安全等方面有了足够的保障;但租户集群的管理需要用户有一定技术基础,对云厂商的运维能力也有很高的技术要求和人力成本
2.云原生的实时大数据平台
(1)随着K8s成为云原生时代的分布式操作系统,多种workload都在积极迁移上车,大数据平台也需要适应技术的革新变化趋势,进入云原生时代,新的架构如图
(2)平台产品模式仍有2类
- 每个租户单独K8s集群(左侧):继承了独立集群良好的隔离性,但运维管理仍有较大挑战
- Serverless新模式:虽然是共享大集群,但通过VirtualCluster、Kata安全容器等扩展能力,也可以通过VPC实现网络隔离。新架构既具有大集群统一运维管理能力,又具有足够安全的隔离能力,同时还具备云原生时代增强的弹性伸缩能力,在运维成本和运行成本方面都有大幅降低。各大云厂商各产品线都在探索Serverless新架构