产品定义
翼MapReduce(简称:“翼MR”),是基于当前开源新版本大数据组件进行产品化封装,可以为客户提供快速部署、便捷维护的HDFS、YARN、Spark、Flink、Hive、Doris、Kafka、HBase等高性能的大数据组件以及运维管理平台,同时产品默认提供强安全验证能力,具备高安全、高扩展、快捷运维等特色,支持批量数据处理、流式数据处理、离线数据分析、在线查询等场景。
产品架构
翼MR集群各个版本组件情况请参见版本概述。
详见下图:翼MR架构图
翼MR架构包括了基础设施和大数据处理流程各个阶段的能力。
● 基础设施
基于天翼云弹性云主机CT-ECS构建的大数据集群,整体集群的高可靠和高安全能力可以得到虚拟化底层的充分保证。
- 虚拟私有云(CT-VPC)为每个租户提供虚拟的内部网络,默认与其他网络隔离,同时通过配套的安全组访问控制确保网络层面的安全性。
- 云硬盘(CT-EVS)提供不同规格和性能表现的高可靠存储能力。
- 弹性云主机(CT-ECS)提供的弹性可扩展虚拟服务器,结合上述的CT-VPC、安全组、CT-EVS数据多副本和灾备能力为客户打造一个高效、可靠、安全的业务集群环境。
● 数据集成
数据集成层提供了客户的数据集成进翼MR集群的能力,包括:Kafka(高可靠消息队列)、Logstash(数据加工传输),支持各种数据源导入数据到翼MR大数据集群中。
● 数据存储
翼MR支持结构化和非结构化数据在集群中的存储,并且支持多种高效的格式来满 足不同计算引擎的要求。
– HDFS是大数据上通用的分布式文件系统。
– Doris是实时数据仓库服务,具有高并发、低延迟的特点。
– HBase支持带索引的数据存储,适合高性能基于索引查询的场景。
– Elasticsearch支持结构化/非结构化数据的检索、分析场景。
● 数据调度和计算处理
– 翼MR提供多种主流计算引擎:MapReduce(批处理)、 Spark(内存计算)、Flink(流计算),满足多种离线或实时大数据应用场景,将数据进行结构和逻辑的转换,转化成满足业务目标的数据模型。
– 基于预设的数据模型,使用易用SQL的数据分析,用户可以选择Hive(数据仓库),SparkSQL以及Trino交互式查询引擎。
● 翼MR Manager
为确保大数据组件服务的高可用性,以Hadoop为基础的大数据生态的各种组件均需要以分布式的方式进行部署,涉及其中的部署、管理和运维复杂度要求较高。翼MR提供了统一的运维管理平台翼MR Manager,包括可视化引导式部署集群能力。同时翼MR Manager还提供了租户与资源管理能力,以及翼MR中各类大数据组件的运维,并提供监控、告警、配置等一站式运维能力。
产品优势
性能优化
- 自研优化实现百亿行、百万列毫秒级的即席查询。
稳定可靠
- 完成对开源组件100+次的代码及配置优化。
安全可控
- 使用Kerberos+Ranger安全技术实现全组件的认证和授权。
- 支持库、表、字段级数据权限管控。
便捷运维
- 全链路可视化操作降低运维门槛,助力实现90%日常运维场景便捷操作,提升运维效率。