节点

翼MR集群中每个节点即为一台云服务器，节点类型及节点功能如下所示。

节点类型	功能
master节点	翼MR集群管理节点，用于管理集群服务，主要负责ResourceManager和NameNode等控制进程的部署。master节点组默认采用反亲和技术，以此保证业务高可用性。
core节点	翼MR集群工作节点，主要负责存储和计算数据。
task节点	翼MR集群计算节点，主要负责计算数据，不存储数据（如HDFS 数据）。默认不开启，按需使用。

Doris

Apache Doris是一个基于MPP架构的高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。基于此，Apache Doris能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景，用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。

Elasticsearch

Elasticsearch是一个开源的、高扩展性的分布式全文检索引擎，能够近乎实时地存储、检索数据。它能集中存储您的数据，提供快速搜索、精细调整的相关性和强大的分析能力。

HBase

HBase提供业务键值数据的结构化存储与检索能力，主要包括键值数据存储、键值数据查询功能，提供键值数据管理和键值数据库监测功能。兼容社区HBase接口，提供Java API，Restful接口形式。是一个分布式、数据多版本、面向列的NoSQL数据库。提供可弹性扩展的多维表格键值存储和即席查询能力。支持上亿行、可扩展列，具备强一致性、高扩展、高可用的特性。

HDFS

HDFS（Hadoop Distributed File System）是Hadoop生态系统的一个重要组成部分，是Hadoop中的的存储组件。它是一个分布式文件系统，提供对应用程序数据的高吞吐量访问。

Hive

Hive数据仓库软件通过SQL实现对分布式存储中的大型数据集的读写和管理。Hive提供命令行工具和JDBC驱动程序连接用户。Hive对SQL语句编译和解析，生成相应的MapReduce任务对数据进行操作。

Kafka

Apache Kafka是一个优秀的分布式事件流平台，被广泛用于高性能数据管道、流分析、数据集成和任务关键型应用程序中。

Kerberos

Hadoop使用Kerberos作为用户和服务的强身份验证和身份传播的基础。Kerberos是一种计算机网络认证协议，它允许某实体在非安全网络环境下通信，向另一个实体以一种安全的方式证明自己的身份。 Kerberos是第三方认证机制，其中用户和服务依赖于第三方（Kerberos服务器）来对彼此进行身份验证。

Kibana

Kibana是一个开源的数据分析和可视化平台，它被设计用于与Elasticsearch协同工作。您可以使用Kibana对Elasticsearch索引中的数据进行搜索、查看和交互操作。

Kyuubi

Kyuubi是一个提供JDBC/ODBC SQL查询能力的分布式SQL引擎管理者，主要是为Spark Thrift Server提供多租户以及HA能力，同时为其他引擎（例如Flink或Trino等）提供SQL等查询服务。

OpenLDAP

OpenLDAP是轻型目录访问协议（Lightweight Directory Access Protocol，LDAP），通过IP协议提供访问控制和维护分布式信息的目录信息。

Ranger

Ranger为各组件提供了基于PBAC（Policy-Based Access Control）的权限管理插件，用于替换组件自身原本的鉴权插件。

Spark

Spark是一个离线分布式大数据处理引擎，可基于Spark-SQL表达语句、Spark API开发程序、SQL JDBC/ODBC 开发程序、beeline等方式提交SQL作业。Spark能够部署在各种集群环境，快速的自动实现错误恢复机制，对各种规模大小的数据进行快速计算。

Trino

Trino是定位在数据仓库和数据分析业务的分布式大数据SQL计算引擎，用于查询分布在一个或多个异构数据源上的大型数据集。Trino是一个存算分离式的计算引擎，数据均存储在远程数据源上，Trino通过自带的connector访问远程数据源进行查询。

YARN

Apache YARN（Yet Another Resource Negotiator）是Hadoop集群资源管理器系统，YARN从Hadoop 2引入，最初是为了改善MapReduce的实现，但是它具有通用性，同样执行其他分布式计算模式。

ZooKeeper

ZooKeeper是一个开源的分布式协调服务，主要用于数据订阅/发布，集群管理，配置管理，分布式锁。

Flink

Flink是大数据的流式计算框架和分布式处理引擎，用于在无边界和有边界数据流上进行有状态的计算。Flink能在所在常见集群环境中运行，并能以内存速度和任意规模进行计算，支持批处理和流处理数据，有着高速度和高吞吐的特点，是真正的流批处理计算框架，适用于的应用场景：实时监控系统、日志分析系统、推荐系统。

Hudi

Hudi是数据湖的文件组织层，对Parquet格式文件进行管理提供数据湖能力，支持多种计算引擎，提供IUD接口，在 HDFS的数据集上提供了插入更新和增量拉取的流原语。

Iceberg

Iceberg 是一个用户分析的高性能表格式， Iceberg 表格的数据可以存储在 HDFS/S3 等不同存储上，Iceberg 使得能够在大数据系统中更好的使用 SQL 做数据分析，同时可以让多引擎查询同时支持 Iceberg 表格，Iceberg 支持引擎批量/增量的消费，能够降低端到端的耗时。

Knox

Apache Knox Gateway 是一个应用程序网关，用于与Apache Hadoop 部署的 REST API 和 UI 进行交互。Knox 网关为与 Apache Hadoop集群的所有 REST 和 HTTP 交互提供了一个单一的访问点。

Logstash

Logstash 是一个流行的开源数据收集引擎，用于从各种来源收集、处理和转发数据。它可以从多种来源（如业务日志文件、消息队列、数据库等）收集数据，对数据进行解析、过滤和转换，最终将处理后的数据输出到目标位置（Opensearch、Elasticsearch、Hadoop、S3 等）。

JeekeFS

JeekeFS 是一个高性能分布式文件系统，用于存储和管理文件与数据。它采用数据与元数据分离的存储架构，数据本身被持久化在对象存储中，元数据则可以按需存储在多种数据库中。

Tez

Tez组件是Apache Hadoop生态系统中的一个计算框架，它利用DAG（有向无环图）来优化作业执行。通过提供可编程的输入、输出、处理器、任务等组件，Tez能够高效地执行复杂的数据处理任务，提升Hadoop作业的性能和灵活性。

Flume

Flume组件是一个分布式、可靠且高可用的日志采集、聚合和传输系统，主要用于收集、缓存和传输大量的日志数据到集中存储器中，如HDFS、HBase等。它通过source、channel和sink三个核心组件协同工作，实现数据的高效流动和处理。

KafkaUI

KafkaUI用于监控和管理Apache Kafka。它提供直观、轻量级的仪表板，帮助用户追踪Kafka集群的关键指标，如Brokers、Topics、Partitions等，并支持动态配置主题和多种认证方式。

SeaTunnel

SeaTunnel组件是一个高性能、分布式的数据集成工具，支持实时数据流处理和离线批处理。它通过插件化的架构设计，可以方便地从多种数据源提取数据，进行清洗、转换后，加载到目标存储系统中，提供了丰富的数据转换功能和任务调度、监控能力。

Pushgateway

Pushgateway组件是Prometheus监控系统的一个功能组件，它接收应用程序推送的监控指标数据，并保存这些数据供Prometheus抓取，适用于Prometheus无法直接拉取数据的场景。

TezUI

TezUI是Apache Tez的可视化工具，用于监控和分析Hadoop数据处理任务的执行过程，展示任务DAG结构、资源消耗及进度，帮助用户优化性能、排查错误，提升大数据计算效率。

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

翼MapReduce

翼MapReduce

节点

Doris

Elasticsearch

HBase

HDFS

Hive

Kafka

Kerberos

Kibana

Kyuubi

OpenLDAP

Ranger

Spark

Trino

YARN

ZooKeeper

Flink

Hudi

Iceberg

Knox

Logstash

JeekeFS

Tez

Flume

KafkaUI

SeaTunnel

Pushgateway

TezUI

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

查看所有产品

翼MapReduce

翼MapReduce

节点

Doris

Elasticsearch

HBase

HDFS

Hive

Kafka

Kerberos

Kibana

Kyuubi

OpenLDAP

Ranger

Spark

Trino

YARN

ZooKeeper

Flink

Hudi

Iceberg

Knox

Logstash

JeekeFS

Tez

Flume

KafkaUI

SeaTunnel

Pushgateway

TezUI