节点
翼MR集群中每个节点即为一台云服务器,节点类型及节点功能如下所示。
节点类型 | 功能 |
---|---|
master节点 | 翼MR集群管理节点,用于管理集群服务,主要负责ResourceManager和NameNode等控制进程的部署。master节点组默认采用反亲和技术,虚拟机分布在不同物理机上,以此保证业务高可用性。 |
core节点 | 翼MR集群工作节点,主要负责存储和计算数据。 |
task节点 | 翼MR集群计算节点,主要负责计算数据,不存储数据(如HDFS 数据)。默认不开启,按需使用。 |
Doris
Apache Doris是一个基于MPP架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。基于此,Apache Doris能够较好的满足报表分析、即席查询、统一数仓构建、数据湖联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。
Elasticsearch
Elasticsearch是一个开源的、高扩展性的分布式全文检索引擎,能够近乎实时地存储、检索数据。它能集中存储您的数据,提供快速搜索、精细调整的相关性和强大的分析能力。
HBase
HBase提供业务键值数据的结构化存储与检索能力,主要包括键值数据存储、键值数据查询功能,提供键值数据管理和键值数据库监测功能。兼容社区HBase接口,提供Java API,Restful接口形式。是一个分布式、数据多版本、面向列的NoSQL数据库。提供可弹性扩展的多维表格键值存储和即席查询能力。支持上亿行、可扩展列,具备强一致性、高扩展、高可用的特性。
HDFS
HDFS(Hadoop Distributed File System)是Hadoop生态系统的一个重要组成部分,是Hadoop中的的存储组件。它是一个分布式文件系统,提供对应用程序数据的高吞吐量访问。
Hive
Hive数据仓库软件通过SQL实现对分布式存储中的大型数据集的读写和管理。Hive提供命令行工具和JDBC驱动程序连接用户。Hive对SQL语句编译和解析,生成相应的MapReduce任务对数据进行操作。
Kafka
Apache Kafka是一个优秀的分布式事件流平台,被广泛用于高性能数据管道、流分析、数据集成和任务关键型应用程序中。
Kerberos
Hadoop使用Kerberos作为用户和服务的强身份验证和身份传播的基础。Kerberos是一种计算机网络认证协议,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。 Kerberos是第三方认证机制,其中用户和服务依赖于第三方(Kerberos服务器)来对彼此进行身份验证。
Kibana
Kibana是一个开源的数据分析和可视化平台,它被设计用于与Elasticsearch协同工作。您可以使用Kibana对Elasticsearch索引中的数据进行搜索、查看和交互操作。
Kyuubi
Kyuubi是一个提供JDBC/ODBC SQL查询能力的分布式SQL引擎管理者,主要是为Spark Thrift Server提供多租户以及HA能力,同时为其他引擎(例如Flink或Trino等)提供SQL等查询服务。
OpenLDAP
OpenLDAP是轻型目录访问协议(Lightweight Directory Access Protocol,LDAP),通过IP协议提供访问控制和维护分布式信息的目录信息。
Ranger
Ranger为各组件提供了基于PBAC(Policy-Based Access Control)的权限管理插件,用于替换组件自身原本的鉴权插件。
Spark
Spark是一个离线分布式大数据处理引擎,可基于Spark-SQL表达语句、Spark API开发程序、SQL JDBC/ODBC 开发程序、beeline等方式提交SQL作业。Spark能够部署在各种集群环境,快速的自动实现错误恢复机制,对各种规模大小的数据进行快速计算。
Trino
Trino是定位在数据仓库和数据分析业务的分布式大数据SQL计算引擎,用于查询分布在一个或多个异构数据源上的大型数据集。Trino是一个存算分离式的计算引擎,数据均存储在远程数据源上,Trino通过自带的connector访问远程数据源进行查询。
YARN
Apache YARN(Yet Another Resource Negotiator)是Hadoop集群资源管理器系统,YARN从Hadoop 2引入,最初是为了改善MapReduce的实现,但是它具有通用性,同样执行其他分布式计算模式。
ZooKeeper
ZooKeeper是一个开源的分布式协调服务,主要用于数据订阅/发布,集群管理,配置管理,分布式锁。
Flink
Flink是大数据的流式计算框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在所在常见集群环境中运行,并能以内存速度和任意规模进行计算,支持批处理和流处理数据,有着高速度和高吞吐的特点,是真正的流批处理计算框架,适用于的应用场景:实时监控系统、日志分析系统、推荐系统。
Hudi
Hudi是数据湖的文件组织层,对Parquet格式文件进行管理提供数据湖能力,支持多种计算引擎,提供IUD接口,在 HDFS的数据集上提供了插入更新和增量拉取的流原语。
Iceberg
Iceberg 是一个用户分析的高性能表格式, Iceberg 表格的数据可以存储在 HDFS/S3 等不同存储上,Iceberg 使得能够在大数据系统中更好的使用 SQL 做数据分析,同时可以让多引擎查询同时支持 Iceberg 表格,Iceberg 支持引擎批量/增量的消费,能够降低端到端的耗时。
Knox
Apache Knox Gateway 是一个应用程序网关,用于与Apache Hadoop 部署的 REST API 和 UI 进行交互。Knox 网关为与 Apache Hadoop集群的所有 REST 和 HTTP 交互提供了一个单一的访问点。
Logstash
Logstash 是一个流行的开源数据收集引擎,用于从各种来源收集、处理和转发数据。它可以从多种来源(如业务日志文件、消息队列、数据库等)收集数据,对数据进行解析、过滤和转换,最终将处理后的数据输出到目标位置(Opensearch、Elasticsearch、Hadoop、S3 等)。
JeekeFS
JeekeFS 是一个高性能分布式文件系统,用于存储和管理文件与数据。它采用数据与元数据分离的存储架构,数据本身被持久化在对象存储中,元数据则可以按需存储在多种数据库中。
Tez
Tez组件是Apache Hadoop生态系统中的一个计算框架,它利用DAG(有向无环图)来优化作业执行。通过提供可编程的输入、输出、处理器、任务等组件,Tez能够高效地执行复杂的数据处理任务,提升Hadoop作业的性能和灵活性。
Flume
Flume组件是一个分布式、可靠且高可用的日志采集、聚合和传输系统,主要用于收集、缓存和传输大量的日志数据到集中存储器中,如HDFS、HBase等。它通过source、channel和sink三个核心组件协同工作,实现数据的高效流动和处理。
KafkaUI
KafkaUI用于监控和管理Apache Kafka。它提供直观、轻量级的仪表板,帮助用户追踪Kafka集群的关键指标,如Brokers、Topics、Partitions等,并支持动态配置主题和多种认证方式。
SeaTunnel
SeaTunnel组件是一个高性能、分布式的数据集成工具,支持实时数据流处理和离线批处理。它通过插件化的架构设计,可以方便地从多种数据源提取数据,进行清洗、转换后,加载到目标存储系统中,提供了丰富的数据转换功能和任务调度、监控能力。
Pushgateway
Pushgateway组件是Prometheus监控系统的一个功能组件,它接收应用程序推送的监控指标数据,并保存这些数据供Prometheus抓取,适用于Prometheus无法直接拉取数据的场景。