大数据在人们的生活中无处不在,在金融、交通、互联网、医疗、能源和政府部门等行业均可以使用翼MR服务进行大数据处理。
批量数据处理场景
HDFS集群负责存储海量日志数据。
YARN集群负责调度离线平台上运行的所有任务。
Hive、Spark、Trino等主流计算框架从数据加工、数据挖掘到数据分析,快速获取数据洞察力。
分析后的数据回写进HDFS集群,为上层数据可视化等产品提供数据支撑。
离线数据分析场景
将海量数据通过导入或者外表等形式引入到OLAP分析引擎里,例如,Trino提供高效、实时和灵活的数据分析能力。
满足用户画像、人群圈选、位置服务、BI报表和业务分析等一系列的业务场景。
流式数据处理场景
基于Flink流式计算框架,对各类业务日志或者消息等实时数据进行分析处理。
相应分析结果同步进HDFS集群存储服务中。
在线查询场景
基于Web和移动应用程序等生成的PB级别的结构化、半结构化或非结构化数据进行在线分析。
方便客户的Web应用或者数据可视化产品获取分析结果进行实时展示。