大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用云MRS服务进行大数据处理。
海量数据分析场景
海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL(Extract-Transform-Load)处理形成模型化数据,以便提供给各个业务模块进行分析梳理,这类业务通常有以下特点:
- 对执行实时性要求不高,作业执行时间在数十分钟到小时级别。
- 数据量巨大。
- 数据来源和格式多种多样。
- 数据处理通常由多个任务构成,对资源需要进行详细规划。
例如在环保行业中,可以将天气数据存储在OBS,定期转储到HDFS中进行批量分析,在1小时内MRS可以完成10TB的天气数据分析。
详见下图:环保行业海量数据分析场景
该场景下MRS的优势如下所示。
- 低成本:利用OBS实现低成本存储。
- 海量数据分析:利用Hive实现TB/PB级的数据分析。
- 可视化的导入导出工具:通过可视化导入导出工具Loader,将数据导出到DWS,完成BI分析。
海量数据存储场景
用户拥有大量结构化数据后,通常需要提供基于索引的准实时查询能力,如车联网场景下,根据汽车编号查询汽车维护信息,存储时,汽车信息会基于汽车编号进行索引,以实现该场景下的秒级响应。通常这类数据量比较庞大,用户可能保存1至3年的数据。
例如在车联网行业,某车企将数据储存在HBase中,以支持PB级别的数据存储和毫秒级的数据详单查询。
详见下图:车联网行业海量数据存储场景
该场景下MRS的优势如下所示。
- 实时:利用Kafka实现海量汽车的消息实时接入。
- 海量数据存储:利用HBase实现海量数据存储,并实现毫秒级数据查询。
- 分布式数据查询:利用Spark实现海量数据的分析查询。
实时数据处理
实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。
例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。
详见下图:梯联网行业低时延流式处理场景
该场景下MRS的优势如下所示。
- 实时数据采集:利用Flume实现实时数据采集,并提供丰富的采集和存储连接方式。
- 海量的数据源接入:利用Kafka实现万级别的电梯数据的实时接入。