数据任务是怎么优化的？（数据倾斜，参数相关调节）-天翼云

数据任务是怎么优化的？（数据倾斜，参数相关调节）

2024-05-13 08:44:12 阅读次数：43

一问题背景
项目中遇到大数据任务执行时间比较长，需要进行优化，使得大数据的任务执行时间优化至客户可以接受的时间。

二原因分析
l 业务场景分析
本场景下的大数据任务主要对数据进行mapreduce操作，该任务包含两个子任务，第一个子任务的map（每个map的大小为128M）个数为4300左右（这些map任务都是分散在不同的服务器上，TaiShan集群有6400+个核可以处理,可以充分利用TaiShan多核优势），map执行时间为10分钟，但是reduce个数固定写为200个（即最多有200个核并行处理reduce任务），reduce执行时间为1小时30分钟左右,耗时较长，同时reduce个数相比map个数很少，不能充分利用TaiShan多核优势，第二个子任务也是reduce阶段耗时较长

l 服务器基础性能分析
在大数据任务执行时，cpu利用率不高，磁盘io以及网卡IO都没有瓶颈，不过网卡中断需要进行绑核，同时磁盘缓存参数可以进行调优来提升性能

三解决方案
3.1 网卡调优

3.1.1 中断绑核

中断亲和度描述为可以为特定中断提供响应的一组CPU，如果应用程序可以通过关联到相关的CPU，在相同的CPU上下文中处理接收到的数据包，则可以减少等待时间，提高CPU利用率。

因此，我们可以将处理网卡中断的CPU core设置在网卡所在的NUMA上，从而减少跨NUMA的内存访问所带来的额外开销，提升网络处理性能。

3.2 磁盘参数调优

3.2.1 磁盘读预取参数

/sys/block/sdX/queue/read_ahead，这个参数对顺序读非常有用，意思是，一次提前读多少内容，无论实际需要多少。默认一次读 128kb 远小于要读的，设置大些对读大文件非常有用，可以有效的减少读 seek 的次数，这个参数可以使用 blockdev –setra 来设置，setra 设置的是多少个扇区，所以实际的字节是除以2，比如设置 512 ，实际是读 256 个字节.

原服务器值是128kb，设置为4096Kb。

3.2.2 缓存写入磁盘参数调整

/proc/sys/vm/dirty_ratio 从20改成40

这个参数控制文件系统的文件系统写缓冲区的大小，单位是百分比，表示系统内存的百分比，表示当写缓冲使用到系统内存多少的时候，开始向磁盘写出数据。增大之会使用更多系统内存用于磁盘写缓冲，也可以极大提高系统的写性能。

/proc/sys/vm/dirty_background_ratio 从10改为20

这个参数控制文件系统的pdflush进程，在何时刷新磁盘。单位是百分比，表示系统内存的百分比，意思是当写缓冲使用到系统内存多少的时候，pdflush开始向磁盘写出数据。

增大之会使用更多系统内存用于磁盘写缓冲，也可以极大提高系统的写性能。

/proc/sys/vm/dirty_writeback_centisecs 从500改为800

这个参数控制内核的脏数据刷新进程pdflush的运行间隔。单位是 1/100 秒。缺省数值是500，也就是 5 秒

/proc/sys/vm/dirty_expire_centisecs 从3000改为30000

这个参数声明Linux内核写缓冲区里面的数据多“旧”了之后，pdflush进程就开始考虑写到磁盘中去。单位是 1/100秒。缺省是 30000，也就是 30 秒的数据就算旧了，将会刷新磁盘。

对于特别重载的写操作来说，这个值适当缩小也是好的，但也不能缩小太多，因为缩小太多也会导致IO提高太快

3.3 应用程序调优

3.3.1 Reduce个数优化

在大数据平台调整reduce设置，使最大reduce个数从原来的200改为500，性能提升明显

3.3.2 Reduce并行copy参数maprd.reduce.parallel.copies优化

Reduce的并发拷贝数默认是5，后来调整至30可以提升reduce的最大并发拷贝数

经过调优，最终大数据任务执行时间有明显提升

四总结

调优后，TaiShan集群服务器上任务执行时间有明显改善。对相关思路总结如下：

l 分析确认大数据任务执行时各个阶段的耗时，重点分析耗时阶段，提升reduce并发，充分利用TaiShan多核优势。

l 明确性能瓶颈，并对服务器各个子模块进行参数调优。

活动

智算服务

应用商城

合作伙伴

开发者

支持与服务

了解天翼云

数据任务是怎么优化的？（数据倾斜，参数相关调节）

数据任务是怎么优化的？（数据倾斜，参数相关调节）

相关文章

Selenium Webdriver 3.X源码分析之核心代码common

Python测试开发初稿

【ceph】什么是条带化(Data striping) ？

【分布式理论13】分布式存储：数据存储难题与解决之道

【环境情况】linux环境检查：内存剩余、磁盘读写性能、hosts、innode数量、CPU等

fread，fwrite数据写磁盘流程|fflush--linux编程写文件注意问题（fwrite没有直接写入文件）

【Linux】磁盘分区|磁盘管理|/dev/sda|/dev/sdb|UUID

【mySQL】WAL和MVCC ----待消化

有一批气象观测站，现需要获取这些站点的观测数据，并存储到 Hive 中。但是气象局只提供了 api 查询，每次只能查询单个观测点。那么如果能够方便快速地获取到所有的观测点的数据？

推箱子自动求解。

作者介绍

最新文章

手写归并排序

1到100万以内，如何打印99万个不重复的随机数？

文心一言 VS 讯飞星火 VS chatgpt （254）-- 算法导论18.2 7题

文心一言 VS 讯飞星火 VS chatgpt （249）-- 算法导论18.2 2题

sqoop 的安装与常用抽数操作

给定一个无序数组，里面数都是成双数的，只有一个数是成单数的，求这个数？

热门文章

java163-同步方法锁

58如何调出eclipse左边文件栏

java156-序列化

java162-同步对象锁

大数据Spark “蘑菇云”行动第93课：Hive中的内置函数、UDF、UDAF实战

大数据Spark “蘑菇云”行动第94课：Hive性能调优之Mapper和Reducer设置、队列设置和并行执行、JVM重用和动态分区、Join调优

热门标签

相关产品

弹性云主机

天翼云电脑（公众版）

对象存储

云硬盘

随机文章

hadoop 的hdfsapi操作

数据治理（二）：数据治理功能方面

Storm超实用教程详解-附示例

1到100万以内，如何打印99万个不重复的随机数？

hive 的支持的文件类型与 压缩格式

sqoop 的安装与常用抽数操作

hive 的支持的文件类型与压缩格式