应用场景
数据快递是一种海量数据传输解决方案,支持 TB 到 PB 级数据上云,通过硬盘(外置 USB 接口、SATA 接口、SAS 接口类型),向并行文件传输大量数据,解决海量数据传输网络成本高、传输时间长等难题。
- 智算场景:AI 场景的素材数据、原型数据等需要寄送到数据中心,投喂给智算平台,提升数据质量和模型效果。
- 原始数据迁移:把基因、石油、气象、IOT 等原始数据迁移到并行文件服务。
- 离线备份数据:将客户完整备份或增量备份发送到并行文件服务,实现可靠的冗余离站存储。
注意专属资源的客户,拥有独立的机房设备,可采用了邮寄硬盘到存储机房的方式。
准备工作
客户需要自助完成迁移数据存储到硬盘等存储介质上,建议客户将小文件压缩成大文件后再进行数据迁移。
存储介质邮寄到机房后,联系运维人员将硬盘插在可连接HPFS客户端的物理机上作为迁移机器。需要提前和运维人员确认硬盘数量和迁移服务器网络是否和HPFS互通。
操作步骤
- 客户将硬盘快递到云公司机房的专属资源池集群。
- 机房配置单独的数据迁移服务器用于读取客户硬盘数据。数据拷贝服务器通过网闸与天翼云资源池隔离。
- 客户硬盘插入到拷贝服务器后,先进行安全扫描,确保客户数据无安全隐患。此前步骤,网闸处于关闭状态
- 打开网闸,将客户硬盘数据拷贝到云内服务器上。
- 与客户联系确认数据准确。
- 关闭网闸。
- 在数据拷贝服务器上,按客户要求将硬盘数据销毁和硬盘快递寄回。
数据拷贝源端挂载
迁移机器上安装支持 NTFS 文件系统的ntfs-3g
软件包,并挂载客户的硬盘:
yum install -y ntfs-3g
ntfs-3g /dev/sdd1 /mnt/ntfs -o rw,big_writes,noatime
为了进一步提升机械盘的性能,将该硬盘的预读大小和 IO 队列长度做了修改(修改预读和 IO 队列是磁盘调优的方法,配置参数并不通用,需要测试),之后测试迁移带宽达到150MB/s 左右的限值。
cd /sys/devices/pci0000:00/0000:00:14.0/usb2/2-3/2-3.3/2-3.3:1.0/host16/target16:0:0/16:0:0:0/block/sdd/queue/
echo 4096 > read_ahead_kb \\预读扩大到4M
echo 4096 > nr_requests \\IO队列扩大到4096
数据拷贝目的端挂载
挂载用户已开通HPFS的客户端:
mount -t lustre -o seckey=xxxxxx 11.2.xxx.x@tcp0:11.2.xxx.x@tcp0:/hp0001/yZcQcAXicFaxxxxxxxxxxxxyqum9s2bu3 /mnt/share
迁移命令执行
因为当前用例是单个机械盘进行数据拷贝,并行执行无法提高速度,所以使用单任务rsync
更合适。执行迁移命令:
nohup rsync -a --partial --inplace -v /mnt/ntfs/ /mnt/share/ &
命令执行后查看nohup
文件和使用iostat
及df
工具观察迁移过程,在迁移大文件时,带宽能到200MB/s,在迁移小文件时带宽会比较小,属于正常状况。