searchusermenu
  • 发布文章
  • 消息中心
点赞
收藏
评论
分享
原创

基于云平台快速搭建基因大数据分析集群的方法

2023-10-25 08:24:22
67
0

       随着基因测序技术的发展,测序成本正以超摩尔定律下降,大大推动了大队列样本的基因测序,因此单个项目基因测序数据往往规模巨大,单次分析数据基本 TB 甚至 PB 级别。这些海量数据的分析往往需要大规模服务器集群才能满足需求,而云计算平台一般只提供了云主机、云存储、云网络、云数据库等原子服务,基于这些云服务手动搭建起一套适合基因大数据分析的生物信息分析集群并安装部署生信软件环境及依赖的数据集是一个非常繁琐且耗时的工作,而且如果搭建的集群较大,云主机规模达到几十甚至几百台时,手动集群搭建的工作量巨大。对于项目型用户,搭建集群跑完任务后,为节约成本都会删除集群环境,下次有项目分析再搭建集群。如果每次都手动搭建,将费时费力,用户使用体验感极差,这也制约了云计算的普及性和易用性,因此在云平台上开发一种能自动化快速搭建生物信息分析集群及环境的服务或工具,解放生物信息专家,使他们能够更加专注于自己擅长的生信业务,有利于创新和降低成本,十分有必要。

       另外基因测序数据种类繁多,例如有重测序、外显子捕获测序、转录组测序、miRNA测序、病毒/微生物测序等类型。不同类型的数据分析软件也各不相同,甚至每个公司都有自己一套独有的分析软件或流程,一套流程中又包含了几十甚至上百个软件,没有统一的标准,个性化较大,形成不了一套标准的生物信息分析平台。当前国内外比较著名的生物信息分析平台有国外的Galaxy、国内的华大基因BGI online平台,而这些平台都只是公司自用或部分老师学生等群使用,而其他大量基因公司都有各自的分析流程和软件,使用云平台过程中,都会面临基于云平台快速搭建自有分析流程/软件环境的需求。那么如何基因云平台快速搭建基因大数据分析集群呢?这里介绍一直方法,具体如下:

1、在云存储(对象存储)中提前准备好生物信息分析常用数据库,形成标准数据仓库,供后续分析长期使用。

2、预装SGE/PBS/Slurm集群并部署常用生物信息分析软件环境,然后制作集群系统镜像,后续可基于镜像快速创建集群以及预装生信软件环境。

3、开发自动化部署工具,根据集群配置信息,调用云平台API或SDK创建生信分析环境集群。

具体操作方法:

1、生物信息分析常用数据库/数据集的准备。

1)开通一个对象存储OOS桶,用于长期存储常用基因数据库/数据集;

2)上传用户自有生信分析使用的数据库数据;

3)下载国内外网址上常用基因数据库数据(如NCBI、UCSC、GeneBank等),完善生信分析数据库;

4)对基因数据库数据进行生信分析预处理(如参考基因组的index索引构建);

2、生信分析集群和软件环境镜像的制作。

1)基于云主机分别安装部署一个SGE/PBS/Slurm小集群;

2)开通一块文件存储SFS盘,挂载为集群共享存储盘,用于生信软件的安装存储路径;

3)分别在SGE/PBS/Slurm集群中安装部署生信分析常用软件和配置,确保相关软件环境配置正确且可用;

4)文件存储SFS盘中安装的软件包压缩后存入对象存储OOS桶备用;

5)按集群各角色节点制作系统盘镜像,如分别制作PBS集群的master节点、salve节点的系统盘镜像,存入用户私有镜像,用于后续集群的快速创建;

3、根据业务需要快速搭建生物信息分析集群

1)选择需要创建哪种任务调度软件(SGE/PBS/Slurm)集群,使用对应集群管理节点镜像(如master)快速创建出对应角色的节点;

2)根据业务规模需求,使用对应计算节点(如salve)镜像批量创建出计算节点;

3)使用自动化工具/脚本,根据创建出的所有计算节点信息,批量修改配置,将所有计算节点添加到集群中进行统一管理,完成集群的创建;

4)根据存储在OOS桶中的生信软件包以及数据库/数据集的大小,创建一块容量充足的SFS文件存储盘,批量挂载给各节点作为共享盘使用,并批量下载生信软件包以及生信数据库/数据集到该SFS文件存储盘中,供后续分析使用;

上述方案能大幅降低生物信息分析云平台的搭建时间,几十台云主机规模的集群搭建时间可以从几天压缩到一个小时内,大大提高搭建效率。

0条评论
0 / 1000
l****n
4文章数
0粉丝数
l****n
4 文章 | 0 粉丝
原创

基于云平台快速搭建基因大数据分析集群的方法

2023-10-25 08:24:22
67
0

       随着基因测序技术的发展,测序成本正以超摩尔定律下降,大大推动了大队列样本的基因测序,因此单个项目基因测序数据往往规模巨大,单次分析数据基本 TB 甚至 PB 级别。这些海量数据的分析往往需要大规模服务器集群才能满足需求,而云计算平台一般只提供了云主机、云存储、云网络、云数据库等原子服务,基于这些云服务手动搭建起一套适合基因大数据分析的生物信息分析集群并安装部署生信软件环境及依赖的数据集是一个非常繁琐且耗时的工作,而且如果搭建的集群较大,云主机规模达到几十甚至几百台时,手动集群搭建的工作量巨大。对于项目型用户,搭建集群跑完任务后,为节约成本都会删除集群环境,下次有项目分析再搭建集群。如果每次都手动搭建,将费时费力,用户使用体验感极差,这也制约了云计算的普及性和易用性,因此在云平台上开发一种能自动化快速搭建生物信息分析集群及环境的服务或工具,解放生物信息专家,使他们能够更加专注于自己擅长的生信业务,有利于创新和降低成本,十分有必要。

       另外基因测序数据种类繁多,例如有重测序、外显子捕获测序、转录组测序、miRNA测序、病毒/微生物测序等类型。不同类型的数据分析软件也各不相同,甚至每个公司都有自己一套独有的分析软件或流程,一套流程中又包含了几十甚至上百个软件,没有统一的标准,个性化较大,形成不了一套标准的生物信息分析平台。当前国内外比较著名的生物信息分析平台有国外的Galaxy、国内的华大基因BGI online平台,而这些平台都只是公司自用或部分老师学生等群使用,而其他大量基因公司都有各自的分析流程和软件,使用云平台过程中,都会面临基于云平台快速搭建自有分析流程/软件环境的需求。那么如何基因云平台快速搭建基因大数据分析集群呢?这里介绍一直方法,具体如下:

1、在云存储(对象存储)中提前准备好生物信息分析常用数据库,形成标准数据仓库,供后续分析长期使用。

2、预装SGE/PBS/Slurm集群并部署常用生物信息分析软件环境,然后制作集群系统镜像,后续可基于镜像快速创建集群以及预装生信软件环境。

3、开发自动化部署工具,根据集群配置信息,调用云平台API或SDK创建生信分析环境集群。

具体操作方法:

1、生物信息分析常用数据库/数据集的准备。

1)开通一个对象存储OOS桶,用于长期存储常用基因数据库/数据集;

2)上传用户自有生信分析使用的数据库数据;

3)下载国内外网址上常用基因数据库数据(如NCBI、UCSC、GeneBank等),完善生信分析数据库;

4)对基因数据库数据进行生信分析预处理(如参考基因组的index索引构建);

2、生信分析集群和软件环境镜像的制作。

1)基于云主机分别安装部署一个SGE/PBS/Slurm小集群;

2)开通一块文件存储SFS盘,挂载为集群共享存储盘,用于生信软件的安装存储路径;

3)分别在SGE/PBS/Slurm集群中安装部署生信分析常用软件和配置,确保相关软件环境配置正确且可用;

4)文件存储SFS盘中安装的软件包压缩后存入对象存储OOS桶备用;

5)按集群各角色节点制作系统盘镜像,如分别制作PBS集群的master节点、salve节点的系统盘镜像,存入用户私有镜像,用于后续集群的快速创建;

3、根据业务需要快速搭建生物信息分析集群

1)选择需要创建哪种任务调度软件(SGE/PBS/Slurm)集群,使用对应集群管理节点镜像(如master)快速创建出对应角色的节点;

2)根据业务规模需求,使用对应计算节点(如salve)镜像批量创建出计算节点;

3)使用自动化工具/脚本,根据创建出的所有计算节点信息,批量修改配置,将所有计算节点添加到集群中进行统一管理,完成集群的创建;

4)根据存储在OOS桶中的生信软件包以及数据库/数据集的大小,创建一块容量充足的SFS文件存储盘,批量挂载给各节点作为共享盘使用,并批量下载生信软件包以及生信数据库/数据集到该SFS文件存储盘中,供后续分析使用;

上述方案能大幅降低生物信息分析云平台的搭建时间,几十台云主机规模的集群搭建时间可以从几天压缩到一个小时内,大大提高搭建效率。

文章来自个人专栏
混合云
4 文章 | 1 订阅
0条评论
0 / 1000
请输入你的评论
0
0