0

0

批量与并行不一样

雪夜

雪夜

发布时间:2025-08-30 09:10:11

|

560人浏览过

|

来源于php中文网

原创

linux环境下进行ngs数据处理时,采用批处理方法可以显著提高工作效率。以下是两种不同级别的批处理方法的详细介绍。

入门级批处理方法

熟悉我们生信技能树线下培训的粉丝们应该知道,我们的课程中介绍了一种批处理方法,如下所示:

批量与并行不一样批量与并行不一样

创建配置文件

首先,我们需要创建一个配置文件,这里命名为

config
,其内容如下:

$ cat config 
SRR1039510_1.fastq.gz    SRR1039510_2.fastq.gz
SRR1039511_1.fastq.gz    SRR1039511_2.fastq.gz
SRR1039512_1.fastq.gz    SRR1039512_2.fastq.gz

编写命令脚本文件

起航点卡销售系统
起航点卡销售系统

欢迎使用“起航点卡销售系统”销售程序:一、系统优势 1、售卡系统采取了会员与非会员相结合的销售方法,客户无需注册即可购卡,亦可注册会员购卡。 2、购卡速度快,整个购卡或过程只需二步即可取卡,让客户感受超快的取卡方式! 3、批量加卡功能。 4、取卡方式:网上支付,即时取卡 ,30秒可完成交易。 5、加密方式:MD5 32位不可倒推加密 6、防止跨站

下载

接下来,将我们的代码写入一个shell脚本中,这里命名为

qc.sh
(注意:代码中的
$1
是后续要传入的
config
文件):

$ cat qc.sh
#!/bin/bash
cat $1 | while read id
do
    arr=(${id})
    fq1=${arr[0]}
    fq2=${arr[1]}
    trim_galore -q 25 --phred33 \
    --length 36 --stringency 3 --paired \
    -o ./ $fq1 $fq2
done

提交至后台

最后,将脚本提交至后台运行:

nohup bash qc.sh config &

提交后,通过

top
命令查看任务是否成功提交。如果提交成功,服务器会逐个处理数据,用户可以去处理其他事务,等数据处理完成后再查看结果。

批量与并行不一样

进阶级批处理方法

如果您觉得逐个处理数据速度太慢,可以考虑以下进阶处理方法:

创建配置文件

同样,创建一个名为

config
的配置文件:

$ cat config 
SRR1039510_1.fastq.gz    SRR1039510_2.fastq.gz
SRR1039511_1.fastq.gz    SRR1039511_2.fastq.gz
SRR1039512_1.fastq.gz    SRR1039512_2.fastq.gz
......这里省略若干行......

编写命令脚本文件

编写一个更复杂的

qc.sh
脚本:

$ cat qc.sh
#!/bin/bash
number1=$2
number2=$3
cat $1  | while read id
do    
    if((i%$number1==$number2))
    then    
        arr=(${id})
        fq1=${arr[0]}
        fq2=${arr[1]}
        trim_galore -q 25 --phred33 \
        --length 36 --stringency 3 --paired \
        -o ./ $fq1 $fq2    
    fi    
    ## end for number1    
    i=$((i+1))
done

提交至后台

最后,将脚本提交至后台运行:

for i  in {0..2}
do 
    (nohup bash qc.sh  config 3 $i 1>log.$i.txt 2>&1 & )
done 

提交后,通过

top
命令查看任务是否成功提交。如果提交成功,服务器会批量处理数据,比如这里的例子,每次同时处理3个数据,当然前提是服务器的资源足够。

批量与并行不一样

补充一个错误的例子

在提交命令后,一定要检查任务运行情况,最直接的方法是使用

top
命令实时查看。

这个例子的配置文件如下:

$ cat config 
SRR1039510    SRR1039510_1.fastq.gz   SRR1039510_2.fastq.gz
SRR1039511    SRR1039511_1.fastq.gz   SRR1039511_2.fastq.gz
SRR1039512    SRR1039512_1.fastq.gz   SRR1039512_2.fastq.gz
......这里省略若干行......

脚本如下(这个脚本是有问题的,我们先留个悬念):

$ cat qc.sh
#!/bin/bash
number1=$2
number2=$3
cat $1  | while read id
do    
    if [ ! -f ok.trim.$sample.status ]
    then        
        touch ok.trim.$sample.status        
        echo "start trim for $sample" `date`        
        arr=(${id})
        sample=${arr[0]}
        fq1=${arr[1]}
        fq2=${arr[2]}
        trim_galore -q 25 --phred33 \
        --length 36 --stringency 3 --paired \
        -o ./ $fq1 $fq2        
        echo "end trim for $sample" `date`    
    fi    
done

最后提交命令:

for i  in {0..2}
do 
    (nohup bash qc.sh  config 3 $i 1>log.$i.txt 2>&1 & )
done 

使用

top
命令后仍然可以看到任务在运行,3个任务(不要以为这样就OK了)。

批量与并行不一样

检查生成的文件,发现只生成了一个样本的文件:

$ ll -th
-rw-rw-r-- 1 hcguo hcguo 1.2G Jun 18 17:45 SRR1039510_1_trimmed.fq.gz
-rw-rw-r-- 1 hcguo hcguo 1.6K Jun 18 17:45 log.0.txt
-rw-rw-r-- 1 hcguo hcguo 1.6K Jun 18 17:45 log.2.txt
-rw-rw-r-- 1 hcguo hcguo 1.6K Jun 18 17:45 log.1.txt
-rw-rw-r-- 1 hcguo hcguo  544 Jun 18 17:39 SRR1039510_1.fastq.gz_trimming_report.txt
-rw-rw-r-- 1 hcguo hcguo    0 Jun 18 17:39 ok.trim..status

仔细查看

top
命令时,发现3个命令实际上处理的是同一个样本,说明我们提交的命令存在问题。此时,应该进一步查看
log
日志或
nohup.out
文件,找出问题所在(这里不做演示了)。

批量与并行不一样

相关专题

更多
磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1345

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

698

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

293

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

773

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

571

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

544

2023.07.20

linux查看ip命令
linux查看ip命令

本专题为大家提供linux查看ip命令相关文章内容,感兴趣的朋友可以免费下载体验试试。

296

2023.07.20

linux查看cpu使用率
linux查看cpu使用率

在linux的系统维护中,可能需要经常查看cpu使用率,分析系统整体的运行情况。本专题为大家带来了linux查看cpu使用率的相关文章,感兴趣的朋友千万不要错过了。

374

2023.07.25

vlookup函数使用大全
vlookup函数使用大全

本专题整合了vlookup函数相关 教程,阅读专题下面的文章了解更多详细内容。

28

2025.12.30

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Node.js 教程
Node.js 教程

共57课时 | 7.7万人学习

Vue 教程
Vue 教程

共42课时 | 5.7万人学习

Django 教程
Django 教程

共28课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号