二 22

没必要学shell进阶语法

Posted on 2016年2月22日 by ulwvfje

因为大部分生物信息学软件都是linux版本的，所以生物信息学数据分析工作者必备技能就是linux，但是大部分人只是拿他当个中转站，我以前也是，直到接触了大批量的任务，自动化流程，才明白这里面的水太深了，不过无所谓，凭我个人的观点，其实shell的进阶语法真的不必要！

当然，只是我一家之言！

我实在是不想去背诵大括号，小括号，中括号以及双重括号到底区别是什么！

http://www.bio-info-trainee.com/?p=1018 [],[[]],(),(()),{},{{}},以及在前面加上$的区别，以及它们互相杂交组合的区别！！！

我也不想去搞明白操作符两边是否加空格的区别是什么了。

if((i%5==0)) 来判断变量是否被一个数整除

i=$((i+1))来表示变量自增。

这些东西真的很诡异！

如果你有qsub，condor等任务提交系统，那么你只需要熟悉他们就可以了，但大部分散兵游勇的生物信息学家并没有集群，所以压根不会接触任务提交系统，就需要些自动化脚本了！

http://www.bio-info-trainee.com/?p=382

受限制与机器的cpu以及内存数，需要判断提交了多少任务，等待多久再执行，所以会把一个简单的自动化脚本写的很复杂！

比如下面这个脚本：cat >download_hg38_from_UCSC.sh

for i in $(seq 1 22) X Y M;

do echo $i;

wget ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/chr${i}.fa.gz;

done

gunzip *.gz

for i in $(seq 1 22) X Y M;

do cat chr${i}.fa >> hg38.fa;

done

rm -fr chr*.fa

可以下载hg38基因组的fasta文件，但是是分染色体一个个下载的！

再比如下面这个，批量做GSEA分析的脚本：

while read id

echo $id

gene=`echo $id |awk '{print $1}'`

probe=`echo $id |awk '{print $2}'`

echo $i

do_GSEA $probe $gene; ##这里是我自己定义的一个function，就不贴出来了

if((i%5==0))

then

sleep 10 ##重点就在这里，每次提交的任务有限制，所以需要休息，不然机器的cpu负载太高！

i=$((i+1))

done <$1

如果，还有其它功能需要实现，我们可以把脚本写的更负载，纯粹的用shell，需要搜索更多的shell技巧。

但是事实上并没有这个必要，我们现在有了更方便的脚本语言，比如我所擅长的perl

我写一个nohup提交任务的脚本！

## perl nohup.pl deep_count.sh 0

## perl nohup.pl deep_count.sh 1

## perl nohup.pl deep_count.sh 2

[perl]
## perl nohup.pl   deep_count.sh 0
## perl nohup.pl   deep_count.sh 1
## perl nohup.pl   deep_count.sh 2
$i=1;
open FH,$ARGV[0];
while(<FH>){
   chomp;
   next unless $.%3==$ARGV[1];
   $cmd="nohup $_ &";
   print "$cmd\n";
   system($cmd);
   sleep(10800) if $i%5==4;
   $i++;
   #exit;
}
[/perl]

我尝试过用shell，写了很久，总是报错，但是用perl，一分钟我就写完了，所以，最好是用自己熟悉的一种语法最好！

九 25

Shell里面的各种括号的区别

Posted on 2015年9月25日 by ulwvfje

[],[[]],(),(()),{},{{}},以及在前面加上$的区别，以及它们互相杂交组合的区别！！！

[[ ]] double brackets

(())Double parentheses

{{}}double curly brackets

我们必须要记住的是下面

[] 相当于test，作逻辑判断

$( ) 与` ` (反引号) 都是用来做命令替换用

${ } 吧... 它其实就是用来作变量替换用的啦

(())就是用来计算的，相当于expr函数。

参考：http://sayle.net/book/

http://tldp.org/LDP/abs/html/index.html

我们首先看看一对的括号

首先[]是用来逻辑判断的，必须有空格

if [ -f binom.py ]

then

echo 'binom.py exists'

或者

nub=$((i%4))

#echo $nub

if [ $nub == 0 ];then

echo "we need to sleep 4 hours"

sleep 14000

这个[]操作符等价于test函数

if test $1 -gt 0
then
echo "$1 number is positive"
fi

但是都必须有空格！！！

参考：http://www.freeos.com/guides/lsst/ch03sec02.html

关于shell的test操作符还有很多http://tldp.org/LDP/abs/html/fto.html

( ) 将command group 置于 sub-shell 去执行，也称 nested sub-shell。

{ } 则是在同一个 shell 内完成，也称为non-named command group。

补充一个: {} 还可以做变量扩展 {5..9} 或者 {abcd}e，自己运行一下就知道效果啦

这两个差异很小，而且一般用不着，就不讲了。

那么这一对的括号加上了$符号后又变成了上面鬼东西呢？

当然，只有：$( ) 与${ }才是合法的。

在 bash shell 中，$( ) 与` ` (反引号) 都是用来做命令替换用(command substitution)的。

在操作上，用$( ) 或` ` 都无所谓，用$( )的优点是：

1, ` ` 很容易与' ' ( 单引号)搞混乱，尤其对初学者来说

2, 在多层次的复合替换中，` ` 须要额外的跳脱( \` )处理，而$( ) 则比较直观

再让我们看${ } 吧... 它其实就是用来作变量替换用的啦。

一般情况下，$var 与${var} 并没有啥不一样。

但是用${ } 会比较精确的界定变量名称的范围，比方说：

[code][/code]

$ A=B

$ echo $AB

还可以用来截取变量，这个就很多花样啦

# 是去掉左边(在鉴盘上# 在$ 之左边)

% 是去掉右边(在鉴盘上% 在$ 之右边)

单一符号是最小匹配﹔两个符号是最大匹配

然后我们看看两对的括号：

nub=$((i%4)) 等价于$nub=`expr $i % 1` ;

((i++)) 等价于$i=`expr $i + 1` ;

所以(())就是用来计算的，而且里面的变量不需要$来标记啦

（在 $(( )) 中的变量名称，可于其前面加$ 符号来替换，也可以不用）

在(())前面加上$只是为了把计算结果给保存而已。

而两个中括号和两个大括号都是不合法的！

三 21

Linux服务器基础知识

Posted on 2015年3月21日 by ulwvfje

想了想，既然是菜鸟教程，那就索性再介绍点更基础的东西，基本上只要是大学毕业的都能看懂，不需要懂计算机了。首先讲讲linux服务器吧，因为生物信息也算是半个大数据分析，所以我们平常的办公电脑一般都是不能满足需求的，大部分实验室及公司都会自己配置好服务器给菜鸟们用，菜鸟们首先要拿到服务器的IP和高手给你的用户名和密码。

一般我们讲服务器，大多是linux系统，而我这里所讲的linux系统呢，特指ubuntu，其余的我懒得管了，大家也不要耗费无谓的时间纠结那些名词的不同！

登录到服务器有两种方法，一种是ssh，传输你的命令给服务器执行，另一种是ftp，和服务器交换文件。而ssh我们通常用putty，xshell等等。ftp呢，我们可以用winscp，xshell，所以我一直都用xshell，因为它两者都能搞定！

Xshell软件自行搜索下载，打开之后新建一个连接，然后登陆即可。

然后输入以下命令，可以查看服务器配置，包括cpu。内存，还有硬盘

cat /proc/cpuinfo |grep pro|wc -l

free -g

df -h

这个服务器配置好一点，有80个cpu，内存256G，硬盘有2个11T的，是比较成熟的配置。

这个是一个小型服务器。也就24个核，64G的内存，但是存储量有点小呀，其实可以随便花几百块钱买个1T的硬盘挂载上去的。

然后linux的其它命令大家就得自己去搜索一个个使用，然后熟悉，记牢，然后创新啦！

我随便敲几个我常用的吧： ls cd mkdir rm cp cat head tail more less diff grep awk sed grep perl 等等！

呀，突然间发现我才介绍了ssh的方法登陆服务器并且发送命令在服务器上面运行，下面贴图如何传输文件。一般xshell的菜单里面有绿的文件夹形式的标签就是打开ftp文件传输，这种可视化的软件，大家慢慢摸索吧！

三 19

Linux基础之shell脚本的批处理

Posted on 2015年3月19日 by ulwvfje

脚本类似于下面的样子，大家可以读懂之后就仿写

for i in *sra

echo $i

/home/jmzeng/bio-soft/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump --split-3 $i

Done

这个脚本是把当前目录下所有的NCBI下载的sra文件都加压开来成测序fastq格式文件

有这些数据，分布在不同的目录，如果是写命令一个个文件处理，很麻烦，如果有几百个那就更麻烦了，所以需要用shell脚本

这样只需要bash这个脚本即可一次性处理所有的数据

还有很多类似的脚本，非常简单的

for i in *fq

echo $i

bowtie2 -p 13 -x ../../RNA.fa -U $i -S $i.sam

done

for i in */accepted_hits.bam

echo $i

out=`echo $i |cut -d'/' -f 1`_clout

samtools mpileup -guSDf /home/immune/refer_genome/hg19/hg19.fa $i | bcftools view -cvNg - >snp-vcf/$out.vcf

done

while read id

echo $id

out=`echo $id |cut -d'/' -f 2`

reads=`echo $id |cut -d'/' -f 3|sed 's/\r//g'`

tophat2 -p 13 -o $out /home/immune/refer_genome/hg19/hg19 $reads

done <$1

等等

三 19

SRA工具sratoolkit把原始测序数据转为fastq格式

Posted on 2015年3月19日 by ulwvfje

一，下载该软件

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

tar xzf sratoolkit.current-centos_linux64.tar.gz

解压直接使用即可，里面有一大堆的软件，针对不同的测序仪，不同的数据 Continue reading →

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Tag Archives: shell

没必要学shell进阶语法

Shell里面的各种括号的区别

[],[[]],(),(()),{},{{}},以及在前面加上$的区别，以及它们互相杂交组合的区别！！！

Linux服务器基础知识

Linux基础之shell脚本的批处理

SRA工具sratoolkit把原始测序数据转为fastq格式

2026年6月
一	二	三	四	五	六	日
« 九
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30