生信菜鸟团 » perl

生信分析人员数据处理脚本实战

ulwvfje — Wed, 01 Jun 2016 01:06:12 +0000

我前面写到了生信分析人员如何入门linux和perl，后面还会写R和python的总结，但是在这中间我想插入一个脚本实战指南。其实在我前两篇日志里面也重点提到了学习编程语言最重要的就是实战了，也点出了几个关键词。在实际生物信息学数据处理中应用perl和linux，可以借鉴EMBOSS软件套件，fastx-toolkit等基础软件，实现并且模仿该软件的功能。尤其是SMS2/exonerate/里面的一些常见功能,还有DNA2.0 Bioinformatics Toolbox的一些工具。如果你这些名词不懂，请赶快谷歌！！！它们做了什么，输入文件是什么，输出文件是什么，你都可以用脚本实现！

你在实现这些功能的时候就必然会融会贯通变量，控制语句，操作符，文件读写等基本编程功能，还会熟悉生物信息学常见数据格式，数据背后的生物学意义。用什么语言都是一样的，千万不要落入语言之争的下乘，也不要纠结于细节。学习是长期过程，尤其是编程这种事情就跟以前的木匠瓦匠一样，是人生技能，跟游戏不一样，不是一时半会就通过了。

如果你英文还不错，推荐看英文的资料，比如下面的DNA2.0 Bioinformatics Toolbox，就可以浏览该网站做了什么，然后自己把同样的文件，对该文件也进行类似的处理。

如果你还是比较熟悉中文，在这里推荐CJ大神总结的一些实际需求，下面都是一些随用随写的脚本，大神都是一句话就搞定了，但是对新手来说，请按部就班的练习！

-1.查看fastq文件读段平均读长、最大读长、最短读长
0.perl命令行粗暴多文件并行处理（每个线程处理一个文件）
1.从fasta文件中提取特定的某个序列(记录)
2.从fasta文件中批量提取序列(记录)
3.Fastq格式转换为fasta格式
4.常规fasta文件去格式为一行id一行seq
5.快速批量提取读段文件的指定序列 (也可用于去格式的fasta文件)
6.读段个数统计
7.fastq质量值格式转换---用于将phred+64数据转为phred+33数据
8.fastq 5'端trimming
9.去除低质量值碱基数量高于N个的reads--用于phred+33数据
10.去除读段序列含未知碱基N超过一定比例的读段
11. 切除读段两端质量值低于给定阈值的部分并丢弃长度低于给定值的记录新增双端版本 20140831
12.去除低质量值碱基(Q<给定值)所在比例高于(P大于给定值)的读段---用于phred+33数据
13.DNA序列转mRNA序列
14.perl脚本windows和linux间切换
15.window下打印前10行或者打印后10行
16.生成批处理用的无后缀file_list
17.fastq中提取特征读段序列
18.fasta格式CDS转为aa（必须有终止密码子）
19.window下面模拟cut命令-提取文本第二列
20.window下合并多个fa文件
21.window下提取匹配到某一模体的fasta序列
22.提取人类基因组注释文件rRNA注释
23.对sort | uniq -c | 的结果频次由高到低排序，有大用
24.fasta格式的DNA序列反向互补
25.一行id一行序列的fa文件格式化为一行id多行序列
26.按fastq文件标签名对读段顺序进行排序---待优化版
27. 替换fq或fa文件记录的id为指定形式
28.提供一个序列名列表逐一替换fasta记录的id

29.根据NCBI gene id 即gi号获取GeneBank上的序列
30.根据蛋白gene_id或accession获取其Genebank上的核苷酸序列
31.比较字符串中两个单字符的频次(比如投票0,1或方向F,R)
32.有同学想知道比对上的读段在genome上正反链的分布情况
33.去除全读段所有碱基质量值均低于某个阈值（如20）的读段(支持单端和双端数据)
34.借用pileup文件直接统计测序数据在各染色体上的分布
35.查看sam中uniq mapped比率
36.查看sam中编辑距离分布
37.统计各行平均值或各列平均值
38.将fa文件(尤其基因组文件)分成每个记录一个文件(要求一行id一行seq,见25)
39.批量重命名
40.win下批量去除文件夹内所有文件中的数字
41.统计SAM文件某一标签(BWA结果)
42.提取长度大于1000bp的fa记录
43.批量提取匹配行（正则匹配，强大） ---稍修改即可用于各类模式匹配批量提取，非常强大
44. fasta中有相同id，增加后缀方便blast建库
45. 多个列表文件，比如gene_ids，取样品特异gene_id
46. 直接统计一个序列的GC含量
47. 直接连接几个序列并将小写转换成大写
48. 序列贪吃蛇
49. 随机提取一定比例的fasta 记录或者fastq记录
50. 单行记录随机分组
51. 按照fasta长度排序fasta文件，修改后也可以用于具有某类特征标记的记录排序 (用于大文件，小文件请直接用hash)
52. 双标签区段提取 (使用范围操作符..)
53. 批量从uniprot上下载序列
54. 准备trimmomatic所需的adapter.fa文件
55. 提取fasta文件特定记录的特定区段
56. 获取GO term Level 2的信息
57. 单标签语句块读取 --（方便解析任何行组织文本-fasta fastq blast...）
58. 核酸序列互补配对的子函数
59. 分隔fa文件 fq文件 genebank文件为数据小文件
60. 序列格式化成每行等长并打印的子函数
61. 从公司返还的注释结果中提取query2gi2GO.table -- for blast3go

62. blast2go anno文件转换成blast3go输入文件

63. 提取任意组装结果最长转录本(so-called Unigenes)或者CDS预测结果中最长序列64. 表格类数据，以某一列为keys组成的Group中仅保留其对应某属性（另一列）中值最大的一类 65. 小文件行随机化 66. 打印匹配行及其前'指定数目'行67. 打印匹配行及其后'指定数目'行 68. -n的多个文件区别对待 69. 按照列名提取文件多列 70. 批量提取多个序列多个区段 71. 输出fasta文件每个序列对应的长度 ID\tLength\n72. jar发布前以来外源lib中的jar瘦身73. 依据step长度输出字符串所有后kmer子串74. 基于SAM文件统计ref的每个序列的uniq counts并输出reads的uniq mapped rate统计信息（用于表达谱差异分析 75. 汇总所有counts table并进行无表达补零操作（用于表达谱差异分析76. 保留fastq文件指定长度的读段最优子串77. 输出fasta文件每个记录的A T G C 字数统计78. 合并配对的读段文件fastq 正反读段交错 79. 统计SAM文件 CIGAR的命令 80. fasta文件去除ID行完全重复的记录 81. 合并所有文件的指定列 82. 根据id文件提取第二个文件中多个id匹配行83. 根据某一列的不同值将一个文件分割为多个文件84. 保留高表达或者去除低表达(WGCNA) 85. 表格类数据依据第一列，加和其他所有列，去冗余 86. ghostz比对到nr的表格提取query2gi.table

87. fastqReader
88. Linux下依据 SRA run number下载SRA数据
89. 快速批量统计fq.gz文件行数
90. 格式化mapman结果（mercator）
91. 基因表达量表格做行标准化
92. 基于ID列表提取表格（考虑待提取的表格中有单ID对应多行记录）
93. 文件批量重命名（提供一个重命名列表）
94. perl批量添加fasta文件前缀（用于多个样本分开组装后合并并用于去冗余等操作）
95. 对表达量表格或者counts表格依据平均值进行排序
96. 双联表计算卡方值
97. 整理bowtie的比对结果
98. 基于给定列名顺序调整表格列顺序
99. 整理GeneBank文件（分离地点）
100. 双列文件整理为 0-1 交集矩阵
101. 整理bowtie2的比对结果
102. 整理fastqc结果，提取所有样本的读段数
103. 整理STAR比对结果

生信分析人员如何系统入门perl？

ulwvfje — Thu, 26 May 2016 15:06:05 +0000

perl语言在老一辈的生物信息学分析人员中非常流行，所以因为历史遗留原因大家肯定会或多或少的接触perl，即使你再怎么推崇python或者GO。

perl是典型的脚本语言，短小精悍，非常容易上手，尤其适合处理文本，数据，以及系统管理。

简单给几个资料吧：

两个半小时入门指导：https://qntm.org/files/perl/perl.html

21天学完：http://ft-sipil.unila.ac.id/dbooks/(ebook%20pdf)%20Teach%20Yourself%20Perl%20in%2021%20Days.pdf

还有大小骆驼书，建议都看完，以囫囵吞枣的方式阅读，只看基础知识来入门，难点全部跳过。

官网：https://www.perl.org/

函数如何用，都可以在http://perldoc.perl.org/perl.html 查到

论坛：http://www.perlmonks.org/

在看书的同时，你必须记住和熟练使用的知识点是下面这些：

首先要理解perl里面的三种变量表示方式:

$ 表示单个变量用单双引号区别，q(),qq()

@ 表示多个变量组成的数组，qw()

% 表示关系型变量-hash

变量不严格区分类型，没有int/float/double/char这样的概念

以及对这些简单变量的操作函数

# Numerical operators: <, >, <=, >=, ==, !=, <=>, +, *

# String operators: lt, gt, le, ge, eq, ne, cmp, ., x

数组操作(pop/push/shift/unshift/splice/map/grep/join/split/sort/reverse)

hash操作方式(keys,values,each,delete,exists)

变量内容交换，字符型转为数值型，字符串转为字符数组，字符串变量，heredoc，字符串分割，字符串截取，

随机数生成，取整，各种概率分布数，多维矩阵如何操作，进制转换

hash翻转，数组转hash

上下文环境

这个比较复杂： http://www.perlmonks.org/?node_id=738558

就是需要理解你写的程序是如何判断你的变量的，你以为的不一定是你以为的

正则表达式

这也是一个非常重要的一块内容，基础用法就是m和s，一个匹配，一个替换，比较有趣的就是$1,$2等等捕获变量。

(=~ s{^https?://}{} =~ m{///})

内建变量

就是perl语言设计的时候定义了一大堆的全局变量($_ $, $0 $> $< $! $. @ARGV @F @_ @INC %ENV %SIG

外表上看起来都是一个$/@/%符号后面加上一大堆的奇奇怪怪的字符，表示一些特殊变量，这也是perl语言饱受诟病的原因。

但是有些非常重要，懂了它之后写程序会方便

下载一个表格，里面有近100个预定义变量需要学习的

控制语句(循环/条件/判断)

if ... elsif ... else ...

unless/while/next/last/for/foreach

读写文件，脚本实战！

while(<>){

#do something !

}

这是我最喜欢的一个程序模板，读取文件，根据需要处理文件，然后输出。

需要实现非常多的功能，然后就可以自己总结脚本技巧，也能完全掌握perl的各种语法。

在生物信息学领域，需要实现的功能有！

perl 单行命令

我个人特别喜欢这个知识点，我也专门下载过一本书来学习，把这个教程看完就基本上能全明白：http://www.catonmat.net/blog/perl-one-liners-explained-part-one/

学习单行命令的前提是掌握非常多的奇奇怪怪的perl自定义变量，和perl的基础语法，用熟练了之后就非常方便，很多生物信息学数据处理过程我现在基本不写脚本，都是直接写一行命令，完全代替了shell脚本里面的awk、sed/grep系列命令。

(-p -a -n -a -l -i -F -M)

预定义函数

perl 是一个非常精简的语言，自定义的函数非常少，连min max这样常见的函数都没有，如果你需要使用这样的功能，要么自己写一个函数，要么使用加强版的包，perl的包非常多。

下面列出一些，我常用的包

程序必备 use/die/warn/print/open/close/<>/

数学函数sin/cos/log/abs/rand/srand/sqrt

字符串函数 uc/lc/scaler/index/rindex/length/pos/substr/sprintf/chop/chomp/hex/int/oct/ord/chr/unpack/unencode

defined/undef

系统操作相关

perl语言是跨平台的，因为它的执行靠的是perl解释器，而perl的解释器可以安装在任何机器上面。所以可以用perl来代替很多系统管理工作。

系统命令调用

文件句柄操作(STDIN,STDOUT,STDERR,ARGV,DATA,)

系统文件管理(mkdir/chdir/opendir/closedir/readdir/telldir/rmdir/)

一些高级技巧

自定义函数 sub , 参数传递，数组传递，返回值

模块操作(模块安装，加载，模块路径，模块函数引用)

引用（变量的变量）

选择一个好的编辑器-编译器,editplus,notepad++,jEdit，编程习惯的养成。

搞清楚perl版本的问题，还有程序编码的问题，中文显示的问题

程序调试

perl常见模块学习

perl和LWP/HTML做网络爬虫必备，重点是DOM如何解析

perl和CGI编程，做网站的神器，重点是html基础知识

DBI相关数据库，用perl来操作mysql等，当然，重点是mysql知识

GD and GD::Graph 可以用来画图，但是基本上没有人用了，除了CIRCOS画圈圈图火起来了。

TK模块，可以编写GUI界面程序，但是也几乎没有人用了。

XML/pdf/excel/Json 相关的模块可以用来读取非文本格式数据，或者输出格式化报告。

socket通信相关，高手甚至可以写出一个QQ的模仿版本

最后不得不提的就是Bioperl了，虽然我从来没有用过，但是它的确对初学者非常有用，大多数人不提倡重复造轮子，但我个人觉得，对初学者来说，重复造轮子是一个非常好的学习方式。大家可以仿造bioperl里面的各个功能，用自己的脚本来实现！

如果你感觉学的差不多了，就可以下载一些复习资料，查漏补缺:

http://michaelgoerz.net/refcards/perl_refcard.pdf

https://rc.hms.harvard.edu/training/perl/Perl%20Cheat%20Sheet.pdf

https://www.cheatography.com/mishin/cheat-sheets/perl-reference-card/

http://www.catonmat.net/download/perl.predefined.variables.pdf

http://www.erudil.com/preqr.pdf

https://www.cs.tut.fi/~jkorpela/perl/regexp.html

https://support.sas.com/rnd/base/datastep/perl_regexp/regexp-tip-sheet.pdf

R包精讲第四篇：4种R包安装方式

ulwvfje — Tue, 12 Apr 2016 15:45:07 +0000

请先看：R包精讲第一篇：如何查看你已经安装了和可以安装哪些R包？

第一种方式，当然是R自带的函数直接安装包了，这个是最简单的，而且不需要考虑各种包之间的依赖关系。

对普通的R包，直接install.packages()即可，一般下载不了都是包的名字打错了，或者是R的版本不够，如果下载了安装不了，一般是依赖包没弄好，或者你的电脑缺少一些库文件，如果实在是找不到或者下载慢，一般就用repos=来切换一些镜像。

> install.packages("ape")  ##直接输入包名字即可
Installing package into ‘C:/Users/jmzeng/Documents/R/win-library/3.1’
(as ‘lib’ is unspecified)  ##一般不指定lib，除非你明确知道你的lib是在哪里
trying URL 'http://mirror.bjtu.edu.cn/cran/bin/windows/contrib/3.1/ape_3.4.zip'
Content type 'application/zip' length 1418322 bytes (1.4 Mb)
opened URL   ## 根据你选择的镜像，程序会自动拼接好下载链接url
downloaded 1.4 Mb

package ‘ape’ successfully unpacked and MD5 sums checked  ##表明你已经安装好包啦

The downloaded binary packages are in  ##程序自动下载的原始文件一般放在临时目录，会自动删除
	C:\Users\jmzeng\AppData\Local\Temp\Rtmpy0OivY\downloaded_packages

对于bioconductor的包，我们一般是

source("http://bioconductor.org/biocLite.R") ##安装BiocInstaller

#options(BioC_mirror=”http://mirrors.ustc.edu.cn/bioc/“) 如果需要切换镜像
biocLite("ggbio")

或者直接BiocInstaller::biocLite('ggbio') ## 前提是你已经安装好了BiocInstaller

某些时候你还需要卸载remove.packages("BiocInstaller") 然后安装新的

第二种方式，是直接找到包的下载地址，需要进入包的主页

packageurl <- "http://cran.r-project.org/src/contrib/Archive/ggplot2/ggplot2_0.9.1.tar.gz"
packageurl <- "http://cran.r-project.org/src/contrib/Archive/gridExtra/gridExtra_0.9.1.tar.gz"
install.packages(packageurl, repos=NULL, type="source")
#packageurl <- "http://www.bioconductor.org/packages/2.11/bioc/src/contrib/ggbio_1.6.6.tar.gz"
#packageurl <- "http://cran.r-project.org/src/contrib/Archive/ggplot2/ggplot2_1.0.1.tar.gz"
install.packages(packageurl, repos=NULL, type="source")

这样安装的就不需要选择镜像了，也跨越了安装器的版本！

第三种是，先把包下载到本地，然后安装：

download.file("http://bioconductor.org/packages/release/bioc/src/contrib/BiocInstaller_1.20.1.tar.gz","BiocInstaller_1.20.1.tar.gz")
##也可以选择用浏览器下载这个包
install.packages("BiocInstaller_1.20.1.tar.gz", repos = NULL)
## 如果你用的RStudio这样的IDE，那么直接用鼠标就可以操作了
或者用choose.files()来手动交互的选择你把下载的源码BiocInstaller_1.20.1.tar.gz放到了哪里。

这种形式大部分安装都无法成功，因为R包之间的依赖性很强！

第四种是：命令行版本安装

如果是linux版本，命令行从网上自动下载包如下：
sudo su - -c \
"R -e \"install.packages('shiny', repos='https://cran.rstudio.com/')\""
如果是linux，命令行安装本地包，在shell的终端
sudo R CMD INSTALL package.tar.gz
window或者mac平台一般不推荐命令行格式，可视化那么舒心，何必自讨苦吃

用perl把含有简并碱基的引物序列还原成多条序列-更正

ulwvfje — Mon, 11 Apr 2016 10:52:38 +0000

感谢读者的指正，我以前写的一个程序是错的，从算法设计上就错了！

http://www.bio-info-trainee.com/926.html

我从新设计了一个算法，经过再三检查，我可以确信它是对的，至于是否高效，就不敢保证了，也希望有更多热心的读者帮助我改正，或者跟我讨论，请直接联系我的邮箱jmzeng1314 at(防爬虫) 163.com

代码如下：

while(){

chomp;

@F=split/:/;

$hash{$F[0]}=uc $F[1];

} ##这里记录简并碱基的对应关系

## %hash stored the tables;

sub primer2multiple{

$primer=$_[0];

$prod=1;

$primer_len=length $primer ;

foreach $i (0..$primer_len-1){

$char=substr($primer,$i,1);

#$prod*=length $hash{$char} if ($char !~/[ATCG]/) ;

if ($char !~/[ATCG]/) {

push @pos_list,$i;

push @char_list,$hash{$char};

##首先找出所有的不是ATCG的碱基位置以及它对应的碱基

## record all of the positions which are not ATCG;

}

}

@out_list=($primer);

##循环处理每个不是ATCG的碱基位置，让它们根据对应关系扩展

foreach my $i (0..scalar(@pos_list)-1){

@out_list=&new_out_list(\@out_list,$pos_list[$i],$char_list[$i]);

} ##&new_out_list 这个函数非常重要，会把数组不停的扩展，最终达到应该有的个数！

print join"\n",@out_list;

print "\n";

}

sub new_out_list{

my @array = @{$_[0]};

my $pos = $_[1];

my $char = $_[2];

my @new_array=();

foreach my $i (@array){

foreach my $j (0..length($char)-1){

substr($i,$pos,1,substr($char,$j,1));

push @new_array,$i;

}

}

return(@new_array);

}

primer2multiple('ATGCVCGCDCTNCCTGAB');

__DATA__

R:ag

Y:CT

M:AC

K:GT

S:gc

W:AT

H:atc

B:gtc

V:gac

D:GAT

N:ATgc

perl程序技巧-检验系统环境或模块安装

ulwvfje — Tue, 15 Mar 2016 12:12:34 +0000

这个程序是我在VirusFinder里面发现的，大家可以自行搜索它！

非常好用，建议大家写程序都可以加上这个！

print "\nChecking Java version...\n\n";

my $ret = `java -version 2>&1`;

print "$ret\n";

if (index($ret, '1.6') == -1) {

printf "Warning: The tool Trinity of the Broad Institute may require Java 1.6.\n\n";

}

print "\nChecking SAMtools...\n\n";

$ret = `which samtools 2>&1`;

if (index($ret, 'no samtools') == -1) {

printf "%-30s\tOK\n\n", 'SAMtools';

}else{

printf "%-30s\tnot found\n\n", 'SAMtools';

}

my @required_modules = ("Bio::DB::Sam",

"Bio::DB::Sam::Constants",

"Bio::SeqIO",

"Bio::SearchIO",

"Carp",

"Config::General",

"Cwd",

"Data::Dumper",

"English",

"File::Basename",

"File::Copy",

"File::Path",

"File::Spec",

"File::Temp",

"FindBin",

"Getopt::Std",

"Getopt::Long",

"IO::Handle",

"List::MoreUtils",

"Pod::Usage",

"threads");

print "\nChecking CPAN modules required by VirusFinder...\n\n";

my $count = 0;

for my $module (@required_modules){

eval("use $module");

if ($@) {

printf "%-30s\tFailed\n", $module;

$count++;

}

else {

printf "%-30s\tOK\n", $module;

}

}

if ($count==1){

print "\n\nOne module may not be installed properly.\n\n";

}elsif ($count > 1){

print "\n\n$count modules may not be installed properly.\n\n";

}else{

print "\n\nAll CPAN modules checked!\n\n";

}

perl模块终极解决方案-下

ulwvfje — Tue, 15 Mar 2016 12:08:44 +0000

其实可以手动下载local::lib, 这个perl模块，然后自己安装在指定目录，也是能解决模块的问题！

下载之后解压，进入：

 $ perl Makefile.PL --bootstrap=~/.perl  ##这里设置你想把模块放置的目录
 $ make test && make install
 $ echo 'eval $(perl -I$HOME/.perl/lib/perl5 -Mlocal::lib=$HOME/.perl)' >> ~/.bashrc

等待几个小时即可！！！

添加好环境变量之后，就可以用

perl -MCPAN -Mlocal::lib -e 'CPAN::install(LWP)'

这样的模式下载模块了，所有的模块都会存储在$HOME/.perl/lib/perl5 里面！！！

如果是新写的perl程序，需要在开头加入 use local::lib;

# sets up a local lib at ~/perl5才能使用该模块！非常重要，非常重要，非常重要！！！

其实你也可以直接打开 ~/.bashrc，然后写入下面的内容

PERL5LIB=$PERL5LIB:/PATH_WHERE_YOU_PUT_THE_PACKAGE/source/bin/perl_module; export PERL5LIB

可以把perl模块安装在任何地方，然后通过这种方式去把模块加载到你的perl程序！

perl模块终极解决方案-上

ulwvfje — Tue, 15 Mar 2016 12:03:43 +0000

不管别人怎么说，反正我是非常喜欢perl语言的！

也会继续学习，以前写过不少perl模块的博客，发现有点乱，正好最近看到了关于local::lib这个模块。

居然是用来解决没有root权限的用户安装，perl模块问题的！

首先说一下，如果是root用户，模块其实没有问题，直接用cpan下载器，几乎能解决所有的模块下载安装问题！

但是如果是非root用户，那么就麻烦了，很难用自动的cpan下载器，这样只能下载模块源码，然后编译，但是编译有个问题，很多模块居然是依赖于其它模块的，你的不停地下载其它依赖模块，最后才能解决，特别麻烦

但是，只需要运行下面的代码：

wget -O- http://cpanmin.us | perl - -l ~/perl5 App::cpanminus local::lib
eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`
echo 'eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`' >> ~/.profile
echo 'export MANPATH=$HOME/perl5/man:$MANPATH' >> ~/.profile

就能拥有一个私人的cpan下载器，~/.profile可能需要更改为.bash_profile, .bashrc, etc等等，取决于你的linux系统！

然后你直接运行cpanm Module::Name，就跟root用户一样的可以下载模块啦！

或者用下面的方式在shell里面安装模块，其中ext是模块的安装目录，可以修改

perl -MTime::HiRes -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Time::HiRes;
perl -MFile::Path -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext File::Path;
perl -MFile::Basename -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext File::Basename;
perl -MFile::Copy -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext File::Copy;
perl -MIO::Handle -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext IO::Handle;
perl -MYAML::XS -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext YAML::XS;
perl -MYAML -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext YAML;
perl -MXML::Simple -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext XML::Simple;
perl -MStorable -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Storable;
perl -MStatistics::Descriptive -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Statistics::Descriptive;
perl -MTie::IxHash -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Tie::IxHash;
perl -MAlgorithm::Combinatorics -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Algorithm::Combinatorics;
perl -MDevel::Size -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Devel::Size;
perl -MSort::Key::Radix -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Sort::Key::Radix;
perl -MSort::Key -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Sort::Key;
perl -MBit::Vector -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext Bit::Vector;
perl -M"feature 'switch'" -e 1 > /dev/null 2>&1 || cpanm -v --notest -l ext feature;

下面是解释为什么这样可以解决问题！！！

What follows is a brief explanation of what the commands above do.

wget -O- http://cpanmin.us fetches the latest version of cpanm and prints it to STDOUT which is then piped to perl - -l ~/perl5 App::cpanminus local::lib. The first - tells perl to expect the program to come in on STDIN, this makes perl run the version of cpanm we just downloaded.perl passes the rest of the arguments to cpanm. The -l ~/perl5 argument tells cpanm where to install Perl modules, and the other two arguments are two modules to install. [App::cpanmins]1 is the package that installs cpanm. local::lib is a helper module that manages the environment variables needed to run modules in local directory.

After those modules are installed we run

eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`

to set the environment variables needed to use the local modules and then

echo 'eval `perl -I ~/perl5/lib/perl5 -Mlocal::lib`' >> ~/.profile

to ensure we will be able to use them the next time we log in.

echo 'export MANPATH=$HOME/perl5/man:$MANPATH' >> ~/.profile

will hopefully cause man to find the man pages for your local modules.

这种类似的问题被问的特别多！

There's the way documented in perlfaq8, which is what local::lib is doing for you.

It's also a frequently asked StackOverflow question:

画基因的外显子覆盖度图

ulwvfje — Sun, 31 Jan 2016 07:15:20 +0000

一般情况下，我们得到了测序reads在基因组的比对情况文件bam格式的，里面的信息非常多，如果我想特定的查看某个基因的情况，那么我们可以选择IGV等可视化工具，但它并不是万能的，因为即使是一个基因，它也会有多个转录本，多个外显子。

所以，我们可以画它的外显子覆盖图，如下：横坐标是外显子的长度，纵坐标是测序深度，每一个小图都是一个外显子

根据这个图，我们就可以很明显的看出，DMD基因NM_000109转录本的1，10-17号外显子缺失，用IGV一个个的看这些外显子区域，是同样的结果！可能是芯片捕获不到，也可能是样本本身变异，造成的大片段缺失。但是这个图的信息就非常有用！

那么，我们该如何画这样的图呢？

首先，我们需要找到需要探究的基因的全部转录信息，及外显子信息！

在hg19_refGene.txt里面会有，在UCSC里面可以下载，新手可能会比较麻烦，实在不行你去annovar的目录也可以找到！

那么，我们根据这个信息，就可以判断该基因的起始终止位点啦

然后用samtools的depth命令去找这个基因的全部片段的测序深度信息

最后再格式化成下面的三列数据

第一列是该外显子的坐标，从1到该外显子的成都

第二列是该外显子在该坐标的测序深度，通过samtools的depth命令得到

最后一列是该外显子的标记，从exon:79一直倒推到exon:1，因为该基因在染色体的负链，所以外显子顺序是反着的！

1 84 exon:79

2 84 exon:79

3 84 exon:79

4 85 exon:79

5 85 exon:79

6 86 exon:79

7 85 exon:79

8 87 exon:79

9 89 exon:79

10 91 exon:79

11 92 exon:79

12 95 exon:79

13 96 exon:79

14 96 exon:79

15 99 exon:79

16 99 exon:79

17 97 exon:79

最后根据这个txt文档，用R语言，很容易就画出上面那样的图片了！

这里面的信息量还是蛮大的！

perl的模块组织方式

ulwvfje — Thu, 24 Sep 2015 11:21:18 +0000

如何使用自己写的私人模块

模块通俗来讲，就是一堆函数的集合。

Personally I prefer to keep my modules (those that I write for myself or for systems I can control) in a certain directory, and also to place them in a subdirectory. As in:

/www/modules/MyMods/Foo.pm
/www/modules/MyMods/Bar.pm

And then where I use them:

use lib qw(/www/modules);useMyMods::Foo;

useMyMods::Bar;

As reported by "perldoc -f use":

It is exactly equivalent to
BEGIN { require Module; import Module LIST; }
except that Module must be a bareword.

Putting that another way, "use" is equivalent to:

running at compile time,
converting the package name to a file name,
require-ing that file name, and
import-ing that package.

So, instead of calling use, you can call require and import inside a BEGIN block:

BEGIN{require'../EPMS.pm';
  EPMS->import();}

And of course, if your module don't actually do any symbol exporting or other initialization when you call import, you can leave that line out:

BEGIN{require'../EPMS.pm';}

比如我的一个模块如下，命名为my_stat.pm：

package my_stat;

sub mean{

my $sum=0;

$sum+=$_ foreach @_;

$sum/($#_+1);

}

#print &mean(1..10),"\n";

sub stddev{

$avg=&mean(@_);

#print "$avg\n";

my $sum=0;

$sum+=($_-$avg)**2 foreach @_;

sqrt($sum/($#_));

#It will be different if you use $#_+1;

#sqrt($sum/($#_+1));

}

#print &stddev(1..10),"\n";

里面有我定义好的两个函数 mean 和 stddev , 那么我就可以在我的其它perl程序里面直接引用这个模块，从而使用我的两个自定义函数。

use lib "./"; #取决于你把自定义模块my_stat.pm放在哪个目录

use my_stat;

print my_stat::stddev(1..10),"\n";

一个基因坐标定位到具体基因的程序的改进

ulwvfje — Fri, 18 Sep 2015 11:37:02 +0000

这是为了回答以前的一个疑问：任意给定基因组的 chr:pos, 判断它在哪个基因上面？这个程序难吗？

基因的chr,start,end都是已知的

学术一点讲述这个问题：已知CNV数据在染色体上的position如chr1:2075000-2930999，怎样批量获取其对应的Gene Symbol呢（批量）

数据如下：

head gene_position.hg19 //共21629行

1 chr19 58858171 58874214 A1BG ENSG00000121410

2 chr12 9220303 9268558 A2M ENSG00000175899

3 chr12 9381128 9386803 A2MP1 ENSG00000256069

9 chr8 18027970 18081198 NAT1 ENSG00000171428

10 chr8 18248754 18258723 NAT2 ENSG00000156006

12 chr14 95058394 95090390 ENSG00000273259

13 chr3 151531860 151546276 AADAC ENSG00000114771

14 chr2 219128851 219134893 AAMP ENSG00000127837

15 chr17 74449432 74466199 AANAT ENSG00000129673

16 chr16 70286296 70323412 AARS ENSG00000090861

head pfam.df.hg19.bed //共340960行

chr1 12190 12689 Helicase_C_2 0 + 12190 12689 255,255,0

chr1 69157 69220 7tm_4 0 + 69157 69220 255,255,0

chr1 69184 69817 7TM_GPCR_Srsx 0 + 69184 69817 255,255,0

chr1 69190 69931 7tm_1 0 + 69190 69931 255,255,0

chr1 69490 69910 7tm_4 0 + 69490 69910 255,255,0

现在需要对我们的pfam数据进行注释，根据每一行的chr和pos来看看是属于哪一个基因

总共会有338879 条pfam记录可以注释上基因。

注释之后应该是 head pfam.gene.df.hg19 这个样子

CDK11B chr1 1571423 1573930 Pkinase 0 - 1571423 1573930 255,255,0

CDK11B chr1 1572048 1573921 Pkinase_Tyr 0 - 1572048 1573921 255,255,0

CDK11B chr1 1572120 1572823 Kinase-like 0 - 1572120 1572823 255,255,0

CDK11B chr1 1572120 1572820 Kinase-like 0 - 1572120 1572820 255,255,0

CDK11B chr1 1572120 1572817 Kinase-like 0 - 1572120 1572817 255,255,0

CDK11B chr1 1573173 1573918 Kinase-like 0 - 1573173 1573918 255,255,0

CDK11B chr1 1575747 1577317 Daxx 0 - 1575747 1577317 255,255,0

CDK11B chr1 1576417 1577347 Nop14 0 - 1576417 1577347 255,255,0

CDK11B chr1 1576423 1577332 Mitofilin 0 - 1576423 1577332 255,255,0

CDK11B chr1 1576432 1577317 SAPS 0 - 1576432 1577317 255,255,0

我的第一个程序用的是全基因位点扫描到hash的方法。这样需要扫描13,1390,4974个位点,多于三分之一的基因组，这样是非常浪费内存的，尤其是keys需要多个字节。

我用了256G的服务器都没有运行完。

后来我取巧了把我的gene_position.hg19文件用split命令分成了25个，然后循环25次对pfam.df.hg19.bed 文件进行注释。

这样的确可以解决问了，而且只需要32G的内存的服务器即可，时间也很快，就十多分钟吧。

但这只是取巧的方法，应该要从算法上面优化，首先我仅仅做一个改动，就是不再扫描全基因的位点，对每个基因，我以1K的窗口来取位点进行扫描。这样我判断pfam的坐标时候，也以1K为最小单位进行判断。

这样只需要不到30s就可以出结果，总共注释了303474条pfam记录，还不是最终的338879，因为我这次只注释了基因的1000整数倍基因区间，这样如果pfam记录落在一个基因的起始终止点不到1K位置时就不会被注释。这时候需要对代码进行继续优化。

脚步懒得上传了，在我的有道云笔记里面。

http://note.youdao.com/share/?id=58e66d138e9434284ffa61c53b65abdc&type=note