三 19

个人网站的计划

Posted on 2015年3月19日 by ulwvfje

转录组方向：

数据来源是NCBI里面的一个文献

其中转录组方向的那些软件流程大多已经跑完了，大家可以见我的转录组总结。

trinity，tophat，cufflinks，RseQC，RNAseq，GOseq，MISO，RSEM，khmer，screed，trimmomatic，transDecoder，vast-tools，picard-tools，htseq，cuffdiff，edgeR，DEseq，funnet，davidgo，wego，kobas，KEGG，Amigo，go

基因组方向：

数据来源是strawberry草莓的文献

velvet，SOAPdenovo2，repeatmasker,repeatscount,piler，

Chip-seq方向：

这个群里有高手说要跟我合作，他来帮我写，希望是真的！

免疫组库方向：

这个其实没有成熟软件，也就是一个igblastn, 然后是IMGT数据库，但是是我主打的产品，所以我会详细介绍一下。

全外显子组方向：

这方面我不是很懂，。好像主要就是snp-calling

Snp-calling方向：

这个我准备自己写软件，不仅仅是用别人的软，它的数据本身也是前面几个方向的数据

bwa，bowtie，samtools，GATK，VarScan.jar，annovar

进化方向：

数据就是基因组数据

orthMCL，inparanoid, clustw,muscle，MAFFT，quickparanoid，blast2go，RAxML，phyML

三 19

Linux基础之shell脚本的批处理

Posted on 2015年3月19日 by ulwvfje

脚本类似于下面的样子，大家可以读懂之后就仿写

for i in *sra

echo $i

/home/jmzeng/bio-soft/sratoolkit.2.3.5-2-ubuntu64/bin/fastq-dump --split-3 $i

Done

这个脚本是把当前目录下所有的NCBI下载的sra文件都加压开来成测序fastq格式文件

有这些数据，分布在不同的目录，如果是写命令一个个文件处理，很麻烦，如果有几百个那就更麻烦了，所以需要用shell脚本

这样只需要bash这个脚本即可一次性处理所有的数据

还有很多类似的脚本，非常简单的

for i in *fq

echo $i

bowtie2 -p 13 -x ../../RNA.fa -U $i -S $i.sam

done

for i in */accepted_hits.bam

echo $i

out=`echo $i |cut -d'/' -f 1`_clout

samtools mpileup -guSDf /home/immune/refer_genome/hg19/hg19.fa $i | bcftools view -cvNg - >snp-vcf/$out.vcf

done

while read id

echo $id

out=`echo $id |cut -d'/' -f 2`

reads=`echo $id |cut -d'/' -f 3|sed 's/\r//g'`

tophat2 -p 13 -o $out /home/immune/refer_genome/hg19/hg19 $reads

done <$1

等等

三 19

转录组总结

Posted on 2015年3月19日 by ulwvfje

网站成立也快一个月了，总算是完全搞定了生信领域的一个方向，当然，只是在菜鸟层面上的搞定，还有很多深层次的应用及挖掘，仅仅是我所讲解的这些软件也有多如羊毛的参数可以变幻，复杂的很。其实我最擅长的并不是转录组，但是因为一些特殊的原因，我恰好做了三个转录组项目，所以手头上关于它的资料比较多，就分享给大家啦！稍后我会列一个网站更新计划，就好谈到我所擅长的基因组及免疫组库。我这里简单对转录组做一个总结：

首先当然是我的转录组分类网站啦

http://www.bio-info-trainee.com/?cat=18

同样的我用脚本总结一下给大家

http://www.bio-info-trainee.com/?p=370阅读更多关于《转录组-GO和KEGG富集的R包clusterProfiler》

http://www.bio-info-trainee.com/?p=359阅读更多关于《转录组-GO通路富集-WEGO网站使用》

http://www.bio-info-trainee.com/?p=346阅读更多关于《转录组-TransDecoder-对trinity结果进行注释》

http://www.bio-info-trainee.com/?p=271阅读更多关于《转录组cummeRbund操作笔记》

http://www.bio-info-trainee.com/?p=255阅读更多关于《转录组edgeR分析差异基因》

http://www.bio-info-trainee.com/?p=244阅读更多关于《转录组HTseq对基因表达量进行计数》

http://www.bio-info-trainee.com/?p=166阅读更多关于《转录组cufflinks套装的使用》

http://www.bio-info-trainee.com/?p=156阅读更多关于《转录组比对软件tophat的使用》

http://www.bio-info-trainee.com/?p=125阅读更多关于《Trinity进行转录组组装的使用说明》

http://www.bio-info-trainee.com/?p=113阅读更多关于《RSeQC对 RNA-seq数据质控》

同时我也讲了如何下载数据

http://www.bio-info-trainee.com/?p=32

原始SRA数据首先用SRAtoolkit数据解压，然后进行过滤，评估质量，然后trinity组装，然后对组装好的进行注释，然后走另一条路进行差异基因，差异基因有tophat+cufflinks+cummeRbund，也有HTseq 和edgeR等等，然后是GO和KEGG通路注释，等等。

在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！

http://www.bio-info-trainee.com/?p=1

线下交流-生物信息学
同时欢迎下载使用我的手机安卓APP

http://www.cutt.com/app/down/840375

三 19

转录组-GO和KEGG富集的R包clusterProfiler

Posted on 2015年3月19日 by ulwvfje

PS：请不要在问我关于这个包的任何问题，直接联系Y叔，我就两年前用过一次而已，再也没有用过。

Y叔的包更新太频繁了，这个教程已经作废，请不要再照抄了，可以去我们论坛看新的教程：http://www.biotrainee.com/thread-1084-1-1.html

一：下载安装该R包

clusterProfiler是业界很出名的YGC写的R包，非常通俗易懂，也很好用，可以直接根据cuffdiff等找差异的软件找出的差异基因entrez ID号直接做好富集的所有内容； Continue reading →

三 19

转录组-GO通路富集-WEGO网站使用

Posted on 2015年3月19日 by ulwvfje

一，所谓的网站，其实就是一个网页版的可视化软件接口而已

看看网站主页，看看它需要什么数据

http://wego.genomics.org.cn/cgi-bin/wego/index.pl

二，所需要的数据

1，human.all.go.entrez，需要自己制作，每个基因名entrez ID号，对应着一堆GO通路，人有两万多个基因，所以应该有两万多行的文件。

2，差异基因的GO通路，需要用cuffdiff得到差异基因名，然后用然后用脚本做成下面的样子。记住，上面的那个人类的背景GO文件也是一样的格式，基因名是entrez ID号，与GO通路用制表符隔开，然后每个基因所对应的GO直接用空格隔开。格式要求很准确才行。

三，上传数据，出图

点击plot画图即可，就可以出来了一个GO通路富集图

顺便贴上wego上传数据制作的几个脚本，脚本这种东西都很难看，随便意思一下啦，用一下脚本处理就可以得到wego需要上传的数据了

1，得到差异基因名，并且转换为entrez ID号
grep yes gene_exp.diff |cut -f 3 |sort -u >diff.gene.name
cat diff.gene.name ../Homo_sapiens.gene_info |perl -alne '{$hash{$_}=1;print $F[1] if exists $hash{$F[2]}}' |sort -u >diff.gene.entrez
2，根据找到的差异基因的entrez ID号来找到它的GO信号，输出文件给wego网站
cat diff.gene.entrez ../gene2go |perl -alne '{$hash{$_}=1;print "$F[1]\t$F[2]" if exists $hash{$F[1]}}' |perl -alne '{$hash{$F[0]}.="$F[1] "}END{print "$_\t$hash{$_}" foreach keys %hash}' >diff.gene.entrez.go
3，得到entrez ID号跟ensembl ID号的转换hash表
perl -alne '{if (/Ensembl:(ENSG\d+)/) {print "$1=>$F[1]"} }' Homo_sapiens.gene_info >entrez.ensembl
4，得到人类entrez ID的go背景
grep '^9606' gene2go |perl -alne '{$hash{$F[1]}.="$F[2] "}END{print "$_\t$hash{$_}" foreach sort keys %hash}' >human.all.go.entrez
5，把人类entrez ID的go背景转换成ensembl的go背景
cat entrez.ensembl human.all.go.entrez |perl -F"=>" -alne '{$hash{$F[1]}=$F[0];print "$hash{$F[0]}\t$F[1]" if exists $hash{$F[0]}}' >human.all.go.ensembl

在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！

http://www.bio-info-trainee.com/?p=1

线下交流-生物信息学
同时欢迎下载使用我的手机安卓APP

http://www.cutt.com/app/down/840375

三 19

免疫组库igblastn软件的使用

Posted on 2015年3月19日 by ulwvfje

一：下载安装该软件

软件：NCBI提供的igblastn（linux环境）

需要自己去NCBI的ftp里面下载

ftp://ftp.ncbi.nlm.nih.gov/blast/executables/igblast/release/

要保证igblastn程序文件和以下三个文件夹在同一目录，可以自行下载ncbi的igblast程序，同时要下载这些东西。 Continue reading →

三 19

转录组-TransDecoder-对trinity结果进行注释

Posted on 2015年3月19日 by ulwvfje

一：下载安装该软件

下载安装该软件： wget https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1

解压进入该目录，查看里面的文件

make一下就可以用了，看起来好像是依赖于perl模块的

这个TransDecoder.LongOrfs就是我们这次需要的程序，查看该程序，的确真是一个perl程序，看来perl还是蛮有用的。

二：准备数据

它里面有个测试数据，是比较全面的，也比较复杂，我就不贴出来了，反正我是那trinity组装好的fasta格式的转录组数据来预测ORF的。

三：运行命令

它给的测试命令也很复杂

## generate alignment gff3 formatted output

../util/cufflinks_gtf_to_alignment_gff3.pl transcripts.gtf > transcripts.gff3

## generate transcripts fasta file

../util/cufflinks_gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta > transcripts.fasta

## Extract the long ORFs

../TransDecoder.LongOrfs -t transcripts.fasta

当然我们只需要看最后一步，这是重点

我这里是直接对我们的trinity组装好的转录本进行预测ORF

/home/jmzeng/bio-soft/TransDecoder/TransDecoder.LongOrfs -t Trinity.fasta

命令很简单

输出来的文件就有预测的蛋白文件，这个文件是trinotate对转录本进行注释所必须的文件

四：输出文件解读

longest_orfs.cds 这个是预测到的cds碱基序列，

longest_orfs.gff3 这个是预测得到的gff文件

longest_orfs.pep 这个就是预测得到的蛋白文件

三 19

SRA工具sratoolkit把原始测序数据转为fastq格式

Posted on 2015年3月19日 by ulwvfje

一，下载该软件

wget http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-ubuntu64.tar.gz

tar xzf sratoolkit.current-centos_linux64.tar.gz

解压直接使用即可，里面有一大堆的软件，针对不同的测序仪，不同的数据 Continue reading →

生信菜鸟团

欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee

Daily Archives: 2015年3月19日

个人网站的计划

Linux基础之shell脚本的批处理

转录组总结

转录组-GO和KEGG富集的R包clusterProfiler

转录组-GO通路富集-WEGO网站使用

免疫组库igblastn软件的使用

转录组-TransDecoder-对trinity结果进行注释

SRA工具sratoolkit把原始测序数据转为fastq格式

2015年3月
一	二	三	四	五	六	日
				四 »
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31