十 15

R一大利器之对象的操作函数查询

Posted on 2016年10月15日 by ulwvfje

对于生物出身的部分生物信息学工程师来说，很多计算机概念让人很头疼，尤其是计算机语言里面的高级对象。我以前学编程的时候，给我一个变量，一个数据，一个hash，我就心满意足了，可以解决大部分我数据处理问题，可事情远比想象之中复杂。因为很多高手喜欢用封装，代码复用，喜欢用高级对象。在R的bioconductor里面尤其是如此，经常会遇到各种包装好的S3，S4对象，看过说明书，倒是知道一些对象里面有什么，可以去如何处理那些对象，提取我们想要的信息，比如我就写过一系列的帖子：

Bioconductor系列之GenomicAlignments

Bioconductor系列之GenomicFeatures

R的bioconductor包TxDb.Hsapiens.UCSC.hg19.knownGene详解

R的bioconductor包里面的txdb对象及GRange对象详解

Continue reading →

十 15

用lumi包来处理illumina的bead系列表达芯片

Posted on 2016年10月15日 by ulwvfje

表达芯片大家最熟悉的当然是affymetrix系列芯片啦，而且分析套路很简单，直接用R的affy包，就可以把cel文件经过RMA或者MAS5方法得到表达矩阵。illumina出厂的芯片略微有点不一样，它的原始数据有3个层级，一般拿到的是Processed data (示例), 当仍然需要一系列的统计学方法才能提取到表达矩阵。我比较喜欢用bioconductor，所以下面讲一讲如何用lumi包来处理这个芯片数据！

这个lumi包的使用代码和说明书都有，按部就班的学一遍就好了。

http://www.bioconductor.org/packages/release/bioc/vignettes/lumi/inst/doc/lumi.R

http://www.bioconductor.org/packages/release/bioc/vignettes/lumi/inst/doc/lumi.pdf

如果仅仅是分析数据，那么并不难，但是每个分析步骤后面都隐含着一系列的统计学方法，想彻底搞清楚他它们，就很难了。

Continue reading →

十 15

illumina的bead 系列表达芯片扫盲

Posted on 2016年10月15日 by ulwvfje

表达芯片大家最熟悉的当然是affymetrix系列芯片啦，而且分析套路很简单，直接用R的affy包，就可以把cel文件经过RMA或者MAS5方法得到表达矩阵。illumina出厂的芯片略微有点不一样，它的原始数据有3个层级，一般拿到的是Processed data (示例), 当仍然需要一系列的统计学方法才能提取到表达矩阵。接下来我们首先讲一讲illumina的bead 系列表达芯片基础知识吧： Continue reading →

十 14

转一个Python的安利文章咯！

Posted on 2016年10月14日 by ulwvfje

来自于我们生信技能树论坛的超级版主bioinfo.dong的好文一篇，比较符合我博客的思想，就友情转发一下：

原文链接见：http://www.biotrainee.com/thread-379-1-1.html

刚接触生信的同学大都有个困惑，知道生物信息可能需要编程，可是选择什么语言呢？有人会说perl啊，Python啊，R啊，java啊，等等等等。目的不一样，选择也不一样，你可以说语言都没有区别，达到目的就行，当然没问题。可是我们也要知道每种语言都有其独特优势，你可以用perl倒腾出矩阵运算，也可以画出想要的图，可是没有R专业；你也可以用R的正则表达式处理文本，可是perl或者Python做正则会更方便一些。这不是比较帖，只是从一个Python体验者的角度来说一下为什么选择Python。我目前的编程组合是Python+R+Shell Scripting。

这篇文章比较适合编程初学者，常年用perl的老司机们可以随便看一下，虽说perl和Python很像，有了一门的基础，学另一门就容易多了，可是真让一个用了几年perl的人彻底换Python还是比较困难的，主要还是习惯问题。最初做生信的人大都以perl作为常用脚本语言。我也是从perl开始的，当年为了申请出国读Bioinformatics，认真把小骆驼书看了一遍。来美国之后的第一个导师刚好是教perl的，我又跟着学了一次，看完导师推荐的《Unix and Perl to the Rescue》，算是巩固加第二次入门。之后一年基本都是用perl来处理数据。一个偶然的机会，同学说一起学学Python吧，听说很好用，于是就在网上找了个教程把题目刷了一遍。虽说入了门，可是每次项目赶时间的时候第一个想到的还是用perl来解决，所以入门很久也没啥长进，我亲爱的同学因为perl用的太好，虽然知道Python很好用，可始终没法狠心转过来，而我因为本身perl学得也只是半斤八两，纠结了一段时间也就彻底放弃perl了。

先说用了很长时间perl再用Python觉得不习惯的点。

（1）首先是动物园的书，《learning perl》真是入门的典范。再看《Learning Python》，几千页，那么厚，我到现在也没法认真看下去。
（2）另外perl语句比较简洁，几个符号就可以讲清楚的，Python可能需要几行，比如按行读取，perl只要while(<>)就可以，而最初学Python的时候，光这个问题就困扰了很久。再比如perl正则匹配的$1, Python是match.group(1)。perl的简洁伴随的缺点是可读性较差，自己的代码写完了都不想再看，更不要说别人写的。
（3）perl的正则表达式是真的非常厉害，我已经不记得是怎么厉害的了，就只记得Python的re module刚开始接触不太好用，不过现在已经感觉不出区别了。
（4）通常一个Python脚本需要很多modules，不熟悉之前会觉得很痛苦，perl就比较少用到，我总共也没用几次，一方面说明我的perl确实学得不好，另一方面可能也真是不太好用，看到就觉得麻烦。但Python的modules一旦熟悉了会大大提高工作效率。

重点说一下Python的优点。Python作为编程语言真正的优势比如面向对象编程（OOP），可移植/扩展/嵌入，强大的爬虫功能，APP开发，web开发等都不在讨论范围之内，只从最实用的角度做一下说明：
（1）简单，适合作为入门语言。很多时候觉得读Python的代码像是在读简单的英文，或者觉得pseudocode稍微一改就可以在Python里run了。Python还规范了很好的写作格式，该缩进的必须缩进，这样更增强了可读性。同时提高了代码重复利用的可能（很多时候perl代码写完就不想读了，三个月不用再回来已经看不太懂了，Python的就可以留着慢慢用。。。）
（2）Python社区活跃。有问题可以很容易搜索到解决方案。我perl的老师现在也转教Python了，问他为什么，他说perl的community不活跃，用Python是一种趋势
（3）作为开源语言，Python有很多非常好用的包，可以最大程度让我们避免把时间浪费在重复造轮子上。刚接触Python的时候我就觉得这简直是perl和R的整合，之前提过Python的scipy，numpy，pandas，matlibplot等等packages使其同样拥有了很强大的统计画图功能，我曾一度弃用R，用Python做所有的数据处理，数据分析和画图。不过现在又将这些工作交回了R，实验室本身是做统计的，用R显得入流一点：-）
（4）Python的jupyter notebook！！！这个是要强力推荐的！！！以前叫ipython notebook。用过R的都知道R Studio。jupyter notebook就是Python的Studio。以前写perl或者Python是不是这样的流程：写好了，存成.pl或.py格式，在shell里python xxx.py或者perl xxx.pl。运行完发现不好，有bug，打开文件找找bug在哪，再运行，还不行，唉，反反复复，好累。有了jupyter notebook你就可以边写边跑边改程序。有任何不确定的地方，都可以在notebook里直接测试，有任何bug都可以在notebook里直接改。简直方便到爆。现在用Anaconda安装jupyter还附赠很多包，方便又实惠。
（5）学好Python可以转行！！！跳出生物坑，奔向美好的互联网坑。前面提到的爬虫，APP开发，web编程都是很实用的技能。许多互联网公司也会专门招Python程序员，比如Google，比如Youtube，比如Dropbox。。。

我本专业是Bioinformatics，需要上一些计算机和统计的研究生课程，还记得算法课上老师第一节课就问，java和C++都会吧，如果不会的话Python总会吧，都不会的话这门课的作业写不了。就因为觉得自己还算会一点Python，把一次学习java的好机会浪费掉了

暂时就想到这么多。说的未必对。都是自己的体会吧。希望对初学者有用～

十 07

阅读文献下载原始reads之pacbio全基因组数据

Posted on 2016年10月7日 by ulwvfje

一：文献解读

二：NCBI搜索

三：构建脚本下载所有reads压缩包

四：用sra-toolkit解压 Continue reading →

十 06

用cutadapt软件来对双端测序数据去除接头

Posted on 2016年10月6日 by ulwvfje

一般来讲，我们对测序数据进行QC，就三个大的方向：Quality trimming， Adapter removal， Contaminant filtering，当我们是双端测序数据的时候，去除接头时，也会丢掉太短的reads，就容易导致左右两端测序文件reads数量不平衡，有一个比较好的软件能解决这个问题，我比较喜欢的是cutadapt软件的PE模式来去除接头！尤其是做基因组或者转录组de novo 组装的时候，尤其要去掉接头，去的干干净净！
cutadapt是经典的python软件，但是因为我的linux服务器有点问题，可能是root权限问题，没有用pip install cutadapt 安装成功，我懒得搞这些了，其实可以自己去下载cutadapt的源码，然后进入源码文件夹里面 python setup.py install --user 到自己的 ~/.local/bin下面。
所以我用conda安装了cutadapt软件，http://www.bio-info-trainee.com/1906.html 所以我需要 python ~/miniconda2/pkgs/cutadapt-1.10-py27_0/bin/cutadapt --help 才能调用这个软件，不过，问题不大，我也就是试用一下。 Continue reading →

十 06

用sickle软件来对双端测序数据过滤低质量reads

Posted on 2016年10月6日 by ulwvfje

一般来讲，我们对测序数据进行QC，就三个大的方向：Quality trimming， Adapter removal， Contaminant filtering，当我们是双端测序数据的时候，去除低质量的reads就容易导致左右两端测序文件不平衡，有一个比较好的软件能解决这个问题，而且软件使用非常简单！ Continue reading →

十 05

大型基因组拼装的乐高软件之MaSuRCA assembler使用指南

Posted on 2016年10月5日 by ulwvfje

本文转载自生信技能树论坛特约作者Mint 的 MaSuRCA assembler 软件指导书，非常符合我博客的风格，也正式开启了我博客的转载之路。(前面的近400篇文章都是本人原创，手打，但是精力有限，以后文章更新频率会大大降低，但是会引入不少技能树论坛特约作者的好文！) Continue reading →

十 05

用Miniconda，Bioconda来安装常见的生物信息学软件

Posted on 2016年10月5日 by ulwvfje

这是生信技能树论坛的朋友推荐的，我试用了一下，的确非常方便~

原文见：http://www.biotrainee.com/thread-282-1-1.html

生信最基础的基本功便是常用软件的安装和配置，但是不是所有软件都可以直接使用的[比如 annovar 等]。除了安装编译，有些软件所需环境的配置同样令人头疼。会不断报错提醒你那些东西没有安装。

bioconda里面几乎涵盖了引用率较高的，好用的工具的打包资源，一键式安装，并且各自依赖的环境相互分隔，每次使用source activate env_name 来激活。使用source deactivate 来退出。具体软件列表见：https://anaconda.org/bioconda/repo 但是列表不支持搜索，可以去它的github里面去搜索

https://bioconda.github.io/

而且不需要root权限也可以安装软件。

Continue reading →

九 23

我挣大钱了？

Posted on 2016年9月23日 by ulwvfje

最近跟一些志同道合的小伙伴们一起搭建了生信技能树的论坛，所以在社交上面加大了投入力度，认识了很多在生物信息学领域各个学习程度的同学，发现有些人问我的问题让哭笑不得，大意就是：我的生信菜鸟团博客有近四百篇文章，阅读10万+了，又是知乎上面的大V，现在又在建论坛，感觉生意很红火的样子，是不是挣了很多钱啊！

Continue reading →

九 21

自学无参RNAseq数据分析第一讲之参考文献解读

Posted on 2016年9月21日 by ulwvfje

这是我为新创办的生信技能树论坛写的帖子，也适合本博客，所以转载过来： http://www.biotrainee.com/thread-243-1-1.html

以前做的都是有参转录组分析，只需要找到参考基因组和注释文件，然后走QC-->alignment-->counts->DEG-->annotation的流程图即可。
现在开始学习新的东西了，就是无参转录组分析，这里记录一下自己的学习笔记，首先还是资料收集，这次，我就针对性的看5个全流程化的转录组 de novo 分析文章，如下：
http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-15-554 2014年栀子花的花瓣衰老的标准de novo 转录组分析，数据如下：用Trinity做组装，用NCBI non-redundant (Nr) database库做注释，做了差异分析（栀子花花期分成4个阶段），GO/KEGG注释，然后做了RT-qPCR的实验验证。
多做了一个 Clusters of Orthologus Groups (COG)的数据库注释


	Raw Reads	Clean Reads	Contigs	Unigenes	Annotated
Transcriptome	55,092,396	50,335,672	102,263	57,503	39,459

http://bmcgenomics.biomedcentral.com/articles/10.1186/1471-2164-15-236 2014 巴西橡胶树的研究，是一个综合多组织样本的RNA库，ployT建库，454测序，用的是est2Assembly 和gsassembler 软件做组装，用 NCBI RefSeq, Plant Protein Database 做注释，因为没有分组，所以不必做差异分析，只需要找SNV和SSR标记即可，最后也是做GO/KEGG注释

https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-016-2633-2 2015 萝卜，用illumina进行转录组测序，用Trinity组装，用RPKM值算unigene的表达量，也是用 BLASTx来对Trinity结果进行注释，注释到NR，NT,Swiss-Prot,GO，COG，kegg数据库，其中GO注释用的是Blast2GO，最后也做了RT-qPCR 实验验证，某些基因在leaf里面的表达量显著高于其它tissue，有原始数据：http://www.ncbi.nlm.nih.gov/sra/?term=SRX1671013
转录组分析结果结果：A total of 54.64 million clean reads and 111,167 contigs representing 53,642 unigenes were obtained from the radish leaf transcriptome.

http://www.nature.com/articles/srep08259 2015 芹菜叶片发育中木质素的探究，测序的reads是A total of 32,477,416 quality reads were recorded for the leaves at Stage 1, 53,675,555 at Stage 2, and 27,158,566 at Stage 3, respectively.，也是用Trinity组装，kmer值设为25，组装结果：33,213 unigenes with an average length of 1,478 bp, a maximum length of 17,075 bp, and an N50 of 2,060 bp，然后用eggNOG/GO/KEGG数据库来注释。文章正文给了所用到的软件和数据库的详细链接
最后还用了 real-time PCR assays 来看 roots, stems, petioles, and leaf blade 这些组织的基因表达差异情况

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0128659 对三疣梭子蟹的卵巢和睾丸的转录组研究，，也是标准的转录组de novo 分析流程，非常值得借鉴
NCBI有上传原始数据：SRR1920180 和SRR1920180

总结好这5篇文献的数据分析流程，就差不多明白如何做无参的转录组de novo分析了

九 03

生信技能树论坛诞生啦！！！

Posted on 2016年9月3日 by ulwvfje

在许多小伙伴的共同协作下，我们的第一个论坛-生信技能树，诞生啦！

论坛地址：http://www.biotrainee.com/forum.php

虽然大家都说论坛已经是过气的互联网产品了，但我对互联网行业懂的很少，其实当初做博客的时候就有人跟我说过类似的话，但我还是坚持做了，我觉得做得还挺成功的，所以我仍然决定坚持把这个论坛做下去。

博客有很多缺点，传播速度很慢，不利于检索分类文章，个人知识面有限，也没办法跟follower及时交流。而我们的论坛，就可以克服那几个缺点。 Continue reading →

八 09

RNAseq数据完整生物信息分析流程第一讲之文献数据下载

Posted on 2016年8月9日 by ulwvfje

我这里拿的是bioconductor里面最常用的airway数据，因为差异表达分析在bioconductor里面是重点，它们这些包在介绍自己的算法以及做示范的时候都用的这个数据。可以在GEO数据库里面看到信息描述：http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778 可以看到是Illumina HiSeq 2000 (Homo sapiens) ，75bp paired-end 这个信息很重要，决定了下载sra数据之后如何解压以及如何比对。也可以看到作者把所有的测序原始数据都上传到了SRA中心：http://www.ncbi.nlm.nih.gov/sra?term=SRP033351 ，这里可以在linux服务器上面写一个简单的脚本批量下载所有的测序数据，然后根据GEO里面描述的metadata把原始数据改名。

for ((i=508;i<=523;i++)) ;do wget ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP033/SRP033351/SRR1039$i/SRR1039$i.sra;done
ls *sra |while read id; do ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 $id;done

需要自己看SRA里面的数据记录，上面的脚本不难写出，然后因为是Illumina的双端测序，所以我们用fastq-dump --split-3命令来把sra格式数据转换为fastq，但是因为这里有16个测序数据，所以最好是同步改名，我这里用脚本批量生成改名脚本如下：

为了节省空间，我用了--gzip压缩，该文件名，用-A参数。

nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_untreated SRR1039508.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Dex SRR1039509.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Alb SRR1039510.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N61311_Alb_Dex SRR1039511.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_untreated SRR1039512.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Dex SRR1039513.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Alb SRR1039514.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N052611_Alb_Dex SRR1039515.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_untreated SRR1039516.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Dex SRR1039517.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Alb SRR1039518.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N080611_Alb_Dex SRR1039519.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_untreated SRR1039520.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Dex SRR1039521.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Alb SRR1039522.sra &
nohup ~/biosoft/sratoolkit/sratoolkit.2.6.3-centos_linux64/bin/fastq-dump --split-3 --gzip -A N061011_Alb_Dex SRR1039523.sra &

可以看到这里的16个样本来源于同样的4个人，是HASM细胞系，处理详情如下：

测序基础：

HASM细胞系-human airway smooth muscle，

The Illumina TruSeq assay was used to prepare 75bp paired-end libraries for HASM cells from four white male donors under four treatment conditions:

1) no treatment;

2) treatment with a β2-agonist (i.e. Albuterol, 1μM for 18h);

3) treatment with a glucocorticosteroid (i.e. Dexamethasone (Dex), 1μM for 18h);

4) simultaneous treatment with a β2-agonist and glucocorticoid

and the libraries were sequenced with an Illumina Hi-Seq 2000 instrument.

我们这里只是先根据fastq数据比对到参考基因组，然后计算每个样本的表达量即可，后续的分组计算差异表达，就需要个性化了。

下载的sra大小如下：

-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 04:21 SRR1039508.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 05:20 SRR1039509.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 06:14 SRR1039510.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 07:05 SRR1039511.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 08:07 SRR1039512.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 9 09:17 SRR1039513.sra
-rw-rw-r-- 1 jmzeng jmzeng 3.1G Aug 9 10:56 SRR1039514.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 11:56 SRR1039515.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 13:02 SRR1039516.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.6G Aug 9 14:16 SRR1039517.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.3G Aug 9 15:17 SRR1039518.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.0G Aug 9 16:05 SRR1039519.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 16:56 SRR1039520.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.4G Aug 9 17:57 SRR1039521.sra
-rw-rw-r-- 1 jmzeng jmzeng 2.0G Aug 9 18:46 SRR1039522.sra
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 19:28 SRR1039523.sra

解压后成双端测序的fastq数据如下：

-rw-rw-r-- 1 jmzeng jmzeng 2.5G Aug 9 20:12 N052611_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.5G Aug 9 20:12 N052611_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 20:44 N052611_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 20:44 N052611_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 289M Aug 9 20:44 N052611_Alb_Dex.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 951M Aug 9 20:59 N052611_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 954M Aug 9 20:59 N052611_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.7G Aug 9 20:53 N052611_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.7G Aug 9 20:53 N052611_untreated_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 20:45 N061011_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.5G Aug 9 20:45 N061011_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:59 N061011_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:59 N061011_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 16M Aug 9 20:45 N061011_Alb.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 20:48 N061011_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.4G Aug 9 20:48 N061011_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 20:00 N061011_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 20:00 N061011_untreated_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 759M Aug 9 20:00 N061011_untreated.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:03 N080611_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.9G Aug 9 20:03 N080611_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 19:59 N080611_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 19:59 N080611_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 535M Aug 9 19:59 N080611_Alb_Dex.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 20:06 N080611_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 2.1G Aug 9 20:06 N080611_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 20:01 N080611_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.6G Aug 9 20:01 N080611_untreated_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_Alb_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_Alb_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:08 N61311_Alb_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:08 N61311_Alb_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 08:07 N61311_Dex_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.2G Aug 9 08:07 N61311_Dex_2.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_untreated_1.fastq.gz
-rw-rw-r-- 1 jmzeng jmzeng 1.3G Aug 9 08:09 N61311_untreated_2.fastq.gz

接下来所有的分析就基于此数据啦

八 07

对CHIP-seq数据call peaks应该选取unique比对的reads吗？

Posted on 2016年8月7日 by ulwvfje

对于CHIP-seq数据处理完全是自学的，所以有很多细节得慢慢学习回来，这次记录的就是当我们把测序仪的fastq数据比对到参考基因组之后，应该对比对的结果文件做什么样的处理，然后去给peaks caller软件拿来call peaks呢？我看过博客提到只保留比对质量值大于30的，也看过博客提到只保留unique比对的reads，我这里拿一篇公共数据测试了一下它们的区别！数据描述如下： Continue reading →

八 04

生信人必学ftp站点之 dbsnp

Posted on 2016年8月4日 by ulwvfje

这个数据库我也不想多解释了，也是host在NCBI上，不仅有常见的模式生物已经被研究过的所有variation位点信息，还有很多其它物种的数据，主站点是：ftp://ftp-trace.ncbi.nih.gov/snp/organisms/

人类是物种ID是9606，可以看到variation位点信息有基于hg19和hg38的两种下载方式，如果还有其它需求，可以自己用基因组坐标转换工具。在NCBI的snp页面也有对各种物种的variation位点信息记录文件的统计：http://www.ncbi.nlm.nih.gov/snp/ http://www.ncbi.nlm.nih.gov/SNP/同时也是NCBI做好的一个网页版查询工具，因为下载一个 variation位点信息记录文件动辄就是十几个G，一般人也不会处理那个文件，不知道从里面应该如何提取需要的信息，这时候学习它的网页版查询工具也挺好的。

Continue reading →

八 04

用 SHRiMP 来比对color space的数据

Posted on 2016年8月4日 by ulwvfje

无意中接触了AB 5500xl Genetic Analyzer这个测序仪的数据，就是传说中的solid格式，也就是color space的测序数据，虽然拿到的测序数据也是fastq格式的， 4行代表一条read，但是第二行已经不是在是碱基序列啦，而是color的编码。Colors may be encoded either as numbers (0=blue, 1=green, 2=orange, 3=red) or as characters A/C/G/T (A=blue, C=green, G=orange, T=red).我们通常称为csfastq格式。

对于这种数据的处理，一般的比对软件是hold 不住的，我查了一下，SHRiMP，sequel和BFAST ，bowtie，是可以处理这种csfastq格式数据的比对的，我这里简单使用了最出名的SHRiMP 。

Continue reading →

八 04

终于碰到color space的测序数据啦！

Posted on 2016年8月4日 by ulwvfje

看了illumina的测序仪市场份额的确很夸张，像我这样在生信数据分析领域身经百战的老鸟，都是直到今天才碰到color space的测序数据。测序平台是AB 5500xl Genetic Analyzer，就是传说中的solid格式。主要是我在学习一篇关于tp53转录因子结合能力的文章的时候碰到的，我查看了下载的数据虽然还是fastq格式，但很诡异，我完全不认识里面的序列。这里总结一下，下面是我的学习过程及思路，有点乱，大家随便看看！

首先：测序仪给的数据应该是 (.csfasta & .qual) 这两个后缀名的文件

然后，可以用脚本把数据转为csfastq格式，与普通fastq数据格式是没有区别，但是里面包含的不是序列，是color的编码。

其次，color space不允许转为base space数据！！！

最后，之所以转为csfastq格式，是为了适应很多软件，fastqc,cutadap，SHRiMP，sequel和BFAST ，bowtie等等

Continue reading →

八 02

根据比对的bam文件来对peaks区域可视化

Posted on 2016年8月2日 by ulwvfje

之前分析了好几个公共项目，拿到的peaks都很诡异，搞得我一直怀疑是不是自己分析错了。终于，功夫不负有心人，我分析了一个数据，它的peaks非常完美！！！可以证明，我的分析流程以及peaks绘图代码并没有错！数据来自于http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE74311，是关于H3K27ac_ChIP-Seq_LOUCY，组蛋白修饰的CHIP-seq数据，很容易就下载了作者上传的测序数据，然后跑了我的流程！https://github.com/jmzeng1314/NGS-pipeline/tree/master/CHIPseq Continue reading →

八 02

生信人必学ftp站点之1000genomes

Posted on 2016年8月2日 by ulwvfje

千人基因组计划的重要性我也不想多说了，由于时间跨度比较长，最终的数据不只是一千人，最新版共有NA编号开头的1182个人，HG开头的1768个人！它的官方网站是：有一个ppt讲得很清楚如何通过官网做的data portal来下载数据：https://www.genome.gov/pages/research/der/ichg-1000genomestutorial/how_to_access_the_data.pdf 我不喜欢可视化的界面，我比较喜欢直接进入ftp自己翻需要的数据，千人基因组计划不仅仅有自己的ftp站点，而且在NCBI，EBI和sanger研究所里面也有数据源可以下载，是非常丰富的生信入门资源！

ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/

ftp://ftp.sanger.ac.uk/pub/1000genomes/

ftp://ftp.ebi.ac.uk/pub/databases/1000genomes/

ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp

Continue reading →

八 02

生信人必学ftp站点之NCBI-GEO

Posted on 2016年8月2日 by ulwvfje

NCBI的重要性我就不多说了，Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据！所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/ Continue reading →

Page 100 of 119« First ‹ Previous 97 98 99100101 102 103 Next ›Last »

2025年7月
一	二	三	四	五	六	日
« 九
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31