生信菜鸟团 » 数据

一个标准的TCGA大文章应该做哪些数据？

ulwvfje — Tue, 24 Jan 2017 03:53:49 +0000

很多人总是问我如何挖掘TCGA的数据，发文章！

可是他却连TCGA的数据是怎么来的都不知道，TCGA发了几十篇CNS大文章(自己测序的)了，每篇文章都有几百个左右的癌症样本的6种数据，这几年凑成了一万多个样本，都放在GDC里面可以任意下载。同时也出来了十几篇TCGA的数据挖掘大文章(主要包括亚型，driver mutation，假基因等新型研究领域)

那么一篇标准的一个标准的TCGA大文章应该自己测哪些数据？

其实稍微仔细浏览几篇文章就明白了，套路也是存在的，https://tcga-data.nci.nih.gov/docs/publications/

我们就以2013年发表在新英格兰杂志上面的Genomic and Epigenomic Landscapes of Adult De Novo Acute Myeloid Leukemia 为例子吧！

研究的是acute myeloid leukemia (AML)，在医院花个十年时间精心挑选了200 adults with de novo AML ，当然病人详细信息是要给的，还要符合伦理，签知情协议书吧。

We performed whole-genome sequencing of the primary tumor and matched normal skin samples from 50 patients (with data from 24 of these patients reported previously17) and exome capture and sequencing for another 150 paired samples of AML tumor and skin (see Table S3 in the Supplementary Appendix for coverage data for the 200 samples).

全基因组测序毕竟贵，就只测50个吧，当然，癌症样本要取癌旁配对研究才有意义。剩余的就做外显子吧，毕竟便宜一点！

We performed RNA-expression profiling on the Affymetrix U133 Plus 2 platform for 197 samples, RNA sequencing for 179 samples, microRNA (miRNA) sequencing for 194 samples, Illumina Infinium HumanMethylation450 BeadChip profiling for 192 samples, and Affymetrix SNP Array 6.0 for both tumor and normal skin samples from all 200 patients.

接着就是芯片和测序的mRNA表达数据，然后是测序的miRNA表达就是，然后是芯片的甲基化数据，和芯片的拷贝数变异检测数据。

Data sets were not completed for all samples on all platforms because of assay failures and availability and quality issues for some samples. The complete list of data sets is provided in Table S4 in the Supplementary Appendix. All data sets are available through the Cancer Genome Atlas (TCGA) data portal (https://tcga-data.nci.nih.gov/tcga).

这么多数据都给TCGA贡献出来了，不发大文章，就没天理了。

至于怎么分析，在现在我们看来，就是一些套路了。

但是这些数据，他们一个组分析肯定只能是挑重点说咯，所以TCGA数据挖掘首先就是可以捡人家剩下的，然后可以把多个癌种合起来分析。

就先说到这里吧

【直播】我的基因组（九）:拿到数据后要做的事情

ulwvfje — Fri, 09 Dec 2016 01:01:25 +0000

时隔好几个月，因为各种各样的原因数据终于拿到了自己的手上，真是不容易啊！

拿到数据后，第一件要做的事情就是检查数据传输的完整性，然后备份！我拿到的数据如下：

可以看到，公司给了我测序仪的下机数据(raw data)和他们质控后的clean data，这个过程减少了6G的数据量，对应着约90亿bp的碱基，相当于减少了3个人的全基因组数据。具体推算公式见前面的系列直播贴！

首先我把数据拷贝到了我上上周买的2T移动硬盘里面，再拷贝到我工作电脑一份，服务器一份，私人电脑一份，另外一个移动硬盘一份。然后删除了公司寄给我的硬盘里面的数据，再把硬盘寄回给公司，然后监督他们删除我所有的数据。(做这么多就是为了保护隐私，当然这个大前提是我已经确定数据没有问题了。)

检查数据传输的完整性就是md5校验，看看数据在拷贝过程中有没有意外的损坏（这个在之前下载数据的时候我也说过）！一般传输数据之前，会用md5命令来生成各个文件的md5值，就是下面的MD5.txt文件里面的内容，然后传输数据之后，需要自行用md5sum -c MD5.txt 来校验文件里面记录的文件的完整性，如果显示都是OK，说明文件拷贝传输过程是没有问题的！但这个过程会耗费大量的磁盘读写，磁盘读写能力是有限的，所以开多个进程并不能加快这一过程。

然后我把公司处理好的bam文件上传到服务器做下游分析,我用的winscp软件把文件传到服务器上的！

从明天起，我们就开始正式对基因组进行分析啦！欢迎围观！

请扫描以下二维码关注我们，获取直播系列的所有帖子！

solexaQA 对测序数据进行简单过滤

ulwvfje — Tue, 24 Mar 2015 09:29:52 +0000

一．下载该软件

http://solexaqa.sourceforge.net/index.htm

下载解压开

现在已经把它的三个功能整合到一起啦

之前是分开的程序，我主要用它的两个perl 程序，我比较喜欢之前的版本，所以下面的讲解也是基于这两个perl程序。

这两

个主要是对reads进行最大子串的截取

二．准备数据。

就是我们测序得到的原始数据。

第一个就是质量控制，一般是以20为标准，当然你也可以自己设定，该软件质控的原理如下：

使用默认的参数值(defaults to P = 0.05, or equivalently, Q = 13)

基本上就是取符合阈值的最大子串。

二：命令使用很简单一般使用DynamicTrim与LengthSort.pl就可以了

for id in *fastq

echo $id

perl DynamicTrim.pl -454 $id

done

for id in *trimmed

echo $id

perl LengthSort.pl $id

done

首先使用DynamicTrim.pl程序，非常耗时间

几个小时完毕之后

查看，产出文件如下

可以看到丢弃的不多，也就三五百M的

简单查看丢弃的，都是短的。

perl -lne '{print length if $.%4==2}' SRR1793918.fastq.trimmed.discard |head

用这个脚本查看，可知好像都是短于25个碱基的被舍弃掉了，这个参数可以调整的。

接下来就可以用这些数据进行数据分析了