拿到比对后的sam/bam文件之后,这只能算是level2的数据,一般我们给他人share我们的结果也是直接给表达矩阵的, miRNA分析跟mRNA分析类似,但是它的表达矩阵更好获取一点。如果是mRNA,我们一般会跟基因组来比较,而基因组就那24条参考染色体,想知道具体比对到了哪个基因,需要根据基因组注释文件来写程序提取表达量信息,现在比较流行的是htseq这个软件,我前面也写过教程如何安装和使用,这里就不啰嗦了。但是对于miRNA,因为我比对的就是那1881条前体miRNA序列,所以直接分析比对的sam/bam文件就可以知道每条参考miRNA序列的表达量了。 Continue reading
Daily Archives: 2016年6月25日
自学miRNA-seq分析第四讲~测序数据比对
序列比对是大多数类型数据分析的核心,如果要利用好测序数据,比对细节非常重要,我这里只是研读一篇文章也就没有对比对细节过多考虑,只是列出自己的代码和自己的几点思考,力求重现文章作者的分析结果。对miRNA-seq数据有两条比对策略,一种是下载miRBase数据库里面的已知miRNA序列来进行比对,一种直接比对到参考基因组(比如人类的是hg19/hg38),前面的比对非常简单,而且很容易就可以数出已经的所以miRNA序列的表达量,后面的比对有点耗时,而且算表达量的时候也不是很方便,但是它有个有点是可以来预测新的miRNA,所以大多数文章都会把这两条路给走一下。 Continue reading
自学miRNA-seq分析第三讲~公共测序数据下载
前面已经讲到了该文章的数据已经上传到NCBI的SRA数据中心,所以直接根据索引号下载,然后用SRAtoolkit转出我们想要的fastq测序数据即可。下载的数据一般要进行质量控制,可视化展现一下质量如何,然后根据大题测序质量进行简单过滤。所以需要提前安装一些软件来完成这些任务,包括: sratoolkit /fastx_toolkit /fastqc/bowtie2/hg19/miRBase/SHRiMP
下面是我用新服务器下载安装软件的一些代码记录,因为fastx_toolkit /fastqc我已经安装过,就不列代码了,还有miRBase的下载,我在前面第二讲里面提到过,传送门:自学miRNA-seq分析第二讲~学习资料的搜集 Continue reading
自学miRNA-seq分析第二讲~学习资料的搜集
因为我也是完全从零开始入门miRNA-seq分析,所以收集的资料比较齐全,我首先看了部分中文资料,了解了miRNA测序是怎么回事,该分析什么,然后主要围绕着上一篇提到的文献里面的分析步骤来搜索资料。传送门:自学miRNA-seq分析第一讲~文献选择与解
我首先拿到了miRNA定义:http://nar.oxfordjournals.org/content/34/suppl_1/D135.full ,当然基本上每个研究miRNA的文章都会在前言里面写到这个,我只是随意列出一个而已。 Continue reading
自学miRNA-seq分析第一讲~文献选择与解读
前些天逛bioStar论坛的时候看到了一个问题,是关于miRNA分析,提问者从NCBI的SRA数据下载文献提供的原始数据,然后处理的时候有些不懂,我看到他列出的数据是iron torrent测序仪的,而且我以前还没玩过miRNA-seq的数据分析, 就抽空自学了一下。因为我有RNA-seq的基础,所以理解学习起来比较简单。特记录一下自己的学习过程,希望对后学者有帮助。 Continue reading