<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 差异基因</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e5%b7%ae%e5%bc%82%e5%9f%ba%e5%9b%a0/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>使用Bedtools对RNA-seq进行基因计数</title>
		<link>http://www.bio-info-trainee.com/745.html</link>
		<comments>http://www.bio-info-trainee.com/745.html#comments</comments>
		<pubDate>Thu, 21 May 2015 01:27:47 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[count]]></category>
		<category><![CDATA[差异基因]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=745</guid>
		<description><![CDATA[以前是没有想过用这个软件的，直到有一个我的htseq无法对比对的bam文件进行基 &#8230; <a href="http://www.bio-info-trainee.com/745.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h3>
<b></b></h3>
<p>以前是没有想过用这个软件的，直到有一个我的htseq无法对比对的bam文件进行<b>基因计数（后来我才发现htseq无法计数的原因是gtf版本不同导致坐标不同，而且gtf对染色体编号没有加上chr），</b>我简单搜索了一下，发现bedtools multicov也有类似的功能，所以我选择它来试试看！</p>
<p>首先注意它需要sort的bam文件及bam的index</p>
<p>bedtools multicov depends upon index BAM files in order to count the number of overlaps in each BAM file. As such, each BAM file should be position sorted (samtool sort aln.bam aln.sort) and indexed (samtools index aln.sort.bam) with either samtools or bamtools.</p>
<p>首先安装它：</p>
<p>wget <a href="https://github.com/arq5x/bedtools2/releases/download/v2.23.0/bedtools-2.23.0.tar.gz">https://github.com/arq5x/bedtools2/releases/download/v2.23.0/bedtools-2.23.0.tar.gz</a></p>
<p>解压开后</p>
<p>Make clean</p>
<p>Make all</p>
<p>然后就可以看到它的bin目录下全部是程序啦</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/Bedtools使用笔记639.png"><img class="alignnone size-full wp-image-746" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/Bedtools使用笔记639.png" alt="Bedtools使用笔记639" width="554" height="175" /></a></p>
<p>命令很简单的</p>
<p><b>bedtools multicov </b>[OPTIONS] -bams BAM1 BAM2 BAM3 ... BAMn -bed  <b>&lt;BED/GFF/VCF&gt;</b></p>
<p>By default, multicov will report the count of alignments in each input BAM file that overlap.</p>
<p>例子：</p>
<p>bedtools multicov -bams aln1.bam aln2.bam aln3.bam -bed ivls-of-interest.bed</p>
<p>ivls-of-interest.bed这个文件是必须的，可能需要自己制作，其实用gtf文件也可以的</p>
<p>chr1 0   10000   ivl1</p>
<p>chr1 10000   20000   ivl2</p>
<p>chr1 20000   30000   ivl3</p>
<p>chr1 30000   40000   ivl4</p>
<p>输出结果前三列是坐标，第四列是基因名，跟我们的bed文件一样，只是最后三列是三个样本的计数，是添加上来的！</p>
<p>chr1 0       10000   ivl1    100 2234    0</p>
<p>chr1 10000   20000   ivl2    123 3245    1000</p>
<p>chr1 20000   30000   ivl3    213 2332    2034</p>
<p>chr1 30000   40000   ivl4    335 7654    0</p>
<p>&nbsp;</p>
<p>同样是对gene的reads计数，bedtools的multicov工具与htseq-count的区别是</p>
<p>i'd guess it's due to the fact that htseq-count only reports one hit per aligned read assuming that read is aligned uniquely and does not overlap multiple features listed in your GTF. if an aligned read hits more than one feature in your GTF then it doesn't report that hit. bedtools gives you raw hits which includes every 1 hit for every intersection of every alignment with any features in the GTF no matter how many times it aligned or how many features it hit. you might think, "wow, htseq-count is dropping a lot of information". yes, it is! i've moved to using other tools to count hits to genes (RSEM/eXpress) since they disambiguate those ambiguous alignments and as a result you get counts for all of your aligned reads. in a genome with alternative splicing you lose too much data using htseq-count, in my opinion.</p>
<p>而且专门有个文献在讨论这个问题</p>
<p><a href="qq://txfile/#">http://barcwiki.wi.mit.edu/wiki/SOPs/rna-seq-diff-expressions</a></p>
<p><a href="http://www.nature.com/nbt/journal/v31/n1/abs/nbt.2450.html">http://www.nature.com/nbt/journal/v31/n1/abs/nbt.2450.html</a></p>
<p>Differential analysis of gene regulation at transcript resolution with RNA-seq</p>
<p>下面我讲一个实际的例子</p>
<p>我的bam文件如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/Bedtools使用笔记2406.png"><img class="alignnone size-full wp-image-747" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/Bedtools使用笔记2406.png" alt="Bedtools使用笔记2406" width="380" height="174" /></a></p>
<p>bedtools multicov -bams 740WT1.bam 741WT2.bam 742KO1.bam 743KO2.bam -bed mm9.bed</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/Bedtools使用笔记2491.png"><img class="alignnone size-full wp-image-748" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/Bedtools使用笔记2491.png" alt="Bedtools使用笔记2491" width="554" height="205" /></a></p>
<p>得到的这个矩阵就可以去用DESeq包来进行差异分析啦！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/745.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>R语言DESeq找差异基因</title>
		<link>http://www.bio-info-trainee.com/741.html</link>
		<comments>http://www.bio-info-trainee.com/741.html#comments</comments>
		<pubDate>Mon, 18 May 2015 06:24:49 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信组学技术]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[DESeq]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[差异基因]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=741</guid>
		<description><![CDATA[一：安装并加装该R包 安装就用source("http://bioconduct &#8230; <a href="http://www.bio-info-trainee.com/741.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<h3>一：安装并加装该R包</h3>
<p>安装就用source("http://bioconductor.org/biocLite.R") ;biocLite("DESeq")即可，如果安装失败，就需要自己下载源码包，然后安装R模块。</p>
<p>&nbsp;</p>
<p>二．所需要数据</p>
<p>它的说明书指定了我们一个数据</p>
<p>source("http://bioconductor.org/biocLite.R") ;biocLite("pasilla")</p>
<p>安装了pasilla这个包之后，在这个包的安装目录就可以找到一个表格文件，就是我们的DESeq需要的文件。</p>
<p>C:\Program Files\R\R-3.2.0\library\pasilla\extdata\pasilla_gene_counts.tsv</p>
<p>说明书原话是这样的</p>
<p>The table cell in the i-th row and the j-th column of the table tells how many reads have been mapped to gene i in sample j.</p>
<p>一般我们需要用htseq-count这个程序对我们的每个样本的sam文件做处理计数，并合并这样的数据</p>
<p>下面这个是示例数据，第一列是基因ID号，后面的每一列都是一个样本。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/图片12.png"><img class="alignnone size-full wp-image-742" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/05/图片12.png" alt="图片1" width="549" height="405" /></a></p>
<p>de = newCountDataSet( pasillaCountTable, condition )  #根据我们的样本因子把基因计数表格读入成一个cds对象，这个newCountDataSet函数就是为了构建对象！</p>
<p>对我们构建好的de对象就可以直接开始找差异啦！非常简单的几步即可</p>
<p>de=estimateSizeFactors(de)</p>
<p>de=estimateDispersions(de)</p>
<p>res=nbinomTest(de,"K","W") #最重要的就是这个res表格啦！</p>
<p>uniq=na.omit(res)</p>
<p>我这里是对4个样本用htseq计数后的文件来做的，贴出完整代码吧</p>
<p>library(DESeq)</p>
<p>#首先读取htseq对bam或者sam比对文件的计数结果</p>
<p>K1=read.table("742KO1.count",row.names=1)</p>
<p>K2=read.table("743KO2.count",row.names=1)</p>
<p>W1=read.table("740WT1.count",row.names=1)</p>
<p>W2=read.table("741WT2.count",row.names=1)</p>
<p>data=cbind(K1,K2,W1,W2)</p>
<p>data=data[-c(43630:43634),]</p>
<p>#把我们的多个样本计数结果合并起来成数据框，列是不同样本，行是不同基因</p>
<p>colnames(data)=c("K1","K2","W1","W2")</p>
<p>type=rep(c("K","W"),c(2,2))</p>
<p>#构造成DESeq的对象，并对分组样本进行基因表达量检验</p>
<p>de=newCountDataSet(data,type)</p>
<p>de=estimateSizeFactors(de)</p>
<p>de=estimateDispersions(de)</p>
<p>res=nbinomTest(de,"K","W")</p>
<p>#res就是我们的表达量检验结果</p>
<p>library(org.Mm.eg.db)</p>
<p>tmp=select(org.Mm.eg.db, keys=res$id, columns="GO", keytype="ENSEMBL")</p>
<p>ensembl_go=unlist(tapply(tmp[,2],as.factor(tmp[,1]),function(x) paste(x,collapse ="|"),simplify =F))</p>
<p>#首先输出所有的计数数据，加上go注释信息</p>
<p>all_res=res</p>
<p>res$go=ensembl_go[res$id]</p>
<p>write.csv(res,file="all_data.csv",row.names =F)</p>
<p>#然后输出有意义的数据，即剔除那些没有检测到表达的基因</p>
<p>uniq=na.omit(res)</p>
<p>sort_uniq=uniq[order(uniq$padj),]</p>
<p>write.csv(sort_uniq,file="sort_uniq.csv",row.names =F)</p>
<p>#然后挑选出padj值小于0.05的差异基因数据来做富集，富集用的YGC的两个包，在我前面的博客已经详细说明了！</p>
<p>tmp=select(org.Mm.eg.db, keys=sort_uniq[sort_uniq$padj&lt;0.05,1], columns="ENTREZID", keytype="ENSEMBL")</p>
<p>diff_ENTREZID=tmp$ENTREZID</p>
<p>require(DOSE)</p>
<p>require(clusterProfiler)</p>
<p>diff_ENTREZID=na.omit(diff_ENTREZID)</p>
<p>ego &lt;- enrichGO(gene=diff_ENTREZID,organism="mouse",ont="CC",pvalueCutoff=0.01,readable=TRUE)</p>
<p>ekk &lt;- enrichKEGG(gene=diff_ENTREZID,organism="mouse",pvalueCutoff=0.01,readable=TRUE)</p>
<p>write.csv(summary(ekk),"KEGG-enrich.csv",row.names =F)</p>
<p>write.csv(summary(ego),"GO-enrich.csv",row.names =F)</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/741.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>转录组cummeRbund操作笔记</title>
		<link>http://www.bio-info-trainee.com/271.html</link>
		<comments>http://www.bio-info-trainee.com/271.html#comments</comments>
		<pubDate>Tue, 17 Mar 2015 01:34:16 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[R]]></category>
		<category><![CDATA[生信组学技术]]></category>
		<category><![CDATA[计算机基础]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[cummeRbund]]></category>
		<category><![CDATA[差异基因]]></category>
		<category><![CDATA[转录组]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=271</guid>
		<description><![CDATA[转录组cummeRbund操作笔记 这是跟tophat和cufflinks套装紧 &#8230; <a href="http://www.bio-info-trainee.com/271.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><b>转录组</b><b>cummeRbund操作笔记</b></p>
<p>这是跟tophat和cufflinks套装紧密搭配使用的一个R包，能出大部分文章要求的标准化图片。</p>
<p>一：安装并加装该R包</p>
<p>安装就用source("http://bioconductor.org/biocLite.R") ;biocLite("cummeRbund")即可，如果安装失败，就需要自己下载源码包，然后安装R模块。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记220.png"><img class="alignnone size-full wp-image-272" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记220.png" alt="转录组cummeRbund操作笔记220" width="554" height="199" /></a></p>
<p>然后把cuffdiff输出的文件目录拷贝到R的工作目录，或者自己设置工作目录</p>
<p>&nbsp;</p>
<p>二：读取FN目录下面的所有文件。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记239.png"><img class="alignnone size-full wp-image-273" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记239.png" alt="转录组cummeRbund操作笔记239" width="466" height="181" /></a></p>
<p>可以看到把cuffdiff下面的文件夹所有的文件都读取到了，里面有如下文件，包括genes，isoforms，cds，tss这四种差异情况都读取了。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记316.png"><img class="alignnone size-full wp-image-274" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记316.png" alt="转录组cummeRbund操作笔记316" width="518" height="254" /></a></p>
<p>&nbsp;</p>
<p>三：表达水平分布图</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记328.png"><img class="alignnone size-full wp-image-275" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记328.png" alt="转录组cummeRbund操作笔记328" width="526" height="63" /></a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记330.png"><img class="alignnone size-full wp-image-276" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记330.png" alt="转录组cummeRbund操作笔记330" width="553" height="419" /></a><br />
四、表达水平箱线图</p>
<p>csBoxplot(genes(cuff_data))</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记371.png"><img class="alignnone size-full wp-image-277" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记371.png" alt="转录组cummeRbund操作笔记371" width="554" height="422" /></a><br />
五、画基因表达差异热图</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记386.png"><img class="alignnone size-full wp-image-278" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记386.png" alt="转录组cummeRbund操作笔记386" width="511" height="617" /></a></p>
<p>画出热图如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记396.png"><img class="alignnone size-full wp-image-279" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记396.png" alt="转录组cummeRbund操作笔记396" width="475" height="347" /></a></p>
<p>&nbsp;</p>
<p>六、得到差异的genes,isoforms,TSS,CDS等等</p>
<p>&nbsp;</p>
<ul>
<li>得到上调下调基因列表</li>
</ul>
<p>diffData &lt;- diffData(myGenes )</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记430.png"><img class="alignnone size-full wp-image-280" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记430.png" alt="转录组cummeRbund操作笔记430" width="554" height="171" /></a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记474.png"><img class="alignnone size-full wp-image-281" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记474.png" alt="转录组cummeRbund操作笔记474" width="554" height="134" /></a></p>
<p>&nbsp;</p>
<p>只有一百个有表达差异的基因</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记490.png"><img class="alignnone size-full wp-image-282" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记490.png" alt="转录组cummeRbund操作笔记490" width="212" height="121" /></a></p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>最后贴出一个综合性的代码，算了，太浪费空间了，把整个空间搞得不好看，就不贴了。</p>
<p>这个代码可以自动运行出图;</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记3781.png"><img class="alignnone size-full wp-image-283" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组cummeRbund操作笔记3781.png" alt="转录组cummeRbund操作笔记3781" width="554" height="384" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/271.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>转录组edgeR分析差异基因</title>
		<link>http://www.bio-info-trainee.com/255.html</link>
		<comments>http://www.bio-info-trainee.com/255.html#comments</comments>
		<pubDate>Mon, 16 Mar 2015 15:06:48 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[R]]></category>
		<category><![CDATA[生信组学技术]]></category>
		<category><![CDATA[计算机基础]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[edgeR]]></category>
		<category><![CDATA[差异基因]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=255</guid>
		<description><![CDATA[转录组edgeR分析差异基因 edgeR是一个研究重复计数数据差异表达的Bioc &#8230; <a href="http://www.bio-info-trainee.com/255.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><strong>转录组edgeR分析差异基因</strong></p>
<p>edgeR是一个研究重复计数数据差异表达的Bioconductor软件包。一个过度离散的泊松模型被用于说明生物学可变性和技术可变性。经验贝叶斯方法被用于减轻跨转录本的过度离散程度，改进了推断的可靠性。该方法甚至能够用最小重复水平使用，只要至少一个表型或实验条件是重复的。该软件可能具有测序数据之外的其他应用，例如蛋白质组多肽计数数据。可用性：程序包在遵循LGPL许可证下可以从Bioconductor网站。</p>
<p><b>一：下载安装该软件</b></p>
<p>下载安装edgeR这个R包，因为这是一次讲R包的下载，我就啰嗦一点，这种生物信息学的包不同于普通的R包，是需要用biocLite来安装的，命令如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因304.png"><img class="alignnone size-full wp-image-256" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因304.png" alt="转录组edgeR分析差异基因304" width="543" height="250" /></a></p>
<p>&nbsp;</p>
<p><span id="more-255"></span></p>
<p>安装成功之后会有以下提示。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因515.png"><img class="alignnone size-full wp-image-257" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因515.png" alt="转录组edgeR分析差异基因515" width="533" height="272" /></a></p>
<p>但是我加载碰到一个很幼稚的错误，因为我的电脑太差了，这是一个测试的电脑，是300块钱在二手市场里面淘的，所以内存不够。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因773.png"><img class="alignnone size-full wp-image-258" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因773.png" alt="转录组edgeR分析差异基因773" width="517" height="109" /></a></p>
<p>我简单搜索了一下，才知道是虚拟内存太小了，需要调整</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因997.png"><img class="alignnone size-full wp-image-259" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因997.png" alt="转录组edgeR分析差异基因997" width="419" height="497" /></a></p>
<p>重启电脑，就成功啦</p>
<p><b>二：准备数据</b></p>
<p><b>就是</b>对tophat的bam文件用HTseq计数后的count文件，见前一篇文章</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2709.png"><img class="alignnone size-full wp-image-252" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2709.png" alt="转录组HTseq对基因表达量进行计数2709" width="203" height="45" /></a></p>
<p><a href="http://www.bio-info-trainee.com/?p=244">http://www.bio-info-trainee.com/?p=244</a></p>
<p>&nbsp;</p>
<p><b>三：运行命令</b></p>
<p><b>因为主要是在</b><b>R里面操作，我就只讲R里面的命令了，首先要把那些HTseq产生的文件拷贝到R的工作目录，我这里是自己设置了工作目录</b></p>
<p><b>setwd("D:\\项目\\RNA-seq\\htseq")</b></p>
<p><b>a=read.table("case1.sam.count")</b></p>
<p><b>b=read.table("case2.sam.count")</b></p>
<p><b>c=read.table("control.sam.count")</b></p>
<p><b>counts=data.frame(case1=a[,2],case2=b[,2],control=c[,2])</b></p>
<p><b>rownames(counts)=a[,1]</b></p>
<p><b>这样就读入了一个counts数据框</b></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因1845.png"><img class="alignnone size-full wp-image-261" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因1845.png" alt="转录组edgeR分析差异基因1845" width="198" height="140" /></a></p>
<p>可以看到有三个样本，涉及到了23373个基因，每个样本的测序量约50M的reads</p>
<p>可以看到，有很多基因的计数不到30次。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因2085.png"><img class="alignnone size-full wp-image-262" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因2085.png" alt="转录组edgeR分析差异基因2085" width="740" height="94" /></a></p>
<p>我们首先对第一组来选择差异基因</p>
<p>case1_control=counts[,1:2]；group=c("case1","control")；</p>
<p>cds &lt;- DGEList( case1_control, group = group )</p>
<p>简单看看这个构造的对象cds的具体内容</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因2442.png"><img class="alignnone size-full wp-image-263" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组edgeR分析差异基因2442.png" alt="转录组edgeR分析差异基因2442" width="300" height="483" /></a></p>
<p><b>四：输出文件解读</b></p>
<p><b>呀，好像运行错误了，好像这个说明书太长了，希望有人跟我一起读读，总共</b><b>78页的PDF文件，</b><b>我明天再弄弄！</b></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/255.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>转录组HTseq对基因表达量进行计数</title>
		<link>http://www.bio-info-trainee.com/244.html</link>
		<comments>http://www.bio-info-trainee.com/244.html#comments</comments>
		<pubDate>Mon, 16 Mar 2015 14:39:44 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信组学技术]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[HTseq]]></category>
		<category><![CDATA[差异基因]]></category>
		<category><![CDATA[计数]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=244</guid>
		<description><![CDATA[转录组HTseq对基因表达量进行计数 一：下载安装该软件 下载htseq这个py &#8230; <a href="http://www.bio-info-trainee.com/244.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p style="text-align: center;"><strong>转录组HTseq对基因表达量进行计数</strong></p>
<p><b>一：下载安装该软件</b></p>
<p>下载htseq这个python模块安装解压包，依赖于很多python的其它安装包及库，模块，我最讨厌python了，在有些电脑上特别难安装，而且服务器还有权限的问题。</p>
<p>解压进入该目录，输入 python setup.py   install  --user  记住，是- - 而不是—</p>
<p>这样只是把这个软件安装到自己的目录</p>
<p>安装完毕后，会出现这两个程序，在自己的python库里面，可以直接调用这两个程序的，我这里它们的路径是 .local/bin ，很奇怪的一个路径，我也是用find命令才找到的</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数451.png"><img class="alignnone size-full wp-image-245" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数451.png" alt="转录组HTseq对基因表达量进行计数451" width="301" height="44" /></a></p>
<p><span id="more-244"></span></p>
<p>我在这里主要讲解，在这里调用这个命令来进行操作，直接把它当做一个程序来使用，而不是仅仅当做是python里面的一个模块调用，不需要import HTseq。</p>
<p><b>二：准备数据</b></p>
<p><b>输入文件</b></p>
<p><b>输入为sam格式的文件，如果是paired-end数据必须按照reads名称排序（sort by name）。先用samtools先对bam文件（tophat2的输出结果为bam）排序，再转换为sam。</b></p>
<p><b>  命令：samtools sort -n file.bam #sort bam by name</b></p>
<p><b>        samtools view -h bamfile.bam&gt;samfile.sam</b></p>
<p><b>其实</b><b>可以是任意的sam文件，在这里我主要演示我自己跑tophat出来的bam文件转为的sam文件，就是三个RNA数据的结果</b></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数1002.png"><img class="alignnone size-full wp-image-246" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数1002.png" alt="转录组HTseq对基因表达量进行计数1002" width="605" height="110" /></a><b><br />
</b></p>
<p><b>    这样得到的三个sam文件特别大，bam文件是sam的二进制文件才三五个G，到了sam格式就是十几二十个G了，其实完全没必要自己把它转为sam文件，因为htseq有个参数-f可以控制输入格式是bam文件</b><b>。</b></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数1315.png"><img class="alignnone size-full wp-image-247" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数1315.png" alt="转录组HTseq对基因表达量进行计数1315" width="333" height="66" /></a></p>
<p><b>三：运行命令</b></p>
<p><b>官方的</b><b>Usage：htseq-count [options] &lt;sam_file&gt; &lt;gff_file&gt;</b></p>
<p><b>HTSeq的作者Simon Anders建议使用ENSEMBL的gtf文件。  但是如果用了ensembl的，那么之前tophat就应该用ensembl的gtf作为参考来比对</b></p>
<p><b>也可以使用</b><b>python -m HTSeq.scripts.count</b><b> </b><b>instead of htseq-count</b></p>
<p><b>我的命令是：</b></p>
<p><b> </b><b>/home/jmzeng/.local/bin/htseq-count case1.sam   /home/jmzeng/ref-database/hg19.gtf</b></p>
<p><b>但是</b><b>我还是喜欢批处理来运行</b><b>，一次性解决所有的bam文件计数问题</b></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数1852.png"><img class="alignnone size-full wp-image-248" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数1852.png" alt="转录组HTseq对基因表达量进行计数1852" width="628" height="70" /></a></p>
<p>出来得到的日志是这样的</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2063.png"><img class="alignnone size-full wp-image-249" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2063.png" alt="转录组HTseq对基因表达量进行计数2063" width="435" height="317" /></a></p>
<p>&nbsp;</p>
<p>约等待几个小时就OK啦</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2275.png"><img class="alignnone size-full wp-image-250" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2275.png" alt="转录组HTseq对基因表达量进行计数2275" width="299" height="142" /></a></p>
<p>&nbsp;</p>
<p><b> </b></p>
<p><b>四：输出文件解读</b></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2484.png"><img class="alignnone size-full wp-image-251" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2484.png" alt="转录组HTseq对基因表达量进行计数2484" width="259" height="88" /></a></p>
<p>&nbsp;</p>
<p>共两万多个基因，每个基因一行，基因名加上count数</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2709.png"><img class="alignnone size-full wp-image-252" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2709.png" alt="转录组HTseq对基因表达量进行计数2709" width="203" height="45" /></a></p>
<p>可以head看一下里面的内容如下</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2924.png"><img class="alignnone size-full wp-image-253" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组HTseq对基因表达量进行计数2924.png" alt="转录组HTseq对基因表达量进行计数2924" width="146" height="139" /></a></p>
<p>&nbsp;</p>
<p>tips; 1，你可以用--idattr transcript_id来指定程序计算转录本而不是基因，但是这样会导致共有转录本重合地方太多</p>
<p>参考：</p>
<p>安装<a href="http://pgfe.umassmed.edu/ou/archives/2549">http://pgfe.umassmed.edu/ou/archives/2549</a></p>
<p>操作htseq的方法<a href="http://www-huber.embl.de/users/anders/HTSeq/doc/tour.html">http://www-huber.embl.de/users/anders/HTSeq/doc/tour.html</a></p>
<p><a href="http://chenxindayangzhou.blog.163.com/blog/static/2809209220137234916786/">http://chenxindayangzhou.blog.163.com/blog/static/2809209220137234916786/</a></p>
<p>另外一个操作方法<a href="http://www-huber.embl.de/users/anders/HTSeq/doc/count.html">http://www-huber.embl.de/users/anders/HTSeq/doc/count.html</a></p>
<p><b> </b></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/244.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
