<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 注释</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e6%b3%a8%e9%87%8a/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>自学CHIP-seq分析第七讲~peaks注释</title>
		<link>http://www.bio-info-trainee.com/1752.html</link>
		<comments>http://www.bio-info-trainee.com/1752.html#comments</comments>
		<pubDate>Wed, 06 Jul 2016 00:17:17 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[CHIP-seq]]></category>
		<category><![CDATA[ChIPpeakAnno]]></category>
		<category><![CDATA[Peak]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1752</guid>
		<description><![CDATA[经过前面的CHIP-seq测序数据处理的常规分析，我们已经成功的把测序仪下机数据 &#8230; <a href="http://www.bio-info-trainee.com/1752.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>经过前面的CHIP-seq测序数据处理的常规分析，我们已经成功的把测序仪下机数据变成了BED格式的peaks记录文件，我选取的这篇文章里面做了4次CHIP-seq实验，分别是两个重复的野生型MCF7细胞系的 BAF155 immunoprecipitates和两个重复的突变型MCF7细胞系的 BAF155 immunoprecipitates，这样通过比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同就知道该细胞系的BAF155 突变，对它在全基因组的结合功能的影响啦。</p>
<blockquote><p>#我这里直接从GEO里面下载了peaks结果，它们详情如下：wc -l *bed<br />
<span style="color: #ff0000;">6768 GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed</span><br />
<span style="color: #ff0000;"> 3660 GSM1278643_Xu_MUT_rep2_BAF155_MUT.peaks.bed</span><br />
<span style="color: #ff0000;"> 11022 GSM1278645_Xu_WT_rep1_BAF155.peaks.bed</span><br />
<span style="color: #ff0000;"> 5260 GSM1278647_Xu_WT_rep2_BAF155.peaks.bed</span><br />
49458 GSM601398_Ini1HeLa-peaks.bed<br />
24477 GSM601398_Ini1HeLa-peaks-stringent.bed<br />
12725 GSM601399_Brg1HeLa-peaks.bed<br />
12316 GSM601399_Brg1HeLa-peaks-stringent.bed<br />
46412 GSM601400_BAF155HeLa-peaks.bed<br />
37920 GSM601400_BAF155HeLa-peaks-stringent.bed<br />
30136 GSM601401_BAF170HeLa-peaks.bed<br />
25432 GSM601401_BAF170HeLa-peaks-stringent.bed</p></blockquote>
<p>每个BED的peaks记录，本质是就3列是需要我们注意的，就是<span style="color: #ff0000;">染色体，以及在该染色体上面的起始和终止坐标</span>，如下：</p>
<blockquote><p>#PeakID chr start end strand Normalized Tag Count region size findPeaks Score Clonal Fold Change<br />
<span style="color: #ff0000;">chr20 52221388 52856380</span> chr20-8088 41141 +<br />
<span style="color: #ff0000;">chr20 45796362 46384917</span> chr20-5152 31612 +<br />
<span style="color: #ff0000;">chr17 59287502 59741943</span> chr17-2332 29994 +<br />
chr17 59755459 59989069 chr17-667 19943 +<br />
chr20 52993293 53369574 chr20-7059 12642 +<br />
chr1 121482722 121485861 chr1-995 9070 +<br />
chr20 55675229 55855175 chr20-6524 7592 +<br />
chr3 64531319 64762040 chr3-4022 7213 +<br />
chr20 49286444 49384563 chr20-4482 6165 +</p></blockquote>
<p>我们所谓的peaks注释，就是想看看该peaks在基因组的哪一个区段，看看它们在各种基因组区域(基因上下游，5,3端UTR，启动子，内含子，外显子，基因间区域，microRNA区域)分布情况，但是一般的peaks都有近万个，所以需要<span style="color: #ff0000;">批量注释</span>，如果脚本学的好，自己下载参考基因组的GFF注释文件，完全可以自己写一个，我这里会介绍一个R的bioconductor包ChIPpeakAnno来做CHIP-seq的peaks注释，下面的包自带的示例：</p>
<blockquote><p>library(ChIPpeakAnno)<br />
bed &lt;- system.file("extdata", "MACS_output.bed", package="ChIPpeakAnno")<br />
gr1 &lt;- <span style="color: #ff0000;">toGRanges</span>(bed, <span style="color: #ff0000;">format</span>="BED", header=FALSE)<br />
## one can also try import from rtracklayer<br />
library(rtracklayer)<br />
gr1.import &lt;- <span style="color: #ff0000;">import</span>(bed, <span style="color: #ff0000;">format</span>="BED")<br />
identical(start(gr1), start(gr1.import))<br />
gr1[1:2]<br />
gr1.import[1:2] #note the name slot is different from gr1<br />
gff &lt;- system.file("extdata", "GFF_peaks.gff", package="ChIPpeakAnno")<br />
gr2 &lt;- <span style="color: #ff0000;">toGRanges</span>(gff, <span style="color: #ff0000;">format</span>="GFF", header=FALSE, skip=3)<br />
ol &lt;- findOverlapsOfPeaks(gr1, gr2)<br />
makeVennDiagram(ol)</p>
<p>##还可以用binOverFeature来根据特定的GRanges对象(通常是TSS)来画分布图<br />
## Distribution of aggregated peak scores or peak numbers around transcript start sites.</p></blockquote>
<p>可以看到这个包使用起来非常简单，只需要把我们做好的peaks文件(GSM1278641_Xu_MUT_rep1_BAF155_MUT.peaks.bed等等)用toGRanges或者import读进去，成一个GRanges对象即可，上面的代码是比较两个peaks文件的overlap。然后还可以根据R很多包都自带的数据来注释基因组特征：</p>
<blockquote><p>data(TSS.human.GRCh37) ## 主要是借助于这个GRanges对象来做注释，也可以用getAnnotation来获取其它GRanges对象来做注释<br />
## featureType ： TSS, miRNA, Exon, 5'UTR, 3'UTR, transcript or Exon plus UTR<br />
peaks=MUT_rep1_peaks<br />
macs.anno &lt;- annotatePeakInBatch(peaks, AnnotationData=TSS.human.GRCh37,<br />
output="overlapping", maxgap=5000L)</p>
<p>## 得到的macs.anno对象就是已经注释好了的，每个peaks是否在基因上，或者距离基因多远，都是写的清清楚楚<br />
if(require(TxDb.Hsapiens.UCSC.hg19.knownGene)){<br />
aCR&lt;-assignChromosomeRegion(peaks, nucleotideLevel=FALSE,<br />
precedence=c("Promoters", "immediateDownstream",<br />
"fiveUTRs", "threeUTRs",<br />
"Exons", "Introns"),<br />
TxDb=TxDb.Hsapiens.UCSC.hg19.knownGene)<br />
<span style="color: #ff0000;">barplot(aCR$percentage)</span><br />
}</p></blockquote>
<p>得到的条形图如下，虽然很丑，但这就是peaks注释的精髓，搞清楚每个peaks在基因组的位置特征：</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/ChIPpeakAnno-genomic-region-distribution.png"><img class="alignnone  wp-image-1753" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/ChIPpeakAnno-genomic-region-distribution.png" alt="ChIPpeakAnno-genomic-region-distribution" width="696" height="395" /></a></p>
<p>&nbsp;</p>
<p>同理，对每个peaks文件，都可以做类似的分析！</p>
<p>但是对多个peaks文件，比如本文中的，想比较野生型和突变型MCF7细胞系的 BAF155 immunoprecipitates的结果的不同，就需要做peaks之间的差异分析，已经后续的差异基因注释啦</p>
<p>当然，值得一提的是peaks注释我更喜欢网页版工具，反正peaks文件非常小，直接上传到别人做好的web tools，就可立即出一大堆可视化图表分析结果啦，大家可以去试试看：</p>
<div>
<div><a href="http://chipseek.cgu.edu.tw/">http://chipseek.cgu.edu.tw/</a></div>
</div>
<div>
<div><a href="http://bejerano.stanford.edu/great/public/html/">http://bejerano.stanford.edu/great/public/html/</a></div>
</div>
<div>
<div><a href="http://liulab.dfci.harvard.edu/CEAS/">http://liulab.dfci.harvard.edu/CEAS/</a></div>
<div></div>
<div>虽然我花费了大部分篇幅来描述ChIPpeakAnno这个包的用法，<strong><span style="color: #ff0000;">但是真正的重点是你得明白peaks记录了什么，要注释什么，已经把这3个网页工具的可视化图表分析结果全部看懂，这网页版工具才是重点！！！</span></strong></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1752.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>WES（六）用annovar注释</title>
		<link>http://www.bio-info-trainee.com/1158.html</link>
		<comments>http://www.bio-info-trainee.com/1158.html#comments</comments>
		<pubDate>Sun, 01 Nov 2015 10:09:11 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[全外显子组软件]]></category>
		<category><![CDATA[annovar]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1158</guid>
		<description><![CDATA[使用annovar软件参考自：http://www.bio-info-train &#8230; <a href="http://www.bio-info-trainee.com/1158.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>使用annovar软件参考自：<a href="http://www.bio-info-trainee.com/?p=641">http://www.bio-info-trainee.com/?p=641</a></p>
<p>/home/jmzeng/bio-soft/annovar/convert2annovar.pl -format vcf4  Sample3.varscan.snp.vcf &gt; Sample3.annovar</p>
<p>/home/jmzeng/bio-soft/annovar/convert2annovar.pl -format vcf4  Sample4.varscan.snp.vcf &gt; Sample4.annovar</p>
<p>/home/jmzeng/bio-soft/annovar/convert2annovar.pl -format vcf4  Sample5.varscan.snp.vcf &gt; Sample5.annovar</p>
<p>然后用下面这个脚本批量注释</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0016.png"><img class="alignnone size-full wp-image-1160" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0016.png" alt="image001" width="442" height="243" /></a></p>
<p>Reading gene annotation from /home/jmzeng/bio-soft/annovar/humandb/hg19_refGene.txt ... Done with 50914 transcripts (including 11516 without coding sequence annotation) for 26271 unique genes</p>
<p>最后查看结果可知，真正在外显子上面的突变并不多</p>
<p>23515 Sample3.anno.exonic_variant_function</p>
<p>23913 Sample4.anno.exonic_variant_function</p>
<p>24009 Sample5.anno.exonic_variant_function</p>
<p>annovar软件就是把我们得到的十万多个snp分类了，看看这些snp分别是基因的哪些位置，是否引起蛋白突变</p>
<p>downstream</p>
<p>exonic</p>
<p>exonic;splicing</p>
<p>intergenic</p>
<p>intronic</p>
<p>ncRNA_exonic</p>
<p>ncRNA_intronic</p>
<p>ncRNA_splicing</p>
<p>ncRNA_UTR3</p>
<p>ncRNA_UTR5</p>
<p>splicing</p>
<p>upstream</p>
<p>upstream;downstream</p>
<p>UTR3</p>
<p>UTR5</p>
<p>UTR5;UTR3</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1158.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>对vcf突变数据与公开发表的进行比对</title>
		<link>http://www.bio-info-trainee.com/1033.html</link>
		<comments>http://www.bio-info-trainee.com/1033.html#comments</comments>
		<pubDate>Fri, 09 Oct 2015 12:20:02 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[注释]]></category>
		<category><![CDATA[突变]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1033</guid>
		<description><![CDATA[当我们对NGS数据call了snp之后一般会输出成vcf格式的数据，一行代表一个 &#8230; <a href="http://www.bio-info-trainee.com/1033.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>当我们对NGS数据call了snp之后一般会输出成vcf格式的数据，一行代表一个突变，例如</div>
<div>20      2451451 .       G       T       1939.77 .</div>
<div>AC=1;AF=0.500;AN=2;BaseQRankSum=-10.134;DP=239;Dels=0.00;FS=2.276;HaplotypeScore=0.0000;MLEAC=1;MLEAF=0.500;MQ=60.00;MQ0=0;MQRankSum=-0.258;QD=8.12;ReadPosRankSum=0.823;SOR=0.870</div>
<div>GT:AD:DP:GQ:PL  0/1:150,89:239:99:1968,0,3874</div>
<div>#前几列记录着该突变发生在第几号染色体以及该染色体的哪个坐标，我们的参考基因组在该位点是什么碱基，我们测到的突变成了什么碱基。</div>
<div>最后两列是测序深度以及正负测序深度，或者ref和allele的测序深度。</div>
<div>只有第8列是最复杂的，可以有高达几百个数据信息，取决于我们用什么样的软件来call的snp，以及call了snp之后用什么样的软件做的注释。</div>
<div>接下来我们还需要探究我们找到的突变是否在其它以及公开发表的数据库里面被找到过，所以可以下载非常多的公共数据库进行比对，我所见过的有一下一些，估计完全下载有0.5T</div>
<div>dbsnp144 （这个是ncbi提供的最权威的啦）</div>
<div>cgi69</div>
<div>ExAC.vcf.gz（这个是broadinstitute提供的外显子联盟）</div>
<div>Cosmic_v73.ann.vcf.gz （这个是癌症突变信息集）</div>
<div>finalTCGA.vcf.gz （TCGA计划也是癌症相关的）</div>
<div>icgc.vcf.gz</div>
<div>dbNSFP2.6vcf</div>
<div>SCLP.ann.vcf.gz</div>
<div>CCLE.ann.vcf.gz</div>
<div>ESP6500-SIv2.vcf.gz （Variants from the Exome Sequencing Project (ESP)）</div>
<div>adni-sum</div>
<div>safs-sum.indel.vcf.gz</div>
<div>gonl.vcf.gz</div>
<div>ssm.vcf.gz</div>
<div>ssi.vcf.gz</div>
<div>uk10k.vcf.gz</div>
<div>1000g-ph3v5.gff.gz  （千人基因组计划）</div>
<div>gwasCatalog.gff.gz  \</div>
<div>phewascatalog.gff.gz  \</div>
<div>dbgap-gwas.gff.gz  \</div>
<div>interproDomain.gff.gz \</div>
<div>clinvar.gff.gz \</div>
<div>RegulomeDB.gff.gz \</div>
<div>CancerGAMAdb.gff.gz \</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1033.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Annovar使用记录</title>
		<link>http://www.bio-info-trainee.com/641.html</link>
		<comments>http://www.bio-info-trainee.com/641.html#comments</comments>
		<pubDate>Thu, 16 Apr 2015 01:17:10 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[生信基础]]></category>
		<category><![CDATA[annovar]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=641</guid>
		<description><![CDATA[至于如何安装该软件，请见上一个教程 一．首先把snp-calling步骤的VCF &#8230; <a href="http://www.bio-info-trainee.com/641.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>至于如何安装该软件，请见上一个教程</p>
<p>一．首先把snp-calling步骤的VCF文件转为annovar软件要求的格式</p>
<p>convert2annovar.pl   -format vcf4   12.vcf &gt;12.annovar</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Annovar使用记录108.png"><img class="alignnone size-full wp-image-642" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Annovar使用记录108.png" alt="Annovar使用记录108" width="554" height="281" /></a></p>
<p>二．进行注释</p>
<p>命令行参数比较多，还是用脚本来运行</p>
<p># define path</p>
<p>infolder=/home/jmzeng/hoston/diff</p>
<p>outfolder=$infolder</p>
<p>annovardb=/home/jmzeng/bio-soft/annovar/humandb</p>
<p># start annotating</p>
<p>/home/jmzeng/bio-soft/annovar/annotate_variation.pl \</p>
<p>--buildver hg19 \</p>
<p>--geneanno \</p>
<p>--outfile ${outfolder}/12.anno \</p>
<p>${infolder}/12.annovar  \</p>
<p>${annovardb}</p>
<p>三．输出结果解读</p>
<p>2.6M Apr 14 22:32 12.anno.exonic_variant_function</p>
<p>1.9K Apr 14 22:32 12.anno.log</p>
<p>1.3M Apr 14 22:32 12.anno.variant_function</p>
<p>重点是后缀为exonic_variant_function，这个文件对每一个vcf的突变都进行了注释。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Annovar使用记录617.png"><img class="alignnone size-full wp-image-643" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Annovar使用记录617.png" alt="Annovar使用记录617" width="553" height="334" /></a></p>
<p>这个结果就可以用来解析了，可以根据实验设计来找到自己感兴趣的突变。</p>
<p>第5.6列是染色体及pos坐标</p>
<p>第4列信息非常复杂，是突变的注释</p>
<p>第12列是测序深度，一般要大于20</p>
<p>我这里是先把注释文件转换成以下格式</p>
<p>location:chr1:874467 SAMD11:NM_152486:exon6:c.G478A:p.D160N</p>
<p>location:chr1:888639 NOC2L:NM_015658:exon9:c.A918G:p.E306E</p>
<p>location:chr1:888659 NOC2L:NM_015658:exon9:c.A898G:p.I300V</p>
<p>location:chr1:916549 PERM1:NM_001291367:exon2:c.T58C:p.W20R</p>
<p>location:chr1:949608 ISG15:NM_005101:exon2:c.G248A:p.S83N</p>
<p>location:chr1:980552 AGRN:NM_198576:exon13:c.G2266A:p.A756T</p>
<p>location:chr1:1114699 TTLL10:NM_001130045:exon4:c.G104A:p.R35Q</p>
<p>location:chr1:1158631 SDF4:NM_016176:exon4:c.T570C:p.D190D</p>
<p>location:chr1:1158631 SDF4:NM_016547:exon4:c.T570C:p.D190D</p>
<p>location:chr1:1164073 SDF4:NM_016176:exon2:c.C101T:p.A34V</p>
<p>然后比较两个文件，取不同的突变来格式化输出。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/641.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Vcf文件的突变ID号注释</title>
		<link>http://www.bio-info-trainee.com/631.html</link>
		<comments>http://www.bio-info-trainee.com/631.html#comments</comments>
		<pubDate>Wed, 15 Apr 2015 13:53:20 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[hg19]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=631</guid>
		<description><![CDATA[VCF是1000genome计划定义的测序比对突变说明文件，熟悉VCF文件的都知 &#8230; <a href="http://www.bio-info-trainee.com/631.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>VCF是1000genome计划定义的测序比对突变说明文件，熟悉VCF文件的都知道，第三列是ID号，也就是说对该突变在dbsnp的数据库的编号。大多时候都是用点号占位，代表不知道在dbsnp的数据库的编号，这时候就需要我们自己来注释了。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释134.png"><img class="alignnone size-full wp-image-632" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释134.png" alt="Vcf文件的突变ID号注释134" width="442" height="221" /></a></p>
<p>其实，这是一个非常简单的事情，因为有了CHROM和pos，只要找到一个文件，就可以自己写脚本来映射到它的ID号，但是找这个文件比较困难，我也是搜索了好久才找到的。</p>
<p><a href="http://varianttools.sourceforge.net/Annotation/DbSNP">http://varianttools.sourceforge.net/Annotation/DbSNP</a></p>
<p>这里面提到了最新版的数据库是dbSNP138</p>
<p>The default version of our dbSNP annotation is currently referring to dbSNP138 (using hg19 coordinates) as shown below. However, users can also retrieve older versions of dbSNP: db135, dbSNP129, dbSNP130, dbSNP131 and dbSNP132. The 129 and 130 versions use hg18 as a reference genome and 131, 132, 135 and later use hg19. The archived versions can be used by a variant tools project by referring to their specific names - for example: dbSNP-hg18_129.</p>
<p>所以我就换了关键词，终于搜的了</p>
<p><a href="http://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&amp;build_id=138">http://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&amp;build_id=138</a></p>
<p><a href="http://asia.ensembl.org/info/genome/variation/sources_documentation.html?redirect=no">http://asia.ensembl.org/info/genome/variation/sources_documentation.html?redirect=no</a></p>
<p><b>SNP 138</b> database (232,952,851 million altogether).</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释1276.png"><img class="alignnone size-full wp-image-633" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/04/Vcf文件的突变ID号注释1276.png" alt="Vcf文件的突变ID号注释1276" width="554" height="156" /></a></p>
<p>有一个bioconductor包是专门来做snp过滤的</p>
<p><a href="http://www.bioconductor.org/packages/release/bioc/html/VariantAnnotation.html">http://www.bioconductor.org/packages/release/bioc/html/VariantAnnotation.html</a></p>
<p>首先下载vcf文件。</p>
<p>nohup wget ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz &amp;</p>
<p>这个文件很大，解压开是</p>
<p>如果大家对snp不了解，可以去查看它的各种介绍以及分类</p>
<p><a href="http://moma.ki.au.dk/genome-mirror/cgi-bin/hgTrackUi?db=hg19&amp;g=snp138">http://moma.ki.au.dk/genome-mirror/cgi-bin/hgTrackUi?db=hg19&amp;g=snp138</a></p>
<p>&nbsp;</p>
<p>其实我这里本来有个hg19_snp141.txt文件，如下</p>
<p>1 10020 A - .</p>
<p>1 10108 C T .</p>
<p>1 10109 A T .</p>
<p>1 10139 A T .</p>
<p>1 10145 A - .</p>
<p>1 10147 C - .</p>
<p>1 10150 C T .</p>
<p>1 10177 A C .</p>
<p>1 10180 T C .</p>
<p>1 10229 A - .</p>
<p>&nbsp;</p>
<p>还可以下载一些文件，如bed_chr_1.bed</p>
<p>chr1 175292542 175292543 rs171 0 -</p>
<p>chr1 20542967 20542968 rs242 0 +</p>
<p>chr1 6100897 6100898 rs538 0 -</p>
<p>chr1 93151988 93151989 rs546 0 +</p>
<p>chr1 15220328 15220329 rs549 0 +</p>
<p>chr1 203744004 203744005 rs568 0 +</p>
<p>chr1 23854550 23854551 rs665 0 -</p>
<p>chr1 53213656 53213657 rs672 0 +</p>
<p>chr1 173907422 173907423 rs677 0 -</p>
<p>当然还有那个ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/00-All.vcf.gz  18G的文件，是VCF格式</p>
<p><b>##fileformat=VCFv4.0</b></p>
<p><b>##fileDate=20150218</b></p>
<p><b>##source=dbSNP</b></p>
<p><b>##dbSNP_BUILD_ID=142</b></p>
<p><b>##reference=GRCh38</b></p>
<p>#CHROM  POS     ID      REF     ALT     QUAL    FILTER  INFO</p>
<p>1       10108   rs62651026      C       T       .       .       RS=62651026;RSPOS=10108;dbSNPBuildID=129;SSR=0;SAO=0;VP=0x050000020005000002000100;WGT=1;VC=SNV;R5;ASP</p>
<p>所以这个文件就是我们想要的最佳文件，提取前三列就够啦</p>
<p>#CHROM  POS     ID</p>
<p>1 10108 rs62651026</p>
<p>1 10109 rs376007522</p>
<p>1 10139 rs368469931</p>
<p>1 10144 rs144773400</p>
<p>1 10150 rs371194064</p>
<p>1 10177 rs201752861</p>
<p>1 10177 rs367896724</p>
<p>1 10180 rs201694901</p>
<p>1 10228 rs143255646</p>
<p>1 10228 rs200462216</p>
<p>这样就可以通过脚本用hash把我们自己找到的hash跟数据库的rs编号对应起来啦</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/631.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>用annovar对snp进行注释</title>
		<link>http://www.bio-info-trainee.com/441.html</link>
		<comments>http://www.bio-info-trainee.com/441.html#comments</comments>
		<pubDate>Mon, 23 Mar 2015 13:19:20 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[perl]]></category>
		<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[基础数据格式]]></category>
		<category><![CDATA[annovar]]></category>
		<category><![CDATA[snp]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=441</guid>
		<description><![CDATA[一、下载及安装软件 这个软件需要edu邮箱注册才能下载，可能是仅对科研高校开放吧 &#8230; <a href="http://www.bio-info-trainee.com/441.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>一、下载及安装软件</p>
<p>这个软件需要edu邮箱注册才能下载，可能是仅对科研高校开放吧。所以软件地址我就不列了。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释71.png"><img class="alignnone size-full wp-image-442" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释71.png" alt="用annovar对snp进行注释71" width="321" height="120" /></a></p>
<p>它其实是几个perl程序，比较重要的是这个人类的数据库，snp注释必须的。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释111.png"><img class="alignnone size-full wp-image-443" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释111.png" alt="用annovar对snp进行注释111" width="333" height="131" /></a></p>
<p>参考：<a href="http://annovar.readthedocs.org/en/latest/misc/accessory/">http://annovar.readthedocs.org/en/latest/misc/accessory/</a></p>
<p>二，准备数据</p>
<p>既然是注释，那当然要有数据库啦！数据库倒是有下载地址</p>
<p><a href="http://www.openbioinformatics.org/annovar/download/hg19_ALL.sites.2010_11.txt.gz">http://www.openbioinformatics.org/annovar/download/hg19_ALL.sites.2010_11.txt.gz</a></p>
<p>也可以用命令来下载</p>
<p>Perl ./annotate_variation.pl -downdb -buildver hg19 -webfrom annovar refGene humandb/</p>
<p>然后我们是对snp-calling流程跑出来的VCF文件进行注释，所以必须要有自己的VCF文件，VCF格式详解见本博客另一篇文章，或者搜索也行</p>
<p><a href="http://vcftools.sourceforge.net/man_latest.html">http://vcftools.sourceforge.net/man_latest.html</a></p>
<p>三、运行的命令</p>
<p>首先把vcf格式文件，转换成空格分隔格式文件，自己写脚本也很好弄</p>
<p>perl convert2annovar.pl  -format vcf</p>
<p>/home/jmzeng/raw-reads/whole-exon/snp-calling/tmp1.vcf &gt;annovar.input</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释886.png"><img class="alignnone size-full wp-image-444" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释886.png" alt="用annovar对snp进行注释886" width="554" height="252" /></a></p>
<p>变成了空格分隔的文件</p>
<p><strong><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释900.png"><img class="alignnone size-full wp-image-445" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释900.png" alt="用annovar对snp进行注释900" width="554" height="257" /></a></strong></p>
<p>然后把转换好的数据进行注释即可</p>
<p>./annotate_variation.pl -out ex1 -build hg19 example/ex1.avinput humandb/</p>
<p>&nbsp;</p>
<p>四，输出文件解读</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释1002.png"><img class="alignnone size-full wp-image-446" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/用annovar对snp进行注释1002.png" alt="用annovar对snp进行注释1002" width="553" height="296" /></a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/441.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>转录组-GO通路富集-WEGO网站使用</title>
		<link>http://www.bio-info-trainee.com/359.html</link>
		<comments>http://www.bio-info-trainee.com/359.html#comments</comments>
		<pubDate>Thu, 19 Mar 2015 13:20:28 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[生信基础]]></category>
		<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[GO通路]]></category>
		<category><![CDATA[wego]]></category>
		<category><![CDATA[富集]]></category>
		<category><![CDATA[注释]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=359</guid>
		<description><![CDATA[一，所谓的网站，其实就是一个网页版的可视化软件接口而已 看看网站主页，看看它需要 &#8230; <a href="http://www.bio-info-trainee.com/359.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>一，所谓的网站，其实就是一个网页版的可视化软件接口而已</p>
<p>看看网站主页，看看它需要什么数据</p>
<p><a href="http://wego.genomics.org.cn/cgi-bin/wego/index.pl">http://wego.genomics.org.cn/cgi-bin/wego/index.pl</a></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用181.png"><img class="alignnone size-full wp-image-360" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用181.png" alt="转录组-GO通路注释-WEGO网站使用181" width="554" height="296" /></a></p>
<p>二，所需要的数据</p>
<p>1，human.all.go.entrez，需要自己制作，每个基因名entrez ID号，对应着一堆GO通路，人有两万多个基因，所以应该有两万多行的文件。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用247.png"><img class="alignnone size-full wp-image-361" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用247.png" alt="转录组-GO通路注释-WEGO网站使用247" width="554" height="434" /></a></p>
<p>2，差异基因的GO通路，需要用cuffdiff得到差异基因名，然后用然后用脚本做成下面的样子。记住，上面的那个人类的背景GO文件也是一样的格式，基因名是entrez ID号，与GO通路用制表符隔开，然后每个基因所对应的GO直接用空格隔开。格式要求很准确才行。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用379.png"><img class="alignnone size-full wp-image-362" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用379.png" alt="转录组-GO通路注释-WEGO网站使用379" width="554" height="245" /></a></p>
<p>&nbsp;</p>
<p>三，上传数据，出图</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用391.png"><img class="alignnone size-full wp-image-363" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用391.png" alt="转录组-GO通路注释-WEGO网站使用391" width="554" height="398" /></a></p>
<p>点击plot画图即可，就可以出来了一个GO通路富集图</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用420.png"><img class="alignnone size-full wp-image-364" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-GO通路注释-WEGO网站使用420.png" alt="转录组-GO通路注释-WEGO网站使用420" width="554" height="422" /></a></p>
<p>顺便贴上wego上传数据制作的几个脚本，脚本这种东西都很难看，随便意思一下啦，用一下脚本处理就可以得到wego需要上传的数据了</p>
<p>1，得到差异基因名，并且转换为entrez ID号<br />
grep yes gene_exp.diff |cut -f 3 |sort -u &gt;diff.gene.name<br />
cat diff.gene.name  ../Homo_sapiens.gene_info  |perl -alne '{$hash{$_}=1;print $F[1] if exists $hash{$F[2]}}' |sort -u &gt;diff.gene.entrez<br />
2，根据找到的差异基因的entrez ID号来找到它的GO信号，输出文件给wego网站<br />
cat diff.gene.entrez ../gene2go |perl -alne '{$hash{$_}=1;print "$F[1]\t$F[2]" if exists $hash{$F[1]}}' |perl -alne '{$hash{$F[0]}.="$F[1] "}END{print "$_\t$hash{$_}" foreach keys %hash}' &gt;diff.gene.entrez.go<br />
3，得到entrez ID号跟ensembl ID号的转换hash表<br />
perl -alne '{if (/Ensembl:(ENSG\d+)/) {print "$1=&gt;$F[1]"} }' Homo_sapiens.gene_info &gt;entrez.ensembl<br />
4，得到人类entrez ID的go背景<br />
grep '^9606' gene2go |perl -alne '{$hash{$F[1]}.="$F[2] "}END{print "$_\t$hash{$_}" foreach sort keys %hash}' &gt;human.all.go.entrez<br />
5，把人类entrez ID的go背景转换成ensembl的go背景<br />
cat entrez.ensembl human.all.go.entrez |perl -F"=&gt;" -alne  '{$hash{$F[1]}=$F[0];print "$hash{$F[0]}\t$F[1]" if exists $hash{$F[0]}}' &gt;human.all.go.ensembl</p>
<p>在我的群里面共享了所有的代码及帖子内容，欢迎加群201161227，生信菜鸟团！</p>
<p>http://www.bio-info-trainee.com/?p=1</p>
<p>线下交流-生物信息学<br />
同时欢迎下载使用我的手机安卓APP</p>
<p>http://www.cutt.com/app/down/840375</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/359.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>转录组-TransDecoder-对trinity结果进行注释</title>
		<link>http://www.bio-info-trainee.com/346.html</link>
		<comments>http://www.bio-info-trainee.com/346.html#comments</comments>
		<pubDate>Thu, 19 Mar 2015 12:38:33 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[转录组软件]]></category>
		<category><![CDATA[ORF]]></category>
		<category><![CDATA[RNA]]></category>
		<category><![CDATA[trinity]]></category>
		<category><![CDATA[注释]]></category>
		<category><![CDATA[预测]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=346</guid>
		<description><![CDATA[   一：下载安装该软件 下载安装该软件：  wget https://code &#8230; <a href="http://www.bio-info-trainee.com/346.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p><b>   一：下载安装该软件</b></p>
<p>下载安装该软件：  wget <a href="https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1">https://codeload.github.com/TransDecoder/TransDecoder/tar.gz/2.0.1</a></p>
<p>解压进入该目录，查看里面的文件</p>
<p>make一下就可以用了，看起来好像是依赖于perl模块的</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-TransDecoder-预测ORF420.png"><img class="alignnone size-full wp-image-347" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-TransDecoder-预测ORF420.png" alt="转录组-TransDecoder-预测ORF420" width="284" height="171" /></a></b></p>
<p>这个TransDecoder.LongOrfs就是我们这次需要的程序，查看该程序，的确真是一个perl程序，看来perl还是蛮有用的。</p>
<p><b>二：准备数据</b></p>
<p><b>它里面有个测试数据，是比较全面的，也比较复杂，我就不贴出来了，反正我是那</b><b>trinity组装好的fasta格式的转录组数据来预测ORF的。</b></p>
<p><b>三：运行命令</b></p>
<p><b>它给的测试命令也很复杂</b></p>
<p><b>## generate alignment gff3 formatted output</b></p>
<p><b>../util/cufflinks_gtf_to_alignment_gff3.pl transcripts.gtf &gt; transcripts.gff3</b></p>
<p><b> </b></p>
<p><b>## generate transcripts fasta file</b></p>
<p><b>../util/cufflinks_gtf_genome_to_cdna_fasta.pl transcripts.gtf test.genome.fasta &gt; transcripts.fasta </b></p>
<p><b> </b></p>
<p><b>## Extract the long ORFs</b></p>
<p><b>../TransDecoder.LongOrfs -t transcripts.fasta</b></p>
<p><b>当然我们只需要看最后一步，这是重点</b></p>
<p>我这里是直接对我们的trinity组装好的转录本进行预测ORF</p>
<p>/home/jmzeng/bio-soft/TransDecoder/TransDecoder.LongOrfs  -t Trinity.fasta</p>
<p>命令很简单</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-TransDecoder-预测ORF1471.png"><img class="alignnone size-full wp-image-349" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-TransDecoder-预测ORF1471.png" alt="转录组-TransDecoder-预测ORF1471" width="907" height="120" /></a></b></p>
<p>输出来的文件就有预测的蛋白文件，这个文件是trinotate对转录本进行注释所必须的文件</p>
<p><b><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-TransDecoder-预测ORF1714.png"><img class="alignnone size-full wp-image-350" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/转录组-TransDecoder-预测ORF1714.png" alt="转录组-TransDecoder-预测ORF1714" width="266" height="74" /></a></b></p>
<p><b> </b></p>
<p><b>四：输出文件解读</b></p>
<p><b>longest_orfs.cds  </b><b>这个是预测到的</b><b>cds碱基序列，</b></p>
<p><b>longest_orfs.gff3  </b><b>这个是预测得到的</b><b>gff文件</b></p>
<p><b>longest_orfs.pep</b><b>   这个就是预测得到的蛋白文件</b></p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/346.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
