<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 基因</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e5%9f%ba%e5%9b%a0/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>画基因的外显子覆盖度图</title>
		<link>http://www.bio-info-trainee.com/1392.html</link>
		<comments>http://www.bio-info-trainee.com/1392.html#comments</comments>
		<pubDate>Sun, 31 Jan 2016 07:15:20 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[linux]]></category>
		<category><![CDATA[perl]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[基因组学]]></category>
		<category><![CDATA[基因]]></category>
		<category><![CDATA[外显子]]></category>
		<category><![CDATA[覆盖度图]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1392</guid>
		<description><![CDATA[一般情况下，我们得到了测序reads在基因组的比对情况文件bam格式的，里面的信 &#8230; <a href="http://www.bio-info-trainee.com/1392.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>一般情况下，我们得到了测序reads在基因组的比对情况文件bam格式的，里面的信息非常多，如果我想特定的查看某个基因的情况，那么我们可以选择IGV等可视化工具，但它并不是万能的，因为即使是一个基因，它也会有多个转录本，多个外显子。</div>
<div>所以，我们可以画它的外显子覆盖图，如下：横坐标是外显子的长度，纵坐标是测序深度，每一个小图都是一个外显子</div>
<div> <a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/DMD.NM_000109.png"><img class="alignnone size-full wp-image-1394" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/DMD.NM_000109.png" alt="DMD.NM_000109" width="1080" height="1080" /></a></div>
<div>根据这个图，我们就可以很明显的看出，DMD基因NM_000109转录本的1，10-17号外显子缺失，用IGV一个个的看这些外显子区域，是同样的结果！可能是芯片捕获不到，也可能是样本本身变异，造成的大片段缺失。但是这个图的信息就非常有用！</div>
<div>那么，我们该如何画这样的图呢？</div>
<div>首先，我们需要找到需要探究的基因的全部转录信息，及外显子信息！</div>
<div>在hg19_refGene.txt里面会有，在UCSC里面可以下载，新手可能会比较麻烦，实在不行你去annovar的目录也可以找到！</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/16.png"><img class="alignnone size-full wp-image-1395" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/16.png" alt="1" width="878" height="370" /></a></div>
<div>那么，我们根据这个信息，就可以判断该基因的起始终止位点啦</div>
<div>然后用samtools的depth命令去找这个基因的全部片段的测序深度信息</div>
<div>最后再格式化成下面的三列数据</div>
<div>第一列是该外显子的坐标，从1到该外显子的成都</div>
<div>第二列是该外显子在该坐标的测序深度，通过samtools的depth命令得到</div>
<div>最后一列是该外显子的标记，从exon:79一直倒推到exon:1，因为该基因在染色体的负链，所以外显子顺序是反着的！</div>
<div>1 84 exon:79</div>
<div>2 84 exon:79</div>
<div>3 84 exon:79</div>
<div>4 85 exon:79</div>
<div>5 85 exon:79</div>
<div>6 86 exon:79</div>
<div>7 85 exon:79</div>
<div>8 87 exon:79</div>
<div>9 89 exon:79</div>
<div>10 91 exon:79</div>
<div>11 92 exon:79</div>
<div>12 95 exon:79</div>
<div>13 96 exon:79</div>
<div>14 96 exon:79</div>
<div>15 99 exon:79</div>
<div>16 99 exon:79</div>
<div>17 97 exon:79</div>
<div>最后根据这个txt文档，用R语言，很容易就画出上面那样的图片了！</div>
<div>这里面的信息量还是蛮大的！</div>
<div></div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/APOB.NM_000384.png"><img class="alignnone  wp-image-1393" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/APOB.NM_000384.png" alt="APOB.NM_000384" width="921" height="921" /></a></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<div></div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1392.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>gene的symbol与entrez ID并不是绝对的一一对应的</title>
		<link>http://www.bio-info-trainee.com/1384.html</link>
		<comments>http://www.bio-info-trainee.com/1384.html#comments</comments>
		<pubDate>Wed, 27 Jan 2016 15:17:06 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[未分类]]></category>
		<category><![CDATA[ID]]></category>
		<category><![CDATA[基因]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1384</guid>
		<description><![CDATA[很多时候，我们都无法确定到底是基于symbol来进行分析，还是基于entrez  &#8230; <a href="http://www.bio-info-trainee.com/1384.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>很多时候，我们都无法确定到底是基于symbol来进行分析，还是基于entrez ID，当我们要进行ID转换的时候也想当然的以为它们的一一对应的， 但是最近我写了一个脚本来分析CCLE的数据的时候，发现其实有一些特例:</p>
<div dir="ltr">
<div>suppressMessages(library(org.Hs.eg.db))</div>
<p>all_symbol=mappedkeys(org.Hs.egSYMBOL2EG)</p>
<div>all_EGID =mappedkeys(org.Hs.egSYMBOL)</div>
<div></div>
<div>tmp=as.list(org.Hs.egSYMBOL2EG[all_symbol])</div>
<div>#tmp=as.list(org.Hs.egSYMBOL[all_EGID ])</div>
<div></div>
<div>
<div>tmp=unlist(lapply(tmp,length))</div>
<div>tmp=tmp[tmp&gt;1]</div>
</div>
<div>as.list(org.Hs.egSYMBOL2EG[names(tmp)])</div>
<div></div>
<div>有多个entrez ID对应一个symbol的现象出现,但是没有一个symbol对应多个entrez ID的现象。而且entrez ID也会过期！</div>
<div>
<div>$CSNK1E</div>
<div>[1] "1454"      "102800317"</div>
<div></div>
<div>$HBD</div>
<div>[1] "3045"      "100187828"</div>
<div></div>
<div>$RNR1</div>
<div>[1] "4549" "6052"</div>
<div></div>
<div>$RNR2</div>
<div>[1] "4550" "6053"</div>
<div></div>
<div>$SFPQ</div>
<div>[1] "6421"   "654780"</div>
<div></div>
<div>$TEC</div>
<div>[1] "7006"      "100124696"</div>
<div></div>
<div>$MEMO1</div>
<div>[1] "7795"  "51072"</div>
<div></div>
<div>$KIR3DL3</div>
<div>[1] "115653"    "100133046"</div>
<div></div>
<div>$MMD2</div>
<div>[1] "221938"    "100505381"</div>
<div></div>
<div>$`LSAMP-AS1`</div>
<div>[1] "100506708" "101926903"</div>
</div>
<div>通过下面的链接可以看到具体情况</div>
<div><a href="http://www.ncbi.nlm.nih.gov/gene/?term=100506708">http://www.ncbi.nlm.nih.gov/gene/?term=100506708</a></div>
<div><a href="http://www.ncbi.nlm.nih.gov/gene/?term=101926903">http://www.ncbi.nlm.nih.gov/gene/?term=101926903</a></div>
<div></div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1384.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>脚本作业-解读NCBI的ftp里面关于人的一些基因信息</title>
		<link>http://www.bio-info-trainee.com/686.html</link>
		<comments>http://www.bio-info-trainee.com/686.html#comments</comments>
		<pubDate>Fri, 01 May 2015 03:04:56 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信基础]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[基因]]></category>
		<category><![CDATA[脚本]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=686</guid>
		<description><![CDATA[为了感谢大家对我博客的关注，我在这里发布一个作业，适合菜鸟做的。里面有十几个类似 &#8230; <a href="http://www.bio-info-trainee.com/686.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>为了感谢大家对我博客的关注，我在这里发布一个作业，适合菜鸟做的。里面有十几个类似的问题，大家可以下载数据自行处理，如果是问这些问题，我优先回答！</p>
<p style="text-align: center;"><b>NCBI的ftp里面关于人的一些基因信息</b></p>
<p>我在NCBI的ftp服务器里面下载了这些数据，时间是2015年，大多是hg19系列的，文件名如下：</p>
<p>CDS.fa 这个是ensembl中人的CDS碱基序列文件，hg38</p>
<p>entrez2go.gene 这个是有go注释的基因情况，有一万八的基因都有go注释</p>
<p>entrez2name.gene 这个是NCBI的entrez ID号对应着基因名的文件</p>
<p>entrez2pubmed.gene 这个是NCBI的entrez ID号对应着该基因发表过的文章的ID号</p>
<p>entrez2refseq2ensembl.gene 这个是NCBI的entrez ID号对应着基因名的refseq的ID号和ensembl数据库的ID号</p>
<p>human_gene_info这个是基因的详细信息，包括基因的起始终止点坐标等等</p>
<p>Protein.fa 这个是ensembl中人的蛋白的氨基酸序列文件，有十万多个蛋白hg38</p>
<p>ref2ensembl.txt  这个是基因名的refseq的ID号和ensembl数据库的ID号</p>
<p>自行去NCBI的ftp服务器里面下载这些数据。</p>
<p>然后好好熟悉这些数据信息，回答一下几个问题：</p>
<p>人总的基因有多少个，它们分别分布在哪些染色体上面，基因的转录本分布情况如何，基因的长度分布如何，基因的外显子个数如何。</p>
<p>CD分子的基因有多少个，它们分别分布在哪些染色体上面，基因的转录本分布情况如何，基因的长度分布如何，基因的外显子个数如何。它们有没有氨基酸偏好性？？</p>
<p>MHC系列基因信息？CCL系列基因信息如何？CXCL系列信息如何？或者你感兴趣的基因家族信息？</p>
<p>现在研究最热门的基因是什么？发表文章最多的前十个基因是什么？</p>
<p>基因长度情况如何？最长的基因多长？最短的基因多少bp，可靠吗？</p>
<p>蛋白质长度情况如何？</p>
<p>每条染色体的基因分别情况？基因在染色体那个地方分别最多？</p>
<p>请用图形展示你的结论！！！</p>
<p>&nbsp;</p>
<p>如果你能回答以上问题，证明你的脚本水平不错了。</p>
<p>如果找不到我，看旁边的公告，加入生信菜鸟群，我就在里面！！！</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/686.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>一个基因的生信之旅</title>
		<link>http://www.bio-info-trainee.com/491.html</link>
		<comments>http://www.bio-info-trainee.com/491.html#comments</comments>
		<pubDate>Thu, 26 Mar 2015 02:47:25 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础数据库]]></category>
		<category><![CDATA[ENSEMBL]]></category>
		<category><![CDATA[ncbi]]></category>
		<category><![CDATA[基因]]></category>
		<category><![CDATA[数据库]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=491</guid>
		<description><![CDATA[感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲 &#8230; <a href="http://www.bio-info-trainee.com/491.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>感觉大家对很多生物信息学的术语都不甚了解，我这里简单的从一个基因开始，扩展开来讲一讲生信数据库，及它相关的一些术语！</p>
<p>我要讲的基因是BRCA1，这是一个与乳腺癌以及卵巢癌都息息相关的基因。而BRCA1是它的英文缩写简称，也是通常学者们进行交流十它的名字。它的全称是breast cancer 1,每个基因都会有一个简称，比如下面这些，在human里面这些简称多大47732个，正常人都不会认识它们所有，只需要碰到了去数据库搜索即可，但是搞医疗健康的，必须熟悉癌症50基因。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅247.png"><img class="alignnone size-full wp-image-492" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅247.png" alt="一个基因的生信之旅247" width="489" height="314" /></a></p>
<p>这样的缩写简称其实弊端很多，单词毕竟是有限的，而且缩写也没有语义。所以NCBI给每个基因都定义了一个entrez ID号，是整数的排序，具体大家可以去看NCBI发的一篇文献，专门讲解了entrez ID号的好处。</p>
<p>1 A1BG</p>
<p>2 A2M</p>
<p>3 A2MP1</p>
<p>9 NAT1</p>
<p>10 NAT2</p>
<p>11 NATP</p>
<p>12 SERPINA3</p>
<p>13 AADAC</p>
<p>14 AAMP</p>
<p>这里我们来找一下我们的BRCA1这个基因在生物信息数据库里面的其它信息，在NCBI的ftp里面有一个文件是Homo_sapiens.gene_info里面包含着人类所以基因的全部信息</p>
<p>9606  首先这个基因在human上面的，而human被NCBI定义的taxid是9606</p>
<p>672  然后这个基因的被NCBI定义的entrez ID号是672</p>
<p>BRCA1  这个当然就是这个基因的英文缩写名称啦</p>
<p>-      这个表明这个基因在负链什么</p>
<p>BRCAI|BRCC1|BROVCA1|FANCS|IRIS|PNCA4|PPP1R53|PSCP|RNF53</p>
<p>这个可能是基因以前的名称，或者是在其它研究领域的一些名称。MIM:113705|HGNC:HGNC:1100|Ensembl:ENSG00000012048|HPRD:00218|Vega:OTTHUMG00000157426</p>
<p>这里面包含在它在其它数据库的信息，我们的NCBI用entrez ID号672来标识它，相应的ensembl数据用ensembl ID号ENSG00000012048来标识它，还有什么MIM数据库，HGNC数据库，Vega数据库我就不详细讲啦</p>
<p>17 17q21 这个说明它在human的17号染色体的位置信息</p>
<p>下面一堆都是这个基因的描述，它的功能等等。</p>
<p>breast cancer 1, early onset protein-coding BRCA1 breast cancer 1, early onset</p>
<p>O BRCA1/BRCA2-containing complex, subunit 1|Fanconi anemia, complementation group S|RING finger protein 53|breast and ovarian cancer susceptibility protein 1|breast and ovarian cancer sususceptibility protein 1|breast cancer type 1 susceptibility protein|protein phosphatase 1, regulatory subunit 53</p>
<p>20150201</p>
<p>这样我们就把好几个数据库给串起来了，也大致了解了一个基因的各种信息，但是，这样肯定是不够的。</p>
<p>接下来我们就不用BRCA1来称呼这个基因了，我们统一用NCBI定义entrez ID号672来称呼这个基因，当然用ensembl ID号ENSG00000012048也可以，它们都是比较通用的。</p>
<p>ENSG00000012048 672 这个基因在GO数据库里面可以找到67个功能信息，分别是以下</p>
<p>GO:0000151 GO:0000724 GO:0000724 GO:0000794 GO:0003677 GO:0003684 GO:0003713 GO:0003723 GO:0004842 GO:0005515 GO:0005634 GO:0005654 GO:0005694 GO:0005737 GO:0005886 GO:0006260 GO:0006281 GO:0006301 GO:0006302 GO:0006302 GO:0006349 GO:0006357 GO:0006359 GO:0006633 GO:0006915 GO:0006974 GO:0006978 GO:0007059 GO:0007098 GO:0008270 GO:0008274 GO:0008630 GO:0009048 GO:0010212 GO:0010575 GO:0010628 GO:0015631 GO:0016567 GO:0016874 GO:0019899 GO:0030521 GO:0030529 GO:0031398 GO:0031436 GO:0031572 GO:0031625 GO:0035066 GO:0035067 GO:0042127 GO:0042981 GO:0043009 GO:0043234 GO:0043627 GO:0044030 GO:0044212 GO:0045717 GO:0045739 GO:0045766 GO:0045892 GO:0045893 GO:0045893 GO:0045944 GO:0045944 GO:0046600 GO:0050681 GO:0051571 GO:0051572 GO:0051573 GO:0051574 GO:0051865 GO:0070512 GO:0070531 GO:0071158 GO:0071356 GO:0071681 GO:0085020 GO:1902042 GO:2000378 GO:2000617 GO:2000620</p>
<p>由于GO太多了，我简单讲几个</p>
<p>ubiquitin ligase complex</p>
<p>double-strand break repair via homologous recombination</p>
<p>double-strand break repair via homologous recombination</p>
<p>condensed nuclear chromosome</p>
<p>DNA binding</p>
<p>damaged DNA binding</p>
<p>transcription coactivator activity</p>
<p>RNA binding</p>
<p>ubiquitin-protein transferase activity</p>
<p>protein binding</p>
<p>都是描述这个基因的功能的。</p>
<p>到这里我们大致了解了这个基因的功能，但是还不够。</p>
<p>然后可以查到它有一下6个转录本，都有二十多个外显子。</p>
<p>NR_027676</p>
<p>NM_007300</p>
<p>NM_007299</p>
<p>NM_007298</p>
<p>NM_007297</p>
<p>NM_007294</p>
<p>在hg19这个参考基因组的起始终止坐标，还有各个外显子的起始终止坐标都能找到。</p>
<p>41196311,41199659,41201137,41203079,41209068,41215349,41215890,41219624,41222944,41226347,41228504,41234420,41242960,41243451,41247862,41249260,41251791,41256138,41256884,41258494,41267742,41276033,41277198</p>
<p>&nbsp;</p>
<p>41197819,41199720,41201211,41203134,41209152,41215390,41215968,41219712,41223255,41226538,41228631,41234592,41243049,41246877,41247939,41249306,41251894,41256278,41256973,41258550,41267796,41276132,41277340</p>
<p><a href="http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483">http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000012048;r=17:43044295-43125483</a></p>
<p>在ensembl里面关于这个基因的描述如下。</p>
<p>breast cancer 1, early onset [Source:HGNC Symbol;Acc:HGNC:1100]</p>
<p>BRCC1, FANCS, PPP1R53, RNF53</p>
<p>Chromosome 17: 43,044,295-43,125,483 reverse strand.</p>
<p>chromosome:GRCh38:CM000679.2:43044295:43125483:1</p>
<p>This gene has 29 transcripts (splice variants), 63 orthologues, is a member of 4 Ensembl protein families and is associated with 11 phenotypes.</p>
<p>RefSeq Gene ID 672</p>
<p>Uniprot identifiers: P38398</p>
<p>而且ensembl里面可以可视化这个基因的所有信息。</p>
<p>然后简单检索一下关于这个BRCA1基因的文献发表状况，居然多达2111篇文献，看来这个基因很火呀！！！</p>
<p>awk '{if ($1==9606 &amp;&amp; $2==672) print }' gene2pubmed |wc</p>
<p>9606 672 1676470</p>
<p>9606 672 2001833</p>
<p>9606 672 2270482</p>
<p>9606 672 4506230</p>
<p>9606 672 7481765</p>
<p>9606 672 7545954</p>
<p>9606 672 7550349</p>
<p>9606 672 7795652</p>
<p>9606 672 7894491</p>
<p>9606 672 7894492</p>
<p>第三列1676470等编号是pubmed数据库的文献编号，可以直接找到关于这个基因的文献发表情况。</p>
<p>而直接在NCBI的pubmed数据库里面可以搜到多达11339篇文献。</p>
<p>esearch -db pubmed -query 'BRCA1'</p>
<p>Esearch这个程序是NCBI提供的，挺好用的，希望大家可以熟悉一下。</p>
<p>esearch -db pubmed -query 'BRCA1' | efetch -format docsum |   xtract -pattern DocumentSummary -present Author -and Title     -element Id -first "Author/Name" -element Title  &gt;BRCA1.pubmed</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅4634.png"><img class="alignnone size-full wp-image-493" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/03/一个基因的生信之旅4634.png" alt="一个基因的生信之旅4634" width="554" height="263" /></a></p>
<p>用这个代码，可以找到所有关于这个BRCA1基因的文献的作者及标题，这样可以统计在这个基因领域的研究者最出名的是谁。</p>
<p>至于这个基因的序列，及其转录本翻译的蛋白我就不列了，太长了，而且占位子</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/491.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
