<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; RankComp</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/rankcomp/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>用RankComp的思想来做差异基因分析</title>
		<link>http://www.bio-info-trainee.com/1379.html</link>
		<comments>http://www.bio-info-trainee.com/1379.html#comments</comments>
		<pubDate>Fri, 22 Jan 2016 13:40:49 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[基础软件]]></category>
		<category><![CDATA[RankComp]]></category>
		<category><![CDATA[差异分析]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1379</guid>
		<description><![CDATA[是福建医科大学的学者开发的， 文章里面详细讲解了他们的这个差异分析的统计学原理  &#8230; <a href="http://www.bio-info-trainee.com/1379.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<div>是福建医科大学的学者开发的，</div>
<div>
<div>文章里面详细讲解了他们的这个差异分析的统计学原理</div>
<div>大意就是找到同一组织的normal样本的表达量数据，几百个，这样就可以分析2万基因之间的互相配对，检测表达量是否在几百个样本里面稳定的不一样！</div>
<div></div>
<p>我现在还不是很确定这个方法，只是试一试，欢迎与我交流对该方法的讨论！</p></div>
<div></div>
<div>文章是：</div>
<div>
<p>Wang H, Sun Q, Zhao W, et al.<span class="Apple-converted-space"> </span><b>Individual-level analysis of differential expression of genes and pathways for personalized medicine</b>[J]. Bioinformatics, 2014: btu522.</p>
<p>他们把它写成了一个R包，可以下载使用，但是必须用R2.15.2版本，我用了一下，不好用！</p>
<p>We can download the R code for in<span class="Apple-converted-space"> </span><a href="http://bioinformatics.oxfordjournals.org/content/31/1/62/suppl/DC1">http://bioinformatics.oxfordjournals.org/content/31/1/62/suppl/DC1</a></p>
<p>他们这个程序真心不好用，但是很容易看懂算法，可以自己用R语言写一个来实现同样的过程！</p></div>
<div></div>
<div>比如A基因在几百个样本里面表达量都是3左右，而B基因都是5左右，而且满足99%的A表达量高于B，那么这就是一个稳定的基因对！</div>
<div>一般2万基因之间可以配成2亿个基因对，其中稳定的大概有10%~40%</div>
<div>然后我们对每个疾病样本都可以进行检验，看看这样稳定的基因对是否被改变！</div>
<div>比如，我们拿到一个疾病样本的2万个基因的表达量，我们挑取一个，如果它有100个稳定的up的基因对，100个稳定的down的基因对</div>
<div>那么，我看看这些基因对是否被改变了，如果这样还有70基因对在该疾病样本里面仍然是up，60个是down，那么我用Fisher精确检验的结果是</div>
<div><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/42.png"><img class="alignnone size-full wp-image-1380" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/42.png" alt="4" width="527" height="234" /></a></div>
<div>这个基因在该疾病样本，相对于normal pool并没有差异表达！当然检验得到的P值最后可以做FDR校验。</div>
<div></div>
<div><b>依次这样，把所有的gene都分析完</b>，就知道这个样本有哪些差异的gene了。</div>
<div></div>
<div>介绍完原理，我们拿一个具体的例子来看看吧：</div>
<div>首先我们下载一个2008年的一个人的肝脏表达数据（Gene Expression in Human Liver），<b>都是正常组织，共427个样本。</b></div>
<div>不过这个芯片比较小众，是默克医药公司定制化的， 需要下载探针对应gene的文件！</div>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE9588">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE9588</a></div>
<div><a href="http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL4372">http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GPL4372</a></div>
<div></div>
<div>我们读取GSE9588这个数据，得到表达矩阵，然后计算rank矩阵，然后计算得到comp矩阵</div>
<div><span style="font-family: Times New Roman;"><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/52.png"><img class="alignnone size-full wp-image-1381" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/01/52.png" alt="5" width="620" height="471" /></a></span></div>
<div><span style="font-family: Times New Roman;">&gt; table(rank_comp)</span></div>
<div><span style="font-family: Times New Roman;">rank_comp</span></div>
<div><span style="font-family: Times New Roman;">     down        no        up</span></div>
<div><span style="font-family: Times New Roman;">    58479 465752098     58479</span></div>
<div><span style="font-family: Times New Roman;">&gt;</span></div>
<div>不知道为什么这个数据，stable的那么少，不知道是不是出了什么问题！</div>
<div>其实我的程序都是对的了，只是因为这个数据集已经不是纯粹的表达量数据了，而是这427个样本的数据都减去了某个样本的表达量。</div>
<div>这样每个个体的基因之间的表达量排序就会被干扰，导致得到的稳定基因对非常少！！！</div>
<div>但是，我后来下载了GTEx的表达数据，拿那里面的normal组织样本表达量来做，可以得到非常多的稳定基因对。</div>
<div>实际代码大概是：</div>
<div>得到正常组织的表达矩阵：</div>
<div>然后计算表达矩阵的rank，得到各个样本自己的基因排序情况，得到排序矩阵！</div>
<div>处理排序矩阵，每个基因对之间都算一下是否稳定，得到稳定性描述矩阵！</div>
<div>然后根据每个疾病个体的基因表达情况，来循环每个基因， 看看该基因是否差异！</div>
<div></div>
<div></div>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1379.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
