<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; normalization</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/normalization/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>quantile normalization到底对数据做了什么？</title>
		<link>http://www.bio-info-trainee.com/2043.html</link>
		<comments>http://www.bio-info-trainee.com/2043.html#comments</comments>
		<pubDate>Wed, 23 Nov 2016 11:48:51 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[生信基础]]></category>
		<category><![CDATA[normalization]]></category>
		<category><![CDATA[quantile]]></category>
		<category><![CDATA[统计学]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=2043</guid>
		<description><![CDATA[提到normalization很多人都烦了，几十种方法，而对于芯片或者其它表达数 &#8230; <a href="http://www.bio-info-trainee.com/2043.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>提到normalization很多人都烦了，几十种方法，而对于芯片或者其它表达数据来说，最常见的莫过于quantile normalization啦。那么它到底对我们的表达数据做了什么呢？首先要么要清楚一个概念，表达矩阵的每一列都是一个样本，每一行都是一个基因或者探针，值就是表达量咯。quantile normalization 就是对每列单独进行排序，排好序的矩阵求平均值，得到<strong><span style="color: #ff0000;">平均值向量</span></strong>，然后根据原矩阵的排序情况替换对应的平均值，所以normalization之后的值只有平均值了。具体看下面的图：<span id="more-2043"></span></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/14.png"><img class="alignnone size-full wp-image-2044" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/14.png" alt="1" width="595" height="813" /></a></p>
<div>在R里面，推荐用preprocessCore 包来做quantile normalization，不需要自己造轮子啦！</div>
<div></div>
<div>
<div>但是需要明白什么时候该用quantile normalization，什么时候不应该用，就复杂很多了，自己看</p>
<div><a href="http://biorxiv.org/content/biorxiv/early/2014/12/04/012203.full.pdf">http://biorxiv.org/content/biorxiv/early/2014/12/04/012203.full.pdf</a></div>
</div>
</div>
<div><img class="alignnone size-full wp-image-2045" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/11/22.png" alt="2" width="946" height="889" /></div>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/2043.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>自学miRNA-seq分析第八讲~miRNA-mRNA表达相关下游分析</title>
		<link>http://www.bio-info-trainee.com/1719.html</link>
		<comments>http://www.bio-info-trainee.com/1719.html#comments</comments>
		<pubDate>Sun, 03 Jul 2016 03:31:07 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[heatmap]]></category>
		<category><![CDATA[miRNA-seq]]></category>
		<category><![CDATA[normalization]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1719</guid>
		<description><![CDATA[通过前面的分析，我们已经量化了ET1刺激前后的细胞的miRNA和mRNA表达水平 &#8230; <a href="http://www.bio-info-trainee.com/1719.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>通过前面的分析，我们已经量化了ET1刺激前后的细胞的miRNA和mRNA表达水平，也通过成熟的统计学分析分别得到了差异miRNA和mRNA，这时候我们就需要换一个参考文献了，因为前面提到的那篇文章分析的不够细致，我这里选择了浙江大学的一篇TCGA数据挖掘分析文章<a href="http://www.nature.com/articles/srep12995%20">Identifying miRNA/mRNA negative regulation pairs in colorectal cancer</a>，里面首先就是查找miRNA-mRNA基因对，因为miRNA主要还是负向调控mRNA表达，所以根据我们得到的两个表达矩阵做相关性分析，很容易得到符合统计学意义的miRNA-mRNA基因对，具体分析内容如下：</p>
<blockquote><p>把得到的差异miRNA的表达量画一个热图，看看它是否能显著的分类<br />
用miRWalk2.0等数据库或者根据来获取这些差异miRNA的validated target genes<br />
然后看看这些<strong>pairs of miRNA- target genes的表达量相关系数</strong>，选取显著正相关或者负相关的pairs<br />
这些被选取的pairs of miRNA- target genes拿去做<strong>富集分析</strong><br />
最后这些pairs of miRNA- target genes做<strong>PPI网络分析</strong></p></blockquote>
<p>首先我们看第一个热图的实现：</p>
<blockquote><p>resOrdered=na.omit(resOrdered)<br />
DEmiRNA=resOrdered[abs(resOrdered$log2FoldChange)&gt;log2(1.5) &amp; resOrdered$padj &lt;0.01 ,]<br />
write.csv(resOrdered,"deseq2.results.csv",quote = F)<br />
DEmiRNAexprSet=exprSet[rownames(DEmiRNA),]<br />
write.csv(DEmiRNAexprSet,'DEmiRNAexprSet.csv')</p>
<p>DEmiRNAexprSet=read.csv('<span style="color: #ff0000;"><strong>DEmiRNAexprSet.csv</strong></span>',stringsAsFactors = F)<br />
exprSet=as.matrix(DEmiRNAexprSet[,2:7])<br />
rownames(exprSet)=rownames(DEmiRNAexprSet)<br />
heatmap(exprSet)<br />
gplots::heatmap.2(exprSet)<br />
library(pheatmap)<br />
##<span style="color: #ff0000;"> http://biit.cs.ut.ee/clustvis/</span></p></blockquote>
<p>因为我前面保存的表达量就基于counts的，所以画热图还需要进行normalization，我这里懒得弄了，就用了一个网页版工具，自动出热图<span style="color: #ff0000;">http://biit.cs.ut.ee/clustvis/</span></p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/miRNA-heatmap.png"><img class="alignnone  wp-image-1721" src="http://www.bio-info-trainee.com/wp-content/uploads/2016/07/miRNA-heatmap.png" alt="miRNA-heatmap" width="696" height="520" /></a></p>
<p>感觉还不错，可以很清楚的看到ET1刺激前后细胞中miRNA表达量变化</p>
<p>然后就是检验我们选取的感兴趣的有显著差异的miRNA的target genes，这时候有两种方法，一个是先由数据库得到已经被检验的miRNA的target genes，另一种是根据miRNA和mRNA表达量的相关性来预测。</p>
<p>用数据库来查找MiRNA的作用基因，非常多的工具，比较常用的有<span style="color: #ff0000;"><strong>TargetScan/miRTarBase</strong> </span><br />
### http://nar.oxfordjournals.org/content/early/2015/11/19/nar.gkv1258.full<br />
### http://mirtarbase.mbc.nctu.edu.tw/<br />
### http://mirtarbase.mbc.nctu.edu.tw/cache/download/6.1/hsa_MTI.xlsx<br />
### http://www.targetscan.org/vert_71/ (version 7.1 (June 2016))<br />
我还看到过一个整合工具： miRecords  (DIANA-microT, MicroInspector, miRanda, MirTarget2, miTarget, NBmiRTar, PicTar, PITA, RNA22, RNAhybrid and TargetScan/TargertScanS)里面提到了查找MiRNA的作用基因这一过程，高假阳性，至少被5种工具支持，才算是真的<br />
还有很多类似的工具，miRWalk2，psRNATarget网页版工具，最后值得一提的是中山大学的：<a href="http://starbase.sysu.edu.cn/panCancer.php"> starBase  </a>Pan-Cancer Analysis Platform is designed for deciphering Pan-Cancer Networks of lncRNAs, miRNAs, ceRNAs and RNA-binding proteins (RBPs) by mining clinical and expression profiles of 14 cancer types (&gt;6000 samples) from The Cancer Genome Atlas (TCGA) Data Portal (all data available without limitations).虽然我没有仔细的用，但是看介绍好牛的样子，还有一个R包：miRLAB我玩了一会，它是先通过算所有配对的<strong>miRNA- genes的表达量相关系数</strong>，选取显著正相关或者负相关的pairs，然后反过来通过已知数据库来验证。</p>
<p>后面我就不讲了，主要看你得到miRNA的时候其它生物学数据是否充分，如果是癌症病人，有生存相关数据，可以做生存分析，如果你同时测了甲基化数据，可以做甲基化相关分析~~~~~~~~~</p>
<p>如果只是单纯的miRNA测序数据，可以回过头去研究一下de novo的miRNA预测的步骤，也是研究重点</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1719.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
