<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; hgu133plus2</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/hgu133plus2/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>自学miRNA-seq分析第七讲~miRNA样本配对mRNA表达量获取</title>
		<link>http://www.bio-info-trainee.com/1716.html</link>
		<comments>http://www.bio-info-trainee.com/1716.html#comments</comments>
		<pubDate>Fri, 01 Jul 2016 15:57:59 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[tutorial]]></category>
		<category><![CDATA[hgu133plus2]]></category>
		<category><![CDATA[limma]]></category>
		<category><![CDATA[miRNA-seq]]></category>
		<category><![CDATA[差异分析]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1716</guid>
		<description><![CDATA[这一讲其实算不上是自学miRNA-seq分析，本质就是affymetrix的mR &#8230; <a href="http://www.bio-info-trainee.com/1716.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>这一讲其实算不上是自学miRNA-seq分析，本质就是affymetrix的mRNA表达芯片数据分析，而且还是最常用的那种GPL570    HG-U133_Plus_2，但是因为是跟miRNA样本配对检测的，而且后面会利用到这两个数据分析结果来做共表达网络分析等等，所以就贴出对该芯片数据的分析结果。文章里面也提到了 Messenger RNA expression analysis identified 731 probe sets with significant differential expression，作者挑选的差异分析结果的显著基因列表如下：<span id="more-1716"></span>## <a href="http://journals.plos.org/plosone/article/asset?unique&amp;id=info:doi/10.1371/journal.pone.0108051.s002">http://journals.plos.org/plosone/article/asset?unique&amp;id=info:doi/10.1371/journal.pone.0108051.s002</a><br />
## mRNA expression array - GSE60291  (Affymetrix Human Genome U133 Plus 2.0 Array)</p>
<p>hgu133plus2芯片数据太常见了，可以从GEO里面下载该study的原始测序数据，然后用affy,limma包来分析，也可以直接用GEOquery包来下载作者分析好的表达矩阵，然后直接做差异分析。我这里选择的是后者，而且我跟作者分析方法有一点区别是，我先把探针都注释好了基因，然后对每个基因只挑最大表达量的基因。而作者是直接对探针为单位的的表达矩阵进行差异分析，对分析结果里面的探针进行基因注释。我这里无法给出哪种方法好的绝对评价。代码如下：</p>
<blockquote><p>rm(list=ls())<br />
library(GEOquery)<br />
library(limma)<br />
GSE60291 &lt;- getGEO('GSE60291', destdir=".",getGPL = F)</p>
<p>#下面是表达矩阵<br />
<strong><span style="color: #ff0000;">exprSet</span></strong>=exprs(GSE60291[[1]])<br />
library("annotate")<br />
GSE60291[[1]]<br />
## 下面是分组信息<br />
pdata=pData(GSE60291[[1]])<br />
<span style="color: #ff0000;"><strong>treatment</strong></span>=factor(unlist(lapply(pdata$title,function(x) strsplit(as.character(x),"-")[[1]][1])))<br />
#treatment=relevel(treatment,'control')<br />
## 下面做基因注释<br />
platformDB='hgu133plus2.db'<br />
library(platformDB, character.only=TRUE)<br />
probeset &lt;- featureNames(GSE60291[[1]])<br />
#EGID &lt;- as.numeric(lookUp(probeset, platformDB, "ENTREZID"))<br />
SYMBOL &lt;-  lookUp(probeset, platformDB, "SYMBOL")<br />
## 下面对每个基因挑选最大表达量探针<br />
a=cbind(SYMBOL,exprSet)<br />
## remove the duplicated probeset<br />
rmDupID &lt;-function(a=matrix(c(1,1:5,2,2:6,2,3:7),ncol=6)){<br />
exprSet=a[,-1]<br />
rowMeans=apply(exprSet,1,function(x) mean(as.numeric(x),na.rm=T))<br />
a=a[order(rowMeans,decreasing=T),]<br />
exprSet=a[!duplicated(a[,1]),]<br />
#<br />
exprSet=exprSet[!is.na(exprSet[,1]),]<br />
rownames(exprSet)=exprSet[,1]<br />
exprSet=exprSet[,-1]<br />
return(exprSet)<br />
}<br />
exprSet=rmDupID(a)<br />
rn=rownames(exprSet)<br />
exprSet=apply(exprSet,2,as.numeric)<br />
rownames(exprSet)=rn<br />
exprSet[1:4,1:4]<br />
#exprSet=log(exprSet) ## based on e<br />
boxplot(exprSet,las=2)<br />
## 下面用limma包来进行芯片数据差异分析<br />
design=model.matrix(~ treatment)<br />
fit=lmFit(exprSet,design)<br />
fit=eBayes(fit)<br />
#vennDiagram(decideTests(fit))<br />
DEG=topTable(fit,coef=2,n=Inf,adjust='BH')<br />
dim(DEG[abs(DEG[,1])&gt;1.2 &amp; DEG[,5]&lt;0.05,])  ## 806 genes<br />
write.csv(DEG,"ET1-normal.DEG.csv")</p></blockquote>
<p>得到的ET1-normal.DEG.csv 文件就是我们的差异分析结果，可以跟文章提供的差异结果做比较，是几乎一模一样的！</p>
<p>如果根据logFC 1.2 p 矫正P 值0.05来挑选，可以拿到806个基因。</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1716.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
