<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>生信菜鸟团 &#187; 测序质量控制</title>
	<atom:link href="http://www.bio-info-trainee.com/tag/%e6%b5%8b%e5%ba%8f%e8%b4%a8%e9%87%8f%e6%8e%a7%e5%88%b6/feed" rel="self" type="application/rss+xml" />
	<link>http://www.bio-info-trainee.com</link>
	<description>欢迎去论坛biotrainee.com留言参与讨论，或者关注同名微信公众号biotrainee</description>
	<lastBuildDate>Sat, 28 Jun 2025 14:30:13 +0000</lastBuildDate>
	<language>zh-CN</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.33</generator>
	<item>
		<title>WES（一）测序质量控制</title>
		<link>http://www.bio-info-trainee.com/1108.html</link>
		<comments>http://www.bio-info-trainee.com/1108.html#comments</comments>
		<pubDate>Sun, 01 Nov 2015 09:58:13 +0000</pubDate>
		<dc:creator><![CDATA[ulwvfje]]></dc:creator>
				<category><![CDATA[全外显子组软件]]></category>
		<category><![CDATA[QC]]></category>
		<category><![CDATA[WES]]></category>
		<category><![CDATA[测序质量控制]]></category>

		<guid isPermaLink="false">http://www.bio-info-trainee.com/?p=1108</guid>
		<description><![CDATA[这一步主要看看这些外显子测序数据的测序质量如何： 首先用fastqc处理，会出一 &#8230; <a href="http://www.bio-info-trainee.com/1108.html">Continue reading <span class="meta-nav">&#8594;</span></a>]]></description>
				<content:encoded><![CDATA[<p>这一步主要看看这些外显子测序数据的测序质量如何：</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0011.png"><img class="alignnone size-full wp-image-1109" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0011.png" alt="image001" width="505" height="126" /></a><span id="more-1108"></span></p>
<p>首先用fastqc处理，会出一些图表，肯定是没问题的啦，如果数据有问题，公司就不会给你，那样不砸了他们自己的招牌嘛。</p>
<p>然后我们粗略统计下平均测序深度及目标区域覆盖度，这个是重点，不过一般没问题的，因为现在芯片捕获技术非常成熟了，而且实验水平大幅提升，没有以前那么多的问题了。</p>
<p>这个外显子项目的测序文件里面，mpileup文件是1371416525行，意味着总的测序长度是1.3G，以前我接触的一般是600M左右的<br />
因为外显子目标区域并不大，就34729283bp，也就是约35M。</p>
<p>即使加上侧翼长度</p>
<p>54692160 外显子加上前后50bp</p>
<p>73066288  外显子加上前后100bp</p>
<p>90362533  外显子加上前后150bp</p>
<p>然后我要根据外显子记录文件对mpileup文件进行计数，统计外显子coverage，还有测序深度，这个脚本其实蛮有难度的！</p>
<p>&nbsp;</p>
<p>我前面提到过外显子组的序列仅占全基因组序列的1%左右，而我在NCBI里面拿到 consensus coding sequence (CCDS)记录CCDS.20150512.txt文件，是基于hg38版本的，需要首先转换成hg19才可以来计算这次测序项目的覆盖度和平均测序深度。</p>
<p>参考：<a href="http://www.bio-info-trainee.com/?p=990">http://www.bio-info-trainee.com/?p=990</a> （ liftover基因组版本之间的coordinate转换）</p>
<p><strong> awk '{print "chr"$3,$4,$5,$1,0,$2,$4,$5,"255,0,0"}' CCDS.20150512.exon.txt &gt;CCDS.20150512.exon.hg38.bed</strong></p>
<p><strong>~/bio-soft/liftover/liftOver CCDS.20150512.exon.hg38.bed ~/bio-soft/liftover/hg38ToHg19.over.chain CCDS.20150512.exon.hg19.bed unmap</strong></p>
<p>下面这个程序就是读取转换好的外显子记录的数据，对一家三口一起统计，然后再读取每个样本的20G左右的mpileup文件，进行统计，所以很耗费时间。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0021.png"><img class="alignnone size-full wp-image-1110" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0021.png" alt="image002" width="656" height="582" /></a></p>
<p>外显子目标区域平均测序深度接近100X，所以很明显是非常好的捕获效率啦！而全基因组背景深度才3.3，这 符合实验原理, 即与探针杂交碱基多的片段比少的片段更易被捕获. 对非特异杂交的,基因组覆盖度非特异的背景 DNA 也进行了测序。</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0031.png"><img class="alignnone size-full wp-image-1111" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0031.png" alt="image003" width="471" height="339" /></a></p>
<p>接下来对测序深度进行简单统计，脚本如下，但是这个图没多大意思。因为我们的外显子的35M区域平均都接近100X的测序量</p>
<p><a href="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0041.png"><img class="alignnone size-full wp-image-1112" src="http://www.bio-info-trainee.com/wp-content/uploads/2015/11/image0041.png" alt="image004" width="511" height="300" /></a></p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.bio-info-trainee.com/1108.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
