十二 23

看看Y染色体上面的基因在测序数据里的覆盖度和测序深度

作用:可以检测别人是否把自己的样本搞混,也可以看看测序是否分布均匀!
首先,我们要拿到Y染色体上面的基因的坐标信息!
因为我们的是hg19,所以我们要下载hg19的基因信息!
我们首先解析refGene文件,找到chrY的unique基因!
这四列分别是:chromosome/start/end/gene_symbol
clipboard
4程序如下:

[perl]
open FH,"/home/jmzeng/hg19/chrY.gene.special.position" or die "file error !!!";
while(<FH>){
    chomp;
    @F=split;
    foreach ($F[1]..$F[2]){
        $h{$_}=$F[3];
    }
    $length{$F[3]}=$F[2]-$F[1]+1;
}
close FH;
open FH,$ARGV[0];
while(<FH>){
    chomp;
    @F=split;
    next unless $F[0] eq 'chrY';
    next if $F[2]<20;
    if (exists $h{$F[1]}){
        $count{$h{$F[1]}}++ ;
    }else{
        $count{'other'}++ ;
    }    
}
close FH;
print "$_\t$length{$_}\t$count{$_}\n" foreach sort keys %count;</pre>
</div>
<div>[/perl]

对一个男性样本,结果会如下:
gene/length/pos
AMELY 8111 1269
BCORP1 47724 689
CSPG4P1Y 3799 538
DAZ1 69739 762
DAZ2 71901 228
DAZ3 73222 233
DAZ4 73222 540
DDX3Y 12825 3654
EIF1AY 17445 929
FAM224A 4295 82
FAM224B 4293 85
GOLGA2P3Y 4866 68
GYG2P1 15476 547
HSFY2 42277 3950
KDM5D 39526 7425
NLGN4Y 319396 3872
PCDH11Y 105374 6627
PRKY 107577 1390
PRORY 3388 735
RBMY1B 14451 232
RBMY1D 14411 117
RBMY1E 14410 157
RBMY1J 14407 65
RBMY2EP 6416 27
RBMY2FP 7348 419
RPS4Y1 25376 1856
RPS4Y2 24966 1831
SRY 888 703
TBL1Y 180999 3231
TGIF2LY 958 808
TMSB4Y 2457 534
TSPY4 132211 1525
TTTY14 205048 394
TTTY4C 36811 39
TTTY9A 9317 580
TXLNGY 23067 1968
USP9Y 159610 10508
UTY 232293 6670
VCY 742 291
XKRY2 1582 980
ZFY 47437 3125
other 100328
对女性样本,结果会如下;
NLGN4Y 319396 575
PCDH11Y 105374 1643
PRKY 107577 82
TGIF2LY 958 191
TTTY14 205048 139
other 54297
从结果可以看出来,很多基因都是y染色体特有的,这个结果是表明我们的测序非常棒