最终还是把博客的全半角中英文标点符合的bug解决了
已经有非常多的小伙伴跟我反映了直接拷贝我的代码无法运行的问题,其实报错的原因很简单,就是中英文标点的bug而已。所以我给大家的理由是不用那么懒,拷贝我的代码,我就是希望你们能手动敲打每一个命令,来熟练记忆使用。
其实,我没那么好心,我就是懒而已。因为这个博客是host在阿里云的免费服务器上面的,各种IP密码我懒得去记忆,就差不多忘记了。当初弄好了我就懒得管了,正好现在博客免费时期快到了,也就想把这个问题解决掉。
<?php remove_filter('the_content','wptexturize'); ?> 正好看看这个标点符号被改变了吗?
好像还不错,以后大家就可以直接拷贝我的代码去运行啦!
下面是我登陆了ftp,发现以前用rmarkdown写的几个教程,感兴趣的小伙伴可以随便看看!
kegg在线链接图的颜色设置
cytoscape五步曲之二:在cytoscape里面生成网络图
cytoscape五步曲之一:明白什么是网络图
cytoscape五步曲之三:安装各种插件
软件安装我就不多说了,直接去官网下载即可,请务必下载3.x版本,我讲的是 最新版教程!
本次讲解如何给cytoscape安装插件,cytoscape本身是一个平台,学者可以在上面开发各种各样功能的插件实现不同的分析需求,类似于R语言这个平台,人们在上面安装包一样。R里面如何安装包我博客讲了4次,基本上看完的人都会懂。而cytoscape不一样,它的插件安装非常简单!非常简单!非常简单!
你只需要去cytoscape的APP中心找到包,如果你打开了cytoscape的界面,那么网页就会有install的字样,非常显眼,点击就自动安装了,这个时候会安装到
C:\Users\jimmy1314\CytoscapeConfiguration\3\apps\installed 这个目录!!~ 在你的电脑里面 jimmy1314 不一样
如果你这个时候并没有打开cytoscape的界面,那么网页就会有download的字样,也是非常显眼,点击就可以下载, 下载之后你需要自己把下载的jar文件放到cytoscape的安装路径,一般默认是
C:\Program Files\Cytoscape_v3.3.0\apps
我要说的就是这么多了,我安装了十几个插件了,都没有什么问题,如果大家有遇到安装不了的,随时报告我,我来更新教程!联系jmzeng1314@163.com
下面的链接选择性观看:
关于multiple mapping我想说的
很多时候,我们都要选取unique mapped的reads,尤其是在RNA-seq和CHIP-seq的时候,但是如何保留,各种教程都不一致,我稍微总结了一下,是因为使用的比对工具不一样导致的!但是主要都反应在sam文件的一系列tag里面~
首先对bwa来说,如果它遇到一个reads可以比对到参考基因在的多个序列,只会随机的选取一个位置来输出到sam文件,但是会加上一个tag是XS:I:<N>来告诉我们第二好的比对情况的比对得分是多少,bowtie也是一样。但是它们都有参数来决定是否只对每个reads输出一条信息,还是输出全部的信息,在bwa是-a的参数,在bowtie里面是-m参数。
但是bowtie2里面取消了这个参数,它们都必须用XS:I:<N>这个tag来挑选unique mapped的reads
但是如果是用hisat来比对的话,决定是否是唯一比对的却是NH这个tag信息。默认情况下一条reads可以输出多条比对结果。
我想起了再补充吧,其实应该找几个例子用IGV看看,就明白了,可是我暂时没有时间了,只是觉得这个很重要,就提一下。
quantile normalization到底对数据做了什么?
提到normalization很多人都烦了,几十种方法,而对于芯片或者其它表达数据来说,最常见的莫过于quantile normalization啦。那么它到底对我们的表达数据做了什么呢?首先要么要清楚一个概念,表达矩阵的每一列都是一个样本,每一行都是一个基因或者探针,值就是表达量咯。quantile normalization 就是对每列单独进行排序,排好序的矩阵求平均值,得到平均值向量,然后根据原矩阵的排序情况替换对应的平均值,所以normalization之后的值只有平均值了。具体看下面的图: Continue reading
用R的bioconductor里面的stringDB包来做PPI分析
PPI本质上是根据一系列感兴趣的蛋白质或者基因(可以是几百个甚至上千个)来去PPI数据库里面找到跟这系列蛋白质或者基因的相互作用关系!
java环境变量的问题
【直播】我的基因组(八):原始测序数据质量报告
由于我是分期付款,所以我先拿到了我的测序数据的质控结果和比对情况分析报告,需要补齐全款后才能拿到原始测序数据!(中间还出了个小意外,打款的时候不小心多打了30块钱!(⊙o⊙)…不过多打的30块钱想拿回来估计不太可能了,需要填写书面申请表格并且自费快递到公司,这边跨境快递费都不止这个数了) Continue reading
【直播】我的基因组(七):从整体理解全基因组测序数据的变异位点
简单说一下什么是找变异,变异跟突变有什么区别呢?举个栗子:有国际组织规定了人类的参考基因组(如UCSC,ENSEMBL,NCBI等,前面帖子都有讲),就是 AAAAA(这里简化一下,就5个碱基,其实人类基因组多达30亿个) 。现在通过给自己测序得知,我与之对应的是AGCAA,那么我相比国际基因组来说,就是2个变异位点,位于基因组的坐标2和3,但是它们还不能说就是突变。 Continue reading
【直播】我的基因组(六):变异位点注释数据库的准备
通常一个人的全基因组测序数据可以挖掘到四百万个SNVs(跟参考基因组不一样的单碱基位点),还有五十万的indels(insertions or deletions),但是得到的数据通常是以vcf文件格式给出的(自行搜索什么是vcf格式),比如下面:
htseq-counts跟bedtools的区别
我以前写过bedtools和htseq-counts的教程,它们都可以用来对比对好的bam文件进行计数,正好群里有小伙伴问我它们的区别,我就简单做了一个比较,大家可以先看看我以前写的软件教程。写的有的挫:
言归正传,我这里没精力去探究它们的具体原理,只是看看它们数一个read是否属于某个基因的时候,区别在哪里,大家看下图: Continue reading
TPM值就是RPKM的百分比嘛!
很久以前就有人问过这个问题啦,虽然目前主流还是用RPKM/FPKM来形容一个基因的表达量。但是既然大家都说TPM更好,我也来探究一下吧!
我不喜欢看公式,直接说事情,我有一个基因A,它在这个样本的转录组数据中被测序而且mapping到基因组了 5000个的reads,而这个基因A长度是10K,我们总测序文库是50M,所以这个基因A的RPKM值是 5000除以10,再除以50,为10. 就是把基因的reads数量根据基因长度和样本测序文库来normalization 。 Continue reading
仅仅对感兴趣的基因call variation
有这个需求,是因为我们经常对某些细胞系进行有针对性的设计变异,比如BAF155的R1064K呀,H3F3A的K27呀,那我我们拿到高通量测序数据的时候,就肯定希望可以快速的看看这个基因是否被突变成功了。现在比对几乎不耗费什么时间了,但是得到的sam要sort的时候还是蛮耗费时间的。假设,我们已经得到了所有样本的sort好的bam文件,想看看自己设计的基因突变是否成功了,可以有针对性的只call 某个基因的突变!
仔细探究picard的MarkDuplicates 是如何行使去除PCR重复reads功能的
本帖紧跟前面的仔细探究samtools的rmdup是如何行使去除PCR重复reads功能的
同样的我们也是分单端和双端测序来看结果,并且比较两个工具的区别!
首先对于那个单端数据,samtools给出的结果是:[bam_rmdupse_core] 25 / 53 = 0.4717 in library Continue reading
仔细探究samtools的rmdup是如何行使去除PCR重复reads功能的
数据库批量注释不可盲目-annovar数据库错误
我对H3F3A这个基因做了两个突变的cellline,分别是G34V和K27M,现在知道这个基因在hg38上面的坐标是:
Genomic Location for H3F3A Gene
Chromosome: 1
Start:226,061,851 bp from pter End:226,072,002 bp from pter
Size:10,152 bases Orientation:Plus strand
然后我用samtools结合bcftools把该基因区域的snp位点call出来:
samtools mpileup -r chr1:226061851-226072001 -t "DP4" -ugf ~/reference/genome/hg38/hg38.fa *sorted.bam | bcftools call -vmO z -o H3F3A.vcf.gz
一个基因在同一套基因组上面竟然有两个定位!
查了好久的bug,终于搞清楚问题所在了!因为要对基因进行reads计数,所以要拿到基因在基因组上面的染色体起始终止坐标,结果发现了个十分诡异的现象,很多基因有多个坐标,比如下面这个PTPRS 在hg38这个基因组版本,居然有两个定位,因为我是写程序格式化得到的坐标,所以我check了我的程序,http://www.biotrainee.com/thread-472-1-1.html 感兴趣的同学可以点开看看我的代码!