Monthly Archives: 6月 2018
终于看到了一个完整的mutect2使用脚本
【直播】我的基因组89:看看那些不在gnomAD数据库出现的常见人群变异位点是什么
前面我们说到了对3784343个的SNP位点来说,3353921个因为人群频率大于了0.05会被过滤掉,还剩下430304值得我好好研究一下。 Continue reading
TCGA下载系列教程终章
TCGA的28篇教程往期目录如下:
使用R语言的cgdsr包获取TCGA数据 (cBioPortal)
TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (Broad Institute FireBrowse portal)
TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)
用了旧的CNV芯片还用旧的参考基因组
用了旧的CNV芯片还用旧的参考基因组
文章发表在 Breast Cancer Res. 2017; 19: 30.
Published online 2017 Mar 16. doi: 10.1186/s13058-017-0825-6
样本量并不少: case-control study of breast cancer diagnosed before age 40 years (200 cases, 293 controls) Continue reading
把TCGA的乳腺癌患者按照年龄分层来比较突变情况
看起来只是一个摘要,并没有相关文章出来: http://ascopubs.org/doi/abs/10.1200/jco.2015.33.15_suppl.579 Continue reading
这可能是我见过最简单的一篇SCI了
多批次WES数据该肿么办
批次很多时候无法避免,比如文章 Biomed Res Int. 2014 . doi: 10.1155/2014/319534 就提到:
In large WES studies, some samples are occasionally sequenced twice or even more times due to a variety of reasons, for example, insufficient coverage in the first experiment, sample duplication, and the rest. It is challenging how to best utilize these duplicated exomes for SNP discovery and genotype calling, especially with batch effects taken into consideration.
TPM格式搜索错了,好尴尬
网上的答案经常不靠谱
通常情况下我会使用 featureCounts 得到表达矩阵是 raw counts, 但总是有人需要我转换成各种形式,比如 RPKM, FPKM and TPM Continue reading
癌症细胞系药物敏感性数据库
会持续收集
broad的 CTRP Cancer Therapeutics Response Portal (CTRP) Continue reading
由germline结果发现新的癌症易感基因
文章是: Exome sequencing and case-control analyses identify RCC1 as a candidate breast cancer susceptibility gene, International Journal of Cancer, 2018.6, Int J Cancer. 2018 影响因子6.5
关键词: 全外显子测序,家系
一定要区分germline和somatic的,本文并没有做N-T配对测序,所以只能是germline突变分析。
多位点取样测序看肿瘤异质性的文章合辑
There are at least three types of intratumoral genetic heterogeneity Continue reading
GATK4的mutect2流程
逆向收费读文献社群
刻意练习,10万小时定律,相信大家都有所了解。
我们生信技能树平台最近开始做生物信息学入门培训,感触良多,虽然大家相比我入门摸索生信的姿势来说是幸运很多,但对真正的科研来说,仍然不够,科研不是简单的分析一套数据拿到变异位点,或者差异基因,进行注释即可,而是要完整的讲好一个故事。而一个生物学故事是由背景知识+前人工作总结+方法+自己的结果+展望组成,大量的已经完成的好的故事值得我们学习和借鉴。 Continue reading
胰腺癌的类器官可以辅佐治疗决策
PDAC背景知识
胰腺癌生长快而且转移率高,是一种非常致命的恶性疾病。2016年美国癌症协会的数据显示,胰腺癌患者的5年生存率在7-8%之间。虽然手术可以根治这种疾病,但胰腺癌在确诊时只有10–20%是可切除的,其它患者只能接受化疗。
针对小鼠的gskb基因集数据库
Gene Set Knowledgebase (GSKB),完全借鉴于GSEA算法的MSigDB (molecular signature database),数据库,同样是大名鼎鼎的broad开发,也是分成7类: Continue reading
使用PGSEA包进行基因集分析
GSEA 相信看过我生信菜鸟团博客的朋友都已经耳熟能详了的,其需要样本的描述以及分组信息,虽然有ssGSEA这样的单样本的分析,但仍然不够,也有GSVA这样的算法来弥补,这里要介绍的是另外一个包,PGSEA。 Continue reading
新的致癌基因KLHL22
一个月前朋友刚刚推荐了2018的nature The protein histidine phosphatase LHPP is a tumour suppressor 阐述了一个新的抑癌基因LHPP,今天又有朋友推荐了一个新的致癌基因KLHL22 ,文章是:KLHL22 activates amino-acid-dependent mTORC1 signalling to promote tumorigenesis and ageing.
在PubMed查询:https://www.ncbi.nlm.nih.gov/pubmed/?term=KLHL22
https://www.genecards.org/cgi-bin/carddisp.pl?gene=KLHL22 Continue reading
reactome数据库2018更新啦
发表在 Nucleic Acids Research, January 2018, , https://doi.org/10.1093/nar/gkx1132 Continue reading
长矩阵变成宽矩阵
如果是简单的转换问题,我们的生信技能树: 生信编程直播第四题:多个同样的行列式文件合并起来 里面详细讲解了这个操作:http://www.biotrainee.com/thread-603-1-1.html Continue reading
clinvar数据库重新解读
在很久以前的我直播基因组活动,我提到过这个数据库: 【直播】我的基因组67:clinvar数据库 Continue reading