请先看:生信人的linux考试
发表于2016年的NC,The somatic mutation profiles of 2,433 breast cancers refine their genomic and transcriptomic landscapes 可以说后续做乳腺癌人群队列突变研究的都需要引用这篇文章的数据结果,里面涉及到的分析要点也比较多,都是比较容易重现的。
前面我们说到了对3784343个的SNP位点来说,3353921个因为人群频率大于了0.05会被过滤掉,还剩下430304值得我好好研究一下。 Continue reading
TCGA的28篇教程往期目录如下:
使用R语言的cgdsr包获取TCGA数据 (cBioPortal)
TCGA的28篇教程- 使用R语言的RTCGA包获取TCGA数据 (离线打包版本)
TCGA的28篇教程- 使用R语言的RTCGAToolbox包获取TCGA数据 (Broad Institute FireBrowse portal)
TCGA的28篇教程- 批量下载TCGA所有数据 ( UCSC的 XENA)
用了旧的CNV芯片还用旧的参考基因组
文章发表在 Breast Cancer Res. 2017; 19: 30.
Published online 2017 Mar 16. doi: 10.1186/s13058-017-0825-6
样本量并不少: case-control study of breast cancer diagnosed before age 40 years (200 cases, 293 controls) Continue reading
看起来只是一个摘要,并没有相关文章出来: http://ascopubs.org/doi/abs/10.1200/jco.2015.33.15_suppl.579 Continue reading
多批次WES数据该肿么办
批次很多时候无法避免,比如文章 Biomed Res Int. 2014 . doi: 10.1155/2014/319534 就提到:
In large WES studies, some samples are occasionally sequenced twice or even more times due to a variety of reasons, for example, insufficient coverage in the first experiment, sample duplication, and the rest. It is challenging how to best utilize these duplicated exomes for SNP discovery and genotype calling, especially with batch effects taken into consideration.
网上的答案经常不靠谱
通常情况下我会使用 featureCounts 得到表达矩阵是 raw counts, 但总是有人需要我转换成各种形式,比如 RPKM, FPKM and TPM Continue reading
broad的 CTRP Cancer Therapeutics Response Portal (CTRP) Continue reading
文章是: Exome sequencing and case-control analyses identify RCC1 as a candidate breast cancer susceptibility gene, International Journal of Cancer, 2018.6, Int J Cancer. 2018 影响因子6.5
关键词: 全外显子测序,家系
一定要区分germline和somatic的,本文并没有做N-T配对测序,所以只能是germline突变分析。
There are at least three types of intratumoral genetic heterogeneity Continue reading
刻意练习,10万小时定律,相信大家都有所了解。
我们生信技能树平台最近开始做生物信息学入门培训,感触良多,虽然大家相比我入门摸索生信的姿势来说是幸运很多,但对真正的科研来说,仍然不够,科研不是简单的分析一套数据拿到变异位点,或者差异基因,进行注释即可,而是要完整的讲好一个故事。而一个生物学故事是由背景知识+前人工作总结+方法+自己的结果+展望组成,大量的已经完成的好的故事值得我们学习和借鉴。 Continue reading
胰腺癌生长快而且转移率高,是一种非常致命的恶性疾病。2016年美国癌症协会的数据显示,胰腺癌患者的5年生存率在7-8%之间。虽然手术可以根治这种疾病,但胰腺癌在确诊时只有10–20%是可切除的,其它患者只能接受化疗。
Gene Set Knowledgebase (GSKB),完全借鉴于GSEA算法的MSigDB (molecular signature database),数据库,同样是大名鼎鼎的broad开发,也是分成7类: Continue reading
GSEA 相信看过我生信菜鸟团博客的朋友都已经耳熟能详了的,其需要样本的描述以及分组信息,虽然有ssGSEA这样的单样本的分析,但仍然不够,也有GSVA这样的算法来弥补,这里要介绍的是另外一个包,PGSEA。 Continue reading
一个月前朋友刚刚推荐了2018的nature The protein histidine phosphatase LHPP is a tumour suppressor 阐述了一个新的抑癌基因LHPP,今天又有朋友推荐了一个新的致癌基因KLHL22 ,文章是:KLHL22 activates amino-acid-dependent mTORC1 signalling to promote tumorigenesis and ageing.
在PubMed查询:https://www.ncbi.nlm.nih.gov/pubmed/?term=KLHL22
https://www.genecards.org/cgi-bin/carddisp.pl?gene=KLHL22 Continue reading
发表在 Nucleic Acids Research, January 2018, , https://doi.org/10.1093/nar/gkx1132 Continue reading