生信菜鸟团 » 自学

我是如何学习WGCNA分析

ulwvfje — Mon, 16 Jan 2017 16:25:37 +0000

首先声明，我不会WGCNA分析，只是大概知道它会对大量样本(>8或者15)的表达矩阵进行统计学分析，然后把表达矩阵的基因找到一下基因集合，有一些基因集合大概是非常有意义的！

因为有朋友一直好奇，我是如何学习新的知识的，所以就趁这个机会，录制了3个视频，只是我的一个学习过程而已。感兴趣可以去链接：http://pan.baidu.com/s/1jIgBTzw 密码：yh42下载，但是最后一个视频录制过程中被打断了，所以我只好重新写了个文字版的，来补充解释一下。(如果你看视频，请先看那个必看！)

学习一个新的概念，新的分析方法，我首先是谷歌了一下这个关键词，找到两个非常赞的链接！

https://bioconductor.org/packages/devel/bioc/vignettes/CVE/inst/doc/WGCNA_from_TCGA_RNAseq.html

http://cdmd.cnki.com.cn/Article/CDMD-10403-1014055937.htm

英文的那个，让我明白了WGCNA的步骤：

就是拿到表达矩阵，根据MAD来挑选top5000个基因的表达矩阵，然后用WGCNA的包构建共表达网络，检测每一个module是什么，有什么特性。接着把这些module跟个体结合起来。

中文的那个，里面介绍了一些WGCNA的统计学原理，虽然不可能一下子看懂，但是让我大致明白它做了什么！

那么首先我视频就讲解了，如何构建表达矩阵的！

我用的是我们论坛的数据，56个breast cancer的表达矩阵： http://www.biotrainee.com/thread-603-1-1.html

然后我直接看了hope的github的代码：http://tiramisutes.github.io/2016/09/14/WGCNA.html#more

很明显，他的代码，就是总结的WGCNA 官网的tutorial而已，https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA/

但是他毕竟总结了一下，我就跟着运行一次，还不错！

https://labs.genetics.ucla.edu/horvath/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/index.html

Data input and cleaning: PDF document, R script
Network construction and module detection
1. Automatic, one-step network construction and module detection: PDF document, R script
2. Step-by-step network construction and module detection: PDF document, R script
3. Dealing with large datasets: block-wise network construction and module detection: PDF document, R script
Relating modules to external clinical traits and identifying important genes: PDF document, R script
Interfacing network analysis with other data such as functional annotation and gene ontology PDF document, R script
Network visualization using WGCNA functions: PDF document, R script
Export of networks to external software: PDF document, R script

从代码的角度，就是上面的代码，我都在视频里面运行了，没有问题，都可以得到结果。

重点就是得到两个图：

#3. 一步法网络构建：One-step network construction and module detection
net = blockwiseModules(datExpr, power = 6, maxBlockSize = 6000,
                       TOMType = "unsigned", minModuleSize = 30,
                       reassignThreshold = 0, mergeCutHeight = 0.25,
                       numericLabels = TRUE, pamRespectsDendro = FALSE,
                       saveTOMs = TRUE,
                       saveTOMFileBase = "AS-green-FPKM-TOM",
                       verbose = 3)

然后是：

#1. 可视化全部基因网络
# Calculate topological overlap anew: this could be done more efficiently by saving the TOM
# calculated during module detection, but let us do it again here.
dissTOM = 1-TOMsimilarityFromExpr(datExpr, power = 6);
# Transform dissTOM with a power to make moderately strong connections more visible in the heatmap
plotTOM = dissTOM^7;
# Set diagonal to NA for a nicer plot
diag(plotTOM) = NA;
# Call the plot function
#sizeGrWindow(9,9)
TOMplot(plotTOM, geneTree, moduleColors, main = "Network heatmap plot, all genes")

其中第二个对计算机要求比较高！

至于这些图有啥子意义，还有这些东西有多可靠，不在本次学习范围内！

其实我只是讲解了这个包如何用，能否得到那些图！下面这样的问题，我就没办法回答咯！

给群主出三个关于WGCNA的问题吧：

（1）如何确定你WGCNA得到的module所代表的共表达基因不是随机的？而确实是统计学上应该归类在那些module中的？

（2）你所用的这些样本，找到的module，鲁棒性如何？是否足够robust?

(3) 以你的breast cancer样本为例，如何证明你的modules确实可能代表乳腺癌共表达特征，如何比较他们与其他乳腺癌共表达网络的保守和差异？

(⊙o⊙)…我讲解的是如何学习WGCNA的那个包的学习方法，就是会做，会用，统计学原理我不懂啊，我也没有实战经验呀 @NJ-植物-转录组 @美国-转录组分析如果你们是考我的话，我很抱歉了。我猜测，module的基因是否随机，看看热图，再random choose同样size的基因list看看就好了吧。至于module是否robust，不知道WGCNA里面有没有p值的参数，没有的话，就多做几次，或者那个power换一下，比较一下。至于那些module是否代表乳腺癌共表达特征，我更不知道了，那56个样本，是我随便找的，是就是想找一个input的表达矩阵而已，反正有了module，不都是做一些注释看看是不是合理的嘛

下面的聊天记录可能对大家的学习更有帮助！

【学神】机器猫-番茄-武汉() 12:00:19 AM

见过最多的不同rna类型用WGCNA是lnc和m miRNA和mRNA暂时还没有看过文章

【学神】中大-普外科-chaos() 12:01:40 AM

双击查看原图谢谢，我在研究研究

【学神】机器猫-番茄-武汉() 12:01:42 AM

WGCNA官网推荐所有基因进行共表达分析但是又有很多人说只做差异的

【学神】机器猫-番茄-武汉() 12:02:35 AM

其实我感觉所有基因做共表达得到权重值然后和差异的结果merge一下貌似更好

【学神】中大-普外科-chaos() 12:02:43 AM

这个用的矩阵不是做完差异分析的normalized矩阵么？

【学神】机器猫-番茄-武汉() 12:03:10 AM

RPKM(FPKM)值或者芯片表达量

【学神】中大-普外科-chaos() 12:03:33 AM

可能我对这个还是懵逼的吧

【学神】机器猫-番茄-武汉() 12:03:43 AM

normalized count好像不太合适吧

【学神】中大-普外科-chaos() 12:03:56 AM

counts矩阵不行么

【学神】机器猫-番茄-武汉() 12:04:10 AM

normalized count应该也可以

【学神】机器猫-番茄-武汉() 12:05:09 AM

不过不是raw count 要是normalized count

【学霸】杭州-RNA-小鸣() 12:09:05 AM

@机器猫-番茄-武汉 count数据归一化后也可以使用wgcna的

【叫兽】NJ-植物-转录组(270470585) 12:10:16 AM

应该是差异基因好做，道理上就是把变化最大的那些基因根据相关性据类，而非差异?基因变化太小，相当于引入很多噪声，直接后果是power应该会变大，因为相关性需要更高次幂才能降低噪声，出来的module不如纯用差异基因做的好

【学神】机器猫-番茄-武汉() 12:12:59 AM

说的对

【学神】机器猫-番茄-武汉() 12:13:19 AM

不过会丢掉一些相关的基因

【学神】中大-普外科-chaos() 12:14:36 AM

哎，感觉学的还是太少了，还是懂一些皮毛，光会用包跑代码不知道意义。。。

【学神】中大-普外科-chaos() 12:15:04 AM

统计学真的硬伤

【叫兽】NJ-植物-转录组(270470585) 12:15:12 AM

当然，有的表达变化1.5倍的，可能是表达调控的次级效果，但是选差异基因是就会把它排除，自然也不在共表达网络中。但是共表达网络目的就是从组学角度分清主次，抓大放小，找出?焦点

一篇中文文章也是这样做的，就是完成两个图，得到module，大多数人哪里管那么具体的统计学原理呢？

前面的4个步骤在我的学习过程中，给大家演示的清清楚楚，希望大家能get到我的思想！

后面的GO/KEGG注释我都已经讲烂了，就不赘述了！

下面这个主要是网络分析的内容咯！

自学miRNA-seq分析第二讲~学习资料的搜集

ulwvfje — Sat, 25 Jun 2016 08:51:07 +0000

因为我也是完全从零开始入门miRNA-seq分析，所以收集的资料比较齐全，我首先看了部分中文资料，了解了miRNA测序是怎么回事，该分析什么，然后主要围绕着上一篇提到的文献里面的分析步骤来搜索资料。传送门：自学miRNA-seq分析第一讲~文献选择与解

我首先拿到了miRNA定义：http://nar.oxfordjournals.org/content/34/suppl_1/D135.full ，当然基本上每个研究miRNA的文章都会在前言里面写到这个，我只是随意列出一个而已。

MicroRNAs (miRNAs) are small RNA molecules, which are ∼22 nt sequences that have an important role in the translational regulation and degradation of mRNA by the base's pairing to the 3′-untranslated regions (3′-UTR) of the mRNAs. The miRNAs are derived from the precursor transcripts of ∼70–120 nt sequences, which fold to form as stem–loop structures, which are thought to be highly conserved in the evolution of genomes. Previous analyses have suggested that ∼1% of all human genes are miRNA genes, which regulate the production of protein for 10% or more of all human coding genes。

然后我比较纠结的问题是参考序列如何选择，因为miRNA序列很少，把它map到3G大小的人类基因组有点浪费计算资源，正好我的服务器又坏了，不想太麻烦，想用自己的个人电脑搞定这个学习过程。我看到很多帖子提到的都是比对到参考miRNA数据库(miRNA count: 28645 entries)，用bowtie ： http://www.mirbase.org/ ，从这个数据库，我明白了前体miRNA和成熟的miRNA的区别，前体miRNA长度一般是∼70–120 碱基，前体miRNA一般是茎环结果，也就是发夹结构，所以叫做hairpin。成熟之后，一般∼22 个碱基，在miRNA数据库很容易下载到这些数据，现在的miRNA版本来说，人类这个物种已知的成熟miRNA共有2588条序列，而前体miRNA共有1881条序列，我下载（下载时间2016年6月）的代码是：

wget ftp://mirbase.org/pub/mirbase/CURRENT/hairpin.fa.gz ##　28645　reads

wget ftp://mirbase.org/pub/mirbase/CURRENT/mature.fa.zip ## 35828 reads

wget ftp://mirbase.org/pub/mirbase/CURRENT/hairpin.fa.zip

wget ftp://mirbase.org/pub/mirbase/CURRENT/genomes/hsa.gff3 ##

wget ftp://mirbase.org/pub/mirbase/CURRENT/miFam.dat.zip

grep sapiens mature.fa |wc 　# 2588

grep sapiens hairpin.fa |wc # 1881

## Homo sapiens

perl -alne '{if(/^>/){if(/Homo/){$tmp=1}else{$tmp=0}};next if $tmp!=1;s/U/T/g if !/>/;print }' hairpin.fa >hairpin.human.fa

perl -alne '{if(/^>/){if(/Homo/){$tmp=1}else{$tmp=0}};next if $tmp!=1;s/U/T/g if !/>/;print }' mature.fa >mature.human.fa

这里值得一提的是miRBase数据库下载的序列，居然都是用U表示的，也就是说就是miRNA序列，而不是转录成该miRNA的基因序列，而我们测序的都是基因序列。

通过这个代码制作的 hairpin.human.fa 和 mature.human.fa 就是本次数据分析的参考基因组。

搜集资料的过程中，我看到了一篇文献讲挖掘1000genomes的数据找到位于miRNA的snp位点，https://genomemedicine.biomedcentral.com/articles/10.1186/gm363 ，看起来比较新奇，不过跟本次学习过程没有关系，我就是记录一下，有空回来学习学习。

同时，我看到了一些博客讲解如何分析miRNA数据：http://genomespot.blogspot.com/2013/08/quick-alignment-of-microrna-seq-data-to.html

还有很多公司讲数据分析流程：

http://bioinfo5.ugr.es/miRanalyzer/miRanalyzer_tutorial.html

http://www.partek.com/sites/default/files/Assets/UserGuideMicroRNAPipeline.pdf

http://partek.com/Tutorials/microarray/microRNA/miRNA_tutorial.pdf

http://www.arraystar.com/reviews/microrna-sequencing-data-analysis-guideline/

http://bioinfo5.ugr.es/sRNAbench/sRNAbench_tutorial.pdf

http://seqcluster.readthedocs.io/mirna_annotation.html

耶鲁大学好像做得不错： http://www.yale.edu/giraldezlab/miRNA.html

中国有个南方基因： http://www.southgene.com/newsshow.php?cid=55&id=73

miRNA研究整套方案 http://wenku.baidu.com/view/5f38577a31b765ce05081429.html?re=view

Biostar 讨论帖子：

https://www.biostars.org/p/3344/

https://www.biostars.org/p/98486/

miRNA-seq数据处理实战指南：　http://bib.oxfordjournals.org/content/early/2015/04/17/bib.bbv019.full

直接用一个包也可以搞定：　http://bioconductor.org/packages/release/bioc/html/easyRNASeq.html

ｇｉｔｈｕｂ流程：miRNA Analysis Pipeline v0.2.7　　　https://github.com/bcgsc/mirna/tree/master/v0.2.7

https://tools.thermofisher.com/content/sfs/manuals/CO25176_0512.pdf

miRNA annotation　　：　　http://seqcluster.readthedocs.io/mirna_annotation.html

开发的网页版分析工具：　https://wiki.uio.no/projects/clsi/images/2/2f/HTS_2014_miRNA_analysis_Lifeportal_14_final.pdf

Ｒ　ｐａｃｋａｇｅ　也很好用：　http://bioinf.wehi.edu.au/subread-package/SubreadUsersGuide.pdf

一个培训：　http://www.training.prace-ri.eu/uploads/tx_pracetmo/NGSdataAnalysisWithChipster.pdf

可视化IGV User Guide：　　http://www.broadinstitute.org/igv/book/export/html/6

比较特殊的是新的miRNA预测，miRNA靶基因预测，这块研究太多软件了，并没有成型的流程和标准。

自学miRNA-seq分析第一讲~文献选择与解读

ulwvfje — Sat, 25 Jun 2016 08:29:11 +0000

前些天逛bioStar论坛的时候看到了一个问题，是关于miRNA分析，提问者从NCBI的SRA数据下载文献提供的原始数据，然后处理的时候有些不懂，我看到他列出的数据是iron torrent测序仪的，而且我以前还没玩过miRNA-seq的数据分析，就抽空自学了一下。因为我有RNA-seq的基础，所以理解学习起来比较简单。特记录一下自己的学习过程，希望对后学者有帮助。

这里选择的文章是2014年发表的，作者用ET-1刺激human iPSCs (hiPSC-CMs) 细胞前后，想看看 miRNA和mRNA表达量的变化，我并没有细看该文章的生物学意义，仅仅从数据分析的角度解读一下这篇文章，mRNA表达量用的是Affymetrix Human Genome U133 Plus 2.0 Array，分析起来特别容易，就是得到表达矩阵，然后用limma这个包找找差异表达基因即可。但是mRNA分析起来就有点麻烦了，作者用的是iron torrent测序仪，但是从SRA数据中心下载的是已经去掉接头的测序数据，fastq格式的，所以这里其实并不需要考虑测序仪的特异性。

关于该文章的几个资料收集如下：

## paper : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0108051

## Aggarwal P, Turner A, Matter A, Kattman SJ et al. RNA expression profiling of human iPSC-derived cardiomyocytes in a cardiac hypertrophy model. PLoS One 2014;9(9):e108051. PMID: 25255322

## The accession numbers are 1. SuperSeries (mRNA+miRNA) - GSE60293

## 2. mRNA expression array - GSE60291 (Affymetrix Human Genome U133 Plus 2.0 Array)

## 3. miRNA-Seq - GSE60292 (Ion Torrent)

## GEO : http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE60292

## FTP : ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP045/SRP045420

仔细看看该文章做了哪些分析，然后才能自己模仿，得到同样的数据分析结果。

该文章处理数据的流程是：
Ion Torrent's Torrent Suite version 3.6 was used for basecalling
Raw sequencing reads were aligned using the SHRiMP2 aligner and were aligned against the human reference genome (hg19) for novel miRNA prediction and then against a custom reference sequence file containing miRBase v.20 known human miRNA hairpins, tRNA, rRNA, adapter sequences and predicted novel miRNA sequences.(Genome_build: hg19, miRBase v.20 human miRNA hairpins)

The miRDeep2 package (default parameters) was used to predict novel (as yet undescribed) miRNAs

Alignments with less than 17 bp matches and a custom 3′ end phred q-score threshold of 17 were filtered out.

miRNA quanitification was done using HTSeq v0.5.3p3 using the default union parameter.
Differential miRNA expression was analyzed using the DESeq (v.1.12.1) R/Bioconductor package

In this study, differentially expressed genes that had a false discovery rate cutoff at 10% (FDR< = 0.1), a log₂ fold change greater than 1.5 and less than −1.5 were considered significant.

Target gene prediction was performed using the TargetScan (version 6.2) database

We also used miRTarBase (version 4.3), to identify targets that have been experimentally validated

## miR-Deep2 and miReap ## predict exact precursor sequence according from mature sequence .

文章提到了fastq数据质量控制标准，数据比对工具，比对的参考基因组（两条比对线路），miRNA表达量的得到，新的miRNA预测，miRNA靶基因预测，这也是我们学习miRNA-seq的数据分析的标准套路，而且作者给出了所有的分析结果，我们完全可以通过自己的学习来重现他的分析过程。

Supplementary_files_format_and_content: tab-delimited text files containing raw read counts for known mature human miRNAs.（表达矩阵）

We detected 836 known human mature miRNAs in the control-CMs and 769 in the ET1-CMs

Based on our miRNA-Seq data, we predicted 506 sequences to be potentially novel, as yet undescribed miRNAs.

In order to validate the expression profiles of the miRNAs detected, we performed RT-qPCR on a subset of five known human mature and five of our predicted novel miRNAs.

we obtained a total of 1,922 predicted miRNA-mRNA pairs represented by 309 genes and 174 known mature human miRNAs. （）

当然仅仅是套路分析无法发文章的，所以他结合了 miRNA和mRNA 进行网络分析，还做了少量湿实验来验证，最后还扯了一些生物学意义，当然这种纯粹理论分析肯定不好扯什么治病救人的伟大理想。

下一篇我会讲自学miRNA-seq分析搜集到的参考资料

生信分析人员数据处理脚本实战

ulwvfje — Wed, 01 Jun 2016 01:06:12 +0000

我前面写到了生信分析人员如何入门linux和perl，后面还会写R和python的总结，但是在这中间我想插入一个脚本实战指南。其实在我前两篇日志里面也重点提到了学习编程语言最重要的就是实战了，也点出了几个关键词。在实际生物信息学数据处理中应用perl和linux，可以借鉴EMBOSS软件套件，fastx-toolkit等基础软件，实现并且模仿该软件的功能。尤其是SMS2/exonerate/里面的一些常见功能,还有DNA2.0 Bioinformatics Toolbox的一些工具。如果你这些名词不懂，请赶快谷歌！！！它们做了什么，输入文件是什么，输出文件是什么，你都可以用脚本实现！

你在实现这些功能的时候就必然会融会贯通变量，控制语句，操作符，文件读写等基本编程功能，还会熟悉生物信息学常见数据格式，数据背后的生物学意义。用什么语言都是一样的，千万不要落入语言之争的下乘，也不要纠结于细节。学习是长期过程，尤其是编程这种事情就跟以前的木匠瓦匠一样，是人生技能，跟游戏不一样，不是一时半会就通过了。

如果你英文还不错，推荐看英文的资料，比如下面的DNA2.0 Bioinformatics Toolbox，就可以浏览该网站做了什么，然后自己把同样的文件，对该文件也进行类似的处理。

如果你还是比较熟悉中文，在这里推荐CJ大神总结的一些实际需求，下面都是一些随用随写的脚本，大神都是一句话就搞定了，但是对新手来说，请按部就班的练习！

-1.查看fastq文件读段平均读长、最大读长、最短读长
0.perl命令行粗暴多文件并行处理（每个线程处理一个文件）
1.从fasta文件中提取特定的某个序列(记录)
2.从fasta文件中批量提取序列(记录)
3.Fastq格式转换为fasta格式
4.常规fasta文件去格式为一行id一行seq
5.快速批量提取读段文件的指定序列 (也可用于去格式的fasta文件)
6.读段个数统计
7.fastq质量值格式转换---用于将phred+64数据转为phred+33数据
8.fastq 5'端trimming
9.去除低质量值碱基数量高于N个的reads--用于phred+33数据
10.去除读段序列含未知碱基N超过一定比例的读段
11. 切除读段两端质量值低于给定阈值的部分并丢弃长度低于给定值的记录新增双端版本 20140831
12.去除低质量值碱基(Q<给定值)所在比例高于(P大于给定值)的读段---用于phred+33数据
13.DNA序列转mRNA序列
14.perl脚本windows和linux间切换
15.window下打印前10行或者打印后10行
16.生成批处理用的无后缀file_list
17.fastq中提取特征读段序列
18.fasta格式CDS转为aa（必须有终止密码子）
19.window下面模拟cut命令-提取文本第二列
20.window下合并多个fa文件
21.window下提取匹配到某一模体的fasta序列
22.提取人类基因组注释文件rRNA注释
23.对sort | uniq -c | 的结果频次由高到低排序，有大用
24.fasta格式的DNA序列反向互补
25.一行id一行序列的fa文件格式化为一行id多行序列
26.按fastq文件标签名对读段顺序进行排序---待优化版
27. 替换fq或fa文件记录的id为指定形式
28.提供一个序列名列表逐一替换fasta记录的id

29.根据NCBI gene id 即gi号获取GeneBank上的序列
30.根据蛋白gene_id或accession获取其Genebank上的核苷酸序列
31.比较字符串中两个单字符的频次(比如投票0,1或方向F,R)
32.有同学想知道比对上的读段在genome上正反链的分布情况
33.去除全读段所有碱基质量值均低于某个阈值（如20）的读段(支持单端和双端数据)
34.借用pileup文件直接统计测序数据在各染色体上的分布
35.查看sam中uniq mapped比率
36.查看sam中编辑距离分布
37.统计各行平均值或各列平均值
38.将fa文件(尤其基因组文件)分成每个记录一个文件(要求一行id一行seq,见25)
39.批量重命名
40.win下批量去除文件夹内所有文件中的数字
41.统计SAM文件某一标签(BWA结果)
42.提取长度大于1000bp的fa记录
43.批量提取匹配行（正则匹配，强大） ---稍修改即可用于各类模式匹配批量提取，非常强大
44. fasta中有相同id，增加后缀方便blast建库
45. 多个列表文件，比如gene_ids，取样品特异gene_id
46. 直接统计一个序列的GC含量
47. 直接连接几个序列并将小写转换成大写
48. 序列贪吃蛇
49. 随机提取一定比例的fasta 记录或者fastq记录
50. 单行记录随机分组
51. 按照fasta长度排序fasta文件，修改后也可以用于具有某类特征标记的记录排序 (用于大文件，小文件请直接用hash)
52. 双标签区段提取 (使用范围操作符..)
53. 批量从uniprot上下载序列
54. 准备trimmomatic所需的adapter.fa文件
55. 提取fasta文件特定记录的特定区段
56. 获取GO term Level 2的信息
57. 单标签语句块读取 --（方便解析任何行组织文本-fasta fastq blast...）
58. 核酸序列互补配对的子函数
59. 分隔fa文件 fq文件 genebank文件为数据小文件
60. 序列格式化成每行等长并打印的子函数
61. 从公司返还的注释结果中提取query2gi2GO.table -- for blast3go

62. blast2go anno文件转换成blast3go输入文件

63. 提取任意组装结果最长转录本(so-called Unigenes)或者CDS预测结果中最长序列64. 表格类数据，以某一列为keys组成的Group中仅保留其对应某属性（另一列）中值最大的一类 65. 小文件行随机化 66. 打印匹配行及其前'指定数目'行67. 打印匹配行及其后'指定数目'行 68. -n的多个文件区别对待 69. 按照列名提取文件多列 70. 批量提取多个序列多个区段 71. 输出fasta文件每个序列对应的长度 ID\tLength\n72. jar发布前以来外源lib中的jar瘦身73. 依据step长度输出字符串所有后kmer子串74. 基于SAM文件统计ref的每个序列的uniq counts并输出reads的uniq mapped rate统计信息（用于表达谱差异分析 75. 汇总所有counts table并进行无表达补零操作（用于表达谱差异分析76. 保留fastq文件指定长度的读段最优子串77. 输出fasta文件每个记录的A T G C 字数统计78. 合并配对的读段文件fastq 正反读段交错 79. 统计SAM文件 CIGAR的命令 80. fasta文件去除ID行完全重复的记录 81. 合并所有文件的指定列 82. 根据id文件提取第二个文件中多个id匹配行83. 根据某一列的不同值将一个文件分割为多个文件84. 保留高表达或者去除低表达(WGCNA) 85. 表格类数据依据第一列，加和其他所有列，去冗余 86. ghostz比对到nr的表格提取query2gi.table

87. fastqReader
88. Linux下依据 SRA run number下载SRA数据
89. 快速批量统计fq.gz文件行数
90. 格式化mapman结果（mercator）
91. 基因表达量表格做行标准化
92. 基于ID列表提取表格（考虑待提取的表格中有单ID对应多行记录）
93. 文件批量重命名（提供一个重命名列表）
94. perl批量添加fasta文件前缀（用于多个样本分开组装后合并并用于去冗余等操作）
95. 对表达量表格或者counts表格依据平均值进行排序
96. 双联表计算卡方值
97. 整理bowtie的比对结果
98. 基于给定列名顺序调整表格列顺序
99. 整理GeneBank文件（分离地点）
100. 双列文件整理为 0-1 交集矩阵
101. 整理bowtie2的比对结果
102. 整理fastqc结果，提取所有样本的读段数
103. 整理STAR比对结果