R|R plus 生物~Bioconductor Rplus生物~Bioconductor

刘小泽写于18.9.7
各行各业数据呈爆炸式增长，大量的数据等待被处理，R语言就是一个利器，可以说是做数据分析必备的编程语言。当强大的R与包罗万象的生物结合，再一次刺激了R的迅猛发展。随着NGS测序的普及，R语言的生信专业社区Bioconductor诞生，开启了生物信息的R语言时代。
好工具，用起来，首先要了解生物数据与R之间的关联

生物知识回顾

基因有三类：第一类编码序列，编码蛋白【转录+翻译功能】；第二类只有转录没有翻译功能【tRNA+rRNA】；第三类不转录基因，调控基因表达【启动子、操纵子】
基因组：单倍体细胞中包含编码序列和非编码序列的全部DNA【核基因组+线粒体基因组+叶绿体基因组】
狭义转录组：mRNA，代表样本整体基因表达水平，一般称为“表达谱”【真正的表达谱是蛋白质组信息，研究手段是质谱】。通常用基因芯片、RNA-seq
广义转录组：
- 非编码ncRNA：有三类【按长度划分】
  - 小于50nt的small RNA【长度单位：单链叫nt，双链叫bp】：miRNA、siRNA、piRNA【small RNA序列短，同源性高，一般采用二代测序检测】
  - 50-500nt：rRNA、tRNA、snRNA、snoRNA
  - 大于500nt：mRNA-like ncRNA、不带polyA尾的ncRNA
- microRNA：也叫miRNAs，20-25nt，初级转录物-》核酸酶剪切加工-〉组装进RNA诱导的沉默复合体-》互补配对识别靶mRNA-〉根据互补程度不同指导沉默复合体降解靶mRNA或者阻遏mRNA翻译
DNA、蛋白互作：Chromatin immuopre-cipitation, ChIP，主要应用于：DNA序列转录因子结合位点（Binding sites）识别，如启动子、增强子等顺式作用文件(Cis-acting element)的识别；DNA甲基化、组蛋白修饰、核小体定位
DNA甲基化：甲基化DNA免疫共沉淀测序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA（蛋白）结合域测序(Methylated DNA binding domain sequencing, MBD-seq)和亚硫酸氢盐测序(Bisulfite sequencing, BS-seq)

基因表达分析
基因表达检测方法

实时荧光定量PCR(Quantitative real time PCR, qRT-PCR)
基因（表达谱）芯片（Microarray）
表达序列标签（Expressed Sequence Tag, EST）
基因表达系列分析(Serial Analysis of Gene Expression, SAGE)
转录组测序

PCR技术应用最为成熟，灵敏度高，特异性强，但其缺点是通量较小；基因芯片方便快捷，适合临床诊断及个体基因组分析；基因测序技术通量高，但周期长、成本高

基因芯片是什么基因芯片又称DNA微阵列，按照检测物的不同，可分为DNA芯片、RNA芯片等，其中DNA芯片又可分为单核苷酸多肽性（SNP）芯片、比较基因组杂交（CGH）芯片等。

原理：基于A、T；C、G互补理论，将已知序列的核酸探针与未知序列的核酸序列进行杂交检测DNA，并且DNA探针以显微打印的方式大规模集成于芯片（类似于计算机的硅芯片）表面。杂交后通过计算机对杂交信号的检测分析，得出样品的遗传信息(基因序列及表达的信息)。分析单核苷酸变异多态性性价比较高。

文章图片
基因芯片原理主流寡聚核苷酸芯片主要有：Affymetric、Agilen、Illumina公司
基因表达数据矩阵表示：行名代表一个基因不同条件/样本的表达，列名代表某个条件/样本的所有基因表达。数据代表表达水平。那么一般分析什么？

不同样本/处理中哪些基因表达有显著差异？
基因之间有什么共有的功能，或者参与哪些共同代谢途径？
不同的处理中，哪些基因变化一致，它们受到上游哪些基因的调节，或者它们控制下游哪些基因的表达？
哪些基因表达存在样本特异性，也就是说通过他们的表达可以判断样本的状态（如：细胞的增殖、分化、凋亡、应激、癌变等）

主要的分析主要有差异显著性分析和时间序列分析，后者主要是测定基因多个时间点的表达量，然后聚类+主成分分析寻找共调控基因
表达显著性分析就是为了找差异基因（DEG）。那么怎样判断基因间是有差异的呢？常用的有3种算法：一是倍数分析（无统计假设），计算每个基因在不同条件/样本的比值，再与阈值比较；二是用统计模型T检验等方法，计算差异表达的置信度p值，以0.05或者0.01作为阈值；三是机器学习方法，利用贝叶斯模型、随机森林等。分析的结果从来不用担心没有差异基因，而是要考虑差异基因可能存在很多，从几十个到上百个不等，那么如何展示他们呢，一张简单粗暴的大表格吗？肯定是不行的！
需要把上游的这些差异基因再进行注释、分组，一个类别就相当于一个GO term，然后看这几大类的区别，肯定比看几十甚至上百个基因或蛋白的差异要更加直观，这就是富集分析，包括GO分析，KEGG分析，GSEA分析等。其中重点研究的基因集叫做前景基因，需要比对的所有基因集叫背景基因，前景是背景的子集。例如转录组数据中的对照组和处理组，处理与对照之间的差异基因就是前景基因，两组所有的表达基因就是背景基因。富集分析的目的就是根据不同功能，把各个分子进行分类，然后使用超几何分布检验进行分析。当然使用不同工具，得到的结果不同，现在clusterProfiler要比DAVID的结果更多。
GO分析（Gene Ontology）包括GO terms（标签）+GO annotations（注释）。

GO terms存在于由基因本体联合会(Gene Ontology Consortium)建立的数据库中，对基因和蛋白功能进行限定和描述，每个注释信息都有一个GO ID。它由两部分构成，第一部分都是GO，第二部分是以0开头的7位数字，例如GO:0016021 。
GO是一个情报员，他负责调查：包括基因的分子功能：“干啥的”（molecular function，MF），指分子所执行的任务【如与碳水化合物结合或ATP水解酶活性等】、细胞组分：“活动区域”即产物发挥作用的位置（cellular component，CC）【如核仁、端粒和识别起始的复合物】、参与的生物过程：“近期有什么动静”（biological process，BP）【嘌呤代谢、有丝分裂等】GO调查完就给被查对象贴标签term
GO annotations即GO注释，是针对基因产物的而不是基因，表示某些基因的产物是是非编码RNA、蛋白质还是大分子等。这里GO就相当于一个中间媒介，它对基因进行定义GO term，然后其他各个数据库使用GO的定义方法，对它们的基因产物进行标注，例如一个数据库的EntrezID或SYMBOL与GO数据库进行ID对应，或者用一个数据库的序列与GO term进行对应。

在一个GO注释中，例如，一个基因的产物是细胞色素c（cytochrome c），那么这个基因的产物就会被一个分子功能术语（Molecular Function）描述为氧化还原酶活性（oxidoreductase activity ），被生物过程（Biological Process）描述为氧化磷酸化（oxidative phosphorylation ），被细胞成分（Cellular Component ）描述为线性体基质（mitochondrial matrix ）和线粒体内膜（mitochondrial inner membrane ）~引用自“读研笔记”

pathway代谢通路 GO负责分门别类，而pathway负责把每一类对应到具体的代谢网络中。研究pathway的原因是：生物学问题中设定一个“蝴蝶效应”假设：1个Pathway上游基因的改变，会导致下游相关基因改变，从而改变通路中大量基因的表达。现在常用是KEGG，但是它收录的都是是已有的研究结果，而这些信息，还没有完善
熟悉一下Bioconductor

Bioconductor拥有上千个扩展包，主要有实验数据包、软件包、注释数据包三大类，例如白血病的ALL包就是利用Affymetrix进行芯片分析的数据包；但最重要的当属软件包

软件包：

注释：GO、Pathway等
微阵列板块（Assay Domains）：处理芯片数据，Bioconductor支持主流的Affymetrix的商业化单色寡聚核苷酸芯片，也支持用户定制的双色cDNA芯片。芯片数据一般流程：数据预处理、差异表达基因筛选、聚类分析。这里的包有以下几部分：
- 比较基因组杂交（Comparative Genomic Hybridization, CGH）
- 细胞水平检测（Cell Based Assays）
- 染色质免疫共沉淀芯片（ChIPchip）
- 拷贝数变异（Copy Number Variants）
- CpG岛（CpGIsland）
- 差异表达（Differential Expression）
- DNA甲基化（DNA Methylation）
- 外显子检测（Exon Assay）
- 基因表达（Gene Expression）
- 遗传变异性（Genetic Variability）
- 单核苷酸多态性（SNP）
- 转录
测序技术（Assay techs）
- 芯片技术（Microassay）
- 微孔板检测（Microtitre Plate Assay?）
- 质谱（Mass Spectrometry）
- 基因表达系列分析（SAGE）
- 流式细胞仪（Flow Cytometry）
- NGS
数据处理：基因芯片数据预处理（背景矫正、归一化、质控）、芯片分析、基因间关系、样本间关系、识别差异基因
【R|R plus 生物~Bioconductor】聚类分析（Clustering）、分类（Classification）、富集分析（Enrichment）、多组比较（Multiple Comparison）、预处理（Preprocessing）、质控、序列匹配、时间序列分析（Time Course）、可视化、网络分析