从统计学的角度理解RNA-seq这次我分享一个李静怡团队的总结,建模andalysofrnaseqdata:AreviewFromastisticalPerspective 。从统计学的角度来看,目前了解RNA seq 分析的数据主流有四个方向(当然不止这些 , 可以慢慢收集整理,欢迎与我探讨)接下来,笔者围绕这四条内容做一个统计理解,基于样本分析 , 目的是检测不同样本表达模式的相似性,这通常可以通过Pearsonand和spearman相关性来度量 。
1、RNA-Seq 分析|RPKM,FPKM,TPM,计算对比在高通量测序中,检测基因的表达是非常重要的 , 这是区别分析和转录组数据分析的基础 。与qPCR类似 , 基因表达的测定也是一种相对定量的方法 。基因区域中的读数数量取决于基因长度和测序深度 。在同一个样本中,基因越长,随机中断的片段就越多,基因被检测到的概率就越大,比对基因的读数就越多 。
从1和2可以知道,一个基因越长,测序深度越高,落在里面的读数就越多 。因此,如果要比较不同基因的表达水平 , 就需要对数据进行标准化处理 。从上图看到,无论哪个基因,rep3的计数都高于rep 1,说明rep3的测序深度高于rep1与基因A相比,在任何rep中,基因B的数量都高于基因A的数量 , 说明基因B的长度大于基因A的长度..
2、转录组学基础——什么是RNA- seq处理转录组学数据分析时,会发现两种数据 。一种被称为微阵列数据 , 另一种是通过下一代测序技术(NGS)获得的数据(例如,第二代测序,第三代测序) 。目录1 。微阵列:芯片数据2 。ngs(下一代测序)3 。rnaseq的应用原理:基于分子杂交技术,主要通过打印有荧光标记探针的基因芯片来实现 。
【rna-seq 分析,RNAseq分析图】cDNA的直接测序 。NextGenerationSequencing (NGS),也称为HighThroughputSequencing,是相对于传统的Sanger排序而言的 。RNASeq是指对转录组和分析进行测序 。一般来说,在所里会委托公司进行数据测序进行后续信分析(质控、作图、差异基因表达分析、SNV 分析)等).
3、RNA-Seq数据 分析——原始数据质量控制(QC获得转录组数据后的第一步( 。fastq文件)是为了控制原始数据的质量 。质量控制的目的是全面检查原始数据的质量,包括碱基质量评价、GC含量检验、N碱基数量评价、TCGA碱基分布、kmer数量检验等 。可以检查fastq文件质量的软件有很多,比如FastQC,fastp , multiQC等等 。本文主要介绍应用广泛的FastQC 。
推荐阅读
- 程序分析表格,分析表格数据的方法
- 怎么用wps分析数据透视表,wps的数据透视分析在哪里
- sw 热分析环境温度
- swot分析法 婚恋,SwOT分析法
- spss聚类分析马氏,聚类分析用欧式还是马氏
- 统计学分析小数据
- npn 电路分析,NPN和PNP复合电路
- 分析借贷合同三要素,借贷法律关系的三要素
- 商业项目失败原因分析,上海ppp项目失败原因