大数据|Virtural histology分析

大数据|Virtural histology分析
文章图片

本文介绍基于AHBA的virtual histology分析。
Vitural histology
Vitural有一个意思是:通过计算机,特别是通过网络进行、访问或存储。
Histology组织学,或称显微解剖学,是一门对生物组织的微观研究,研究它们的形成、构造和功能。Histology(组织)是指生物体中相同或相似的细胞集合以执行特定功能的细胞群(Wiki)

这是作者在文中对Virtual histology的定义:
“Virtual histology is an approach that correlates, across space, an MRI-derived profile, such as an interregional profile of group differences in cortical thickness, with interregional profiles of cell-specific gene expression.”
简单地说就是:寻找MRI derived profiles和cell-specific gene expression之间的联系。宏观到微观,关注的是细胞类型。它的本质其实是基于AHBA做感兴趣基因(Genes of interests-GOIs)的相关,再透彻一点其实就是gene set analysis。因此此类分析不限于细胞类型,也可以是某个生物过程或者疾病风险基因等相关的基因。他们2018年的文章还没想出这么花哨的概念,那个时候称之为cell-specific gene-epxression profiles正经多了。
大数据|Virtural histology分析
文章图片

若想重复vitural histology的分析,可以在CC这篇文章中找到代码(https://figshare.com/s/6e913a45614c37612873),但是不推荐,因为代码的效率和可读性不高,此外目前已有统一的AHBA数据的预处理方法(abagen),而这里作者用的是自己的预处理方式。CC里报告矫正过值的平均值(average_r=average_r - average of null)。Jama的文章没有分享代码,若想重复该文结果需要注意,除了使用文章中的相关方法外,报告的平均相关是average_r的原始值。
Virtual histology发现
文章的一个主要结果便是,CA1锥体细胞的基因表达模式和几种疾病皮层厚度异常模式相关。下图展示了9种细胞特异性基因表达模式和6种精神疾病的皮质厚度异常模式之间的相关系数分布。a代表显著,FDR-p<0.05,做的是细胞类型之间的矫正。细胞类型包括了星形胶质细胞,小胶质细胞,椎体细胞等,这里不做介绍。
大数据|Virtural histology分析
文章图片

假设检验

文章里的分析做的是:多个变量(不同的细胞类型中的多个基因表达)和单个变量(某一种精神疾病的异常)之间的相关,因此得到的是一组相关。例如有50个基因被证明和CA1锥体细胞相关,将每一个基因的表达模式和ADHD的皮层异常做相关,就得到50个相关系数,也就是上图中的第一行第二列所得到的分布。假设检验的目的是推测这50个基因的表达是否和ADHD皮层厚度改变的模式相关,若相关则认为CA1锥体细胞和ADHD皮层厚度改变有关。
文章使用了非参数检验,通过随机重取样基因(resampling genes)建立Null 模型。流程如下:
1)将50个相关系数做平均,得到一个真实的平均值(empirical mean correlation)。
2)随机选择另外50个基因和ADHA的皮层厚度异常做相关得到50个相关值,再做平均得到一个null平均值。
3) 重复上一步骤10,000次得到10,000个null平均值(null distribution of mean correlation)

4)将真实的平均值和Null distribution做比较计算p值(或者看是否在95%区间以外)

对于这个流程,做富集分析的人在差不多20年前就注意到了resampling gene方法可能对于基因集中的co-expression更敏感。甚至产生了关于应该resampling gene还是resampling phenotype(对应检验的是competetive gene还是self-contained假设)的讨论。最近做Neuroimaing的人才开始关注co-expression和spatial autocorrelation的问题,因此使用类似的方法建立随机大脑数据,检验Vitual histology得到的结果是否有类似的问题。
过高的阳性率
于是用uniform分布随机生成1000个brain maps,每一个随机brain map和一种细胞类型的基因表达做相关,并使用重采样基因的方法,看在这1000个随机生成的brain maps中有多少次被认为是和该种细胞类型相关,便可认为其假阳性率就是: 显著个数/1000。
结果发现CA1锥体细胞居然有几乎60%的阳性率。使用uniform分布生成的随机brain maps的每个区域都是随机生成,如果再加入空间自相关的信息,这个值只会更高。(加入空间自相关信息的方法有多种,常用的随机高斯场的方法,重采样到模板上就会出问题,具体见另外的推文)
大数据|Virtural histology分析
文章图片

计算每个基因集的平均co-expression会发现,真实值(图中的竖线)和随机样本中的值(图中的分布)在某些细胞类别中存在较大差距。另外分布的标准差和基因集的大小有关,包含基因数量越多则越小。这里相当于从所有背景基因的co-expression做采样,因此重采样的样本大(例如CA1.Pyramidal),获得分布的可信度越高。而且所有细胞类型的重采样都有这类似的集中趋势,反映的便是背景基因总体co-expression的分布情况。
大数据|Virtural histology分析
文章图片

可以看到,那几个阳性率高的细胞类型(CA1.Pyramidal; Astrocyte; Microglia),正好就是重采样中co-expression水平无法达到真实水平的细胞类型。做相关后发现阳性率(横轴)和基因集中的co-expression(纵轴)呈高度相关。黄色箭头指的点(代表Astrocyte),有最高的co-expression值但是它的阳性率为什么不是最高的?因为还可能和基因集的大小有关。
大数据|Virtural histology分析
文章图片

最后,如果使用spatial null模型,重新分析这些细胞类型和随机大脑数据的相关,发现对于随机大脑数据,其阳性率控制的不错。
大数据|Virtural histology分析
文章图片

使用spatial-null的模型重分析vitural histology的结果发现使用重采样表型的方式会影响一部分结果但影响不是特别大(仅针对文中的几种brain maps和使用平均数作为统计量的情景)。
后续
本文第一稿在几个月前完成,大概是想说Jama那个文章的分析有问题,但后面逐渐发现没那么简单。使用spatial-null模型似乎更好的控制了随机大脑数据中的阳性率(如图)。
大数据|Virtural histology分析
文章图片

但重采样表型就真的比重采样基因要好吗?采用生成随机数据的方法和只关注阳性率的分析可能具有误导性。实际分析发现大部分情况是重采样表型比重采样基因会发现更多显著的结果(这和之前文献结论相符),而且存在不同统计量和模型存在交互的情况,即某些统计量在重采样基因的模型中表型较好,某些统计量在重采样表型的模型中表型更好的情况。统计量的选择又反映了研究者对于什么才能代表基因集中相关信息的信念(假设),加之不同模型对应不同假设,这大大增加了分析过程中自由度,因此需要使用补充分析验证结果的可靠性。
【大数据|Virtural histology分析】大数据|Virtural histology分析
文章图片
大数据|Virtural histology分析
文章图片

    推荐阅读