R|R - 序列标识图(sequence logo)

在生物信息分析中,经常需要做序列标识图(sequence logo)。例如,突出序列比对中的保守位置,用于研究结构域序列相似性;临床上可视化DNA、RNA和蛋白质结合位点(激酶,SH2 / SH3域,转录因子(TFs),RNA结合蛋白,核酸酶,核糖核蛋白等)探索突变对重大疾病的影响。
ggseqlogo是一种非常理想的序列标识可视化软件,它不仅能够生成高质量的待发表的序列标识图,而且能够灵活地处理不同的输入格式。由于基于ggplot2包,因此具有高度可定制化性(允许使用定量和定性的配色方案,图例,不同的字体和视觉注释),并且允许与其他图形叠加。
数据类型 【R|R - 序列标识图(sequence logo)】ggseqlogo能够接收和识别三种数据类型:

  1. 序列:Amino acids, DNA and RNA sequence types,一般ggseqlogo能猜测输入序列的类型,也可以用seq_type指定。自己制定的字母、数据、符号等。
  2. 矩阵:行是序列字母,列是序列位置的位置频率矩阵。
  3. 如果每个字母已经有了高度变量,只需创建一个矩阵,列名字序列字母,每个单元格都是高度变量,然后将方法设置为custom。(例:custom_mat = matrix( rnorm(20), nrow=4, dimnames=list(c('A', 'T', 'G', 'C'))) )

    R|R - 序列标识图(sequence logo)
    文章图片
    custome_matrix.png
例子 R|R - 序列标识图(sequence logo)
文章图片
R|R - 序列标识图(sequence logo)
文章图片
sequence logo.png see the full tutorial here

    推荐阅读