R|R - 序列标识图(sequence logo)
在生物信息分析中,经常需要做序列标识图(sequence logo)。例如,突出序列比对中的保守位置,用于研究结构域序列相似性;临床上可视化DNA、RNA和蛋白质结合位点(激酶,SH2 / SH3域,转录因子(TFs),RNA结合蛋白,核酸酶,核糖核蛋白等)探索突变对重大疾病的影响。
ggseqlogo是一种非常理想的序列标识可视化软件,它不仅能够生成高质量的待发表的序列标识图,而且能够灵活地处理不同的输入格式。由于基于ggplot2包,因此具有高度可定制化性(允许使用定量和定性的配色方案,图例,不同的字体和视觉注释),并且允许与其他图形叠加。
数据类型
【R|R - 序列标识图(sequence logo)】ggseqlogo能够接收和识别三种数据类型:
- 序列:Amino acids, DNA and RNA sequence types,一般ggseqlogo能猜测输入序列的类型,也可以用seq_type指定。自己制定的字母、数据、符号等。
- 矩阵:行是序列字母,列是序列位置的位置频率矩阵。
- 如果每个字母已经有了高度变量,只需创建一个矩阵,列名字序列字母,每个单元格都是高度变量,然后将方法设置为custom。(例:custom_mat = matrix( rnorm(20), nrow=4, dimnames=list(c('A', 'T', 'G', 'C'))) )
文章图片
custome_matrix.png
文章图片
文章图片
sequence logo.png see the full tutorial here
推荐阅读
- 标签、语法规范、内联框架、超链接、CSS的编写位置、CSS语法、开发工具、块和内联、常用选择器、后代元素选择器、伪类、伪元素。
- 迷茫是人生常态
- 《自我的追寻》读书笔记3
- D29【亲子践行】一月一事,从一个小目标开始
- 活跃社群的核心标准是什么()
- 2.如何确立组织目标()
- 二叉树路径节点关键值和等于目标值(LeetCode--112&LeetCode--113)
- 第二阶段day1总结
- 第一周作业复盘
- whlie循环和for循环的应用