STAR分析转录组的步骤

转录组有参考分析 Zhi STAR比对和可变剪切STAR比对特点:S****TAR输出文件解释:**基因组重测序是对已知基因组序列的物种的不同个体的基因组进行测序 。基于全基因组重测序技术,人们期望快速筛选资源 , 发现大量遗传变异,实现对遗传进化分析和重要性状候选基因的预测,随着测序成本的降低和具有参考基因组序列的物种的增加,全基因组重测序已成为动植物育种和种群进化研究的一种快速有效的方法 。

【STAR分析转录组的步骤】基因型强调的是个体在这个基因座是哪种基因型 。SNV属于基因型的范畴 , 也就是说这个基因型是一种突变,是独一无二的 。首先通过bwa、samtools、picard Picard对参考基因组ref.fa进行索引,然后通过使用基因组比较软件bwa将fastq文件与参考基因组进行回比 , 生成sam文件(这里使用的例子数据小于10M,所以使用bwa的is参数 。当参考基因组较大时,使用bwtsw参数)使用picard对sam文件进行排序 , 生成bam文件(这里如果使用samtools,重复的站点会被删除,而picard只会标记重复,不会删除) 。

1、 转录组定量工具-featureCounts安装及使用可以使用StringTie、Htseqcount或featureCount来计算表达式 。第一次做转录group分析时 , 参考了Cell的一个子发布中的分析的方法,该方法使用了 。FeatureCount是subread包中的一个命令,所以只需安装subread即可 。

FeatureCounts有两个核心概念:特征是指基因组区间的最小单位,如外显子;元特征:可以看作是由许多特征组成的区间 , 比如属于同一基因的外显子的组合 。量化时,支持单特征量化(外显子量化)和元特征量化(基因量化) 。

2、...本地界面化(Win/Mac前面我已经通过插件使TBtools的所有用户能够完成RNAseq data 分析从测序原始数据到基因表达 , 我用了一个曲线救国的策略,就是直接用kallisto , 跳过阅读回复,直接统计阅读片段 。目前比较常用的RNAseq上游数据分析 process应该还是会统计读完回复后的读段 。一般来说 , 用的软件是:star/hisat2 。

结果前几天开发了相应的插件,分别是hisat2build和hisat2align 。在这一点上,我们可以更进一步,做更有意义的事情 。更早的Kallisto本身依赖于基因组基因结构的标注 , 其准确性受已有标注影响较大,而hisat2等人基于回复,可以进一步做标注“自动修正”和new 转录 copy或基因挖掘 。更全面 。这些,常用的软件是Stringtie 。

    推荐阅读