在生物信息学领域,micro 阵列技术的进步产生了涉及数千个特征的基因表达数据 。如果数据挖掘算法要处理这些海量数据集,算法必须是可伸缩的,可扩展性由于数据生成和收集技术的进步 , 几千兆字节、几太字节甚至几千兆字节的数据集越来越普遍,又称基因芯片,micro阵列(微阵列) 。
1、按你对数据挖掘技术的了解,你认为它的研究将面临的主要挑战和对策是什...【dna微阵列数据分析,基因芯片也可以称作dna微阵列】以下是导致数据挖掘研究的一些具体挑战 。可扩展性由于数据生成和收集技术的进步,几千兆字节、几太字节甚至几千兆字节的数据集越来越普遍 。如果数据挖掘算法要处理这些海量数据集,算法必须是可伸缩的 。许多数据挖掘算法使用特殊的搜索策略来处理指数搜索问题 。可伸缩性可能还需要实现新的数据结构,以高效的方式访问各个记录 。
使用采样技术或开发并行和分布式算法也可以提高可扩展性 。高维现在我们经常遇到的是拥有成百上千个属性的数据集,而不是几十年前常见的只有几个属性的数据集 。在生物信息学领域,micro 阵列技术的进步产生了涉及数千个特征的基因表达数据 。具有时间或空间成分的数据集也往往具有高维度 。例如 , 考虑一个包含不同地区温度测量值的数据集 。如果长时间重复测量温度,维度(特征数)的增长与测量次数成正比 。
2、转录组 数据分析RNA-seq转录组学的研究对象是全基因组尺度的所有转录物 , 即转录组将荧光标记的cDNA制成micro 阵列 probe , 以确定样品中特定转录物的含量 。又称基因芯片,micro阵列(微阵列),获取表达水平的步骤:RNA提取>逆转录(>扩增) >标记>杂交>扫描>获取原始数据局限性:仅已知或;确定性序列不能检测新发现的基因,一些没有放在芯片上的基因的探针信号可能会受到非特异性杂交或个体序列差异的影响 。基于高通量第二代测序技术的转录组学研究方法 。
推荐阅读
- 欧美艳星
- redis事务会阻塞其他客户端吗 redis事务出错
- 甲方分析,甲方需求分析怎么写
- redis开启aof redis打开命令窗口
- idea编译器使用教程,intellij idea 怎么编译java
- 个人博客的需求分析,博客管理系统需求分析
- redis存储上限 redis多级存储
- idea调整语言,ideapad电脑原有的中文字幕全变成英文了怎样改回中文啊
- 苹果破解版游戏大全,iphone 有啥好玩的破解版游戏推荐几个