ceph故障分析

ceph(第三步,开始使用a ceph cluster 。涉及:crush、osd、pool、cache ceph版本:nautilus cephdeploy版本:2.0.1在基本使用需求下,一般要求存储集群提供高性能存储(SSD)和普通存储(hdd),CephFS,ceph提供了缓存的概念 。

1、「精心整理」Ceph搭建硬件建议详解Ceph专门设计为在商用硬件上运行,这使得构建和维护超大规模数据集群在经济上是可行的 。在规划群集硬件时 , 您需要平衡一些考虑因素,包括故障 domain和潜在的性能问题 。硬件规划应该包括在许多主机上分发Ceph守护进程和其他使用Ceph的进程 。一般来说,我们建议在为此类守护程序配置的主机上运行特定的Ceph守护程序 。

所以你的元数据处理器应该有相当大的处理能力(四核或者更高的CPU) 。CephOSDs运行RADOS服务,使用CRUSH计算数据放置 , 复制数据,并维护自己的集群映射副本 。所以OSD要有合理的处理能力(比如双核处理器) 。监视器只维护集群映射的主副本,因此监视器不需要CPU密集型处理能力 。
【ceph故障分析】
2、1063gpu频率低是什么 故障1、数据加载相关1)存储和计算是跨城市的,跨城市数据加载慢导致GPU利用率低 。描述:比如数据存储在“深圳ceph” , 但是GPU计算集群在“重庆” , 涉及跨城市使用,影响很大 。优化:要么迁移数据,要么替换计算资源,保证存储和计算在同一个城市 。2)存储介质性能差:不同存储介质读写性能对比:原生SSD >ceph> CFS 1.5 > HDFS > MDFS优化:先将数据同步到原生SSD,再读取机器SSD进行训练 。

3、Ceph:一个LinuxPB级分布式文件系统Ceph最初是一个关于存储系统的博士研究项目,由加州大学圣克鲁斯分校(UCSC)的SageWeil实现 。但是到2010年3月底,你可以在主线Linux内核中找到Ceph(从2.6.34版开始) 。尽管Ceph可能不适合生产环境,但它对于测试目的仍然非常有用 。本文讨论了Ceph文件系统及其独特的功能,这些功能使它成为可伸缩分布式存储最有吸引力的替代方案 。

这个名字与UCSC(CEPH的出生地)的吉祥物有关 。这个吉祥物叫“萨米”,是一种香蕉色的蛞蝓,是头足类动物中无壳的软体动物 。这些多触手的头足类动物为分布式文件系统提供了最生动的比喻 。开发一个分布式文件系统需要付出很多努力,但如果能准确解决问题,那就是无价之宝 。Ceph的目标简单定义为:不幸的是,这些目标会相互竞争(例如 , 可伸缩性会降低或抑制性能或影响可靠性) 。

    推荐阅读