cjh Ceph 2025-07-21 此文章访问量 66

ceph的一些原理

ceph的一些原理：

https://pve.proxmox.com/wiki/Deploy_Hyper-Converged_Ceph_Cluster

副本同步机制：所有副本需完成数据写入操作后，才会向客户端返回成功响应。
若副本损坏，系统会自动从其他副本读取数据并修复损坏副本，确保副本总数不变。
（即使其中一个存储节点发生故障，数据仍然可以从其他两个副本中进行恢复，确保数据的可用性。）
副本修复与容错：当检测到副本损坏时，Ceph会启动数据重建流程，通过其他正常副本恢复数据并替换损坏副本。此过程可能影响读写性能，但不会阻断新数据写入。
一致性验证：pglog通过版本控制（包含epoch和version）跟踪每次更新，确保所有副本的pglog记录一致。若副本损坏导致pglog不同步，系统会通过 leveldb等机制修复差异。
性能影响：三副本模式会降低写入性能（需同步更新三个副本），但读取性能优于单副本模式。
而，三副本副本策略也并非完美无缺。首先，相较于较低副本策略（如双副本），三副本策略需要消耗更多的存储空间，尤其对于大规模数据存储来说，这可能会带来不小的存储成本。其次，由于数据需要被复制成三份，并存储在不同的存储节点上，这会增加数据的写入和复制的延迟，从而降低系统的写入性能。
为了克服三副本副本策略的缺点，Ceph还提供了其他的副本策略，如Erasure Coding等。Erasure Coding是一种更为高效的副本编码方式，通过对数据进行编码和拆分，可以在保证数据可靠性和容错性的同时，大幅降低存储空间的消耗。相比于三副本副本策略，Erasure Coding在存储效率和成本方面更具优势，尤其适用于大规模数据存储场景。

当Ceph集群中的一个副本坏掉之后，会给整个系统带来什么影响呢？首先，让我们先来了解一下Ceph是什么。
Ceph是一种分布式存储系统，能够提供高性能、高可靠性和可扩展性的存储服务。在Ceph中，数据会被分成多个副本存储在不同的节点上，以保证数据的可靠性和持久性。当一个副本坏掉时，Ceph会自动进行数据修复，即将坏掉的副本替换成正常的副本。但是，在进行数据修复的过程中，会带来一定的影响。
首先，当一个副本坏掉之后，会影响到数据的可用性。因为在数据修复完成之前，数据只有部分副本可用，如果此时正好有读写请求到达，可能会导致读写操作失败或者延迟。这会对系统的性能和用户体验产生负面影响。
其次，数据修复过程会消耗一定的系统资源，比如网络带宽、磁盘IO等。这些资源本来是用来提供正常的存储服务的，但在数据修复的过程中，会被占用一部分，导致系统的整体性能下降。尤其是在大规模集群中，数据修复的时间可能较长，会占用更多的资源，进一步影响系统的稳定性和性能。
另外，数据修复过程还会增加系统的负载，因为数据修复需要占用一部分计算资源来进行数据校验和传输工作。在整个数据修复过程中，这些额外的计算任务会增加系统的负载，可能会影响到其它正常的业务处理，导致系统整体的稳定性降低。
总的来说，当Ceph集群中的一个副本坏掉之后，会给系统带来一系列的影响，包括数据可用性下降、系统性能降低、系统负载增加等。因此，我们需要在日常管理中加强对Ceph集群的监控和维护工作，及时发现并处理副本损坏的情况，以保证整个系统的稳定和高可用性。

ceph的工作原理

Ceph的核心工作原理基于其独特的去中心化架构和智能数据分发机制，主要通过以下分层结构实现：

1、底层存储引擎（RADOS）

作为Ceph的基石，RADOS（Reliable Autonomic Distributed Object Store）是一个完全去中心化的对象存储集群。它由两类守护进程构成：

OSD（对象存储守护进程）：运行在每个存储节点上，直接管理物理存储设备（HDD/SSD），负责数据存储、复制、迁移、恢复和清理。OSD之间相互通信以协调数据操作和状态同步1。

Monitor（MON）：维护集群关键状态信息（如OSD Map、CRUSH Map），提供一致性共识服务，防止集群脑裂，管理成员关系和身份认证。

2、智能数据分布（CRUSH算法）

客户端和OSD都使用CRUSH（Controlled Replication Under Scalable Hashing）算法动态计算数据位置，无需中央元数据服务器。其核心是：

将写入的数据分解为大小固定的对象（默认4MB）。

根据CRUSH规则集（考虑故障域隔离如机架、主机）和集群状态图（OSD Map），确定每个对象的主OSD（Primary OSD）和副本OSD位置。

支持副本（多份完整拷贝）和纠删码（EC，分片+校验码）两种数据冗余方式。

3、数据写入流程

客户端使用CRUSH算法计算对象的目标主OSD和副本OSD位置。

客户端直接将数据发送给主OSD。

主OSD负责将数据复制到其他副本OSD（Secondary OSD）。

主OSD在确认所有副本写入成功后（默认需成功写入3份），才向客户端返回写入成功确认。

4、数据读取流程

客户端使用CRUSH算法计算对象的目标主OSD位置。

客户端直接向主OSD发送读取请求。

主OSD负责返回数据给客户端（副本通常不直接参与客户端读取，除非主OSD故障）。

5、故障处理与自愈

心跳检测：OSD之间、MON与OSD之间持续进行心跳检测。失效的OSD会被MON检测到并标记为down，更新OSD Map3。

数据重平衡：当OSD失效或新OSD加入时，MON会触发集群重平衡（Rebalancing），根据CRUSH算法将受影响的数据迁移到健康的OSD上，恢复副本数。

访问接口层

6、RADOS之上的接口层提供多种存储服务：

RADOS Gateway (RGW)：提供与S3、Swift兼容的对象存储接口。

RBD (RADOS Block Device)：提供分布式块设备服务，用于云平台虚拟机存储。

CephFS (Ceph File System)：提供符合POSIX标准的分布式文件系统服务。

通过这种设计，Ceph实现了高扩展性（无中心瓶颈）、高可靠性（自动复制与恢复）和高性能（客户端直接与OSD交互）的统一存储能力。

https://blog.51cto.com/u_16236572/9967511：
当Ceph集群中的一个副本坏掉之后，会给整个系统带来什么影响呢？首先，让我们先来了解一下Ceph是什么。
Ceph是一种分布式存储系统，能够提供高性能、高可靠性和可扩展性的存储服务。在Ceph中，数据会被分成多个副本存储在不同的节点上，以保证数据的可靠性和持久性。当一个副本坏掉时，Ceph会自动进行数据修复，即将坏掉的副本替换成正常的副本。但是，在进行数据修复的过程中，会带来一定的影响。
首先，当一个副本坏掉之后，会影响到数据的可用性。因为在数据修复完成之前，数据只有部分副本可用，如果此时正好有读写请求到达，可能会导致读写操作失败或者延迟。这会对系统的性能和用户体验产生负面影响。
其次，数据修复过程会消耗一定的系统资源，比如网络带宽、磁盘IO等。这些资源本来是用来提供正常的存储服务的，但在数据修复的过程中，会被占用一部分，导致系统的整体性能下降。尤其是在大规模集群中，数据修复的时间可能较长，会占用更多的资源，进一步影响系统的稳定性和性能。
另外，数据修复过程还会增加系统的负载，因为数据修复需要占用一部分计算资源来进行数据校验和传输工作。在整个数据修复过程中，这些额外的计算任务会增加系统的负载，可能会影响到其它正常的业务处理，导致系统整体的稳定性降低。
总的来说，当Ceph集群中的一个副本坏掉之后，会给系统带来一系列的影响，包括数据可用性下降、系统性能降低、系统负载增加等。因此，我们需要在日常管理中加强对Ceph集群的监控和维护工作，及时发现并处理副本损坏的情况，以保证整个系统的稳定和高可用性。

1、本站资源长期持续更新。
2、本资源基本为原创，部分来源其他付费资源平台或互联网收集，如有侵权请联系及时处理。
3、本站大部分文章的截图来源实验测试环境，请不要在生产环境中随意模仿，以免带来灾难性后果。

转载请保留出处: www.zh-cjh.com珠海陈坚浩博客 » ceph的一些原理

作者： cjh

手机扫一扫，手机上查看此文章：

作者： cjh

相关推荐

一切源于价值！

未雨绸缪、居安思危！ 数据安全、有备无患！ 注意操作、数据无价！ 一切源于价值！

未雨绸缪、居安思危！

数据安全、有备无患！

注意操作、数据无价！

一切源于价值！