2025/12/27 7:07:43
网站建设
项目流程
微信开发流程四步,德州哪家网站优化好,网页制作网站教程,wordpress theme 免费新钛云服已累计为您分享874篇技术干货01介 绍本文是关于 Ceph 对象网关性能深入探讨#xff1a;构建安全且可扩展的对象存储 系列的第二篇。若尚未阅读第一部分#xff0c;建议从第一篇入手。前文详细介绍了测试环境#xff0c;包括硬件软件配置、网络架构及基准测试方法论…新钛云服已累计为您分享874篇技术干货01介 绍本文是关于Ceph 对象网关性能深入探讨构建安全且可扩展的对象存储系列的第二篇。若尚未阅读第一部分建议从第一篇入手。前文详细介绍了测试环境包括硬件软件配置、网络架构及基准测试方法论。在本期中我们深入研究了关键性能结果重点关注峰值吞吐量、最大 IOPS 和水平可扩展性结果。关于资源配置的注意事项所有服务RGW、Monitor、Manager、OSD 和 Ingress都部署在所有节点上。这种部署方式虽反映典型实际场景但资源共享可能引发内部资源争用。本次结果收集已考虑了该影响因素若采用服务分离的部署方式部分服务可能获得更高性能。02峰值吞吐量为了达到 Ceph 对象网关 RGW 的性能上限我们在理想条件下测试了一个 12 节点全 NVMe 288 OSD 集群采用优化纠删码配置、较大对象和高客户端并发性以充分释放平台性能。最大GET吞吐量采用 32 MiB 对象EC 22 配置启用 RGW SSL12 节点1024 客户端线程实现了 111 GiB/s 的总 GET 吞吐量。相当于单节点 9.25 GiB/s 的吞吐量已逼近 Ceph 节点硬件物理网络容量极限。瓶颈因素网络。每个节点配备通过 LACP 绑定的双 100GE 网卡但所使用的英特尔网卡每卡所有端口总带宽限制为 100Gbps12.5 GiB/s。集群级约 111 GiB/s 的结果表明在计入帧开销后我们已非常接近线速饱和状态。最大PUT吞吐量在类似测试条件下达到 65.8 GiB/s 的总 PUT 吞吐量。PUT 操作因数据复制需要额外 I/O尤其采用纠删码时会产生集群内数据倍增故吞吐量低于 GET。尽管如此每个节点仍平均交付约 5.5 GiB/s 吞吐量。若计入复制流量该结果同样接近节点网卡的有效带宽极限。CPU和内存利用率RGW 进程的 CPU 使用率始终保持在可控范围内跨 768 个 vCPU 的集群总 RGW CPU 占用率为 8-14%这证实了大对象工作负载下 RGW 与 CPU 资源均未成为瓶颈。不同纠删码配置22、42、83下的延迟表现保持稳定进一步表明测试期间的瓶颈在于网络而非计算资源。03峰值 IOPS虽然大对象测试展现了集群的原始吞吐潜力但小对象64 KiB工作负载则有助于揭示元数据与 IOPS 的扩展性边界。我们采用十二节点全 NVMe 集群和高客户端并发通过多种纠删码配置分别测试 GET 与 PUT 操作以获取该平台在处理小对象时可持续的峰值的 IOPS。最大 GET IOPS使用 64 个 KiB 对象EC 22无 SSL12 个节点1024 个客户端线程实现了 ~391K GET IOPS。这对应于 ~24.4 GiB/s 的总 GET 吞吐量和 ~2 毫秒的平均延迟。限制因素RGW 上的 CPU 使用率开始上升768 个 vCPU 的 ~9.8%但系统仍有空间。跨客户端线程的低延迟和一致的扩展表明集群可以通过额外的客户端资源/并发来推送更高的 IOPS。最大 PUT IOPS~86.6K PUT IOPS 使用相同的配置64KiB、EC 22、带 SSL 的 RGW、12 个节点、1024 个客户端线程记录。PUT 吞吐量峰值为 ~5.4 GiB/s完全并发1024 个客户端线程时的平均延迟为 ~8 毫秒。限制因素由于纠删码写入PUT 作涉及更多的后端。虽然 RGW CPU 使用率仍然适中 ~2.9%但 OSD 层和 I/O 复杂性可能会限制进一步的性能。GET 和 PUT IOPS 之间的差距反映了工作负载成本的不对称性。CPU 和内存利用率对于小型对象应用 64 KBRGW CPU 使用率显示出 GET 和 PUT 作之间的明显区别。GET 操作类型应用的每个 RGW 守护进程消耗的 CPU 要多得多从低并发时的 ~3 个内核扩展到每个 RGW 的近 10 个核心有 8 个客户端1,024 个线程。相比之下PUT 工作负载始终保持较轻即使在最大并发性下每个 RGW 的峰值也略低于三个核心。该现象源于 GET 请求的极高吞吐量。尽管单个请求处理轻量但海量请求频率导致 CPU 周期消耗激增。而 PUT 请求虽涉及更复杂的 I/O 路径但因执行频率较低约 8.7 万 IOPS且受益于写入路径优化反而 CPU 负担更轻。注意生产环境中的对象存储工作负载往往是读取密集型GET 占主导地位。此模式与常见用例一致包括分析、数据湖和音/视频交付系统。在整个测试过程中RGW 守护进程的内存消耗保持稳定没有压力或泄漏的迹象。每个 RGW 守护进程在 PUT 期间消耗 170 到 260 MiB 的内存在 GET 期间消耗 205 到 260 MiB 的内存随着并发性的增加而逐渐增加。这些结果表明CPU 可用性成为小型对象工作负载的主要性能因素尤其是在高 GET 请求速率下。随着 IOPS 扩展到数十万预置足够的 CPU 资源对于保持低延迟和高吞吐量至关重要。04EC 22 的水平可扩展性4MB 对象为了评估横向扩展 Ceph 对象网关 RGW 的影响我们使用纠删码 22 配置文件、4MB 对象大小和在 RGW 层启用的 SSL 进行了受控测试。之所以选择此特定的 EC 配置文件是因为它在 4、8 和 12 节点部署中都有效从而可以进行公平的同类比较。通过逐步增加节点和 OSD 的数量我们观察了系统在相同的客户端并发和请求大小下在吞吐量、延迟和资源消耗方面的响应情况。分析可预测的线性扩展随着集群从 4 个节点扩展到 12 个节点GET 吞吐量几乎增加了两倍从 ~39 GiB/s 增长到 ~113 GiB/s。PUT 吞吐量同样增加了 3× 以上从 ~15.5 GiB/s 上升到略高于 50 GiB/s。这种线性增益印证了 Ceph 对象网关在读写操作上水平扩展能力的有效性。延迟表现、稳定性与优化GET 操作的延迟保持稳定且随集群扩展显著改善。十二节点集群虽实现了更高吞吐量但延迟36 毫秒反而低于八节点部署52 毫秒这表明规模扩展有效降低了资源争用并提升了并行处理能力。CPU 和内存资源Ceph 分布式架构的核心优势在于其能够随集群规模扩大实现单服务资源的摊薄效应。在使用 64 MiB 对象与 1024 并发线程的测试中我们发现尽管集群吞吐量提升超三倍但单 RGW 守护进程的 CPU 与内存使用率随节点增加反而下降。通常因纠删码计算而更耗资源的 PUT 操作中单 RGW 守护进程的 CPU 使用从四节点时的约 9.2 核心降至十二节点时的仅 5.7 核心内存使用亦从约 1035 MiB 减少至约 698 MiB。GET 操作呈现相似趋势单 RGW 内存占用降低约 35%CPU 使用率始终维持低位。本测试表明扩展 Ceph 集群节点不仅能提升原始存储容量还可按比例增强吞吐量与运行效率。对于包含备份、媒体处理流水线或 AI 训练集暂存等大对象工作负载的场景这种水平扩展模式至关重要。在保持配置一致性与适度调优的前提下Ceph 对象网关RGW能够实现线性且可预测的扩展以满足持续增长的性能需求。053 副本与 EC 22对象大小对性能的影响为深入比较复制与纠删码在不同对象下的性能表现我们在四节点集群上分别采用副本数 3replica 3与 EC 22 配置对 Ceph RGW 进行测试网关层启用 SSL。虽然理想情况下应在十二节点集群进行对比但由于时间限制副本数 3 配置仅于四节点环境完成测试。我们计划在支持快速纠删码优化的 Tentacle 功能可用后使用更大规模部署重新进行基准测试。所有测试场景均采用 512 客户端线程以避免四节点小集群出现过载。测试对象大小从 64 KiB 到 256 MiB 不等以观察复制与纠删码在不同 I/O 模式下的扩展特性。下表是吞吐量与延迟相对差异对比副本数 3 vs EC 22正值表示副本数 3 配置性能更优吞吐量更高/延迟更低分析吞吐量和延迟比较对于小对象64 KiB副本数 3 配置显著优于 EC 22PUT 吞吐量高出 18%GET 吞吐量高出 37%。该现象符合预期纠删码的编解码开销会增加延迟与计算成本使副本数 3 更适用于高操作频率的小对象工作负载。随着对象增大副本数 3 的吞吐量优势逐渐收窄。在 1 MiB 和 4 MiB 对象测试中性能差异依然存在但缩小——副本数 3 的 GET 吞吐量领先 8-9%PUT 吞吐量领先 6-7%。当对象尺寸增至 64 MiB 等大尺寸时两种方案均逼近四节点集群的网络饱和点导致吞吐量趋于平稳。此时性能差异变得微不足道两种架构均无法充分发挥其优势因此 64 MiB 的测试结果对于复制效率比较的参考价值有限。延迟趋势与吞吐量表现一致。副本数 3 在所有尺寸下均保持更低的 PUT 与 GET 延迟但其相对优势随对象尺寸增大而减弱GET 延迟优势从 64 KiB 时的 33%收窄至 64 MiB 时的约 16%。06展望未来EC 性能增强预计小对象场景下的性能差距将在未来版本中收窄。Ceph Tentacle 引入的快速纠删码Fast EC技术通过优化纠删码填充机制提升小对象性能使纠删码即使在高频小对象工作负载中也成为更具吸引力的选择。07接下来在下一篇文章中我们将深入探讨不同安全配置方案——包括 TLS/SSL 传输加密、SSE-S3 服务器端加密及 msgr v2 通信协议——对 Ceph 对象网关RGW性能的影响机制并分析这些安全措施在大/小对象工作负载场景中的性能权衡。同时我们将结合真实场景基准测试结果开始解析 Ceph 对象网关与 CPU 资源的最优配比方案。如有相关问题请在文章后面给小编留言小编安排作者第一时间和您联系为您答疑解惑。推荐阅读推荐视频