Ceph性能测试总结

测试目的：

通过对ceph集群块接口常见性能指标进行简单测试，达到以下几个目的：

了解当前集群配置方案对硬件性能的利用情况；
验证集群性能计算公式的正确性；
识别集群性能瓶颈点；
为后续性能优化提供部分参考；

测试指标：

块接口IOPS，带宽，时延

硬盘性能一般使用以下几个指标对其性能进行描述：

IOPS：每秒读/写次数，单位为次（计数）。存储设备的底层驱动类型决定了不同的 IOPS。

带宽：每秒的读写数据量，单位为MB/s。

时延：IO操作的发送时间到接收确认所经过的时间，单位为秒。

ceph提供的3种接口：块，文件和对象接口都是基于rados层进行的包装，通过测试块接口能够将集群的整体性能充分挖掘出来。

测试原则：

理论上网络带宽是可以远大于磁盘带宽的，但目前OSD节点磁盘密度过高，所需带宽无法满足，这种条件下网络带宽会成为瓶颈，导致集群最大带宽没有参考价值；
所有的测试结果都建立在同一个条件下：网络带宽未被osd占满，所有磁盘带宽被osd几乎全部占满(100%使用率)；
本次测试是针对ceph有bcache时的性能情况；
测试结果数据统计方法：多个客户端同时并发时，统计读写带宽和IOPS时计算所有客户端求和结果，读写时延取平均值；
查看节点上磁盘带宽使用命令iostat -dmx 3，查看节点上网络带宽使用命令sar -n DEV 3

环境信息：

名称	说明	数量/单位
mon节点	mon + mds + mgr + rgw	3
osd节点	Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz 128GB memory 16 * 2.4TB SAS 4 * 480GB SSD 2个10GE网卡组成一个bond口(public network 和 cluster network共用) Bonding Mode: IEEE 802.3ad Dynamic link aggregation Transmit Hash Policy: layer3+4 (1)	5
OS	CentOS Linux release 7.5.1804 kernel: 4.17.6-1.el7.elrepo.x86_64
bcache	ssd与sas按照1比4进行聚合 cache_mode: writeback
ceph	luminous v12.2.7 + blustore + 3副本
fio	3.1

集群性能计算公式：

首先需要测试出OSD所使用单盘的各项性能指标，然后按照下面公式推算集群总体性能

每块SAS磁盘作为一个OSD，有一块SSD磁盘专门跑RocksDB。数据会被直接写入到data分区(裸盘）中，而对象元数据会被写到RocksDB和RocksDB的WAL中，也就是单OSD的写放大系数就变成1；
假设OSD个数为N；
假设副本数是M，数据直到写入M个OSD之后才响应，因此对于多副本存储池，写放大系数是M；
因为ceph软件会损耗CPU资源，也会损耗一些性能，损耗系数定为0.7；
假设单块SSD的4K随机读IOPS是R，4K随机写IOPS是W，1M顺序写带宽是B。
在不考虑网络瓶颈和CPU瓶颈的情况下，ceph存储池的性能估算公式是：

4K随机读IOPS = R*N *0.7
4K随机写IOPS = W*N *0.7/(M)
1M顺序写带宽 = B*N *0.7/(M)

测试方法及脚本

创建60个测试卷

for i in {1..60};do rbd create fio_test$i --size 10G; done

对卷进行填充，由于ceph使用了cow机制，如果不填充后面在写数据的时候需要进行空间分配，会影响性能结果

for i in {1..60}; do fio -ioengine=rbd -pool=rbd -rbdname=fio_test$i -clientname=admin -direct=1 -iodepth 256 -thread -rw=write -bs=1m -size=10G -numjobs=1  -runtime=300 -name=mytest; done

准备一个脚本用于在screen内执行一条命令 myscreen.sh
格式：myscreen.sh <screen_name>

#!/bin/bash
set -x
screen_name=$1
cmd=$2
screen -dmS $screen_name
screen -x -S $screen_name -p 0 -X stuff "$cmd"
screen -x -S $screen_name -p 0 -X stuff $'\n'

通过myscreen.sh同时执行多条fio命令
示例：同时开启5个fio client，跑4k随机写，卷名字以fio_test开头加客户端序号

for i in {1..5}; do ./myscreen.sh s$i "fio -ioengine=rbd -pool=rbd -rbdname=fio_test$i -clientname=admin -direct=1 -iodepth 256 -thread -rw=randwrite -bs=4k -size=10G -numjobs=1  -runtime=300 -name=mytest"; done

性能测试结果

单盘性能

测试项	IOPS		BW(MB/s)		AVG_LAT(ms)
测试项	4K随机读	4K随机写	64K/1M顺序读	64K/1M顺序写	4K随机读	4K随机写
SSD盘+xfs	67.9k	22.2k	495	409	0.118	0.091
SAS裸盘	1129	749	256	246	4.1	1.3
bcache聚合设备裸盘	72.6k	56.2k	256	243	0.071	0.067

集群性能

测试项	IOPS		BW(MB/s)		AVG_LAT(ms)
测试项	4K随机读	4K随机写	64K/1M顺序读	64K/1M顺序写	4K随机读	4K随机写
集群总性能	116k	88k	4500	1800	0.965	2.541

小结

集群1M顺序读带宽测试：
1M顺序读带宽按照公式应该为 240MB/s * 80 * 0.7 = 13440MB/s
实际测试结果为 4500MB/s，大约为总性能的33%

原因分析：
9个clients同时并发大块读时osd节点资源占用情况如下：
磁盘%util大约40%，
osd节点占用网卡带宽大约900MB/s，通过iperf工具测试bond口带宽为1GB/s，
此时带宽为性能瓶颈，读性能接近网卡带宽的总和900MB/s * 5 = 4500MB/s，符合实际测试结果值。

集群1M顺序写带宽测试：
1M顺序写带宽按照公式应该为 240MB/s * 80 * 0.7 / 3 = 4500MB/s
实际测试结果为 1800MB/s，大约为总性能的40%

原因分析：
3个clients同时并发大块写时osd节点资源占用情况如下：
磁盘%util大约40%，
osd节点占用网卡带宽大约900MB/s，通过iperf工具测试bond口带宽为1GB/s，
此时带宽为性能瓶颈，写性能接近网卡带宽的总和900MB/s * 5 / 3 = 1500MB/s，和实际测试结果值相差不大。

集群4K随机写IOPS测试：
4K随机写IOPS按照公式应该为： 56.2k * 4 * 5 * 0.7 / 3 = 262k

注：4K随机写数据基本能够全部落盘到SSD cache中，
且当cache写满后存在回刷的性能损耗，因此集群4K随机写IOPS的理论计算公式是按照SSD盘的数量20来计算得到

实际测试结果为88k，大约为总性能的33%

原因分析：
8台服务器，每个上面5个clients，同时并发测试4k随机写时osd节点资源占用情况如下：
磁盘%util大约60%
单个client IOPS：2200，集群总IOPS为 2200 * 5 * 8≈88k
fio跑时单节点cpu最大IOPS大约为10k，此时cpu成为瓶颈，如果要将集群IOPS跑满还需要增加client来提高压力

集群4k随机读IOPS测试：
4K随机写IOPS按照公式应该为： 72.6k * 4 * 5 * 0.7 = 1016.4k
实际测试结果为116k，大约为总性能的11%

原因分析：
和4k随机写性能结果类似，cpu为性能瓶颈

综上，当前环境部署方案能够满足常见的性能指标，文件和对象接口由于只部署了1个进程或主备部署，无法将所有磁盘性能发挥到最大，因此对于mds和rgw要考虑在多主的场景下做性能测试，目前社区版本的多mds及多rgw还不够稳定需要持续进行优化；
后续如果业务要求带宽不满足可以通过增加osd节点网络带宽来提升性能；
如果业务要求IOPS不满足可以通过增加节点或提高节点上cpu性能来提升性能；