etcd基础-526互联

etcd 是一个分布式、高可用的键值对存储数据库，通过分布式锁、leader选举和写屏障等机制提供安全可靠、高效快速的持久性数据存储和检索。

1. etcd集群

采用raft协议复制到所有节点保证各节点数据一致性
需要半数以上节点正常运行集群才可正常运行
只要有一个节点正常运行就可正常读取数据，不过是非一致性读请求，需要开启一个选项：
SDK 访问需要配置 WithSerializable 选项（默认并不开启）
etcdctl 访问需要配置 --consistency=s 选项
若有节点挂掉，重启后会自动同步集群数据，保证数据一致性
移除 leader 是安全的，但是在选举过程发生的期间有短暂的停机时间
对于apisix，即使整个etcd集群挂掉也可以正常转发请求，因为配置数据已经读取到内存里了，只是不能做新增修改操作

2. 集群配置

$ etcd --name infra0 --initial-advertise-peer-urls http://10.0.1.10:2380
--listen-peer-urls http://10.0.1.10:2380
--listen-client-urls http://10.0.1.10:2379,http://127.0.0.1:2379
--advertise-client-urls http://10.0.1.10:2379
--initial-cluster-token etcd-cluster-1
--initial-cluster infra0=http://10.0.1.10:2380,infra1=http://10.0.1.11:2380,infra2=http://10.0.1.12:2380
--initial-cluster-state new
以 --initial-cluster 开头的命令行参数将在 etcd 随后的运行中被忽略，可以在初始化启动进程之后随意的删除环境变量或者命令行标记，也就是只在节点启动的时候起作用
etcd 支持对渐进的运行时集群进行重配置，这容许用户在运行时更新集群成员（升级、添加、移除等），所有集群的改动一次一个的完成。
在etcd中，为了安全每个运行时重配置必须通过两阶段来完成，即通知集群新配置和启动新成员。

3. 配置参数

3.1 成员参数
--name 节点唯一名称，建议主机名
--data-dir 数据目录路径
--wal-dir wal目录路径
--heartbeat-interval 心跳间隔时间
--election-timeout 选举超时时间
--listen-peer-urls 与其他节点进行通信的监听地址列表
--listen-client-urls 与客户端进行通信的监听地址列表
3.2 集群参数
--initial 前缀标记用于启动或运行时重配置新成员，当重新启动一个已有的成员时被忽略
--initial-advertise-peer-urls 通知其他节点与本节点进行通信的地址列表，可以使用域名，一般是listen-peer-urls的子集
--advertise-client-urls 通知其他节点客户端接入本节点的地址列表，可以使用域名，一般是listen-client-urls的子集
--initial-cluster 初始化集群配置，应该包含所有初始节点信息
--initial-cluster-token 集群唯一标识，相同标识的节点将视为在一个集群内
--initial-cluster-state 初始集群状态，new为初始静态或DNS引导期间出现的所有成员，existing则将尝试加入已有集群
3.3 安全参数
--trusted-ca-file 客户端服务器的路径TLS可信CA证书文件
--cert-file 客户端服务器TLS证书文件的路径
--key-file 客户端服务器TLS密钥文件的路径

4.节点故障

4.1 follower故障
正常情况下，发送到follower的读请求会直接处理，而写请求则会转发给leader处理，当少于一半的follower故障时，并不会影响整个集群的正常运行，但是客户端将不能发送请求到故障节点，所以需要更新客户端连接地址列表，当连接到故障节点时，客户端一般会自动重新连接到其他节点。
对于写请求来说，如果故障时请求已经转发给leader，那请求就不会丢失，如果故障时请求还没发到该节点，则会失败然后重试到其他节点，也不会丢失，如果请求已经发送到该节点，但还没有转发给leader，则可能会丢失。
4.2 leader故障
当leader故障时， etcd集群自动选举一个新的leader，在选举期间，集群不能处理任何写请求。
在选举期间发送的写请求将排队等待处理直到新的leader被选举出来，已经发送给旧leader但是还没有提交的写请求可能会丢失。
从用户的角度，在新的 leader 选举之后某些写请求可能超时。无论如何，已提交的请求从来不会丢失。
etcd 集群自动从临时故障(例如，机器重启)中恢复，当集群的大多数成员故障时，etcd 集群故障并无法接收更多写请求，也无法自动恢复。

5. 备份恢复

5.1 集群备份
恢复集群首先需要来自etcd成员的键空间的快照，快照可以用 etcdctl snapshot save 命令从活动成员获取，或者是从数据目录复制 member/snap/db 文件。
5.2 集群恢复
为了恢复集群，需要的只是一个简单的快照 “db” 文件，使用 etcdctl snapshot restore 命令创建新的数据目录，所有成员应该使用相同的快照恢复。
然后，用新的数据目录启动 etcd，相当于创建一个新的集群，需要等所有初始化节点都启动成功后，才能正常运行。