go 进阶训练营微服务可用性（下）笔记 -526互联

降级：

减少工作量，丢弃不重要的请求。

确定具体采用哪个指标作为流量评估和优雅降级的决定性指标：
如 CPU、延迟、队列长度、线程数量、错误等

当服务进入降级时，需要执行什么动作？

流量抛弃或者优雅降级应该在服务的哪一层实现？是否需要在整个服务的每一层都实现，还是可以选择某个高层面的关键节点来实现？

优雅降级不应该被经常出发，通常触发条件是容量规划的失误，或者是意外的负载

内部参与的项目，聚合多个部门的接口进行展示，配置了降级逻辑，设计的足够简单，因为平常是不怎么使用的，如果特别复杂等到需要使用的时候操作比较复杂。

应该足够简单 -- 演练

重试：

当请求返回错误，对于backend部分节点过载的情况下，倾向于立刻重试，但是需要留意重试带来的流量放大

限制重试次数和基于重试分布的策略(重试比率：10%)
随机化、指数型递增的重试周期：exponential ackoff+jtter
client 测记录重试次数直方图，传递到server，进行分布判断，交由server判定拒绝
只应该在失败的这层进行重试，当重试仍然失败，全局预定错误码，过载，无须重试，避免级联重试

503 逐层放行，往上抛