大规模集群的注意事项

发布时间 2023-10-23 20:29:54作者: 百稳开源

简介

一提到大规模这三个字,就联想到数据中心机房中一排排的物理服务器,在早期还是购买物理机找托管机房的年代,很多时间都在机房中维护服务器,那声音吵得耳朵疼,现在的运维工程师幸福多了。

注意事项

  1. 集群峰值
    k8s1.28版本单个集群支持5000个工作节点,每个节点Pod数量不超过110,pod总数不超过15万,容器总数不超过30万。
  2. etcd的重要性
    控制面组件的主要工作是对工作节点进行监测,让POD始终运行在期望的状态。控制面组件并不真正处理负载。但是控制面组件由于需要近乎实时的数据处理,对硬件性能要求也是非常高的,尤其是CPU和网络。在控制面组件中,APISERVER、controller-manager、scheduler这三个组件是无状态的,所有的数据都是存储在etcd组件中的。因此etcd服务的稳定性和高可用是非常重要的。
  3. 逐步发展
    线上服务理论是不允许存在业务单点的,因为软硬件都可能会偶发故障,业务单点就意味着随时都有可能出现业务不可用的状态。但是实际情况是对于初创企业来说,在资金缺乏的情况下,一下子购买多台服务器开销也是不小。更实际的方法是依靠可靠的云服务商,在一台云服务器上跑master,一台服务器跑node也可以。真到需要上千台服务器的业务量了,估计也不差钱了。