Borg

Large-scale cluster management at Google with Borg

an opportunity cost approach for job assignment in scalable computing cluster

Multi-agent Cluster Scheduling for Scalability and Flexibility

Linux资源管理之cgroups简介 - 美团技术团队 (meituan.com)

在各种分布式存储、批处理、流计算中都假设要占用一组独立的服务器。采购服务器后会根据峰值流量确定服务器数，高峰和低谷时资源消耗率大不相同。且对于数据中心，硬件成本只是一小部分，电力成本是大头。所以，少用点服务器就很重要了，需要“削峰填谷”。如流计算和批处理使用同一批服务器，在流计算的低谷期进行批处理，保证服务器资源的最大化利用。需要让各种大数据和业务系统混合编排在同一批服务器上。

CGroups-Linux 隔离资源解决方案

一台服务器上不同程序会竞争资源，如一台机器上流量高峰时Kafka传输流量占据整个网络带框后其他程序无法提供服务。这时需要讲服务器资源拆分开，讲一组程序隔离开，只允许使用一部分资源。这就是Linux的CGroups功能（Linux Control Group），可限制一组Linux进程使用的资源：

资源限制，如限制一组进程总共可用内存
优先级，如限制这组进程能拿到的CPU和IO吞吐量
结算，统计这组进程实际使用多少资源
控制，冻结一组进程的允许，或恢复它们的运行

系统进程被封装进一个个LXC容器，可以通过一个集群管理系统讲LXC分配到不同机器运行

Borg

一个Borg集群被称为一个Cell，部署在一个数据中心，一般约10000台机器。底层机器可能是不同版本和性能，且能够动态扩缩容，同时向上层隐藏所有资源管理细节。Borg中部署的不是一个个裸CGroup，而是一个个Tasks。用户向Borg提交一个个Job。这些Job包括长期驻留服务，也包括一次性运行批处理任务。一个Job就是一个二进制程序，被部署到一台或多台机器，每个运行的实例就是Tasks。

当遇到资源不够用时，Borg采用配额和优先级的机制。Job的优先级从高到低分为：监控（Monitoring），生产（Production），批处理（Batch），尽最大努力（Best Effort）。同一优先级根据priority参数区分。Job部署到机器上变为Task，这些Task也就继承了Job上的优先级。

生产类Tasks可抢占批处理类Tasks的资源，但生产类Tasks不可互相抢占资源。但有些批处理服务要在规定时间内完成，如每天都要使用MapReduce生产报表，可MapReduce的资源若是被生产类Task抢占则无法保证任务的按时完成。为此Borg提供了alloc的机制。alloc是一组预留的、不会被其他生产类Job抢占的资源，无论这个服务器资源是否被用到。

Borg 是典型的 Master-Slave 系统，组成部分：

用户界面
Master 集群
通过Paxos协议维护多个同步复制的副本以保障高可用。通过Checkpoint建立快照，通过日志记录所有操作。整个Master集群里再选出一个master，通过Chubby的锁确保唯一性。Master集群负责管理所有元数据和处理外部RPC请求，并和Borglets通信了解集群状态。
Scheduler 服务器
负责将Task分配给具体的服务器。一个Job提交给Master后，Master将其变为待调度的Tasks加入队列，Scheduler异步遍历队列，当有足够资源满足Job时，将Task分配到Slave服务器。
Slave 服务器
负责运行Task的服务器。每个Slave服务器上有一个Borglet进程，负责与Master通信。Blorglet还会负责启动和停止Task，若Task失败则重启。一个集群中机器数量太多，所以由Borglet主动上报任务运行信息，Master定期轮询Borglet获得Slave服务器信息

因为节点数多达1万，Borg会将所有Slave分片，让每个master副本负责一部分Borglet通信。然后副本将Borglet上报的最新信息和Master已知信息的差（Diff）交给Master里的master，以减少其负载。

万级别规模

1万台数量本身就是一个很大挑战。Master集群通过Paxos选出master，但除了master其他副本也要与Borglet通信，且不仅仅时一个同步数据的副本。真正的挑战还在于对一个个Task的调度：

Job发给Master集群时，该把Tasks调度到哪台机器？
Job声明消耗的资源和Task实际消耗资源差异很大怎么办？
不同Task竞争CPU资源，虽然CPU利用率很高，但会不会资源都用在上下文切换而非Task的运算？

“贪心”的开发者

Borg为程序分配的资源不会超过用户声明的，这样用户倾向于多申请资源，这不利于提高机器的使用率。Borg解决方式：

对资源“超卖”
如64GB内存的机器允许声明了80GB的任务在Borg运行，但不会对生产类型任务进行超卖以保证正常运行。对离线任务超卖是没问题的，当资源不足时可以将其挂起或调度到其他机器
对资源进行动态“回收”
生产类Task使用的资源也不会达到声明的规模，所以Borg不会为其始终预留这么多。在Task开始时分配其申请的所有资源，之后逐渐减少资源，之后只留下一点Buffer。Task对资源的利用是动态的，当出现大幅上涨时，Borg迅速将Task分配的资源增加到申请的的规模
限制资源（Resource Limit）开发者申请的资源
保留资源（Resource Reservation）实际Borg动态分配的资源
回收资源（Resource Reclamation）二者差值，可以利用但只分配给非生产型任务，因为随时可能动态抢回，而Borg不允许生产线Task相互抢占

对于生产类和非生产类Task，Borg都会动态挑战分配的资源

Task 分配到服务器

调度器异步从Master写入的队列中扫描Task再分配，期间会先调度优先级高的，同一优先级Borg采用轮询方式。调度过程：

可行性检查（feasible checking）寻找能满足Task资源需求的机器
通过打分选择服务器，资源不足时高优先权Task抢占正在运行的低优先级Task

打分策略有什么用？

如果采用“平均分配”会使每台机器负载差不多，导致需要整台机器资源的大型任务找不到满足要求的机器（类似操作系统中内存分配的最坏分配）。
如果尽量使运行中服务器负载尽可能高（内存分配的最优分配），就存在很多满足大型任务的空闲服务器。但此时若某个任务需要资源忽然变多，会抢占同台机器中其他非生产型Task的资源。且出现故障时会影响更多的Task。

Google最终采用混合模型打分，也就是采取尽量减少被“搁浅（stranded）”的资源数量。“搁浅”是指某任务100%占用自己声明的资源后这个机器上不能被使用的资源。打分时要考虑的不止资源：