基于 ACK Fluid 的混合云优化数据访问（一）：场景与架构-526互联

作者：车漾（必嘫）

本系列文章将介绍如何基于 ACK Fluid 支持和优化混合云的数据访问场景。

概述

在 AI 和大数据时代，算力即正义，强大的算力推动了源源不断的创新。然而，企业自建的算力集群存在资源容量和弹性能力相对有限的问题，在业务低谷时可能会面临高昂的资源闲置成本，而在业务高峰时则可能会面临资源紧张的挑战。特别是在 AI 和大数据时代，越来越多的企业正在寻求将公共云作为算力的有效补充。

考虑到某些企业对于数据主权的特殊要求，他们需要将数据存放在私有云中，但同时也希望能够享受公共云的弹性、可靠性和成本优势。在这种情况下，混合云的使用变得愈发普遍。混合云可将阿里云的云服务与企业自建数据中心相融合，阿里云上的计算资源通过专线访问数据，并由 ACK One 统一进行管理。这种混合云解决方案不仅帮助客户节省成本，还提供了更高的性能和更强的安全保障。但是跨云的计算访问数据场景会带来共性的问题：

云上通用计算和线下异构存储的适配复杂： 适配公共云通用弹性计算访问线下异构存储需要一定的开发和集成工作，时间周期较长。生产环境的维护和问题排查成本也会有所增加。
数据访问性能影响工程效率： 跨云数据访问慢影响数据分析和 AI 训练的效率。
冗余数据访问开销： 对于热点数据的反复读取会带来不必要流量费用。
数据源的传输和复制 / 同步： 如何复制 / 同步线下和公有云的数据，保证数据的一致性?

下面我们介绍一下 ACK Fluid [ 1] 支持混合云数据访问常见的应用场景，这些场景以 Kubernetes 下读数据为主 ， 特点是接入简单，无侵入，性能好，低成本，自动化：

应用场景 1：

接入第三方分布式存储，连接弹性计算实例和云下存储

许多企业的数据都是存在线下，并且使用的存储类型多样，包括各种开源存储（Ceph，lustrure，JuiceFS，CubeFS）和自建存储。在使用公共云计算资源的时候，也存在挑战：

数据迁云安全性和成本评估时间长： 对于数据迁移到云存储上，需要安全和存储团队的长时间评估，这会延缓整个上云过程。
数据访问无法适配： 比如公共云对于弹性计算实例（ECI）支持的分布式存储类型有限（比如 NAS，OSS，CPFS），但是对于第三方存储缺乏支持。
接入云平台周期长和难度高： 需要开发和维护云原生兼容的 CSI 插件，一方面需要相关的专家和开发适配工程量，同时要维护版本的升级，同时支持的场景有限。比如自建 CSI 无法适配弹性计算实例（ECI）。
缺乏可信透明的数据接入方式： 如何在 Serverless 容器的黑盒系统访问数据过程中规避泄露，如何确保数据在传输、访问过程中安全，透明，可靠。
避免业务修改的需求： 如何确保业务用户不感知基础设施层面的差异，避免对现有应用本身进行任何修改。

ACK Fluid 通过提供 ThinRuntime 扩展机制 [ 2] 支持将基于 FUSE 实现第三方存储客户端以容器化的方式接入 Kubernetes 中，可以支持阿里云上标准 Kubernetes，边缘 Kubernetes，Serverless Kubernetes 多种形态。

1. 开发简单
基于 ThinRuntime 方案，只需要会用 docker 即可，一般开发工作 2-3 小时左右，从而显著降低了接入第三方存储的工作成本。

2. 安全可控
以容器化的方式支持自定义方式实现数据访问。整个数据访问过程云平台无侵入，无需提供实现细节。

3. 使用方便只需要在 PVC（持久卷申请）中添加特定 label 即可，满足了业务用户无需感知基础设施层面的差异的需求，能将存储适配时间缩短为原计划的十分之一。

4. 开源标准基于开源 Fluid 标准对于 ThinRuntime 提供了完整的支持，只要满足开源要求就可以适配 ACK Fluid。整个开发测试可以在 MiniKube 环境完成。

5. 可观测可控制第三方存储客户端只需要实现自身的容器化，就可以转化为 Fluid 管理的 Pod，无缝接入 Kubernetes 体系，并获得可观测性和计算资源可控制性。

总结： ACK Fluid 为云上计算访问云下数据提供了扩展性好，安全可控，低适配成本和与云平台实现无关的好处，应用案例参见小米 [ 3] 。

应用场景 2：

加速第三方存储卷声明，降低资源成本

在满足场景 1 下，即便云上计算能够以 Kubernetes 的标准化协议 PV 存储卷访问企业的线下存储，也无法避免在性能，成本上的挑战和需求：

数据访问带宽有限和高延时： 云上计算访问云下存储带来的数据访问延时和带宽有限，导致高性能计算耗时长，计算资源利用率低
数据冗余读取，网络费用昂贵： 深度学习模型的超参调优、自动调参深度学习任务等运行期间会不断重复访问同一数据。但是由于 Kubernetes 原生调度器无法感知数据缓存状态，导致应用调度的结果不佳，缓存无法重用，导致数据重复拉取引入更多外网和专线费用。
线下分布式存储是数据并发访问的瓶颈，而且面临着性能和稳定性方面的挑战： 当大规模算力并发访问线下存储且深度学习训练的 IO 压力增大，线下分布式存储很容易成为性能瓶颈。这会对计算任务造成影响，甚至会导致整个计算集群失效。
受网络稳定性影响严重： 一旦公共云和数据中心之间网络不够稳定，会导致数据同步出错，应用处于不可用的状态。
数据安全需求： 元数据和数据需要保护，不允许够持久化到云盘上。

ACK Fluid 提供了基于 JindoRuntime 的 PV 存储卷通用加速能力 [ 4] ，可以支持满足 PVC 的第三方存储简单，快速，安全的获得通过分布式缓存实现数据访问加速能力，可以带来如下好处：

1. 使用简单
只需要实现 CSI 协议中 PVC 的第三方存储即可以立即使用，无需额外开发。

2. 高性能，提效率
通过数据预热、弹性带宽和缓存亲和感知调度，实现云上计算集群访问云下数据性能无损失

3. 降成本，省流量
通过分布式缓存将热点数据持久到云上，减少数据读取，降低网络流量；同时吞吐可以弹性伸缩，按照业务削峰填谷。

4. 自动化
以数据为中心的自动化运维，提高运维效率：包括自动缓存预热、自动化扩缩容和清理，实现高效管理。

5. 更安全
分布式内存缓存提高安全性：无需数据落盘，适用于敏感用户，提供卓越性能和安全保障。

总结： ACK Fluid 为云上计算访问第三方存储 PVC 提供了开箱即用，高性能，低成本，自动化和无数据落盘的收益，应用案例参见 360。