容灾切换时间减少 99%,“云边协同”如何提升影演服务效率与稳定性

发布时间 2023-07-24 16:15:36作者: 阿里云云原生

沉寂三年后,线下演出市场正在迎来“报复性”复苏。对于一场期待已久的演唱会,验票环节是否流畅、能否快速入场,直接影响着每一位观众对整场演出服务的体验和评价,相信不少朋友都有着切身的感受。

阿里巴巴影业集团是以互联网为核心驱动的影视实业公司,拥有内容生产制作、互联网宣传发行、衍生品授权及综合开发、院线票务管理及数据服务的全产业链娱乐平台,是阿里巴巴文化娱乐集团重要的垂直业务纵队。阿里影业一直在通过技术与架构的创新,引领行业全链路向数字化和智慧化变革。

image

行业流量爆发增长的同时,影演场景也在不断得到延伸和丰富。在此背景下,为了应对演出现场服务效率、系统稳定性、高可用性压力带来的严苛考验,阿里影业基于阿里云边缘容器服务 ACK@Edge 实现了一套面向影演现场服务场景的云边端一体混合云架构, 通过对海量异构设备接入的支持,以及高可用、高稳定性、可扩展等性能提升,来满足未来高时延敏感实操消息上下行和业务快速发展需求。值得一提的是,这是演出行业首例实现云边端一体、云端服务与边缘集群云原生协同的落地实践,并于 2023 年 6 月获得中国信通院“可信边缘最佳实践案例”。

人流大、环境复杂,影演现场服务挑战催生云边协同诉求

阿里影业线下演出场景的服务人群主要分为三类,消费者、主办方以及监管方。对于监管方要满足安全、稳定的要求;对于消费者要保证核验准确、进场快速;对于主办方,除了以上几点,还需要尽量降低成本。

服务系统管理平台作为阿里影业的核心业务系统,在不同演出场地的基础网络设施参差不齐的条件下,结合现场人流量呈现短时并发增长的特性,业务系统对高度敏感的网络资源需求依赖较大,导致业务健壮性无法保证。在演出现场服务规模高速发展的现状下,已经出现严重的边端业务发展瓶颈,如多边端项目规则无法协同配置,多演出现场无法统一监控管理,海量异构设备无法统一运维调度,传统云到端以及端到端架构现状无法继续满足实际边端场景需求,需要面向海量异构设备接入的高可用、高稳定性、可扩展的云边端一体的混合云架构,解决现有瓶颈与未来扩展问题:

  • 云边协同便捷: 随着云计算、边缘计算和物联网等技术的快速发展,对于协同工作的需求也在不断增长。云边协同可以充分利用这些先进技术,为用户提供更高效、便捷的协同体验。
  • 高效数据处理: 数据已成为企业和组织最重要的资产之一。伴随电影演出数据量呈现爆炸式增长,这使得对数据的存储、处理和分析需求也随之增。云边协同可以帮助用户更好地管理和利用这些数据资源,云边协同可以跨越地域和时区的限制,提高工作效率。
  • 低时延: 在电影演出现场,对数据处理和反馈的实时性要求非常高。云边协同可以通过边缘计算技术,实现数据在本地设备的快速处理,降低延迟,满足实时性需求。
  • 大幅降本: 云边协同可以在本地设备上进行部分数据处理,减少数据在网络中的传输量,从而降低网络带宽需求和通信成本,同时更合理地利用机器资源,降低硬件投入成本以及硬件运输成本。

阿里影业基于 ACK@Edge 的云边协同 IoT 架构实践

阿里影业边缘 IoT 服务系统使用云边端协同的架构,是针对现场换验业务场景的一种解决方案。整体思路主要以云控边、边自治、端智能为核心思想,以实现云边协同、多元化的方式为现场提供高可用、高性能、高扩展的现场服务。

ACK@Edge 是阿里云容器服务针对边缘计算场景推出的云边一体化协同托管方案.面向大规模边缘计算场景,ACK@Edge 拥有经中国信通院认证的“卓越级节点管理”产品能力,采用原生 Kubernetes 非侵入方式增强方式支持边缘计算场景下的应用统一生命周期管理和统一资源调度,帮助企业专注于容器化应用的开发与管理。

image

图1:阿里云边缘容器服务 ACK

在整体架构上采用云边端一体化协同托管方案,将云计算的能力下沉到边缘侧、设备侧,重点提供存储、网络、安全、监控、日志等能力;在集群管理方面,APIserver 和调度器内置了大量性能优化;在云边网络方面,通过对网络插件 Flannel 优化大幅度降低云边流量开销;此外,考虑到边缘资源的异构性、地域性以及网络的复杂性等特点,ACK@Edge 提供了异构资源管理、边缘自治、边缘单元化、边缘流量管理、轻量化、原生运维 API 支持等,以原生方式支持边缘计算场景下的应用统一生命周期管理和统一资源调度,保障边缘业务稳定性。

ACK@Edge 目前已经广泛应用于 CDN、实时音视频云服务、在线教育、交通、智慧城市、智慧工业、IoT、物流、水利、能源、农业等场景。

阿里影业的现场换验云边端协同架构使用 ACK@Edge 作为底层云原生边缘基础设施调度的托管底座,利用 ACK@Edge 提供的边缘自治、边缘管理、服务运维等能力来支撑云控边、边自治的设计原则。

image

图2:阿里影业云边协同解决方案整体架构

在实际业务场景中,现场的边缘服务器是分散在各个现场的并且是不固定的,通常需要在边缘服务器出厂时,便将边缘节点添加到 ACK&Edge 的 master 节点上,再通过云上自建设备监控平台进行业务部署、运维管控等操作。利用 ACK&Edge 的边缘自治能力保证现场节点在极端弱网、无网的情况下服务正常启动,提供现场需要的换票、验票等能力,以便现场能够保证正常地进行验票、换票等操作,此外,通过 ACK&Edge 的可观测能力,对现场服务节点进行监控、告警等以提升现场服务问题的自我发现能力和保证现场服务的可用性。

2.1 高效的边缘服务定制管理

image.png

图3:边缘服务编排

边缘容器服务 ACK@Edge 提供的功能,通过更上层次的抽象,对多个 Deployment 进行统一管理,比如创建、更新和删除等操作。提供一个模板来定义应用,将多个 Workload 部署到不同的区域,每个区域定义为一个节点池。

目前单元化部署支持两种类型的 Workload,StatefulSet 和 Deployment。控制器会根据单元化部署中节点池的配置创建子的 Workload 资源对象,每个资源对象都有一个期望的 Replicas Pod 数量。通过一个单元化部署实例就可以自动维护多个 Deployment 或者 Statefulset 资源,同时还能实现 Name、NodeSelectors 和 Replicas 等的差异化配置。

现场运维管理平台提供边缘设备服务发现、边缘服务差异化配置服务,根据现场业务动态调整 Deployment 配置,依托 ACK@Edge 实现高效的边缘服务定制、管理。

2.2  边缘自治,节点任务无缝自动切换

大型和超大型演出现场验票系统可靠性要高其他类型现场,对设备可靠性提出更高的要求,并且设备故障平均故障时间也要满足全天候验票要求,同时针对现场容灾,可自动感知和服务切换,减少现场运维人员排除故障时间。针对现场验票服务设备可靠性要达到 0.999 及其以上,并具备服务容灾能力,实现多机运行,云端一体的服务容灾。

边缘节点可以自主协商、决策和执行任务的能力;自治能力可以使边缘节点更加智能化,能够自动适应环境变化,保证系统的稳定性和可靠性。无缝自动切换是指在边缘计算中,当某个节点故障或不可用时,系统可以自动将任务转移到其他节点上,实现无缝的任务切换和容错能力。通过边缘自治和无缝自动切换的技术,边缘计算可以更加灵活、高效地进行任务调度和资源利用,同时也能够提高系统的可靠性和容错性。

设备端连接边缘和云端提供换验能力,设备通过自动决策 SDK,判断网络状态、智能监测服务行为自动进行决策,确定连接边缘还是连接云端服务。边缘通过数据同步服务与云端进行多通道数据交互,以确保云端和边缘数据一致性。

2.3 云边协同,确保现场规则一致

云边协同将云计算和边缘计算相结合,通过协同工作,实现更加高效、灵活和可靠的计算模式。现场规则一致多开是指在边缘计算环境中,可以快速复制、部署和管理相同的应用程序和服务,以满足现场多个节点的需求。通过云边协同和现场规则一致多开的技术,可以将计算资源和应用程序更好地分布到边缘节点上,提高系统的响应速度和性能,同时也能够满足现场多样化的需求。

具体来说,云控制整体中心云与边缘云部署,主动协同边缘,推送边缘数据实时协同,云端项目与边缘项目共享现场规则,云边配置整体协同与回流,现场规则云边一体一致多开协同,云端管控高速触达边缘,做到“云控端,边回云,一致协同”。

image

图4:现场规则一致

2.4 服务安全,智能体检

服务安全边缘计算环境下,需要保护数据和服务不受攻击和滥用的技术和策略。边缘计算场景下,由于数据传输路径较长、网络拓扑结构复杂,安全风险较高,因此保障服务安全显得尤为重要。同时,智能体检是对边缘设备、网络环境和服务进行全面的安全体检和分析,及时发现和排查安全隐患,保证系统的安全性和稳定性。通过服务安全和智能体检的技术,可以提高边缘计算系统的安全性和可靠性,保障数据和服务的安全和可用性。阿里影业 IoT 云边端充分考虑服务安全和智能体检,以保障系统的安全性和可靠性。

边缘服务自动智能检测边缘服务各个系统指标,自动上传系统体检指标数据,自动化检测、修复、引导等进行现场系统告警修复,并将检测数据实时上传云端,以便对现场所有边缘服务器进行早知道、早修复、早处理。

image

图5:智能体检

ACK@Edge 助力阿里影业 IoT 云边协同、增效降本

通过将 ACK@Edge 平台作为 IoT 云边端架构整体基座,阿里影业在影演现场服务场景打通了现有云上 Paas 平台与边缘端服务配置管理能力,将云原生的能力扩展到了边缘侧, 能够满足边端的高响应、低时延、大连接的强诉求的云管边的整体协同能力。

目前,该架构已经很好的应用于现场服务中,在超过 200 场次的各类项目中验票总数近十万张,带来业务结果在诸多方面的提升:

  1. 将服务置于容器中,解决了原始资源不隔离带来的稳定性差的问题,统一设备操作系统与配置环境,降低现场 98% 的设备兼容问题,现场人员部署速度提升 45% 以上,降低活动人员成本;
  2. 利用边缘容灾完成局域集群负载均衡,无需人工监控与操纵,减少 99% 的切换时间,实现主机与备用机的平滑无感切换,大大增强现场服务容灾能力,在保证服务稳定性的同时,提升了验票环节的用户体验,1 秒完成验票,人均验票时间减少 70%;
  3. 机器资源合理利用,实现多节点一台机器,使硬件的投入和部署成本整低降低  50%。
  4. 边缘设备管理实现了边缘设备镜像发布、回滚以及升级,监控数据以及服务发现,实现远程对所有节点的统一管控,同步所有节点版本发布,减少因版本不一致或版本未更新造成的入场问题。

通过落地基于 ACK@Edge 的云边一体协同架构,阿里影业拓展了更多的演出行业场景,整体服务稳定性与高可用度得到提升,并且大幅提升主办方对阿里影业信任与消费者满意度,形成了帮助阿里影业在现场服务领域处于领先的重要支撑。

未来,阿里影业将继续秉持“内容+科技”的双轮驱动发展战略,加速上游内容布局,加长科技板块优势,不断优化运营效能,推动业务多元化发展。阿里云容器服务也将始终与客户业务同行,助力阿里影业为广大用户、市场和行业提供丰富、满意的文娱消费体验。

欢迎您通过点击阅读原文,或加入钉钉交流群(群号:21976595)了解阿里云边缘容器服务 ACK@Edge 更多产品详情。