近日,由天翼雲科技有限公司彈性計算产品线天玑实验室独立撰写的两篇论文《PheCon: Fine-Grained VM Consolidation with Nimble Resource Defragmentation in Public Cloud Platforms》及《Yggdrasil: Reducing Network I/O Tax with (CXL-Based) Distributed Shared Memory》被ACM International Conference on Parallel Processing(ICPP)收录。
ACM ICPP是计算机体系结构、并行与分布计算、存储系统领域的顶 级会议之一,也是世界上最古老的连续举办的并行计算国际会议之一。ACM ICPP收录论文均经过严格的同行双盲评审,近五年平均接收率为27.9%。此次天玑实验室两篇论文的成功收录,既是国际机构对天翼云技术创新能力的认可,也是中国企业在国际学术舞台影响力日益增强的有力证明。
本次收錄的兩篇論文分別闡述了天翼雲天玑實驗室團隊自主設計與研發的兩大創新成果,包括面向大規模雲數據中心管理的智能資源調度技術——PheCon和基于“聚合計算”産品理念的面向新一代雲計算基礎設施的網絡I/O加速技術——Yggdrasil。
PheCon:細粒度雲數據中心智能資源碎片整理算法
在雲計算场景下,由于数据中心负载水平的波动性和需求的不确定性,各个物理服务器普遍存在资源碎片问题,造成数据中心资源浪费。如图1所示,客户需要紧急开通6台指定规格的云服务器,但集群内剩余资源只能满足4台云服务器,形成典型的资源碎片现象。如何应对资源扩容中常见的周期长、成本高等挑战,满足极端场景下的客户需求,成为亟需解决的难题。
图1. 碎片整理示意图
本论文创新性提出一种新型细粒度碎片整理算法——PheCon,通过云服务器二次调度的方式聚合集群内资源碎片,以满足更大规格资源的开通需求。同时,该论文还提出了基于分治思想的NUMA感知启发式算法和“诱导迁移”(Induced Migration)技术,通过规格填充、物理服务器选择、云服务器排序和NUMA调度,实现集群布局优化。
基于上述技術特點,PheCon可適配天翼雲“2+4+31+X”的資源布局和異構數據中心的異構資源特點,做到一池一算、算無遺策,滿足全域異構資源的二次調度,實現分鍾級的快速碎片整理,提供優質的上雲體驗。目前,天玑智能調度平台穩定運行PheCon碎片整理功能,累計提供服務72次,每年節省運營成本超過千萬元,減少碳排放超百噸。
Yggdrasil:CXL使能的無感網絡I/O性能加速
在通信密集型應用程序的運行過程中,基于Linux內核的操作系統網絡通訊組件面臨巨大的運行負擔。爲有效解決上述問題,本論文提出Yggdrasil網絡通訊平替方案。
Yggdrasil是天翼云聚合计算团队预研的下一代数据中心网络通信技术。如图2所示,该技术可基于CXL共享内存实现用户态的高性能TCP/IP通信,且完全兼容现有的socket API,无需修改代码即可完成性能加速。天玑实验室团队通过模拟和真实CXL硬件进行评估的结果表明,Yggdrasil 可使Memcached的吞吐性能相比传统Linux socket高出8.2倍,并在不同消息大小的微基准测试中,将通讯延迟降低到传统方式的0.3%到4.1%。
图2. 关于Yggdrasil快速/慢速通信路径示意图
Yggdrasil的性能優勢與易用性主要得益于三個方面的設計優化:
(1)在跨主機通信中,Yggdrasil采用基于CXL的分布式共享內存(即快速通信路徑)以提升性能,在CXL不可用的情況下,自動無感切換回傳統socket(即慢速通信路徑)。
(2)Yggdrasil依托于受信任的用戶空間監控守護進程管理通訊連接控制平面操作,減少上下文切換開銷。數據平面采用對等模型進行跨物理主機的進程間通信,充分利用CXL共享內存的性能優勢。
(3)为弥补socket API和共享内存之间的语义鸿沟,采取多种技术兼顾接口兼容性和性能优势。
基于Yggdrasil的I/O网络性能优势及良好的API接口兼容性,Yggdrasil方案将在天翼云彈性計算产品线自主设计和研发的聚合计算平台进行落地,以减少网络I/O税,从而为客户提供更澎湃的算力资源,助力客户创造更多价值。
面向未來,天翼雲將繼續加強關鍵核心技術自主攻關,以領先的産品能力夯實數字基礎設施底座,爲千行百業數字化轉型保駕護航。
(推廣)