AI大模型浪潮下的GPU互连革命:UALink与ALS引领技术新纪元
在LLM热潮中,大模的我们不仅要关注GPU本身,型浪还要关注互连技术。潮下随着AI参数量成倍地增加,互连甚至“上不封顶”地扩展,革命如果想要服务器扛住这样的领技“巨浪”,就要编织更多的术新网,形成非常强大的纪元算力网络;如果想要释放GPU集群的全部潜力,每个节点间的大模的通信都要顺畅无阻,犹如铺设一条条“高速公路”。型浪
从UEC到UALink,潮下取代现有技术
GPU领域,互连比较典型的革命两个互连技术是InfiniBand和NVLink/NLSwitch技术,前者用于服务器间连接,领技可以形成大型AI算力网络,术新后者可以将GPU和GPU互连,至多让576个GPU实现每秒1.8TB的通信。
毋庸置疑,两种私有协议的性能都很强劲,但它们都非常封闭,在一定程度上制约了技术的持续演进与效能优化潜力。目前,行业更为通用的做法是通过成立联盟,制定公开的协议标准。众人拾柴火焰高,参与的玩家越多,互连技术进化得就越快,协议标准也就越趋于统一。
去年7月,AMD、Arista、博通、思科、EVIDEN等公司联合成立超以太网联盟(Ultra Ethernet Consortium,简称UEC),随后增强型以太网开始取代InfiniBand技术,迅速成为GPU新的加速节点。一些公司也因此获得了丰厚的利润,例如Arista公司的AI集群互连销售额显著增长。
就在10月28日,AMD、AWS、谷歌和思科等九家巨头宣布正式成立UALink联盟(Ultra Accelerator Link Consortium,简称UALink联盟),主推AI服务器Scale UP互连协议——UALink。这一协议一经推出便广受关注。UALink是新一代AI/ML集群性能的高速加速器互连技术,拥有低延迟和高带宽的特点,具备高性能内存语义访问的原生支持,可以完美适配GPU等AI加速器的编程模型,在一个超节点内实现一点规模的AI计算节点互连。除此之外,UALink的优势还包括显存共享,支持Switch组网模式,以及超高带宽和超低时延能力等。
区别于专注在Scale Out(横向/水平扩展)的UEC,UALink协议已经成为最具潜力的AI服务器Scale UP(纵向/垂直扩展)互连开放标准,正在迅速构建起一个AI服务器Scale UP互连技术的超级开放生态。
10月28日官网公布的UALink联盟9家创始成员单位
UALink如何在中国市场落地
作为一个互连系统开发标准,UALink在落地过程中需要覆盖多个产业环节,因此成员涵盖了芯片制造商、交换机提供商、服务器提供商等整个产业链的关键角色。然而,由于AI大模型产业在国内具备本土特色,因此UALink如何在中国市顺利场落地,面临着巨大的挑战。
为了打造一个原生支持AI场景的Scale UP开放生态系统,阿里云在今年9月倡议并牵头成立了ALS(ALink System,加速器互连系统)开放生态系统,依托于ODCC(开放数据中心委员会),解决Scale UP互连系统的行业发展规范问题。目前已有20多家AI芯片、互连芯片、服务器整机硬件和IP设计厂商加入,成员单位已就相关协议标准制定和实行路径选择展开交流。
目前,ALS已形成从协议到芯片、从硬件设备到软件平台的系统体系,主要包括ALS-D数据面和ALS-M管控面两个组成部分:ALS-D数据面互连采用UALink协议,具备UALink的一切优势,还增加定义了在网计算等特性;ALS-M可为不同芯片方案提供标准化接入方案,同时为云计算等集群管理场景,提供单租、多租等灵活和弹性的配置能力。
ALink System架构示意图
正因为全面兼容国际标准UALink生态,ALS可以与行业伙伴开放共建超高性能、超大规模的Scale UP集群互连能力,一级互连64~80个节点,二级互连可达千级节点,提供PB级共享显存和TB级互连带宽。
在今年9月底的云栖大会上,阿里云展示了其面向下一代超大规模AI集群的磐久AI Infra 2.0服务器,开放性地定义了AI计算节点和Scale UP/Scale Out互连系统,可以在统一硬件架构下支持业界主流AI方案,引领AI领域的“一云多芯”。
2024云栖大会阿里云磐久AI Infra 2.0服务器展示区
磐久AI Infra 2.0服务器的有六大亮点:一是计算节点业界密度最高,单机柜支持最大80个AI计算节点;二是计算节点集成阿里自研CIPU 3.0芯片,既能帮助实现Scale Out网络扩展,又能兼顾云网络弹性、安全的要求;三是供电效率高,在业界率先采用400V PSU,单体供电效率可达98%,整体供电效率提高2%;四是节能,机柜级液冷方案可根据实际负载动态调整CDU冷却能力来降低能耗,单柜冷却系统节能30%;五是方便运维,全新的CableCartridge后维护设计,支持全盲插,零理线易运维、零误操作,维护效率提升50%;六是可靠性高,支持弹性节点、智能路由、高可靠供电、分布式CDU等技术,可实时监控、探测各种硬件故障并自愈,硬件故障域也缩减到节点级。
除了积极拥抱UALink和牵头成立ALink System产业生态,阿里云也在积极推动UALink技术生态影响力的建设,在刚刚过去的2024开放计算全球峰会人工智能特别关注议程(Special Focus Tracks)上,阿里云服务器研发资深总监文芳志受邀和UALink联盟主席Kurtis Bowman联合发表了题为'UALink: Pioneering the AI Accelerator Revolution'的演讲,重点阐述了AI服务器Scale UP互连技术领域的发展趋势,UALink标准的路线图,UALink联盟和ALink System产业生态未来的合作潜力,以及阿里云磐久AI Infra 2.0服务器的落地实践思路。
阿里云服务器研发资深总监文芳志和UALink联盟主席Kurtis Bowman联合演讲
对AI来说,Scale UP非常重要
都是增强现有系统能力,处理更大规模能力,为什么要分成Scale-up(向上/垂直扩展)和Scale-out(横向/水平扩展)两张网?
两张网络的目标不同,Scale Out是在计算集群内部,利用外置网卡技术,通过横向扩展机柜的数目,实现到数万甚至数十万张卡的互连;Scale UP是超节点内部,采用GPU直出技术,通过十倍于Scale Out的吞吐能力,达成数十、数百的GPU高效协同。
这两张网,将业务逻辑紧密耦合在一起。可以说,两张网对于AI,尤其是AIGC或LLM都相当重要。AI基础设施的计算效能要求很高,为了最大化达成端到端MFU,需要Scale UP和Scale Out都进行最大程度的优化。由于需要解决的互连问题各不相同,尤其是10倍左右的流程差异,Scale UP需要采用不同于Scale Out的协议设计来将性能发挥到极致。
在这种极致协议的实现落地过程中,需要众多厂商和生态共同参与,一个开放的生态能够最大程度地复用已有技术和解决方案,将整个系统的性能、成本、稳定性做到最佳。但不难预见,无论是UALink,还是ALS,将发挥出协同开放的优势。
值得关注的是,UALink的重要技术基底是Infinity Fabric 协议,Infinity Fabric是一种成熟的高速互连技术,它由AMD开发,在自家的CPU、GPU产品中都有所使用,目前已经迭代到第四代,从最初的CPU间互连已经可以实现GPU间互连。在Infinity Fabric技术的加持下,UALink推进的速度也会很快。
(责任编辑:知识)
-
啊? 卸载崩坏3从现在做起!由果然是琪亚娜发表在崩坏3 788不是哥们,你认真的?礼包都冲了,你还整这个?不是哥们,你认真的?礼包都冲了,你还整这个? ...[详细]
-
太阳报:穆里尼奥鼓励阿莫林执教曼联,后者希望先带葡体踢完曼城
10月31日讯据《太阳报》报道,穆里尼奥鼓励阿莫林接手曼联帅位。穆里尼奥长期作为阿莫林的导师角色,阿莫林曾在2018年在穆里尼奥的足球教练课程中实习。两人一直保持着密切的联系,因此当阿莫林了解到曼联对 ...[详细] -
《Creepy Creepy Love》登陆Steam 约会模拟混战
BYYONI Entertainment制作并发行,一款打着约会模拟器实则痛击情敌的动作新游《Creepy Creepy Love》登陆Steam正式推出,本作暂不支持中文,限时25%优惠,感兴趣的玩 ...[详细] -
近日《战争之人2》官方宣布,本月将推出离线模式。开发人员已在进行最后的测试,以确保一切按计划进行。当2024年10月更新到来时,《战争之人2》玩家不仅可以在没有网络的情况下进行战斗,还将获得更多不错的 ...[详细]
-
长发美女脚踩光头女主!玩家自制顽皮狗新作《星际:异端先知》爽图
顽皮狗新作《星际:异端先知》的女主角乔丹备受争议,很多玩家表示她的形象非常辣眼,甚至看不出性别。此前有网友通过P图,将乔丹爆改了一番,粗犷的光头女同摇身一变,成为甜美白嫩的网红美女。光秃秃的头上也长满 ...[详细] -
今年上半年,首次采用OLED屏幕的全新iPad Pro正式登场,这是苹果史上最贵的平板电脑,顶配版价格突破2万元。市场研究机构Display Supply Chain Consultants(以下简称 ...[详细]
-
像素动作肉鸽游戏《护林猿神》宣布将参加2024年秋季Steam新品节活动,并在10月22日立刻开启抢先体验,游戏支持中文。官方表示该作的内容十分丰富,拥有超多武器、超多技能以及众多特殊变身,从平衡性和 ...[详细]
-
导盲犬是专门为协助视力障碍人士安全出行而培训的工作犬,它们可以被视为视力障碍人士的“眼睛和助手”,具备协助视力障碍人士躲避障碍、找到目的地、过马路、找座位、安全上下楼梯等能力。导盲犬的选拔非常严格,真 ...[详细]
-
2024十大艰难行业出炉:游戏行业位列第八 全年裁员人数近2万
12月26日消息,近日,有媒体通过测算评选出了年度十大艰难行业。在这份排名表中,民营房地产行业以艰难度难以描述位列第一,焦炭行业以艰难度85.7%排名第二,普通钢铁行业以艰难度82.6%屈居第三名,动 ...[详细] -
10月31日讯 联赛杯第四轮,莱斯特城客战曼联的比赛即将打响。比赛前,蓝狐队长、出了名的“坏小子”瓦尔迪接受了播客节目《Men In Blazers》的采访,表示自己被对手球迷嘘时也会获得动力,还回忆 ...[详细]