当前位置:开云(中国)Kaiyun·官方网站 > 新闻动态 >
发布日期:2024-11-27 05:25 点击次数:93
智算中心是这一轮科技编削的算力"腹黑",更是海外科技博弈的恒久焦点。智算中心斥地决策,一直牵动着国东说念主的神经。
近期,OXC 光交换工夫在智算场景的行使,走进了各人视线,这个工夫过头处理决策,撑得起智算中心网罗吗?
深切工夫本体、落地执行、产业程度来看,只怕王人要说一句," OXC 工夫在智算场景其实莫得未来"。
工夫上看,OXC 光交换工夫在智算场景中会面对光电协同、不提拔 AI 任务多对多传输等工夫挑战,很难有用处理。
执行上看,刻下业界仅谷歌一家商用 MEMS-OXC 斥地,而谷歌 TPU 集群用 OXC 的中枢盘算是处理 Torus 拓扑的可费用问题,但网罗可费用的短板其实是在接入端口,OXC 不处理网罗可费用问题,是以实践上跟自动配线架莫得本体辞别。
产业上看,谷歌商用 OXC 全球仅此一家,把柄 LightCounting 瞻望,到 2029 年 OXC 的全球市集空间约为 5 亿好意思元,其中大部分是谷歌,产业界限仅为电交换的二至极之一。
详细上述维度,不贫瘠出论断,OXC 工夫在智算场景中仅仅配线架,无法果真界限化落地,也撑持不了超万卡集群智算中心网罗。
接下来我们就从工夫的起原到产业的尽头,全面怒放智算场景 MEMS-OXC 的面纱。
省略来说,OXC 光交换工夫即是在不同的光旅途之间进行光信号交换。工夫旅途包括 MEMS、DLC、和 DLBS。其中,MEMS 工夫是现在最主流的决策,MEMS-OXC 斥地亦然现在惟一被谷歌这一家所商用的。
但在超万卡集群的智算中心网罗中,MEMS-OXC 发达的作用其实即是配线架。
我们先来望望,智算中心组网是如何结束的。ODCC(开放数据中心委员会)发布的《AI 数据中心网罗建网》知道提到,AI 参数面网罗有两层 Spine — Leaf,以及三层 CLOS 架构组网,而在 AI 集群组网执行中,通过三层组网达到十万卡以上的组网界限。
现在,Meta、OpenAI、微软等 AI 巨头,王人是通过从两层向三层推广的组网模式,去构建超大界限集群的,也即是在 Leaf 层、Spine 层除外加多 Core 层。其中,两层组网使用的是电交换机。比如现在业界惟一的 OXC 商用执行——谷歌也采纳的是光电混杂架构。
不错看到,智算中心网罗如若采纳两层组网,不需要 OXC;如若是三层组网,MEMS -OXC 斥地在 Core 层主要发达的作用是纯真配线,与自动配线架莫得本体辞别。
引入 MEMS-OXC,不仅无法给网罗带来增益,还可能制造出颠倒的问题:
领先,光电协同问题。
如若在第三层引入 OXC 光交换机,但数据中心网罗底层用的依然电交换机,这就需要光电之间的协同、通讯、相助,对通盘数据中心网罗的冲击是比拟大的。
举个例子,OXC 工夫有纯暴露换的特征,但关于整网来说,光交换机已而连通、已而断开,这就需要通盘接入层和 Spine 层,王人要随之进行战略颐养。
试念念一下,智算场景下的大模子锤真金不怕火大多采纳并行锤真金不怕火,业务流随时变化,如若数据中心网罗随处随时在进行秒级颐养,那锤真金不怕火的可靠性就很难保证了。任何一个大模子研发团队,只怕王人无法采纳锤真金不怕火的高频中断。
其次,OXC 与 AI 业务的适配问题。
OXC 光交换工夫是不提拔多对多通讯的,只可进行纯物理的转发。而在智算场景中,AI 任务是有许多算法和算子的,不同算法的通讯模式王人不太相同,可能需要一双多、多对一、多对多等多种转发款式。这些算法的高效通讯,OXC 工夫就很难知足,导致有关智算业务无法开展。
第三大问题,即是 OXC 的耗能问题。
OXC 光交换机的插损很大,也即是信号在光折射的经由中产生了衰减。那么为了弥补 OXC 的插损,就不得不采纳更大功率或更长距离的光模块,这又会导致能耗飞腾。此外,插损问题,还会导致光模块速度无法演进。
由于上述问题的存在,智算中心辩论插损、功耗等多方面进行考量,算一笔详细账,就会发现 MEMS-OXC 斥地还不如自动配线架。
MEMS-OXC 不如自动配线架的另一个枢纽身分,即是商用出路。
我们知说念,一项新工夫王人必须在营业市辘集完成闭环,大概通过使用往复收投资,才略劝诱基础枢纽的进一步插足,变成良性轮回。而 OXC 工夫的产业化,良性营业闭环是很难的。
最重要的制约,是老本。
OXC 工夫的落地需要光交换机的多半使用,何况整个的有关器件如光模块王人需要进行升级,这会导致前期投资雄伟,详细老本高。
ODCC(开放数据中心委员会)在《AI 网罗光交换机工夫知道》中提倡,探讨到网罗系统和 OCS(光交换机)本人的挑战,从端口数目需求、切换时间需求、低老本、高可靠性、拓扑易于不断等维度分析,光交换机还需要优化联想以裁汰插损和回波损耗,以及探索与电交换机组网决策来裁汰老本等。
而上述投资,王人需要从产业用户身上完成营业答复。但如前所说,受限于光交换工夫本人的瓶颈,许多 AI 任务及场景是短期内难以落地的,这就导致 OXC 的营业不坚信性强。
这么详细探讨下来,就导致业界落地 OXC 的门径显着恬逸,基本处于不雅望情景。
工夫不是生涯在真空之中的,是寄生在东说念主才、资金、产业、实体经济等多重身分的现实中。
中国智算产业仍处于追逐阶段,资源、东说念主才等王人相对不及,既要把抓发展出路与机遇,也要面对当下生涯、营业的现实挑战,以致有的还要处理历史留传问题。
这种情况下,如若国内智算产业将正经的资源,插足并不适合用来组网的 OXC 身上,可能会导致一系列四百四病。
比如产业资源的漫步,智算中心斥地抖擞,而在组网界限、插损、功耗、老本等方面王人莫得上风的 OXC 斥地,意味着低效投资,裁汰科技企业的抗风险才略。
MEMS-OXC 斥地在智算集群中的落地箝制并不显赫,处理不了网罗可费用问题,引入 OXC 会影响到 AI 算力的传输与供给,进而进攻 AI 锤真金不怕火、AI 推理等业务的韧性开展。
更需要警惕的是,对 OXC 蹊径的炒作,可能导致国内智算错过对其他工夫蹊径的探索,由此带来的契机老本,是无法臆测的。
是以,只可行为自动配线架的 OXC,并不适合成为智算中心组网的采取,在智算场景莫得未来。脚下,中国智算产业信得过该作念的,是把自身在熟悉交换工夫、现存正经资源、产业智能化机遇等方面的中枢上风,进一步发达好。
开云体育(中国)官方网站
Powered by 开云(中国)Kaiyun·官方网站 @2013-2022 RSS地图 HTML地图