发布日期:2024-08-05 06:41 点击次数:111
每 3 个小时 1 次、平均 1 天 8 次,Llama 3.1 405B 预锤真金不怕火老出故障欧洲杯体育,H100 是罪魁罪魁?
最近有东说念主从 Meta 发布的 92 页超长 Llama 3.1 论文中发现了华点:
Llama 3.1 在为期 54 天的预锤真金不怕火时期,经验了共 466 次任务中断。其中只好 47 次是诡计内的,419 次纯钟情外,偶而中 78% 已证实或怀疑是硬件问题导致。
而且 GPU 问题最严重,占了 58.7%。
Llama 3.1 405 模子是在一个含 16384 块 Nvidia H100 80GB GPU 集群上进行锤真金不怕火的。虽说针对大限度系统有句老话:独一详情的即是会出故障。
但这一问题依然引起不少网友关心。
减速速率,check 一下居品吧。
老出故障,咋整?
具体来看,在 419 次偶而中断中,148 次(30.1%)是由各式 GPU 故障(包括 NVLink 故障)引起的,72 次(17.2%)不错具体到是由 HBM3 内存故障引起。
鉴于 H100 的 700W 高功耗和热应力,出现这样的完毕也并不虞外。
有道理的是,54 天内只好两次是 CPU 出现了故障。
除了 GPU 外的另一半故障由广宽要素导致,比如软件 Bug、汇集电缆等等。
不外最终,Llama 3.1 团队保握了超 90% 的灵验锤真金不怕火时分。只好三起故障需要东说念主工大幅介入,其余的皆自动化处理了。
那么他们是何如应酬的?
为了加多灵验锤真金不怕火时分,Llama 3.1 团队默示减少了任务启动和 checkpointing 时分,并修复了一些器具来快速会诊和惩处问题。
其中鲁莽使用了 PyTorch 的内置 NCCL flight recorder(Ansel 等东说念主 2024 年修复),是一个不错把集体元数据和堆栈追踪记录到一个轮回缓冲区里的功能,这样就能快速会诊大限度卡顿和性能问题,绝顶是跟 NCCLX 关系的问题。
用这个器具,团队能灵验记录每次通讯事件和每个集体操作的握续时分,在 NCCLX Watchdog 或 Heartbeat 超延续还能自动导出追踪数据。
还不错凭据需要,通过在线设立改造(Tang 等东说念主 2015 年提倡的圭表)来遴荐性地启用一些经营量更大的追踪操作和元数据采集,而不需要重新发布代码或重启任务。
团队默示,在大限度锤真金不怕火中调试问题很复杂,因为汇集同期使用了 NVLink 和 RoCE。通过 NVLink 传输数据频繁是通过 CUDA 内核发出的加载 / 存储操作来完成的,要是而已 GPU 或 NVLink 联结出了问题,往往进展为 CUDA 内核里的加载 / 存储操作卡住了,却不会复返明确的演叨代码。
而 NCCLX 通过与 PyTorch 高超同一,擢升了故障检测和定位的速率和准确性,让 PyTorch 大概造访 NCCLX 的里面现象并追踪关系信息。
天然无法统统幸免 NVLink 故障导致的卡顿,但系统会监控通讯库现象,在发现卡顿时自动超时。
此外,NCCLX 还会追踪每次 NCCLX 通讯的内核和汇集行为,并在失败时提供 NCCLX 集体操作里面现象“快照”,包括统统品级之间已完成和待处理的数据传输。团队通过分析这些数据来调试 NCCLX 的推广问题。
有时,硬件问题可能导致某些部分天然看起来还在驱动,但速率变慢,这种情况很难被发现。即使只好一个部分变慢,也可能拖慢数千个其它 GPU 的速率。
为此团队修复了一些器具,不错优先处理某些可能有问题的程度组的通讯。频繁只需要侦察几个最可疑的对象,就能灵验找出那些变慢的部分。
团队还不雅察到了一个道理道理的气象 —— 环境要素对大限度锤真金不怕火性能的影响。在锤真金不怕火 Llama 3.1 405B 时,空洞量会凭据一天中时分的不同而有 1-2% 的变化。这是因为中午温度较高,影响了 GPU 动态电压和频率和谐。
在锤真金不怕火流程中,数万个 GPU 可能会同期加多或减少功耗,比如在统统 GPU 恭候 checkpointing 或集体通讯完成时,或者在通盘锤真金不怕火任务启动 / 关闭时。这种情况发生,可能导致数据中心的瞬时功耗波动达到数十兆瓦,对电网来说是个不小的考验。
团队临了还默示:
跟着未来更大的 Llama 模子推广锤真金不怕火限度,这一挑战将握续存在。
AI 集群问题正待破壁
Meta2022 岁首度共享了其 AI 磋商超等集群(RSC)的详备信息,那时领有 16000 个 NVIDIA A100 GPU,匡助其构建了第一代 AI 模子,在 Llama 初代和 Llama 2 修复中皆施展了报复作用。
△ 来自 Meta
本年三月份,Meta 又公开了 24576 个 NVIDIA H100 GPU 的 AI 集群,复旧 Llama 3 及之后模子。
总之,电商控价是一场持久战,我们要做好充分准备,积极应对。相信通过以上策略,我司鸭爪品牌定能成功逆袭,摆脱未授权低价销售的困扰。
更是定下了到本年年底加多 350000 个 NVIDIA H100 GPU 的观念,动作合座算力的一部分(合座算力近 600000 个 H100 GPU)。
这样大的限度,emmm 可不是个握续性的挑战嘛。天然,大限度 AI 集群会给模子锤真金不怕火变成故障是一个有些“旷古”的问题,很早之前就有关系磋商。
H100 自己什么含金量无需多言。
在旧年最新 MLPerf 锤真金不怕火基准测试中,英伟达 H100 集群,横扫八项测试,沿途创下新记录,况且在诳言语模子任务中进展尤为高出。
11 分钟内锤真金不怕火一遍 GPT-3,8 秒训完 BERT。在诳言语模子任务中,H100 集群的加快性能靠近线性增长。即跟着集群处理器数目加多,加快恶果也的确同比加多。
意味着在集群内 GPU 之间的通讯服从绝顶高。
除此除外,H100 还完成了保举算法、CV、医学图像识别以及语音识别等任务,是独逐一个进入 8 项测试的集群。
不外,SemiAnalysis 一个月前的一篇著述指出,构建大限度 AI 算力集群绝顶复杂,远远不仅仅有莫得钱买卡的事。
在电力、汇集假想、并行、可靠性等好多方面皆靠近局限。
参考纠合:
[1]https://ai.meta.com/research/publications/the-llama-3-herd-of-models/
[2]https://engineering.fb.com/2024/03/12/data-center-engineering/building-metas-genai-infrastructure/
[3]https://www.semianalysis.com/p/100000-h100-clusters-power-network
本文来自微信公众号:量子位(ID:QbitAI),作家:西风
告白声明:文内含有的对外跳转纠合(包括不限于超纠合、二维码、口令等体式),用于传递更多信息,从简甄选时分,完毕仅供参考欧洲杯体育,IT之家统统著述均包含本声明。
声明:新浪网独家稿件,未经授权不容转载。 -->