百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
瞬间遗失梢
发表于 2024-9-26 13:34:19
1135
0
0
据沈抖观察,过去一年,已经感受到客户的模型训练需求猛增。他介绍,“2024年大模型的产业落地正在加速,目前在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。”
大模型训练需求增加,意味着所需要的算力集群规模越来越大,与此同时,对模型推理成本的持续下降的预期也越来越高。沈抖表示,这些都对GPU管理的稳定性和有效性提出了更高要求。9月25日,百度升级AI异构计算平台百舸4.0,具备了10万卡集群部署和管理能力。
沈抖介绍,GPU算力集群有三个特征——极致规模、极致高密和极致互联,建一个万卡集群,仅仅是GPU的采购成本就高达几十亿元。沈抖强调,构建算力资源,并不是简单地买来GPU,把GPU连接上就好了,而是需要很多技术,“比如,GPU芯片的型号更多样,管理更复杂;GPU需要执行大量并行计算;数据的传输量变大、对速度的要求更高”,他介绍,因此,百舸计算平台需要支持异构芯片、高速互联、高效存储。
沈抖也表示,管理10万卡的集群与管理万卡集群也有着本质不同。首先,在物理层面,部署10万卡规模的集群,要占据大概10万平方米的空间,相当于14个标准足球场的面积,其次,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。10万卡集群对于空间和能源的巨大需求,远远超过了传统机房部署方式所能承载的范畴,若考虑跨地域部署机房,就又在网络层面带来巨大挑战。此外,十万卡集群中的GPU故障将会非常频繁,有效训练时长占也将迎来新的挑战。
沈抖介绍,针对这些难题,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说。
不仅是百度,越来越多的科技巨头正面向AI大模型需求,提升自身的算力基础设施能力。9月初,马斯克宣布,旗下AI初创公司xAI 打造的超级AI训练集群Colossus已经正式上线,共搭载10万块英伟达H100 GPU加速卡,而在未来几个月将再翻倍增加10万块GPU。9月19日2024年云栖大会上,阿里云也表示,以GPU为主的AI算力将是未来计算范式的主导,阿里云正在从芯片、服务器、网络、存储到散热、供电、数据中心等方面,升级面向未来的AI基础设施。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
-
生成式人工知能(AI)が巻き起こす技術の波の中で、電力会社は意外にも資本市場の寵児になった。 今年のスタンダード500割株の上昇幅ランキングでは、Vistraなどの従来の電力会社が注目を集め、株価が2倍になってリ ...
- xifangczy
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
隔夜株式市場 世界の主要指数は金曜日に多くが下落し、最新のインフレデータが減速の兆しを示したおかげで、米株3大指数は大幅に回復し、いずれも1%超上昇した。 金曜日に発表されたデータによると、米国の11月のPC ...
- SNT
- 前天 12:48
- 支持
- 反对
- 回复
- 收藏
-
長年にわたって、昔の消金大手の捷信消金の再編がようやく地に着いた。 天津銀行の発表によると、同行は京東傘下の2社、対外貿易信託などと捷信消金再編に参加する。再編が完了すると、京東の持ち株比率は65%に達し ...
- SNT
- 前天 12:09
- 支持
- 反对
- 回复
- 收藏
-
グーグルは現地時間12月19日、新しい「推理」モデルとしてGemini 2.0 Flash Thinkingを発売すると発表した。紹介によると、このモデルはまだ実験段階であり、訓練を経た後、モデルが反応を起こした時に経験した「思 ...
- 地下水
- 3 天前
- 支持
- 反对
- 回复
- 收藏