百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
瞬间遗失梢
发表于 2024-9-26 13:34:19
1126
0
0
据沈抖观察,过去一年,已经感受到客户的模型训练需求猛增。他介绍,“2024年大模型的产业落地正在加速,目前在千帆大模型平台上,文心大模型日均调用量超过7亿次,累计帮助用户精调了3万个大模型,开发出70多万个企业级应用。”
大模型训练需求增加,意味着所需要的算力集群规模越来越大,与此同时,对模型推理成本的持续下降的预期也越来越高。沈抖表示,这些都对GPU管理的稳定性和有效性提出了更高要求。9月25日,百度升级AI异构计算平台百舸4.0,具备了10万卡集群部署和管理能力。
沈抖介绍,GPU算力集群有三个特征——极致规模、极致高密和极致互联,建一个万卡集群,仅仅是GPU的采购成本就高达几十亿元。沈抖强调,构建算力资源,并不是简单地买来GPU,把GPU连接上就好了,而是需要很多技术,“比如,GPU芯片的型号更多样,管理更复杂;GPU需要执行大量并行计算;数据的传输量变大、对速度的要求更高”,他介绍,因此,百舸计算平台需要支持异构芯片、高速互联、高效存储。
沈抖也表示,管理10万卡的集群与管理万卡集群也有着本质不同。首先,在物理层面,部署10万卡规模的集群,要占据大概10万平方米的空间,相当于14个标准足球场的面积,其次,在能耗方面,这些服务器一天就要消耗大约300万千瓦时的电力,相当于北京市东城区一天的居民用电量。10万卡集群对于空间和能源的巨大需求,远远超过了传统机房部署方式所能承载的范畴,若考虑跨地域部署机房,就又在网络层面带来巨大挑战。此外,十万卡集群中的GPU故障将会非常频繁,有效训练时长占也将迎来新的挑战。
沈抖介绍,针对这些难题,百舸4.0已经构建了十万卡级别的超大规模无拥塞HPN高性能网络、10ms级别超高精度网络监控,以及面向十万卡集群的分钟级故障恢复能力。“百舸4.0正是为部署十万卡大规模集群而设计的。今天的百舸4.0,已经具备了成熟的十万卡集群部署和管理能力,就是要突破这些新挑战,为整个产业提供持续领先的算力平台。”沈抖说。
不仅是百度,越来越多的科技巨头正面向AI大模型需求,提升自身的算力基础设施能力。9月初,马斯克宣布,旗下AI初创公司xAI 打造的超级AI训练集群Colossus已经正式上线,共搭载10万块英伟达H100 GPU加速卡,而在未来几个月将再翻倍增加10万块GPU。9月19日2024年云栖大会上,阿里云也表示,以GPU为主的AI算力将是未来计算范式的主导,阿里云正在从芯片、服务器、网络、存储到散热、供电、数据中心等方面,升级面向未来的AI基础设施。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
-
ナスダック中国の金龍指数は0.60%上昇し、人気の中概株の多くが上昇した。闘魚は14%超上昇し、小馬智行は8%超上昇し、蔚来は2%超上昇し、網易、小鵬自動車、理想自動車、ピッピッピッピッ、網易は1%超上昇した。下 ...
- 不正经的工程师
- 昨天 23:57
- 支持
- 反对
- 回复
- 收藏
-
テスラの株価は11月に累計38%超上昇し、ここ2年で最高だった。
- 内托体头
- 昨天 23:10
- 支持
- 反对
- 回复
- 收藏
-
広州で開催された2024網易雲商年度顧客大会で、網易数智副総経理、網易雲商総経理の肖鈺妍氏は「AI技術は顧客サービス、マーケティング戦略、体験管理、ビジネス意思決定などの全プロセスに応用でき、AI戦略を堅持 ...
- 什么大师特
- 昨天 22:13
- 支持
- 反对
- 回复
- 收藏
-
インタフェースジャーナリスト|楊詩涵 Stellantisグループは現地時間12月1日、ジョン・エルカン(John Elkann)氏が会長を務めるStellantisグループの取締役会が、ドン・ユシル(Carlos Tavares)氏の最高経営責任 ...
- 什么大师特
- 1 小时前
- 支持
- 反对
- 回复
- 收藏