首页 报纸 正文

大きなモデルのパラメータ規模がますます大きくなるにつれて、計算力に対する需要は指数的な増加傾向を示している。9月25日に開催された2024百度雲智大会で、百度グループ執行副総裁、百度スマートクラウド事業群総裁の沈震氏は、大モデル分野の有名な法則Scaling Law(スケール法則)は続いていると述べた。この法則は、モデルの性能はパラメータ、計算力、データセットの規模が増加するにつれて向上し、「すぐに、10万カード計算力クラスターがさらに発生する」と指摘した。
沈震の観察によると、この1年間、顧客のモデル訓練の需要が急増していることを感じている。彼は、「2024年の大モデルの産業着地は加速しており、現在、千帆大モデルプラットフォームでは、文心大モデルの1日平均使用量は7億回を超え、累計3万個の大モデルを精調し、70万以上の企業レベルの応用を開始するのを支援している」と紹介した。
大モデル訓練の需要が増加していることは、必要な計算力クラスターの規模がますます大きくなることを意味し、同時に、モデル推論コストの持続的な低下に対する期待も高まっている。沈振氏によると、これらはすべてGPU管理の安定性と有効性に対してより高い要求を提出した。9月25日、百度はAI異種コンピューティングプラットフォーム百舸4.0をアップグレードし、10万カードクラスタの配置と管理能力を備えた。
沈振氏によると、GPU計算力クラスターには3つの特徴がある。極致規模、極致高密、極致相互接続、1つの万カードクラスターを構築し、GPUの購入コストだけで数十億元に達する。沈振氏は、計算力資源を構築するには、簡単にGPUを買ってきて、GPUを接続すればいいのではなく、多くの技術が必要だと強調した。GPUは大量の並列計算を実行する必要がある、データの転送量が大きくなり、速度に対する要求が高くなる」と紹介した。そのため、100ビルトインコンピューティングプラットフォームは異種チップ、高速相互接続、高効率ストレージをサポートする必要がある。
沈振氏も、10万カードを管理するクラスターと万カードクラスターを管理するにも本質が異なると述べた。まず、物理面では、10万カード規模のクラスターを配置し、約10万平方メートルの空間を占め、14の標準サッカー場の面積に相当し、次に、エネルギー消費の面では、これらのサーバーは1日に約300万キロワット時の電力を消費し、北京市東城区の1日の住民電力量に相当する。10万カードクラスタの空間とエネルギーに対する巨大な需要は、伝統的な機械室の配置方式が積載できる範疇をはるかに超えており、地域を越えて機械室を配置することを考慮すると、またネットワーク面で大きな挑戦をもたらしている。また、10万カードクラスタにおけるGPU障害は非常に頻繁に発生し、有効なトレーニング時間の長さの占有も新たな挑戦を迎えるだろう。
沈振氏によると、これらの難題に対して、百舸4.0はすでに10万カードレベルの超大規模無輻輳HPN高性能ネットワーク、10 msレベルの超高精度ネットワーク監視、および10万カードクラスタ向けの分レベル障害回復能力を構築している。「百舸4.0はまさに10万カードの大規模クラスターを配備するために設計されたものです。今日の百舸4.0は、すでに成熟した10万カードクラスターの配備と管理能力を備えており、これらの新たな挑戦を突破し、産業全体に持続的にリードするコンピューティングプラットフォームを提供することです」と沈震氏は言う。
百度だけでなく、ますます多くの科学技術大手がAI大モデルの需要に正面から向き合い、自身の計算力インフラ能力を向上させている。マースク氏は9月初め、傘下のAIベンチャー企業xAIが作成したスーパーAI訓練クラスターColossusが正式にオンライン化されたと発表した。合わせて10万枚の雄大なH 100 GPU加速カードを搭載しているが、今後数カ月でさらに10万枚のGPUを倍増させる。9月19日の2024年雲栖大会で、阿里雲氏も、GPUを主とするAI計算力は未来の計算パラダイムの主導であり、阿里雲はチップ、サーバー、ネットワーク、ストレージから放熱、電力供給、データセンターなどの面から、未来に向けたAIインフラをアップグレードしていると述べた。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

bent112 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    0