首页 报纸 正文

現地時間の水曜日の盤後、英偉達は2級市場全体の最後の2季報を発表する予定で、世界の投資家は非常に緊張している。前日(現地時間8月27日)、米国の人工知能プロセッサチップであるユニコーンCerebras Systemsは、独自のチップコンピューティングシステムに基づいて、世界で最も速いと言われているAI推論サービスを発表した。これは、HT 100 GPUを使用して構築されたシステムよりも10~20倍速いと主張している。
現在、英偉達GPUはAI訓練と推理の両面で市場主導的な地位を占めている。Cerebrasは2019年に初のAIチップを発売して以来、AIチップとコンピューティングシステムの販売に専念し、AIトレーニング分野での壮大な挑戦に取り組んできた。
米科学技術メディアのThe Informationによると、OpenAIの今年の収益はAIミステリーサービスのおかげで34億ドルに達する見込みだという。AIが推理するケーキがこんなに大きい以上、Cerebras共同創業者兼最高経営責任者のアンドリュー・フェルドマン氏は、CerebrasもAI市場で一席を占めるべきだと述べた。
Cerebrasは今回のAI推論サービスをリリースしてAIチップと計算システムをオープンさせただけでなく、使用量の第2の収入曲線に基づいて、さらに英偉達への全面的な攻撃を開始した。「彼らを怒らせるだけの十分な市場シェアをエイダから奪った」とフェルドマンは言った。
早くて安い
CerebrasのAI推論サービスは速度とコストの面で顕著な優位性を示している。フェルドマン氏によると、CerebrasのAI推論速度は、マイクロソフトAzure、アマゾンAWSなどのクラウドサービス事業者が実行するAI推論サービスの20倍である。
フェルドマン氏は発表会の現場でCerebrasとアマゾンAWSのAI推理サービスを同時にスタートさせた。Cerebrasは瞬時に推理作業を完了して出力することができ、処理速度は毎秒1832 tokensに達したが、AWSは出力を完了するのに数秒かかり、処理速度は毎秒93 tokensにすぎなかった。
フェルドマン氏によると、より速い推論速度は、リアルタイムの対話型音声回答を実現することができたり、複数ラウンドの結果、より多くの外部ソース、より長い文書を呼び出すことで、より正確でより関連する回答を得ることができ、AI推論に質の飛躍をもたらすことを意味しているという。
Cerebrasには、速度の優位性のほかにも大きなコストの優位性があります。フェルドマン氏によると、CerebrasのAI推論サービス性価格比はAWSなどの100倍だという。Metaを実行するLlama 3.1 70 Bオープンソースの大規模言語モデルを例にとると、このサービスの価格はtokenあたり60セントで、一般的なクラウドサービスプロバイダが提供する同じサービスのトークンあたりの価格は2.90ドルです。
現在の最大GPU面積の56倍
CerebrasのAI推論サービスが速くて安い理由は、WSE-3チップの設計にある。Cerebrasが今年3月に発売した第3世代プロセッサチップで、12インチ半導体ウェハの表面全体にほぼ匹敵する大きさ、あるいは1冊の本よりも大きく、単体面積は約462.25平方センチメートルに達している。現在の最大GPU面積の56倍です。
WSE-3チップは、インターフェース接続を介してアクセスする必要がある独立した高帯域幅メモリ(HBM)を採用していない。代わりに、メモリをチップに直接内蔵します。
チップサイズのおかげで、WSE-3のオンチップメモリ(On-chip memory)は44 Gに達し、H 100の900倍近く、H 100の7000倍のメモリ帯域幅を持っている。
フェルドマン氏によると、メモリ帯域幅は言語モデルの推論性能を制限する根本的な要素だという。Cerebrasは論理とメモリを1つの巨大チップに統合し、巨大なオンチップメモリと極めて高いメモリ帯域幅を持ち、データを迅速に処理し、推論結果を生成することができる。「GPUでは不可能な速度です」
速度とコストの優位性のほか、WSE-3チップはAI訓練と推理の両面であり、さまざまなAIタスクを処理する際に卓越した性能を持っている。
計画によると、Cerebrasは複数の場所にAI推論データセンターを構築し、要求回数に応じて推論能力を課金する。また、CerebrasはWSE-3ベースのCS-3コンピューティングシステムをクラウドサービスプロバイダに販売しようとする。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

就放荡不羁就h 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    32