Groqが“最速”AI推論チップを推すことは、GPUに比べて10倍速いと言われている

最后悔没杀人 · 发表于 2024-2-23 18:19:08

英偉達が支配するAIチップ市場では、長い間ニュースがなかったが、龍年の春節が過ぎたばかりで、Groqというベンチャー企業が前者から「最速」AI推理チップの称号を奪った。
GroqはLPU（言語処理ユニット）の推論性能がGPU（グラフィックスプロセッサ）の10倍であり、コストはその10分の1にすぎないと主張している。また、Groqは自己研究の推理チップLPUにより、大型モデルの生成速度を毎秒500 token（テキスト中の最小単位）に近づけ、GPT-3.5の毎秒40 tokenを圧搾する。
これはソーシャルメディアで広く議論されている。2月19日、Groqはユーザーに製品体験の入り口を開放し、「快」はGroqを介して推理を加速するオープンソースの大モデルが人に与える最も直感的な感覚である。あるユーザーがこの会社のウェブサイトにログインし、1秒間に278個のトークンが稲妻のような速さで答えを出した質問を打ち込んだ！これに対して、「瞬きよりも速く回復している」と評価する人もいる。
しかし、GroqのLPUは推論速度が速いが、この速さはコストも高く、汎用のGPUよりもコストが高い。また、LPUには専用のものもあり、現在はMixtral 8×7 B-32 K、Llama 2-70 B-4 Kオープンソースモデルを2つしか走れない。GroqのLPUが将来どのようなモデルを走ることができるかについて、「中国経営報」の記者は同社側に連絡して取材したが、投稿までに回答は得られなかった。
電子革新網の張国斌CEOは記者団に対し、「どの人工知能アルゴリズムでも英偉達のH 100を使用することができるが、MixtralとLlama 2だけがGroqのLPUを使用することができる。LPUはASIC（専用チップ）であり、特定のモデルしか適用できず、汎用性が低く、しかも性価格比は高くなく、人工知能分野のチップ会社の開発方向を誤解しないように、高調する価値はない」と述べた。
「快」で世界を震撼させる
「史上最速の大モデル」という見方があるが、Groq氏は「我々は大型言語モデルではない。我々のLPU推論エンジンは新しいエンドツーエンド処理ユニットシステムであり、計算集約型アプリケーションに最も速い推論能力を提供し、これらは人工知能言語アプリケーションなどのシーケンスコンポーネントを持つべきである」と明らかにした。
Groqは、グーグルの初代テンソル処理ユニット（TPU）の創造者の一人であるジョナサン・ロス（Jonathan Ross）によって2016年に設立されたことが分かった。チップ設計はソフトウェア定義ネットワーク（SDN）からインスピレーションを受けるべきだと考えている。
ロス氏によると、Groqの存在は「貧富の格差」を解消し、AIコミュニティの人々の繁栄を支援するためだという。また、速度は開発者のアイデアをビジネスソリューションに変換し、生活を変えるアプリケーションに変える鍵になるため、この目標を達成するためには推理が重要だと述べました。
2021年、Groqは有名な投資機関タイガー・ユニバーサル・マネジメント・ファンド、D 1 Capitalが出資した3億ドルを獲得し、総融資額は3億6700万ドルに達した。
2023年の高性能コンピューティング会議SC 23では、Groqは毎秒280トークンを超える速度でリプライを生成し、Llama-270 B推論の性能記録を更新した。2024年1月、Groqは初めて公開ベンチマークテストに参加し、AnyscaleのLLMPerfランキングで際立った成績を収め、他のGPUベースのクラウドサービスプロバイダをはるかに上回った。
2月13日、GroqはArtificialAnalysis.aiの最新のLLMベンチマークテストで再び勝利し、遅延とスループットなどの重要な性能指標で8人の参加者を負かし、その処理スループットは他の推理サービスの4倍に達し、同時に料金はMistral自身の1/3にも満たなかった。
Groqイノベーションの核心はそのLPUにあり、ChatGPTなどの言語モデルを含むAIモデルをかつてない速度で加速させることを目的としている。Groq公式サイトによると、LPUは言語処理ユニットを表し、シーケンスコンポーネントを持つ計算集約型アプリケーション（大言語モデルLLMなど）に最速の推理サービスを提供する新しいエンドツーエンド処理ユニットシステムだという。
なぜLPUはLLMやジェネレーションAIに使用される場合、GPUよりもはるかに速いのでしょうか。Groq公式サイトによると、LPUはLLMの2つのボトルネックを克服することを目的としている：計算密度とメモリ帯域幅。LLMにとって、LPUの計算能力はGPUとCPUより大きく、各単語を計算するのに要する時間を削減した後、テキストシーケンスをより迅速に生成することができる。また、外部メモリのボトルネックを解消することで、LPU推論エンジンは、LLM上でGPUよりも数桁高いパフォーマンスを提供することができます。
速い代償は少し高い
注目すべきは、高帯域幅メモリ（HBM）を利用するGPUとは異なり、GroqのLPUはSRAMでデータ記憶を行う。しかし、この設計は革新的なブレークスルーではなく、百度崑崙芯と英国のGraphCoreも同様の内部ストレージ方式を使用しているという。
また、Groq LPUは新しいテンソルストリームプロセッサアーキテクチャに基づいており、そのメモリユニットはベクトルとマトリクス深さ学習機能ユニットと交錯しており、機械学習ワークロード固有の並列性を利用して推理を加速する。
演算処理と同時に、各TSPはネットワーク交換の機能を持ち、ネットワークを通じて他のTSPと直接情報を交換することができ、外部のネットワークデバイスに頼る必要がなく、この設計はシステムの並列処理能力と効率を高めた。
Groqは、PyTorch、TensorFlow、ONNXなど、モデル推論用のさまざまな機械学習開発フレームワークをサポートすることができますが、LPU推論エンジンを使用したML訓練はサポートされていません。
Groqチップのユニークな点については、Groqと密接な関係にある投資家k _ zeroS氏がXプラットフォームアカウントに投稿したところによると、LPUの動作方式はGPUと異なり、タイミング命令セットコンピュータ（Temporal Instruction Set Computer）アーキテクチャを使用しており、GPUが使用するSIMD（単指令、マルチデータ）とは異なる。この設計により、チップがGPUのように頻繁にHBMメモリからデータを再ロードする必要がなくなる。
GroqチップはSRAMを使用しており、GPUに使用されているメモリよりも約20倍高速です。これはHB不足の問題を回避し、コストを削減するのにも役立ち、現在のHBMの供給はサムスンとハイニックスに依存するほか、パッケージにも台積電のCoWoS技術に依存している。
より多くの情報によると、Groqのチップは14 nmプロセスを採用し、230 MB SRAMを搭載してメモリ帯域幅を保証し、オンチップメモリ帯域幅は80 TB/sに達する。演算力では、このチップの整数（8ビット）演算速度は750 TOPs、浮動小数点（16ビット）演算速度は188 TFLOPsである。
ショックを受けた後、多くの業界の大物はGroqの速さの代償が少し高いことを発見した。
元フェイスブックAI科学者でアリ元技術副総裁の賈揚清氏は、Groq LPUのメモリ容量は非常に小さい（230 MB）と分析した。単純計算によると、700億パラメータモデルを実行するには、8枚の雄大なH 100を使用するのに相当する305枚のGroqカードが必要となる。現在の価格を見ると、同等のスループットでは、Groq LPUのハードウェアコストはH 100の約40倍、エネルギー消費コストは約10倍になることを意味しています。
チップ専門家の姚金鑫（J叔）氏は記者の取材に対し、同等の計算力から見ると、すべてINT 8で推理すると、Groqを採用する方案は72枚を含む9台のサーバークラスターが必要で、H 100であれば、同等の計算力に達するには2台の8カードサーバーが必要で、この時のINT 8の計算力は64 Pに達し、同時に配置できる7 B大モデルの数は80以上に達したと述べた。コストの観点から見ると、9台のGroqサーバのコストも、2台のH 100をはるかに上回るサーバである。
第三者サイトでは、Groqチップを搭載した加速カードの販売価格は2万ドル以上、15万元以下、H 100の2.5万〜3万ドルを下回っている。まとめてみると、Groqのアーキテクチャは小メモリ、大計算力に構築されているため、限られた処理された内容は極めて高い計算力に対応しており、その速度は非常に速い。しかし逆に、Groqの極めて高い速度は限られたシングルカードのスループット能力に構築されており、H 100と同じスループットを保証するには、より多くのカードが必要になる。
LPUはやや専用
なお、現在GroqはMixtral 8×7 B-32 K、Llama 2-70 B-4 K、Mistral 7 B-8 Kの3つのオープンソース大モデルのみをサポートしており、最初の2つはすでにオープンに使用されており、そのコンパイラ上での動作に適している。
これについて、張国斌氏は「どの人工知能アルゴリズムでも英偉達のH 100を使用することができるが、MixtralとLlama 2だけがGroqのLPUを使用することができる。大手モデル会社がGroqの製品を使用するには、需要と仕様を特定してから機能検証を行い、最後に生産された製品を使用する必要がある」と述べた。
張国斌氏は、GroqのLPUは大モデルのための専用チップであるため、速度が速く、正常であると指摘した。「スピードが出て、効率が高くなって、電気代も節約できて、お得です。将来の市場の見通しはあるはずです。例えば、大きなモデルをサポートするスマートボディ、携帯端末などです」と彼は言った。
しかし、張国斌氏はLPUというものをよく見ていないと述べ、その限界が大きすぎるため、特定のモデルでしか使用できないと述べた。「これからはもっと大きなモデルをサポートする可能性がありますが、汎用型のものはありません。今は精度が足りないというテストを見ています」と、張国斌氏は比喩を使って精度が足りないと説明した。交通が複雑な都市では、LPUはすべての人が朝出勤する方向を集め、ソフトウェアで信号を決め、路上のすべての信号を消し、同じ方向の車がこの道でただ前に出るようにした。
「これはASICチップであり、特定のモデルしか適用できず、汎用性が低く、しかも性価格比は高くなく、人工知能分野のチップ会社の開発方向を誤解しないように、高調して宣伝する価値がない」と張国斌氏は述べた。人工知能は千行百業に深く入り込むには、いつもシーンごとにASICを作ることはできない。やはり汎用GPUがいい。実は複数のシーンで使用できる人工知能プロセッサが必要だ。
Groqのビジネスモデルは、シングルカード/チップを販売しない大型システム向けであり、企業向けにも展開されています。チップからシステムまでの技術スタック全体を所有し、中間業者がいないため、単位トークンの価格優位性を生み出すことができます。2023年末のインタビューで、ロス氏はGPUの不足と高いコストを考慮し、Groqの将来の発展潜在力を信じていると述べた。「12ヶ月以内に10万個のLPUを配備することができ、24ヶ月以内に100万個のLPUを配備することができる」。
汎用VS専用、どっちがいい？もっと弾丸を飛ばさなければならないだろう。しかし、米国時間2月22日の終値は、最新の財報が予想を上回ったことに刺激され、英偉達株価は785.38ドルと16.4%上昇し、時価総額は1日2733億ドル（約2兆元）となり、米株史上最大の1日の時価総額増加幅を記録した。
英偉達が一夜にして成長した市場価値は、NetflixやAdobe全体の市場価値を増加させたか、モルガン・チェースの半分かゴールドマン・サックスの2つの市場価値に近い。英偉達の時価総額は過去最高を更新し、2兆ドルに迫り、マイクロソフト、アップルに次いで世界で3番目に高い時価総額となった。

		自动登录	找回密码
密码			立即注册

Groqが“最速”AI推論チップを推すことは、GPUに比べて10倍速いと言われている

相关帖子

浏览过的版块