首页 报纸 正文

OpenAIが空前の台頭を見せている中、グーグルは断固として絶地の反撃戦を始めた。
グーグルは現地時間12月6日、最大規模で最も強力な新大型言語モデルGemini、最も強力なTPU(テンソル処理ユニット)システム「Cloud TPU v 5 p」、グーグルクラウドからの人工知能スーパーコンピュータを発表した。v 5 pは今年初めに全面的に発売されたCloud TPU v 5 eの更新版で、グーグルはv 4 TPUより明らかに速いと約束した。
ちなみにMMLU(大規模マルチタスク言語理解)テストでは、Gemini Ultraが90.0%の高得点で、初めて人間の専門家を上回った。
Geminiの様々な能力
インタフェースニュースの12月7日付報道によると、Gemini 1.0はグーグルが1年以上準備してきたGPT 4の真の競合品であり、現在グーグルが手に入れることができる機能が最も強く、最も柔軟に適応している大モデルでもある。3種類の異なるキットを含み、それぞれGemini Ultra、Gemini Pro、Gemini Nanoである。
その中でUltraの能力が最も強く、複雑度が最も高く、最も困難なマルチモーダルタスクを処理することができる、Proの能力はやや弱く、マルチタスクに拡張できるモデルである。Nanoは携帯電話の端側で動作するモデルです。これは、Geminiのタッチ範囲が広く、データセンターに降りたり、モバイルデバイスの端側に上がったりすることができることを示しています。
Geminiモデルは大量のデータ訓練を経て、テキスト、画像、オーディオなどの内容をよく識別し理解し、複雑なテーマに関する質問に答えることができる。だから、数学や物理などの複雑な学科の推理任務を説明するのが得意だ。
GeminiはPython、Java、C++やGoなどの主流コードを生成し理解することができる。Gemini Ultraは、コーディングタスクのパフォーマンスを評価する重要な業界標準であるHumanEvalを含む複数のコーディングベンチマークテストで優れています。
グーグルはまた、Geminiモデルに基づいて専門的なコードモデルAlphaCode 2を開発した。AlphaCode 2の性能は、前世代に比べて少なくとも50%以上向上しています。
Geminiのマルチモーダル機能は、視覚的理解、テキスト生成などに非常に強力な機能を持たせる。例えば、数十万字の小説から重要な観点を整理し、200ページの金融報告書の中から最も価値のある内容を見つける。これは金融、科学技術、医療の科学研究と業務員にとって大きな助けになる。
発表されたデモビデオの中で、サンダルピチャイはビデオ、画像に対するGeminiの非並外れた識別能力を示した。動画の中で、Geminiは画像、音声、動画の各モード間の変換を極めて自在に行い、驚くべきロック解除応用シーンと製品形態の潜在力を示した。
Googleプレゼンテーションビデオ

グーグルがリリースしたデモ動画の結果だけを見ると、市販されているすべてのマルチモーダル大モデルとGeminiの性能表現には世代間差があり、Metaが5月にオープンした6つのモードにまたがるAIモデルImageBindとGPT-4が含まれている。
Google

1年前、人工知能開発機構OpenAIがチャットロボットChatGPTを発表した後、現在の人工知能ブームの背後にあるほとんどの基礎技術を創造したグーグルは、一時内部の「レッドアラート」(red code)を発表した。1年1週間後、グーグルは反撃の準備ができているようだ。
澎湃たるニュースによると、グーグルのDeepMind最高経営責任者でGeminiチーム代表のデミス・ハサビス(Demis Hassabis)氏は発表会でGPT-4とGeminiの対比について正面から言及した。「私たちはシステムを非常に徹底的に分析し、ベンチマークテストを行いました。グーグルはこの2つのモデルを比較するために32の完全なベンチマークテストを実行し、広範な全体テスト(マルチタスク言語理解ベンチマークテストなど)から2つのモデルを比較してPythonコードを生成する能力までを比較しました」とカザフビーズは少し微笑んだ。「32のベンチマークのうち30の項目で大幅にリードしていると思います」
リリース日からGeminiはBardとPixel 8 Proスマートフォンへの応用を開始し、Chrome、検索、広告など、グーグルサービスの他の製品とすぐに統合することができる。
現在、グーグルは自社のアプリケーションで使用できるように、グーグルクラウドを通じてGeminiを顧客にライセンスする計画だ。12月13日から、開発者と企業の顧客は、Google AI StudioまたはGoogle Cloud Vertex AIにおけるGemini API(アプリケーションプログラミングインターフェース)を介してGemini Proにアクセスでき、アンドロイド開発者はGemini Nanoを使用して構築を完了することができる。
紹介によると、Gemini UltraはMMLU(大規模マルチタスク言語理解)の面で人類の専門家を超えた最初のモデルで、このモデルは数学、物理、歴史、法律、医学と倫理学など57科目を総合的に使用して世界の知識と問題解決能力をテストし、グーグルはあるブログ記事で、複雑なテーマの中の微妙な違いと推理を理解できると述べた。
CNBCによると、グーグルの幹部らは記者会見でGemini ProのパフォーマンスがGPT-3.5より優れていると述べたが、GPT-4と比べてどのような問題かは回避した。グーグルがBard Advancedへのアクセス料金を計画しているかどうかについて、Bardの蕭茜社長(Sissie Hsiao)は、グーグルは良い体験を創造することに専念しており、今のところ利益に関する詳細は何もないと述べた。
グーグルの最強TPUとAIスーパーコンピュータ
新モデルとともに登場したのは、新バージョンのTPUチップTPU v 5 pで、大言語モデルを訓練するための時間投入を減らすことを目的としている。TPUはグーグルがニューラルネットワークのために設計した専用チップで、最適化を経て機械学習モデルの訓練と推定速度を速めることができ、グーグルは2016年から初代TPUを発売し始めた。
グーグルによると、TPU v 4に比べ、TPU v 5 pの浮動小数点演算性能は2倍に向上し、高帯域幅メモリでは3倍に向上した。Googleの600 GB/sチップ間相互接続を使用すると、8960個のv 5 p加速器を1つのPod(通常は複数のチップを含むクラスタまたはモジュールを指す)に結合することができ、モデルをより迅速または高精度にトレーニングすることができます。参考までに、この値はTPU v 5 eより35倍大きく、TPU v 4の2倍以上である。
グーグルによると、TPU v 5 pはこれまでで最も強力で、459 teraFLOPS(毎秒459兆回の浮動小数点演算を実行可能)のbfloat 16(16ビット浮動小数点数フォーマット)性能や918 teraOPS(毎秒918兆回の整数演算を実行可能)のInt 8(8ビット整数を実行)性能を提供でき、95 GBの高帯域幅メモリをサポートし、2.76 TB/sの速度でデータを転送できる。
グーグルによると、これらのすべてはTPU v 5 pがTPU v 4よりも高速に大規模言語モデルを訓練できることを意味し、例えばGPT-3(1750億パラメータ)を訓練するような大言語モデルはTPU v 4より2.8倍速い。
グーグルは新しいハードウェアに加え、「人工知能スーパーコンピュータ」という概念を導入した。グーグルクラウドは、オープンソフトウェア、パフォーマンス最適化ハードウェア、機械学習フレームワーク、柔軟な消費モデルを備えた統合システムを含むスーパーコンピューティングアーキテクチャとして記述しています。
グーグルの計算・機械学習インフラ部門のマーク・ローマイヤー副社長(Mark Lohmeyer)はブログ記事で、「従来の方法では、要求の厳しい人工知能のワークロードを微細なコンポーネントレベルの強化によって解決することが多く、非効率性とボトルネックにつながる可能性があります。」「対照的に、人工知能スーパーコンピュータはシステムレベルの共同設計を採用して、人工知能のトレーニング、調整、サービスの効率と生産性を向上させています。」これは、各部を個別に見るよりも生産性と効率が向上すると理解できます。言い換えれば、スーパーコンピュータはシステムであり、パフォーマンスの低下を引き起こす可能性のある変数(ハードウェアまたはソフトウェア)はすべて制御され、最適化されています。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

zhl123 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    0