首页 报纸 正文

ChatGPTのオンライン1周年に続き、最近、グーグルのマルチモーダルGeminiが突然オンラインになり、業界では「グーグル最強の反撃戦が始まった」とされている。投資機関はGeminiについて「釜揚げ」を検討している。業界関係者は、Geminiは視覚認識と推論の面で顕著に最適化され、ビジネスシーンに落下し、リアルタイムのインタラクションシーンまたは多モード人工知能モデルの応用の焦点となっていると考えている。
Gemini「ショックすぎる」
グーグルのサンダル・ピチャイCEOはこのほど、Gemini 1.0版が正式にオンラインになったと発表した。Google DeepMind製品のイーライ・コリンズ副社長は、これはGoogleがこれまでで最も強力で汎用性の高いモデルだと述べた。
Geminiは最初からマルチモーダルモデルとして作成されており、テキスト、コード、オーディオ、画像、ビデオなど、さまざまなタイプの情報を集約し、スムーズに理解、操作、および組み合わせできることを意味していることがわかりました。柔軟性の面では、データセンターからモバイルデバイスまでを実行できます。
Geminiシリーズのデモ動画を見た投資家の多くは「衝撃的だった」と話した。北京郵電大学コンピュータ学院の孫海峰准教授は、「Geminiのデモ動画を見ると、マルチモーダル理解の能力が非常に驚異的で、また、Geminiが表現した推理能力は現在、ChatGPTを超えているようだ」と述べた。一方、マルチモーダル情報処理では、GeminiはOpenAIのChatGPTをはるかに上回っている。Geminiは、マルチモーダル情報入力にも対応し、マルチモーダル情報出力にも対応している。Geminiの典型的な特徴は、テキスト、画像、オーディオ、ビデオのインタリーブシーケンスを入力としてサポートすることであり、これはChatGPTまたは従来のアーキテクチャのマルチモーダルモデルでは実現が難しい。通常、ChatGPTは文字の出力のみをサポートしており、他のモダリティの出力はサードパーティ製APIを呼び出して実装する必要があります。Geminiというインタリーブシーケンスの入力方式は、ほとんどのシーンのニーズに適しています。一方、Geminiの技術報告では、MMLUデータセットテストにおける精度は90.04%に達し、人間の専門家を上回り、その推理能力の進化はマイルストーン的意義を持っている。
Geminiがオンラインになった1日後、グーグルはマルチモーダルビデオが編集・コラージュされており、Geminiは誇張宣伝の疑いがあるという疑惑が提起された。グーグルの公式も説明している:動画には確かにポストプロダクションとクリップの成分があり、Geminiのすべてのインタラクションはリアルタイムで感知されるのではなく、スタッフが画像とヒントを与えた後の効果、つまりGeminiは動画を読み取る上でさらに発展する必要がある。
リアルタイムの対話シーンまたは商用化の焦点
このニュースを受けて、国内の投資家はマルチモーダル技術とその応用について議論を展開している。
ある科学技術コースの1級投資家によると、ChatGPT-4に比べて、Geminiの認識と推理能力、そして現在見られる応答速度は大きく進歩しているという。個人的には、GeminiとOpenAIの製品にはそれぞれ長所があり、商業化の着地には適切なシーンを見つける必要があると考えている。「適切なシーンがあり、付加価値ニーズを見つけることが重要だが、GeminiはAIモデルの想像空間をさらに開いたことは確かだ」。
「多モードモデルがロボットの上で動作すると、具身知能が実現する可能性があり、また、多モードモデルとグーグルの眼鏡が結合すると、超スマートボディにアップグレードすることが大胆に想像できる」と別の投資家は述べた。
ある技術者によると、人間には5つの感覚があり、私たちが作った世界、消費されたメディアは、このように表現されているという。マルチモーダルモデルは、Geminiが人間と同じ方法で周囲の世界を理解し、文字であれ、コードであれ、オーディオであれ、画像であれ、ビデオであれ、あらゆるタイプの入力と出力を吸収できることを意味します。その中で最も重要な技術は、これらのモデルをすべて混合し、任意の数の入力と感覚からできるだけ多くのデータを収集し、同じように多様な応答を提供する方法です。
「Geminiはもっと人に似ていて、もっと人の視覚認識といくつかの推理判断に近くて、OpenAIのChatGPTはもっと大きな知識ベースのようで、それは人に情報の参考を提供することができます。両者は誰が誰を超えるのかではなく、方向を重視するのは明らかに違う」とある投資家は述べた。
孫海峰氏によると、Geminiの具体的な実現構造がどのようなものなのかはまだよく分からないが、このような多様なモダリティ情報が入力方式のモードとして交錯することができ、多くのシーン、特にリアルタイムのインタラクションシーンに非常に必要であるという。
別の科学技術投資家は、Geminiの発表は、グーグルのGemini視覚推理の能力が際立っていることを意味し、検索エンジンに基づくさまざまな資料を大量の訓練データとして持っているためだと考えている。また、大規模な工場のデータ、流量、資金、計算力、および応用シーンにおける優位性は明らかである。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

不正经的工程师 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    43