グーグルの「反撃戦」、投資家が話題のマルチモーダルモデルの商業化を開始
不正经的工程师
发表于 2023-12-11 11:13:43
214
0
0
ChatGPTのオンライン1周年に続き、最近、グーグルのマルチモーダルGeminiが突然オンラインになり、業界では「グーグル最強の反撃戦が始まった」とされている。投資機関はGeminiについて「釜揚げ」を検討している。業界関係者は、Geminiは視覚認識と推論の面で顕著に最適化され、ビジネスシーンに落下し、リアルタイムのインタラクションシーンまたは多モード人工知能モデルの応用の焦点となっていると考えている。
Gemini「ショックすぎる」
グーグルのサンダル・ピチャイCEOはこのほど、Gemini 1.0版が正式にオンラインになったと発表した。Google DeepMind製品のイーライ・コリンズ副社長は、これはGoogleがこれまでで最も強力で汎用性の高いモデルだと述べた。
Geminiは最初からマルチモーダルモデルとして作成されており、テキスト、コード、オーディオ、画像、ビデオなど、さまざまなタイプの情報を集約し、スムーズに理解、操作、および組み合わせできることを意味していることがわかりました。柔軟性の面では、データセンターからモバイルデバイスまでを実行できます。
Geminiシリーズのデモ動画を見た投資家の多くは「衝撃的だった」と話した。北京郵電大学コンピュータ学院の孫海峰准教授は、「Geminiのデモ動画を見ると、マルチモーダル理解の能力が非常に驚異的で、また、Geminiが表現した推理能力は現在、ChatGPTを超えているようだ」と述べた。一方、マルチモーダル情報処理では、GeminiはOpenAIのChatGPTをはるかに上回っている。Geminiは、マルチモーダル情報入力にも対応し、マルチモーダル情報出力にも対応している。Geminiの典型的な特徴は、テキスト、画像、オーディオ、ビデオのインタリーブシーケンスを入力としてサポートすることであり、これはChatGPTまたは従来のアーキテクチャのマルチモーダルモデルでは実現が難しい。通常、ChatGPTは文字の出力のみをサポートしており、他のモダリティの出力はサードパーティ製APIを呼び出して実装する必要があります。Geminiというインタリーブシーケンスの入力方式は、ほとんどのシーンのニーズに適しています。一方、Geminiの技術報告では、MMLUデータセットテストにおける精度は90.04%に達し、人間の専門家を上回り、その推理能力の進化はマイルストーン的意義を持っている。
Geminiがオンラインになった1日後、グーグルはマルチモーダルビデオが編集・コラージュされており、Geminiは誇張宣伝の疑いがあるという疑惑が提起された。グーグルの公式も説明している:動画には確かにポストプロダクションとクリップの成分があり、Geminiのすべてのインタラクションはリアルタイムで感知されるのではなく、スタッフが画像とヒントを与えた後の効果、つまりGeminiは動画を読み取る上でさらに発展する必要がある。
リアルタイムの対話シーンまたは商用化の焦点
このニュースを受けて、国内の投資家はマルチモーダル技術とその応用について議論を展開している。
ある科学技術コースの1級投資家によると、ChatGPT-4に比べて、Geminiの認識と推理能力、そして現在見られる応答速度は大きく進歩しているという。個人的には、GeminiとOpenAIの製品にはそれぞれ長所があり、商業化の着地には適切なシーンを見つける必要があると考えている。「適切なシーンがあり、付加価値ニーズを見つけることが重要だが、GeminiはAIモデルの想像空間をさらに開いたことは確かだ」。
「多モードモデルがロボットの上で動作すると、具身知能が実現する可能性があり、また、多モードモデルとグーグルの眼鏡が結合すると、超スマートボディにアップグレードすることが大胆に想像できる」と別の投資家は述べた。
ある技術者によると、人間には5つの感覚があり、私たちが作った世界、消費されたメディアは、このように表現されているという。マルチモーダルモデルは、Geminiが人間と同じ方法で周囲の世界を理解し、文字であれ、コードであれ、オーディオであれ、画像であれ、ビデオであれ、あらゆるタイプの入力と出力を吸収できることを意味します。その中で最も重要な技術は、これらのモデルをすべて混合し、任意の数の入力と感覚からできるだけ多くのデータを収集し、同じように多様な応答を提供する方法です。
「Geminiはもっと人に似ていて、もっと人の視覚認識といくつかの推理判断に近くて、OpenAIのChatGPTはもっと大きな知識ベースのようで、それは人に情報の参考を提供することができます。両者は誰が誰を超えるのかではなく、方向を重視するのは明らかに違う」とある投資家は述べた。
孫海峰氏によると、Geminiの具体的な実現構造がどのようなものなのかはまだよく分からないが、このような多様なモダリティ情報が入力方式のモードとして交錯することができ、多くのシーン、特にリアルタイムのインタラクションシーンに非常に必要であるという。
別の科学技術投資家は、Geminiの発表は、グーグルのGemini視覚推理の能力が際立っていることを意味し、検索エンジンに基づくさまざまな資料を大量の訓練データとして持っているためだと考えている。また、大規模な工場のデータ、流量、資金、計算力、および応用シーンにおける優位性は明らかである。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 百度沈震:「千帆業界強化版」を発売、業界の大モデル応用の着地を加速
- GPT-5は来るのか?OpenAI重ポンド官宣は次世代フロンティアモデル訓練を開始した!
- 汎華控股と百度スマートクラウドが戦略的提携を結び、保険業界の大モデル応用を構築
- 百度領投生数科学技術加速配置多モード大モデル
- 好材料が「一堂に会する」?億万長者投資家:年末にビットコイン材料が10万ドルを突破!
- Baiduの主力大型モデルの無料半月の日調整量が10倍に増加
- 米株「稼ぎ頭」は暴落するのか?オールスター投資家:損失はインターネットバブルの崩壊に匹敵する!
- OpenAIだけじゃない!アップルは複数のAI会社と手をつないで「AIビッグモデルストア」を作る見込み
- グーグル、Gemma 2オープンソースAIモデルを発表
- 文心の一言で1日の呼び出し回数が5億に達した大モデルメーカーの生態競争が白熱化
-
理想自動車官博によると、2024年6月、理想自動車が新車47774台を納入し、前年同期比46.7%増となった。2024年第2四半期に108,581台が納入され、前年同期比25.5%増加した。2024年6月30日現在、理想自動車の累計納入台 ...
- 寒郁轩良
- 前天 17:19
- 支持
- 反对
- 回复
- 收藏
-
中国で新たな車購入金融政策が打ち出された後、米東時間7月1日、テスラ米株は6.05%上昇し、1株当たり209.86ドルを受け取り、株価は3カ月ぶりの高値を更新し、時価総額は382億ドル(約2788億元)増加し、時価総額は6 ...
- 123458115
- 昨天 17:19
- 支持
- 反对
- 回复
- 收藏
-
ロイター通信の現地時間7月1日付報道によると、フランスの独占禁止規制当局は英偉達を告発し、世界初の英偉達に対してこのような行動をとる法執行機関となる。 英偉達の7月1日の株価は3.8%下落した後に反発し、前日 ...
- 送烟激钟
- 昨天 15:30
- 支持
- 反对
- 回复
- 收藏
-
【予想以上!テスラQ 2納入台数が44.4万台の株価上昇を記録2桁超】火曜日(7月2日)の米株式市場を前に、米電気自動車メーカーテスラ社は2024年第2四半期の自動車生産量と納入量の報告書を発表した。データによると ...
- 套顿各爱了
- 9 小时前
- 支持
- 反对
- 回复
- 收藏