グーグルの「反撃戦」、投資家が話題のマルチモーダルモデルの商業化を開始
不正经的工程师
发表于 2023-12-11 11:13:43
244
0
0
ChatGPTのオンライン1周年に続き、最近、グーグルのマルチモーダルGeminiが突然オンラインになり、業界では「グーグル最強の反撃戦が始まった」とされている。投資機関はGeminiについて「釜揚げ」を検討している。業界関係者は、Geminiは視覚認識と推論の面で顕著に最適化され、ビジネスシーンに落下し、リアルタイムのインタラクションシーンまたは多モード人工知能モデルの応用の焦点となっていると考えている。
Gemini「ショックすぎる」
グーグルのサンダル・ピチャイCEOはこのほど、Gemini 1.0版が正式にオンラインになったと発表した。Google DeepMind製品のイーライ・コリンズ副社長は、これはGoogleがこれまでで最も強力で汎用性の高いモデルだと述べた。
Geminiは最初からマルチモーダルモデルとして作成されており、テキスト、コード、オーディオ、画像、ビデオなど、さまざまなタイプの情報を集約し、スムーズに理解、操作、および組み合わせできることを意味していることがわかりました。柔軟性の面では、データセンターからモバイルデバイスまでを実行できます。
Geminiシリーズのデモ動画を見た投資家の多くは「衝撃的だった」と話した。北京郵電大学コンピュータ学院の孫海峰准教授は、「Geminiのデモ動画を見ると、マルチモーダル理解の能力が非常に驚異的で、また、Geminiが表現した推理能力は現在、ChatGPTを超えているようだ」と述べた。一方、マルチモーダル情報処理では、GeminiはOpenAIのChatGPTをはるかに上回っている。Geminiは、マルチモーダル情報入力にも対応し、マルチモーダル情報出力にも対応している。Geminiの典型的な特徴は、テキスト、画像、オーディオ、ビデオのインタリーブシーケンスを入力としてサポートすることであり、これはChatGPTまたは従来のアーキテクチャのマルチモーダルモデルでは実現が難しい。通常、ChatGPTは文字の出力のみをサポートしており、他のモダリティの出力はサードパーティ製APIを呼び出して実装する必要があります。Geminiというインタリーブシーケンスの入力方式は、ほとんどのシーンのニーズに適しています。一方、Geminiの技術報告では、MMLUデータセットテストにおける精度は90.04%に達し、人間の専門家を上回り、その推理能力の進化はマイルストーン的意義を持っている。
Geminiがオンラインになった1日後、グーグルはマルチモーダルビデオが編集・コラージュされており、Geminiは誇張宣伝の疑いがあるという疑惑が提起された。グーグルの公式も説明している:動画には確かにポストプロダクションとクリップの成分があり、Geminiのすべてのインタラクションはリアルタイムで感知されるのではなく、スタッフが画像とヒントを与えた後の効果、つまりGeminiは動画を読み取る上でさらに発展する必要がある。
リアルタイムの対話シーンまたは商用化の焦点
このニュースを受けて、国内の投資家はマルチモーダル技術とその応用について議論を展開している。
ある科学技術コースの1級投資家によると、ChatGPT-4に比べて、Geminiの認識と推理能力、そして現在見られる応答速度は大きく進歩しているという。個人的には、GeminiとOpenAIの製品にはそれぞれ長所があり、商業化の着地には適切なシーンを見つける必要があると考えている。「適切なシーンがあり、付加価値ニーズを見つけることが重要だが、GeminiはAIモデルの想像空間をさらに開いたことは確かだ」。
「多モードモデルがロボットの上で動作すると、具身知能が実現する可能性があり、また、多モードモデルとグーグルの眼鏡が結合すると、超スマートボディにアップグレードすることが大胆に想像できる」と別の投資家は述べた。
ある技術者によると、人間には5つの感覚があり、私たちが作った世界、消費されたメディアは、このように表現されているという。マルチモーダルモデルは、Geminiが人間と同じ方法で周囲の世界を理解し、文字であれ、コードであれ、オーディオであれ、画像であれ、ビデオであれ、あらゆるタイプの入力と出力を吸収できることを意味します。その中で最も重要な技術は、これらのモデルをすべて混合し、任意の数の入力と感覚からできるだけ多くのデータを収集し、同じように多様な応答を提供する方法です。
「Geminiはもっと人に似ていて、もっと人の視覚認識といくつかの推理判断に近くて、OpenAIのChatGPTはもっと大きな知識ベースのようで、それは人に情報の参考を提供することができます。両者は誰が誰を超えるのかではなく、方向を重視するのは明らかに違う」とある投資家は述べた。
孫海峰氏によると、Geminiの具体的な実現構造がどのようなものなのかはまだよく分からないが、このような多様なモダリティ情報が入力方式のモードとして交錯することができ、多くのシーン、特にリアルタイムのインタラクションシーンに非常に必要であるという。
別の科学技術投資家は、Geminiの発表は、グーグルのGemini視覚推理の能力が際立っていることを意味し、検索エンジンに基づくさまざまな資料を大量の訓練データとして持っているためだと考えている。また、大規模な工場のデータ、流量、資金、計算力、および応用シーンにおける優位性は明らかである。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- アリババは投資家と和解することで合意し、4億335万ドルを支払うことになった。
- ウォルマートやサムの「前置倉」モデルをコピーして小さな店を開く
- DeepMindのオープンソース生体分子予測モデルノーベル賞の成果はAI製薬の波を巻き起こすのか?
- 百度李彦宏:過去24カ月、AI業界の最大の変化は大モデルが幻覚をほぼ解消したことだ
- 「AI新世代」の大モデルメーカーがスマートボディを“巻き”、李彦宏氏は「アイデアで稼げる時代が来る」と語る
- 李彦宏氏によると、大模型幻覚は実測文心をほぼ解消したという。
- 米株投資家「シートベルトを締めて」!大摩:3つのリスクは「トランプ取引」を破壊する可能性がある
- 文心の一言でユーザー数が4億人を突破、百度呉甘:大モデルが産業知能エンジンを再構築中
- ノボノド株価は年初の起点に戻る!ダイエット薬の販売が遅れ投資家の退却を予想
- アリババの呉泳銘CEO:AIの発展には異なる規模、異なる分野のオープンソースの大モデルが必要だ
-
アリババは、26億5000万ドルのドル建て優先無担保手形と170億元の人民元建て優先無担保手形の定価を発表した。ドル債の発行は2024年11月26日に終了する予定です。人民元債券の発行は2024年11月28日に終了する予定だ ...
- SOGO
- 昨天 09:05
- 支持
- 反对
- 回复
- 收藏
-
スターバックスが中国事業の株式売却の可能性を検討していることが明らかになった。 11月21日、外国メディアによると、スターバックスは中国事業の株式売却を検討している。関係者によると、スターバックスは中国事 ...
- 献世八宝掌
- 3 小时前
- 支持
- 反对
- 回复
- 收藏
-
米東時間11月18日、米株終値は反落し、ダウ平均は3営業日連続で下落した。ナスダック・金龍中国指数は上昇した。米株BAKTは162.37%上昇し、盤中5回の溶断メカニズムをトリガした。 大口商品では、WTI原油価格が上昇 ...
- 就放荡不羁就h
- 前天 09:18
- 支持
- 反对
- 回复
- 收藏
-
【意法半導体CEO:中国市場は非常に重要で華虹と協力を展開】北京時間11月21日、意法半導体(STM.N)は投資家活動の現場で、同社が中国ウェハー代工場の華虹公司(688347.SH)と協力していると発表した。伊仏半導体 ...
- 黄俊琼
- 5 小时前
- 支持
- 反对
- 回复
- 收藏