国内開発者はグーグルのGeminiを見る:「偽造」論争に陥っているが、OpenAIを超える道を見つけた
梦幻旅程
发表于 2023-12-13 11:05:12
4555
0
0
グーグルが独自の最強モデルGeminiを発売してから1週間近くが経ち、多くの国内AI会社がこの大型モデルがどれだけ威力を持っているのかを探究しようとしている。
これまで業界で発売されてきた多くの大モデルとは異なり、グーグルのGeminiは今回、文字のコーナーを回避し、視覚と音声で世界を理解しているが、デモの実演には偽造や誇張能力が疑われていた。
Geminiのデモ動画は、Geminiがリアルタイムで動画情報を読み取ることができると多くのユーザーに誤解させ、さらに理解を通じてユーザーの質問に答えるようにさせたが、実際には、グーグル社員は提示語を通じてGeminiにこれらの返信を生成させた。ソース:Google
Geminiの出現がOpenAIや他のAI会社にどのような影響を与えるかを知るために、インタフェースニュースはこのほど、Geminiの最大の特色は「ネイティブ」のマルチモーダルモデルだと考えている複数のヘッドジェネレーションAI会社の業務責任者や開発者を訪問した。
「理論的には、原生多モードは『スプライン』多モード大モデルよりも効果が高い。後者は訓練段階でボトルネックに遭遇しやすいからだ」と、循環知能のAI責任者である陳虞君氏はインタフェース新聞記者に語った。まだ深く使用したことがないため、Geminiの実際の利点はさらに理解する必要がある。
複数の大モデルの草創開発者によると、Geminiシリーズ最大サイズのUltraが正式に発売されていなくても、Geminiはテキスト面でGPT-4と同レベルの能力を示しているという。
Googleが公式にリリースしたベンチマークテストセットでは、Gemini UltraはほとんどのテキストテストでGPT-4よりも優れており、ほとんどのマルチモーダルタスクテストでGPT-4 vよりも優れています。GPT-4の試験条件を基準にすると、MMLU上でのGemini UltraのパフォーマンスはGPT-4よりも弱いが、他の主流大モデルよりも優れている。図源:Gemini Technical Report中信建投研報
Geminiのデモ動画では、この大きなモデルは人間の行動をリアルタイムで観察し、フィードバックを与えることができるように見えます。例えば、アヒルがスケッチから塗りつぶされるまでの過程を完璧に記述することができます。コップ交換ゲームで紙塊を追跡し、数学、物理の問題解決を支援することができます。ジェスチャーを判別したり、教室の手遊びのインタラクティブをしたり、惑星のスケッチを並べ替えることができます。
開発者たちは、偽造成分の幾何学にかかわらず、Geminiはすでに強い理解、推理、創作とリアルタイムの相互作用能力を示し、OpenAIマルチモーダルモデルGPT-4 vの全面的な超越を実現したと考えている。グーグルの対応もほぼ業界に受け入れられており、「すべてのユーザーのヒントと出力は真実であり、簡潔のために短縮されただけだ」としている。
3ヶ月前にOpenAIが低調に発表したGPT-4 vは、理解や画像生成などの多モードタスクを行うことができたが、効果はあまりよくなく、他のモデルと協力して完成することが重要な推論能力だった。抽象推論能力自体は、大きなモデルの最も重要な能力である。
図源:中信建投
尹伯昊氏はインタフェースニュースに対し、GPT-4 vとGeminiは2つの全く異なる訓練ロジックに基づいていると説明し、「GPT-4 vは近視眼で、物がはっきり見えないため、性能も悪く、典型的な外掛け式の方案だ。Geminiは複数のモダリティを混ぜて訓練する」と述べた。
しかし、マルチモーダルモデル企業のアルゴリズム責任者によると、GeminiはまだGPT-4を全面的に超えていないはずで、「評価時、GPT-4とGeminiはテキスト生成上で完全に公平な対比を形成していなかった」という。
また、Gemini Proは物を探す能力と正確な図を探す能力で簡単にGPT-4に勝ったというネットユーザーの実測も少なくない。この状況について、追一科技の劉雲峰氏は、グーグルの検索業務には文字とその他のモダリティ整列のデータが天然にあり、原生多モダリティ大モデルの訓練に有利であると考えている。
Geminiは学生の手書きの答えを正確に識別し、物理問題の推理過程を検証することができ、図源:Gemini Technical Report
グーグルは人工知能分野のいかなる大きな動きでも市場の新興探索方向をロック解除するが、Geminiが発表される前にAIモデルの全面的な多モーダル化の傾向が明らかになってきた。
3月のGPT-4リリース当初から、OpenAIはこの反復にマルチモーダル統合を加えることを表明していた。9月から、ランウェイ、Midjourney、Adobe、Stability AIなどのスター企業が続々とマルチモーダル製品を世に送り出している。
国内では、百度の文心大模型4.0がモーダル文生図分野にまたがって明らかに進展し、国内で公開融資が最も高い大模型は智譜AIを創始し、その生成式AIアシスタントの智譜清言は視覚分野で非常に優勢である。
複数の開発者は、マルチモーダルモデルは業界内で公認されている明確な発展方向であり、グーグルの大きな動きによって「ぱっと悟る」ことはないが、Geminiの到来は国内企業の研究開発の加速を刺激すると界面ニュースに語っている。前述のマルチモーダルモデル企業アルゴリズム責任者もGeminiの限界を指摘し、「画像生成における能力及びビデオ生成、画像生成における参照意義は限られている」と述べた。
今のところ、GeminiがGPT-4を全面的に超えるという結論は出にくいが、グーグルがOpenAIの最強のライバルになるのは間違いない事実だ。また、Geminiを用いて、真の多モードAIを実現するためには、どの多モード大モデルも大言語モデルの訓練過程に依存しなければならないことを証明した。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- グーグルI/O開発者大会展望:OpenAI、マイクロソフト挟撃合戦に遭遇し一触即発
- マイクロソフト開発者大会が一気に50以上のアップデートを発表、ウルトラマン圧巻のネタバレOpenAI新モデル
- アップル開発者大会が今夜開幕iOS 18が登場:AI「ファミリーバケツ」は来るのか?
- 重ポンド!アップルがAI機能テスト版を発表ChatGPTに組み込まれていないのは有料開発者向けのみ
- 有料開発者向け!「アップルインテリジェント」の初ショーSiriなどが全面的にアップグレードされたが、ChatGPTは統合されていない。今回アップルはインビタを「捨てた」
- アップルのクックCEO:開発者がAppleIntelligenceのテストを開始
- アップルはEU規制に対応EU開発者は製品を自主的に普及させることができる
- 貝好家は11億元近くを成都の土地で自主的にハイエンド住宅プロジェクトを運営する貝殻:開発者ではない
- IBMが新バージョンの企業AI大モデルを発表、中国開発者はオープンソースコミュニティを通じて入手可能
- アップルは国内の「アップル税」論争に答えた:開発者の95%の収入は抽選されなかったのか?
-
11月21日、2024世界インターネット大会烏鎮サミットで、創業者、CEOの周源氏が大会デジタル教育フォーラムとインターネット企業家フォーラムでそれぞれ講演、発言したことを知っている。周源氏によると、デジタル教 ...
- 不正经的工程师
- 34 秒前
- 支持
- 反对
- 回复
- 收藏
-
アリババは、26億5000万ドルのドル建て優先無担保手形と170億元の人民元建て優先無担保手形の定価を発表した。ドル債の発行は2024年11月26日に終了する予定です。人民元債券の発行は2024年11月28日に終了する予定だ ...
- SOGO
- 前天 09:05
- 支持
- 反对
- 回复
- 收藏
-
スターバックスが中国事業の株式売却の可能性を検討していることが明らかになった。 11月21日、外国メディアによると、スターバックスは中国事業の株式売却を検討している。関係者によると、スターバックスは中国事 ...
- 献世八宝掌
- 昨天 16:29
- 支持
- 反对
- 回复
- 收藏
-
【意法半導体CEO:中国市場は非常に重要で華虹と協力を展開】北京時間11月21日、意法半導体(STM.N)は投資家活動の現場で、同社が中国ウェハー代工場の華虹公司(688347.SH)と協力していると発表した。伊仏半導体 ...
- 黄俊琼
- 昨天 14:29
- 支持
- 反对
- 回复
- 收藏