OpenAIに挑戦、グーグルが新アクション！生成型AIを大幅に更新し、ビデオモデルVEO 2と最新版Imagen 3をリリース

3881197 · 发表于 2024-12-17 09:32:35

グーグル（GOOGL、株価196.66ドル、時価総額24073億ドル）の旗艦AI研究実験室Google DeepMindは月曜日、人工知能駆動のコンテンツ生成ツールを大幅にアップグレードし、AI画像とビデオ生成におけるOpenAIのリーダーシップに挑戦するVeo 2ビデオ生成モデルと拡張版Imagen 3画像モデルを発売した。グーグルによると、これらの更新はクリエイティブなワークフローを徹底的に変え、ビデオや画像クリエイターにより高いリアリティとカスタマイズ体験を提供することが期待されているという。
グーグルによると、Veo 2はグーグルの動画生成ツールで、多様なテーマやスタイルの高品質な動画を生成することができる。グーグルはブログで、このモデルはリアリティの面で優れており、人間の表情や映画の効果などの細部を捉えることができると述べている。その強化された物理的および映画的理解能力により、トラッキングレンズや広角構図など、ユーザーは驚くべきコンテンツを生成することができます。
例えば、Veo 2は映画撮影言語に精通しており、ユーザーはあるタイプのスタイルを要求し、レンズを指定し、映画効果を提案することができ、Veo 2はすべて4 K解像度に達し、数分まで延長されたビデオ長で表示されます。注目すべきは、この解像度はOpenAI Soraモデルの4倍、ビデオ時間はさらに6倍以上になることです。
しかし、現在のところ、これらの利点は理論的なものです。グーグルの実験的なビデオ創作ツールVideoFXでは、Veo 2が生成するビデオは720 p解像度、8秒の長さに制限されている。（対照的に、Soraの最大出力は1080 p、20秒のショートムービーです。）
グーグルによると、ビデオ生成モデルはしばしば余分な指や意外な物体など、不要な詳細を「幻化」するが、Veo 2はこの点での表現がよりリアルで、エラーを生成する頻度が低いという。さらに、Veo 2が生成したビデオには、AIが生成したコンテンツであることをマークするために使用される不可視のSynthID透かしが含まれており、誤用や誤った帰属のリスクを減らすことができます。
DeepMind製品のEli Collins副社長はメディアに対し、モデルが徐々に規模化されて使用する準備が整ってくるにつれて、グーグルはそのVertex AI開発者プラットフォームを通じてVeo 2を提供すると述べた。
開発者やクリエイターは現在、Googleラボ（Google Labs）を通じてツールにアクセスでき、2025年までにYouTube Shortsなどのプラットフォームに広く統合される予定です。同時に、Imagen 3モデルは画像の構図と細部の正確性の面で強化され、写実から抽象までの様々なスタイルをサポートし、より豊富なテクスチャを生成し、ユーザーのヒントにより忠実に対応することができる。
Imagen 3は現在、GoogleラボのImageFXツールを通じて100カ国以上でオンライン化されており、世界中のユーザーが先端機能を試すことができます。
また、グーグルはImagen 3とGeminiの視覚分析能力を組み合わせたアイデアツールであるWhiskを発売した。ユーザーは画像を入力して、詳細な文字記述を生成したり、スタイルを再混合したり、デジタル人形やエナメルバッジなどの個性的な作品をデザインしたりすることができます。
グーグルによると、WhiskはImagen 3モデルとGeminiの視覚理解と記述能力を結合している。Geminiモデルは、ユーザーの画像の詳細なテキスト記述を自動的に生成し、Imagen 3に渡します。このプロセスにより、ユーザーはトピック、シーン、スタイルを面白い新しい方法で再混合することができます。
北京時間12月10日、グーグルは新しい量子チップWillow（ウィロウ）を開発したと発表した。この計算能力の優れたチップは、量子計算分野の30年来の重要な突破を実現し、5分で現在のコンピュータが10尭（10の25乗）年で完成することができる任務を完成することができる。研究成果は12月9日出版の『nature』誌に発表された。
ニュースが伝えられると、量子情報業界は歓呼し、AI圏も衝撃を受けた。
Willowの重大な突破は2つの面で現れている：1つは性能、つまり計算能力の大幅な上昇である。5分間の計算量は、現在最も高速に動作しているコンピュータの10尭（10の25乗）年で達成できるタスクに相当する。10&sup2;年は宇宙の年齢（約130億年）をはるかに上回っている。5分と10&amp ;sup2;年、この対比は、その計算速度の飛躍が非常に恐ろしいことを示している。
第二に、強力な量子誤り訂正能力である。量子誤り訂正の分野でWillowが実現した大きな進展は、拡張可能な正方形メッシュに基づいて、論理量子ビット数（現在は105量子ビット）が増加したが、誤り率は急速に低下したことである。3 x 3符号化量子ビットから5 x 5のメッシュに拡張し、さらに7 x 7のメッシュに拡張し、拡張するたびにエラー率が半減する。また、Willowはリアルタイムで誤り訂正することができ、これにより短時間でより上位の量子ビット（例えば1050個）に拡張することが可能になる。
以上の2つの重大な突破は、性能の向上よりも誤り訂正能力が科学者の注目を集めている。
量子チップは量子コンピュータのコアである。Willowの研究開発チームはハートマット・ネビン（Hartmut Neven）が率いるグーグル量子AI実験室だ。ハートマット氏によると、Willowは大規模、自己誤り訂正量子コンピュータへの大きな一歩であり、その誤り訂正能力と古典を超える計算能力は、新薬の発見を支援することから、より効率的な電気自動車のバッテリーの設計、核融合と新エネルギー代替の進展を加速させることまで、私たちをより商業的な応用を提供できるシステムに近づけている。
毎日経済新聞総合グーグル、情報公開
免責事項：本文の内容とデータは参考に供するだけで、投資提案を構成せず、使用前に確認してください。この操作によって、リスクは自分で負担する。

		自动登录	找回密码
密码			立即注册

OpenAIに挑戦、グーグルが新アクション！生成型AIを大幅に更新し、ビデオモデルVEO 2と最新版Imagen 3をリリース

相关帖子

浏览过的版块