OpenAIはソラの降世を予熱しているようだ。
現地時間3月13日水曜日、OpenAIのミラ・ムラッティ最高技術責任者(Mira Murati)がワシントン・ポスト紙のビデオインタビューを受けた。
ムラーティ氏はインタビューで、Soraを利用した動画生成のコストは非常に高く、チームは技術を最適化しており、今年中に正式に発表される予定だと明らかにした。
ムラーティ氏によると、OpenAI人工知能文生ビデオの大モデルSoraは今年後半に正式に公開される予定で、OpenAIは最終的にシーンをよりリアルにするためにオーディオ機能に参加する予定で、同時にユーザーがSoraが生成したビデオコンテンツを編集できるようになるという。
このほか、ムラティはソラの特別な点、瑕疵をどのように修正するか、オーディオが含まれるか、トレーニングデータがどこから来るかなどいくつかの質問に答えた。出した答えには漠然としたものもあれば、誠意があるものもある。
ソラはどのようにして「文字を不思議にする」のか。「人魚姫とカニの仲間が、一緒にスマホを見ている…」というシーンを想像してみてください。
このメディアインタビューの「福利厚生」として、司会者はソラに提供された複数のテキストヒントをビデオ画像に変換する機会を得たが、以上のシーンはソラが提供したビデオの1コマである。
ビデオ・スクリーンショット
ソラはどのようにしてこの変換を実現したのだろうか。ムラッティ氏は、人魚の進化を説明することは、「拡散モデル」(diffusion models)の内部動作を説明するよりもはるかに容易である可能性があるが、簡単に言えば、人工知能モデルは大量のビデオを分析し、物体と動作を識別することを学んだと述べた。次に、テキストプロンプトを与えると、シーン全体が描画され、フレームごとに塗りつぶされます。
OpenAIがSoraのために使用しているトレーニングデータについて問われたムラーティ氏は、「公開データとライセンスデータを使用している」と指摘した。
別の動画では、司会者から「30代で茶色の髪をしたキャリアウーマンの2人が、光のあるスタジオに座ってニュースインタビューを受けている」というインタビューにふさわしいくだりを作ってほしいと言われた。
ビデオ・スクリーンショット
最終的に、ソラが渡した「宿題」では、2人の女性の口型と髪の動きにも、革ジャンの細部にも、すべてがリアルに見えた。Murati氏によると、この20秒の720 p解像度短編映画は、Soraが作成するのに数分かかったが、サウンド効果の搭載にはまだ対応していないという。
しかし、ムラッティ氏は最終的には声を追加する計画だと約束した。
Murati氏はまた、現在のSoraがビデオを生成するコストは同社の画像生成器Dall-Eよりはるかに高いと述べた。しかし、将来的に正式に公開される際には、OpenAIは計算力の需要を低減するために最適化されます。
北京時間2月16日、OpenAIは文生ビデオモデルSoraを発表し、効果は驚くべきもので、世界を爆発させた。この時、OpenAIがChatGPTを発売し、生成式AI時代を切り開いてから、わずか14ヶ月しか経っていないが、AIの進化速度は驚くべきものだった。
ソラが生成した動画には、女性が黒い皮の服を着て、赤いスカートを着てネオン街を歩いている。本体が一貫して安定しているだけでなく、大通りの景色から女性の顔の表情へのクローズアップや、湿った街の地面でネオンを反射する光の効果など、複数のレンズが含まれている。
Soraの研究結果によると、拡張ビデオ生成モデルは物理世界共通シミュレータを構築するための非常に将来性のある方法であり、人工知能の理解とシミュレーション運動における物理世界を新たな高さに踏み出すことができる。
ある業界関係者は、汎用人工知能(AGI)が予想より早く到来し、産業格差が大きくなると予言している。また、文生動画による転覆的な影響が懸念されており、真実と仮想の間の曖昧な境界について繰り返し警告する遠慮者もいる。しかし、議論が少ないのは、SoraがAI応用の加速的な着地を推進する可能性があると考えられていることだ。
同時に、ソラの誕生はAIの将来の発展に対する人々のより多くの展望を引き起こした。技術の進歩に伴い、AIはより多くの分野でより大きな役割を果たすだろう。産業生産、教育訓練、娯楽レジャーなどの分野でも、AIは人類により多くの驚きと可能性をもたらすだろう。
2月16日、360創業者の周鴻祎氏はマイクロブログを発表し、Soraに対する自分の見方に言及した。周鴻祎氏は、Soraの誕生はAGI(汎用人工知能)の実現が10年から1、2年に短縮される可能性があることを意味すると考えている。
Soraの最大の利点について、周鴻祎氏は、これまで文生ビデオソフトウェアは2 D平面上でグラフィック要素を操作してきたが、ビデオを複数のリアルな画像の組み合わせと見ることができ、この世界の知識を本当に身につけていないと述べた。しかし、ソラが生み出した動画では、戦車は巨大な衝撃力があり、戦車は戦車を衝突させることができ、自動車が戦車を衝突させることはないということを人間のように理解することができた。「今回のOpenAIは、その大言語モデルの強みを利用して、ソラに現実世界への理解と世界へのシミュレーションの2層能力を実現させた。こうして生まれた動画こそが真実であり、2 Dの範囲から真実の物理世界をシミュレートすることができる」。
周鴻祎氏は、大モデル技術を基礎とし、人間の知識の導きを加えることで、生物医学、蛋白質、遺伝子研究、物理、化学、数学を含む学科研究など、さまざまな分野のスーパーツールを創造することができると述べた。
「人工知能がカメラに接続すれば、すべての映画を一度見て、YouTubeやTikTokの動画を一度見て、世界への理解は文字学習をはるかに超えて、1枚の図は千言万語に勝るだろう。これはAGIから本当に遠くない。10年20年の問題ではなく、1、2年ですぐに実現できるかもしれない」と周鴻祎は感慨した。
毎日経済新聞総合OpenAI公式サイト、毎日経済新聞、公開資料