首页 报纸 正文

シリコンバレー大手のAI競争はますます激しくなり、あなたは私のところに来て、全速力で出撃します。
北京時間10月4日、OpenAIとMetaは同時に自分の新兵器を明らかにした。
MetaはMovie Genという新しいAIモデルを発表した。ビデオ生成(Movie Gen Video)とオーディオ生成(Movie Gen Audio)の2つのモデルからなり、完全なマルチメディアコンテンツをシームレスに生成し、画像、視覚から聴覚までの全方位カバーを実現します。Meta氏によると、これは「これまでで最も先進的なメディア基盤モデル」だという。
OpenAIはインタラクティブインタフェースcanvasを重点的にリリースし、「ChatGPTを使った執筆とプログラミングの新しい方法」と述べ、ChatGPTリリース以来の重要な視覚インタフェースのアップグレードでもある。ユーザーはChatGPTと協力して作文とコーディングプロジェクトを完成することができ、プロセス全体は簡単なチャットに限らず試験的、可視的であることができる。
将来的には、科学技術大手が革命的な意味を持つ新製品、新技術を含めて、絶えず小さなブームを巻き起こし続ける持続的な上新も含めて、絶えず古いものを押し出していくことが予想される。
このAIコンテストがいつ明らかになるかは定かではないが、巨頭たちが塔のてっぺんに位置する計算力資源と延伸し続けるビジネスの境界は、AIベンチャーの生存空間をますます小さくすることにつながることが確定できる。
「マタイ効果」は、新興AI分野で明らかになってきている。
Meta版Soraのオンライン化
MetaのMovie Genを「Sora」と呼ぶのはあまり正確ではなく、「青は青より出て青より出ている」と言うべきで、Soraが備えているビデオ生成機能のほか、Movie GenはビデオのためにセットされたBGMとサウンドを生成し、命令に従ってビデオを編集し、直接一歩到着することができる。
具体的には、Movie Gen Videoは30 BパラメータのTransformerモデルであり、1つのテキストプロンプトから16秒、毎秒16フレームのハイビジョンビデオを生成することができる。同時にリリースされたMovie Gen Audioは、ビデオ入力とオプションのテキストプロンプトを受け入れ、ビデオに同期した高忠実度オーディオを生成します。
「地表最強」ホログラフィックAR眼鏡で検索されたばかりのザッカーバーグ氏は、ソーシャルプラットフォームでMovie Genプラットフォームのために、自分の静止写真を多様な形のダイナミックフィットネスビデオに変換し、ユーモアとSFがあふれている。
Metaが放出した他の例のビデオは、Movie Genが物体の運動軌跡を生成し、本体の物理運動規則を維持し、背景が統一され、生き生きとした効果を示している。
統合されたAIメディアツールとして、Movie Genは要素の追加、削除、置換、背景の置換、スタイルの変更などのグローバルな変更を実行できるビデオ編集機能も備えています。
海外のネットユーザーは、「多くのクリエイターがAI動画編集ツールを使うようになってきて、数年後にTikTok(ショートビデオ代表)やYouTube(ロングビデオ代表)がどうなるか想像するのは難しい」と感慨深げに語っている。
Soraの発売ペースに似ており、Movie Genも一般公開にはまだ時間がかかりますが、OpenAIがよくからかっている「close」とは異なり、Metaは92ページに及ぶ論文をさらりと発表し、アーキテクチャ、トレーニング方法、データ管理、評価、並行トレーニングと推理最適化、オーディオモデルの情報を紹介しました。
Metaによると、ビデオ生成モデルは1億個のビデオと10億枚の画像にプリトレーニングを行い、オーディオ生成モデルは約100万時間のオーディオデータを使用した。
また、Metaは、Movie Gen Video Bench、Movie Gen Edit Bench、Movie Gen Audio Benchなど、複数のベンチマークテストデータセットをオープンソースし、後続の研究者に権威のある評価ツールを提供しています。
Movie GenはOpenAIが今年2月に展示した文生ビデオSoraをベースに、AIビデオ編集の方向に大きく前進した。先行するソラはまだ正式に公開されていないが、ソラは1分間の動画を生成することができ、Movie Genは現在16秒しかない。
兆OpenAIの新たな動きが絶えない
MetaはOpenAIに一発撃ったが、後者は暇ではなかった。
これに先立ち9月13日、OpenAIは新しい汎用言語の大モデルo 1を正式に発表し、スロー思考に基づいて推理能力で人類博士に完勝し、数学、物理、化学、生物学などの分野で極めて優れている。
そのテキスト編集システムも進化している。同じくMovie Genが登場した10月4日、OpenAIは実際に新しいヒューマンインタラクションインタフェースであるcanvasという視覚製品を発売すると発表した。
canvasはChatGPTに内蔵されたドキュメントとコードエディタです。ユーザーはChatGPTとドキュメントエディタを切り替える必要はありません。ドキュメントを書くと自動的にポップアップされ、ChatGPTで任意のドキュメントやコードを直接編集することができ、1つのインタフェース内で構想から成文までの全過程を完了し、AIとのシームレスなコラボレーションを実現し、作業効率を大幅に向上させることができます。
ある業界関係者は、OpenAIはcanvasを借りて、ChatGPTは単なるチャットロボットではなく、AI時代のオペレーティングシステムを構築することを示唆しているとコメントしている。これはCEOサム・ウルトラマン(Sam Altman)の非凡な野望を暴露した。ただし、canvasは来週になってEnterpriseとEduユーザーに発売され、Plusユーザーは直接呼び出すことができます。
これに先立ち、OpenAIは現地時間10月2日、新たに66億ドルの融資を完了し、投資後の推定値は1570億ドル(約1兆1000億元)に達したと発表した。これは、OpenAIが「スターユニコーン」から正真正銘の人工知能大手に移行したことを示している。
今回の融資は、ベンチャー大手のThrive Capitalが13億ドル、マイクロソフトが7億5000万ドル、ソフトバンクグループが5億ドル、英偉達が1億ドルをそれぞれ投資し、アップルは最終的に撤退を決めた。また、OpenAIは40億ドルの新しい循環信用枠を獲得した。ChatGPTの週間ユーザー数は2億5000万人を超え、今年の収入は37億ドルに達する見通しだという。
OpenAIの今回の融資資金は転換可能な手形の形で提供されているが、2年以内に会社構造の再編を完了できなければ(つまり、会社構造が非営利企業から営利企業に転換する)、今回の融資の投資家は投資の返還を要求する権利があるという。
注目すべきは、OpenAIも融資に参加する投資家の「二者択一」を求めていることだ。つまり、OpenAIの元従業員たちが設立したAIベンチャー企業Anthropic、エレン・マスク(Elon Musk)が設立したxAI、OpenAI共同創業者、元チーフ科学者イルヤ・スツケヴァー(Ilya Sutskever)が設立した新会社SSI(safe superintelligence、セキュリティスーパーインテリジェンス)など、そのライバルを支持してはならないベンチャー企業だ。ニュースによると、マースクはソーシャルメディアで再びウルトラマンに向かった。
OpenAI社の性質転換と発展方向の相違に伴い、企業の役員が持続する大揺れである。
1週間前の9月26日、OpenAI CTO(最高技術責任者)ミラ・ムラティ(Mira Murati)、ボブ・マッグ(BobMcGrew)最高研究責任者、バレット・ゾフ研究副総裁(Barret Zoph)が同時に退職を発表した。数日後の10月2日、OpenAI共同創業者のドゥルク・キンマ(Diederik Kingma)氏がAnthropicへの加入を発表した。同社のグレゴリー・ブロックマン社長(Greg Brockman)は長期休暇中だ。OpenAIの最初の創設メンバー11人のうち、宮斗が復帰したウルトラマンを除いては、言語とコード生成チーム責任者のヴォイチェフ・ザレンバー(Wojciech Zaremba)だけが残っている。
OpenAIの激動の程度を要約するには「多事の秋」が不足しており、「発火」しながら「極速前進」するのがOpenAIの常態であるようだ。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

SOHU 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    22