首页 美股新闻 正文
  谷歌DeepMind近日公布了一项利用AI为无声视频生成背景音乐的“video-to-audio”技术。

  当前DeepMind 这款AI模型依然存在局限性,需要开发者使用提示词为模型预先“介绍”视频可能的声音,暂时不能直接根据视频画面添加具体音效。
  据悉,该模型首先会将用户输入的视频进行拆解,此后结合用户的用户文字提示,利用扩散模型反复运算,最终以生成与视频画面协调的背景声音,例如输入一条“在黑暗中行走”的无声视频,再添加“电影、恐怖片、音乐、紧张、混凝土上的脚步声”等文字提示,相关模型就能生成恐怖风格的背景音效。
  DeepMind同时表示,该“video-to-audio”模型可以为任何视频生成无限数量的音轨,还能够通过提示词内容判断生成的音频“正向性”或“反向性”,从而令生成的声音更贴近某些特定场景。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

稀土掘金 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    32