解锁AI的3D叙事 李飞飞、谷歌先行一步
海田1
发表于 6 天前
116
0
0
12月5日,谷歌DeepMind放出了新一代世界模型Genie 2,可以“一张图生成1分钟游戏3D世界”,网友惊呼“黑客帝国来了”。
就在两天之前,“AI教母”李飞飞的World Labs刚官宣了“空间智能”模型,支持“一张图生成一个3D世界”。
这是继Sora之后,对世界模型的又一次讨论热潮。从文本到图像,再到视频和可交互的3D世界,AIGC总体上有了重大飞跃。
对于产业端来说,创造性设计类工作和交互式体验工作流,都迎来了强大助力。世界模型可以为Agent训练、具身智能训练、复杂的动画制作、游戏制作、物理学建模等领域,提供无限多样、可操控的3D环境。
也有产业人士表示,世界模型的进展,意味着终极AGI(通用人工智能)又近了一步。
谷歌拓展通向AGI的广度
Genie 2是谷歌第二代世界模型,给定一张图像,就能生成一个通过键盘和鼠标输入的、可操作的3D环境。
图像中的角色,可以被键盘识别并响应智能操作。
同一个起始帧,可以生成不同的运动轨迹。
Genie 2前后记忆具有一致性,周围场景即便不可见时,也不会发生扭曲。
可贵的是,Genie 2可以根据画面实时生成新场景,最长可达一分钟。
这样的界面,和游戏有共通之处。
“游戏在人工智能研究领域发挥着关键作用。它们引人入胜的画质、独特的挑战组合和可衡量的进步,成为安全测试和推进AI功能的理想环境。”谷歌方面坦陈:“事实上,游戏对谷歌DeepMind一直很重要,也是谷歌训练Agent的重要途径。”
但是对具身智能的训练,行业是遇到了瓶颈的。
足够丰富和多样化的训练环境,才能促进具身智能的实际进步。21世纪经济报道记者从人形机器人产业人士处获知,当前,泛化能力是人形机器人的一大痛点。
Genie 2有望帮助具身智能解决训练瓶颈。
交互功能上,Genie 2可以对交互关系进行建模,例如爆破气球、打开门和射击炸药桶等。
这使得制作多样化交互场景简单了许多。利用Genie 2快速构建的各种交互式体验原型,研究人员能够快速用新环境来训练和测试具身智能AI。
例如,使用Imagen 3生成的不同图像提示Genie 2对纸飞机、龙、鹰或降落伞飞行之间的区别进行建模,并测试Genie控制不同对象时的能力。
也就是说,AI智能体可以在世界模型里,获得近乎无限的训练场景和交互体系。
虽然这项研究还处于早期阶段,但谷歌研究人员认为,Genie 2是解决安全训练具身智能结构性问题的有效路径,解锁具身智能的下一波能力,也能够实现迈向AGI所需的广度和通用性。
李飞飞兑现空间智能设想
World Labs是著名AI学者、华裔科学家李飞飞的第一个创业项目,成立于2024年1月,公司创立半年时,估值已超10亿美元。
这是一家空间智能公司,致力于构建能够感知、生成并与3D世界互动的大型世界模型,计划为用户生成可操控其中变量的虚拟3D空间,并允许人们“创建自己的3D世界”。World Labs指出,其软件将对包括艺术家、设计师、开发人员和工程师在内的各类从业者有所帮助。
12月3日,World Labs交出了1.0版本作业。
由单张图像可以生成3D世界,用户可以实质意义上“走进”任何图像,并在3D中探索。
该工具还配备了可操控的滑块,来调节模拟景深与模拟推拉变焦,支持调整摄像机的位置和视野、更改对象颜色,创建聚光灯特效、自动运行的动态效果等交互方式,丰富了视觉体验和更强的操控感。
与Genie 2一样,World Labs的空间智能模型也可以保证3D世界的一致性,场景更加持久,一旦生成便会一直存在;用户可以实时控制、实时移动场景,能够仔细观察场景中的细节。
世界模型遵循3D几何的基本物理规则,兼具真实感和深度感,有效提升了内容的操控性和一致性,改变了电影、游戏、模拟器以及物理世界其他数字呈现形式的制作方式。
英伟达高级研究科学家Jim Fan评价说:“GenAI正在创造越来越高维度的人类体验快照。Stable Diffusion是2D快照;Sora是2D+时间维度的快照;而World Labs是3D、完全沉浸式的快照。”
目前,Worldlabs对公众开放了候补名单申请,部分创作者已经可以将这个AI工具整合到现有的工作流程中。
在影视制作领域,AI的3D叙事能力将大大提高内容创作的效率和质量,降低制作成本。创作者可以更快速地生成虚拟场景和角色,通过AI生成的3D世界来构建更加丰富多样的故事背景,为观众带来全新的视觉体验。
例如,在拍摄前利用Worldlabs技术生成虚拟的拍摄场景,帮助导演和摄影师更好地规划镜头和场景布置,提高拍摄效率和准确性。
对于游戏行业,3D生成将为游戏开发带来更多可能性。开发者可以利用AI生成更加逼真、细腻的游戏场景和角色,提升游戏的沉浸感。
在教育领域,大模型生成的3D内容可以创建更加生动、直观的教学场景,增加科学、历史等学科的体验感。
李飞飞认为,“空间智能”是AI拼图的关键一环。她今年4月份在TED演讲中曾称:“视觉变成了洞察力;洞察力变成了理解力;理解力推动了行动。所有这些都产生了智能。”
Genie 2和Worldlabs所代表的空间智能领域,是AI技术发展的一个重要新方向。它突破了传统AI在二维平面上的局限,将AI的感知和理解能力拓展到了三维空间,更直观,也更趋近于交互本质。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- “AI+教育”终于让网易有道赚钱了
- COP29边会|为净零未来解锁资金,全球政策制定者、金融机构和私营部门需加强合作
- Unlocking AI's 3D Narrative: Li Feifei and Google Take the Lead
- AIをロック解除する3 Dバラードの李飛飛氏、グーグルが一足先に
- AI 잠금 해제한 3D 서사 이비비, 구글 한발 앞서
- 亚马逊追加40亿美元投资Anthropic AI竞赛再升级
- 亚马逊放大招:AI支持,全球开店
- Amazon's Big Shot: AI Support, Global Store Opening
- アマゾン拡大策:AIサポート、グローバル出店
- 아마존 확대 모집: AI 지원, 전 세계 개점
-
10月末に2800ドルのマイルストーンを突破した後、国際金価格は短い調整を経た。 11日のニューヨーク商品取引所で来年2月に引き渡されたCOMEX金先物は1.5%近く上昇し、2750ドルの関門を再び奪還し、最新のインフレデ ...
- 什么大师特
- 10 小时前
- 支持
- 反对
- 回复
- 收藏
-
米大統領選後の株式市場の上昇は年末まで続いており、ウォール街の大物たちが叫んだ来年の目標価格も年々上昇しているが、上昇を追う際にはすべての慎重さを捨ててはならないと警告するアナリストも少なくない。 一 ...
- SOHU
- 昨天 11:47
- 支持
- 反对
- 回复
- 收藏
-
12月10日夜、米株が取引を開始し、市場の注目はグーグルに集中し、終値までにグーグルA(GOOGL)は5.59%上昇し、185.17ドルだった。その時価総額は一夜にして1120億ドル(約8120億元)も大幅に増加した。 情報面で ...
- 内托体头
- 昨天 11:15
- 支持
- 反对
- 回复
- 收藏
-
①北京時間の今夜21時30分に発表された米国の11月CPIデータを、「2024年最後の重量級の米国経済指標」にたとえても、誇張ではないようだ。②FRBが来週12月の金利決定会合を開催するにあたり、今晩のCPIもFRBが金利 ...
- 不正经的工程师
- 昨天 10:29
- 支持
- 反对
- 回复
- 收藏