一日惊艳后翻车?谷歌“双子座”大模型6分钟视频被曝经过了剪辑
长安不良帅
发表于 2023-12-8 20:26:35
227
0
0
在这些演示视频中,最令人称奇的莫过于在一段4分钟的演示视频里,当测试人员进行绘画、变魔术等操作时,双子座可以即时发表观点,和测试人员实时互动,仅看视频中的表现,双子座的理解力甚至达到了人类的水平。
“仅就演示的内容来看,双子座的视频理解能力无疑达到了当前最领先的水平。”北京某大模型的算法工程师在接受新京报贝壳财经记者采访时表示,“这个能力来源于双子座在训练的时候就天然加入了大量的视频数据,并且在架构上就支持视频理解。”
不过,在发布仅一天之后,许多用户在测试中发现,双子座的视频理解能力并不像演示中那样“丝滑”。对此,谷歌很快发布了一篇博客文章解释了演示视频中的多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。此外,也有网友注意到,谷歌在演示视频中有一个重要的免责声明:为了演示效果减少了延迟,双子座的输出也被简化了。
即便如此,在不少专业人士看来,谷歌也终于推出了一款能和OpenAI“过两招”的大模型,作为人工智能的老牌厂商,谷歌“家底”丰厚,双子座也将成为GPT的有力竞争者。
剪辑了哪里?演示视频和实际差多少?
“你看谷歌最新大模型的视频演示了吗?多模态的切换是质变啊,特别是玩游戏地图那里,人都不一定能反应过来。”12月7日,从事网站开发的刘先生给贝壳财经记者发来了一段演示视频。
在这段令众多从业者兴奋的谷歌大模型双子座演示视频中,测试人员拿出了一张纸,双子座立刻回答“你拿出了一张纸”,随着测试人员在纸上绘画曲线、填色,双子座立刻“秒懂”,并随着测试人员的动作继续解说:“你在画曲线,看上去像是一只鸟,是一只鸭子,但蓝色的鸭子并不常见,鸭子大多数是棕色的,中文的鸭子发音是‘yazi’,中文有四种音调。”当测试者把一只蓝色的橡皮鸭子放到世界地图上时,双子座看到立刻说“这只鸭子被放到大海中间了,这里不常有鸭子。”
此后,测试人员又开始使用手势和双子座“互动”,当测试人员摆出了剪刀和布的动作时,双子座就“抢答”说“你在玩石头剪刀布”,之后,双子座还猜出了用手模仿的老鹰和狗的形象。
不过,贝壳财经记者在这段视频中发现了不少剪辑的痕迹,如石头剪刀布中,测试者出拳时的动作明显被剪去了不少。对此,谷歌发布了博客进行了“答疑解惑”:当给出双子座一张“出布”的图片,双子座的回答是“我看到了一只右手,手掌张开五指分开”;当给出“出拳头”的图片,双子座的回答是“一个人在敲门”;当给出“出剪刀”图片时,双子座的回答是“我看到一个食指和中指伸出的手。”只有把这三张图片放到一起,并问“你觉得我在干什么?”时,双子座才会回答“你在玩石头剪刀布”。
所以实际上,虽然双子座的回答依旧是真实的,但实际应用可能并没有演示视频中表现得那样“丝滑”。
来源:谷歌发布的“双子座”演示视频。
多模态能力是怎样“炼成”的?
通过这次演示,许多业界人士也承认谷歌确确实实在追赶OpenAI的过程中迈出了一步。实际上,在ChatGPT出现之前,谷歌一直在人工智能领域处于领先地位,不过,“既生瑜何生亮”, ChatGPT的一骑绝尘让谷歌压力山大,今年2月推出对标ChatGPT的bard但首秀“翻车”后,谷歌一直缺乏一个足够优秀的大模型来提振士气。
而“双子座”出现后,谷歌至少在多模态理解领域上体现出了一定的特色。“双子座是原生的多模态大模型,即其在训练的时候就是多模态的。谷歌在搜索、长视频、在线文档等本来就有强大的生态,另外谷歌显卡多,算力是OpenAI的好几倍,现在是在‘烧家底’来追赶OpenAI。”一位毕业于清华自动化专业的大模型从业者告诉贝壳财经记者。
具体来看,双子座模型包含三个版本:Gemini Ultra(超大杯),规模最大、能力最强的版本;Gemini Pro(大杯),可以适用于广泛的任务;Gemini Nano(中杯),将用于特定的任务以及移动设备。
除了多模态能力外,双子座在文本理解、代码运算等许多方面也表现不俗,在一个MMLU多任务语言理解数据集测试中,Gemini Ultra不光超越了GPT-4,甚至超越了人类专家。贝壳财经记者登录谷歌deepmind官网发现,“见证双子座——我们最有能力的大模型”这句话被放在了首页。
目前,用户可以从谷歌bard的端口进入体验Gemini Pro的能力,但贝壳财经记者测试发现,该能力仅提供给部分地区。通过一些国外网友的测试,用户既可以向双子座输入图片,也可以向双子座输入文本,而根据测试结果,Gemini Pro和同样具有多模态能力的GPT-4V在不少问题的回答上 “各有千秋”,并没有被GTP-4V碾压。
“根据我的观察,目前双子座在文本上的能力还是略逊于GPT4,但谷歌的技术实力仍然属于第一梯队。”上述大模型算法工程师表示。
他告诉贝壳财经记者,要想让大模型拥有理解图像视频声音的“多模态能力”,技术上可以看成把LLaVA (一种多模态预训练模型)的图像理解模块扩充到了视频和语音上,训练的时候额外加入视频、音频数据,“其实就是证明了,双子座第一次将视频和语音理解做进了大模型里面,验证了这两者在大模型上的可行性。”
“总体来说,本次谷歌大模型的发布符合预期,双子座的每个技术点之前都在学术界被验证过,可以找到相应的论文。未来,个人助手是一个很吸引人的场景,相比大语言模型,多模态大模型能够扮演一个能听能看能说能画的助手,更像一个人类了。”这名大模型算法工程师对贝壳财经记者说。
新京报贝壳财经记者罗亦丹
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 一日で驚いて転覆したのか。グーグル「ふたご座」の大模型の6分間の動画がカットされたことが明らかになった
- 谷歌宣布为云客户提供“双子座”Pro版本
- 犹太人做空英镑,血洗东南亚,却在香港"翻车"?手段值得警醒
- 被曝退货!苹果Vision Pro“翻车”?槽点来了
- 频频翻车!邀请外部专家 券商又要被追责
- 未解决垄断担忧 谷歌Cookie淘汰计划再次“翻车”
- 用胶水粘披萨、吃石头获取营养……谷歌的AI产品又“翻车”了 这次还很离谱!背后暴露的是AI行业的“致命”问题
- 美国百年干掉4个“世界第二”,第五个是中国,为何说注定翻车?
- 大媒体“翻车”了,美国消费信心不足:评论区充满嘲讽,为啥?
- 瑞幸翻车!网友吐槽:一大早被当猴耍了
-
量子計算会社は年内に狂った。 現地時間12月17日、米株3大指数は下落した。ダウ平均は9営業日連続で下落し、1978年以来の最長連続下落を記録した。 人気のある株では、テスラとアップルの株価が再び高値を更新した ...
- SOHU
- 前天 21:33
- 支持
- 反对
- 回复
- 收藏
-
12月17日、インタフェースニュースは空腹なのか、空腹なのか、今年8月に全国のオンライン騎手の休憩措置を取ったことを明らかにした。連続走行単時間が長すぎると、小休の要求があり、関連措置は継続的に整備されて ...
- 就放荡不羁就h
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
現地時間12月17日、英偉ダミアン株は2%超下落し、これまで3営業日連続で下落した。
- 不正经的工程师
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
【人気の中概株米株盤の前の上昇と下落は互いに理想的な自動車の上昇と2%以上】人気の中概株米株盤の前の上昇と下落は互いに現れ、理想的な自動車の上昇は2%以上、ピシャリと下落は1%以上である。 ...
- 内托体头
- 前天 18:30
- 支持
- 反对
- 回复
- 收藏