国内开发者看谷歌Gemini : 虽陷“造假”争议,但它找到了超越OpenAI之路
从军行老大屹
发表于 2023-12-13 11:05:09
1241
0
0
和此前业内推出的很多大模型不同,谷歌Gemini此次绕开了文字环节,直接靠视觉和声音来理解世界,尽管其现场演示demo曾涉嫌造假和过分夸大能力。
Gemini的演示视频让大量用户误以为Gemini能实时读取视频信息,进而通过理解回答用户问题,但实际上,谷歌员工是通过提示词才让Gemini生成了这些回复。图源:谷歌
为了了解Gemini的出现会对OpenAI以及其他AI公司产生何种影响,界面新闻近日走访了多家头部生成式AI公司的业务负责人及开发者,他们认为Gemini的最大特色便是“原生”的多模态大模型。
“理论上说,原生多模态比‘拼接’多模态大模型效果更好,因为后者在训练阶段极易遇到瓶颈。”循环智能的AI负责人陈虞君告诉界面新闻记者,由于目前还未深度使用过,Gemini的实际优势有待进一步了解。
多位大模型初创开发人员表示,即便Gemini系列最大尺寸的Ultra尚未正式推出,Gemini已经在文本方面展示出和GPT-4同水准的能力。
在谷歌官方释出的基准测试集中,Gemini Ultra在大部分文本测试中的表现都优于GPT-4,在几乎全部多模态任务测试中的表现都优于GPT-4v。如果以GPT-4的测试条件为基准,Gemini Ultra在MMLU上的表现弱于GPT-4,但仍然优于其他主流大模型。图源:Gemini Technical Report 中信建投研报
在Gemini的演示视频中,这个大模型仿佛可以实时观察人类的行为,并给予反馈,例如可以完美描述出一只鸭子从草图到填色的过程;可在换杯游戏中追踪纸团,辅助进行数学、物理的解题;能够辨别手势,做课堂动手类游戏互动,还可以重新排列行星草图。
开发者们普遍认为,无论造假成分几何,Gemini已经展现出较强的理解、推理、创作和实时互动能力,实现了对OpenAI多模态模型GPT-4v的全面超越。谷歌的回应也基本被业界所接受,“所有用户提示和输出都是真实的,只是为了简洁起见进行了缩短。”
三个月前OpenAI低调发布的GPT-4v能做多模态任务,例如理解和图像生成,但效果并不太好,并且,其关键的推理能力是和其他模型配合完成。而抽象推理能力本身,是大模型最为关键的能力。
图源:中信建投
尹伯昊对界面新闻解释称,GPT-4v和Gemini是基于两种完全不同的训练逻辑,“GPT-4v它是一个近视眼,看东西不清楚,因此性能也不好,是典型的外挂式方案。Gemini则是把多个模态混合在一起训练。”
但在一位多模态大模型公司算法负责人看来,Gemini应该还没有全面超越GPT-4,“在评测时,GPT-4和Gemini在文本生成上没有完全形成公平对比。”
另有不少网友实测表示,Gemini Pro在以图搜物和精准搜图方面的能力吊打了GPT-4。对于这一情况,追一科技刘云峰认为,谷歌的搜索业务天然具有文字和其他模态对齐的数据,确实更利于训练原生多模态大模型。
Gemini能够正确识别学生手写答案并验证物理问题的推理过程,图源:Gemini Technical Report
谷歌在人工智能领域的任何大动作都会解锁市场的新兴探索方向,但在Gemini发布之前,AI模型全面多模态化趋势已日渐明朗。
早在3月GPT-4发布之初,OpenAI就表示将在该次迭代中加入多模态整合。9月开始,Runway、 Midjourney、Adobe和Stability AI等明星公司陆续有多款多模态产品问世。
国内方面,百度的文心大模型4.0在跨模态文生图领域有明显进展,国内公开融资最高的大模型初创智谱AI,其生成式AI助手智谱清言在视觉领域颇具优势。
多位开发者都告诉界面新闻,多模态大模型是行业内公认的明确发展方向,不会因为谷歌的大动作而“幡然醒悟”,但Gemini的到来会刺激国内公司加速研发。前述多模态大模型公司算法负责人也指出了Gemini的局限性,“其在图像生成上的能力以及视频生成、图像生成上面的参考意义有限。”
就目前来看,还很难得出Gemini全面超越GPT-4的结论,但谷歌成为OpenAI的最强对手已是不争的事实。其也用Gemini证明了一个道理:任何多模态大模型都必须依赖大语言模型的训练过程,才能实现真正的多模态AI。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 谷歌回应“或遭美司法部勒令出售Chrome”:将伤害消费者、开发者和美国的技术领导地位
- 苹果回应国内“苹果税”争议:95%的开发者收入未被抽成?
- 斗鱼转型之路:稳住基本盘,迈向多元化未来
- 比特币“狂飙之路”远未结束?华尔街分析师:两年内涨至22.5万美元!
- 1个比特币≥10万美元!一图复盘比特币价格飞升之路
- 美联储降息之路受阻?高盛:特朗普关税提议将大幅推高美国通胀
- 科技周报|英伟达销售额接近翻番,苹果公布开发者收入
- 欧洲石油巨头转型之路困难重重 纷纷缩减电力业务
- 取消90%国家税收!阿根廷总统改革之路才刚刚起步
- OpenAI王炸新一波:向开发者开放满血o1 测试中全面超越人类博士专家 准确率达到78.3%
-
生成式人工知能(AI)が巻き起こす技術の波の中で、電力会社は意外にも資本市場の寵児になった。 今年のスタンダード500割株の上昇幅ランキングでは、Vistraなどの従来の電力会社が注目を集め、株価が2倍になってリ ...
- xifangczy
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
隔夜株式市場 世界の主要指数は金曜日に多くが下落し、最新のインフレデータが減速の兆しを示したおかげで、米株3大指数は大幅に回復し、いずれも1%超上昇した。 金曜日に発表されたデータによると、米国の11月のPC ...
- SNT
- 前天 12:48
- 支持
- 反对
- 回复
- 收藏
-
長年にわたって、昔の消金大手の捷信消金の再編がようやく地に着いた。 天津銀行の発表によると、同行は京東傘下の2社、対外貿易信託などと捷信消金再編に参加する。再編が完了すると、京東の持ち株比率は65%に達し ...
- SNT
- 前天 12:09
- 支持
- 反对
- 回复
- 收藏
-
グーグルは現地時間12月19日、新しい「推理」モデルとしてGemini 2.0 Flash Thinkingを発売すると発表した。紹介によると、このモデルはまだ実験段階であり、訓練を経た後、モデルが反応を起こした時に経験した「思 ...
- 地下水
- 3 天前
- 支持
- 反对
- 回复
- 收藏