国内开发者看谷歌Gemini : 虽陷“造假”争议，但它找到了超越OpenAI之路

　　距离谷歌推出自己的最强大模型Gemini已将近一周时间，不少国内AI公司都在试图探究，这款大模型到底具有多大的威力。

　　和此前业内推出的很多大模型不同，谷歌Gemini此次绕开了文字环节，直接靠视觉和声音来理解世界，尽管其现场演示demo曾涉嫌造假和过分夸大能力。
　　Gemini的演示视频让大量用户误以为Gemini能实时读取视频信息，进而通过理解回答用户问题，但实际上，谷歌员工是通过提示词才让Gemini生成了这些回复。图源：谷歌
　　为了了解Gemini的出现会对OpenAI以及其他AI公司产生何种影响，界面新闻近日走访了多家头部生成式AI公司的业务负责人及开发者，他们认为Gemini的最大特色便是“原生”的多模态大模型。
　　“理论上说，原生多模态比‘拼接’多模态大模型效果更好，因为后者在训练阶段极易遇到瓶颈。”循环智能的AI负责人陈虞君告诉界面新闻记者，由于目前还未深度使用过，Gemini的实际优势有待进一步了解。
　　多位大模型初创开发人员表示，即便Gemini系列最大尺寸的Ultra尚未正式推出，Gemini已经在文本方面展示出和GPT-4同水准的能力。
　　在谷歌官方释出的基准测试集中，Gemini Ultra在大部分文本测试中的表现都优于GPT-4，在几乎全部多模态任务测试中的表现都优于GPT-4v。如果以GPT-4的测试条件为基准，Gemini Ultra在MMLU上的表现弱于GPT-4，但仍然优于其他主流大模型。图源：Gemini Technical Report 中信建投研报
　　在Gemini的演示视频中，这个大模型仿佛可以实时观察人类的行为，并给予反馈，例如可以完美描述出一只鸭子从草图到填色的过程；可在换杯游戏中追踪纸团，辅助进行数学、物理的解题；能够辨别手势，做课堂动手类游戏互动，还可以重新排列行星草图。　　
　　开发者们普遍认为，无论造假成分几何，Gemini已经展现出较强的理解、推理、创作和实时互动能力，实现了对OpenAI多模态模型GPT-4v的全面超越。谷歌的回应也基本被业界所接受，“所有用户提示和输出都是真实的，只是为了简洁起见进行了缩短。”
　　三个月前OpenAI低调发布的GPT-4v能做多模态任务，例如理解和图像生成，但效果并不太好，并且，其关键的推理能力是和其他模型配合完成。而抽象推理能力本身，是大模型最为关键的能力。
　　图源：中信建投
　　尹伯昊对界面新闻解释称，GPT-4v和Gemini是基于两种完全不同的训练逻辑，“GPT-4v它是一个近视眼，看东西不清楚，因此性能也不好，是典型的外挂式方案。Gemini则是把多个模态混合在一起训练。”
　　但在一位多模态大模型公司算法负责人看来，Gemini应该还没有全面超越GPT-4，“在评测时，GPT-4和Gemini在文本生成上没有完全形成公平对比。”
　　另有不少网友实测表示，Gemini Pro在以图搜物和精准搜图方面的能力吊打了GPT-4。对于这一情况，追一科技刘云峰认为，谷歌的搜索业务天然具有文字和其他模态对齐的数据，确实更利于训练原生多模态大模型。
　　Gemini能够正确识别学生手写答案并验证物理问题的推理过程，图源：Gemini Technical Report
　　谷歌在人工智能领域的任何大动作都会解锁市场的新兴探索方向，但在Gemini发布之前，AI模型全面多模态化趋势已日渐明朗。
　　早在3月GPT-4发布之初，OpenAI就表示将在该次迭代中加入多模态整合。9月开始，Runway、 Midjourney、Adobe和Stability AI等明星公司陆续有多款多模态产品问世。
　　国内方面，百度的文心大模型4.0在跨模态文生图领域有明显进展，国内公开融资最高的大模型初创智谱AI，其生成式AI助手智谱清言在视觉领域颇具优势。
　　多位开发者都告诉界面新闻，多模态大模型是行业内公认的明确发展方向，不会因为谷歌的大动作而“幡然醒悟”，但Gemini的到来会刺激国内公司加速研发。前述多模态大模型公司算法负责人也指出了Gemini的局限性，“其在图像生成上的能力以及视频生成、图像生成上面的参考意义有限。”
　　就目前来看，还很难得出Gemini全面超越GPT-4的结论，但谷歌成为OpenAI的最强对手已是不争的事实。其也用Gemini证明了一个道理：任何多模态大模型都必须依赖大语言模型的训练过程，才能实现真正的多模态AI。

浏览过的版块