谷歌王者归来？最新推出的大模型到底有多强能否挑战GPT-4

　　科技巨头谷歌推出了造势已久的新大模型，可以在移动手机上运行，并大幅降低计算成本。
　　当地时间12月6日，谷歌公司宣布推出“最大、最强、最通用”的新大型语言模型Gemini。Gemini将是首个直接在手机上运行的大模型，被应用于谷歌Pixel 8 Pro智能手机和聊天机器人Bard。谷歌计划通过谷歌云将Gemini授权给客户，并将在未来几个月与谷歌服务中的其他产品集成。
　　谷歌曾经发明了许多使生成式AI应用成为可能的计算机科学概念，却因OpenAI在去年发布的聊天机器人ChatGPT而一度处于被动地位。面对OpenAI和谷歌最大竞争对手之一微软携手带来的威胁，谷歌在今年9月推出了自己的聊天机器人Bard。不久后，OpenAI又发布了一款更强大的AI软件GPT-4，成为了AI领域的一大衡量基准。现在，作为对GPT-4的回应，谷歌推出了Gemini。
　　“谷歌找到了AI竞赛中应有的地位”
　　谷歌DeepMind首席执行官、Gemini团队代表德米斯·哈萨比斯（Demis Hassabis）在发布会上表示，谷歌运行了32个完善的多模态基准测试来比较Gemini和OpenAI的GPT-4，Gemini“在32项基准测试的30项中大幅领先”。
　　据谷歌介绍，在训练后期，Gemini在各类任务上都表现优异。例如，MMLU（大规模多任务语言理解）是测试AI模型知识和问题解决能力的最流行方法之一，而Gemini首次在MMLU的得分率达到90.0%，是第一个在MMLU测试中超过人类专家的模型。
　　Gemini在MMLU的得分率首次超过人类专家。来源：官方视频
　　Gemini包括一套三种不同规模的模型：Gemini Ultra是最大、功能最强大的类别，被定位为GPT-4的竞争对手；Gemini Pro是一款中端型号，性能优于GPT-3.5，可扩展多种任务；Gemini Nano用于特定任务和移动设备。
　　其中，Gemini Nano将被搭载在谷歌Pixel系列最新的Pixel 8 Pro智能手机上，可以支持录音应用中的“总结”等新功能，并在谷歌键盘输入法Gboard中推出“智能回复”功能。据外媒报道，谷歌表示，Gemini Nano将在设备上“本地运行”，并且该模型为移动设备特别优化，因此安卓开发人员可以轻松构建支持离线工作或使用保留在设备上的个人信息的AI应用程序和功能。
　　有分析指出，这一进展有助于解决技术领域的一大经济问题。利用移动手机的算力来运行生成式AI，而不是通过由大型科技公司运营的云端服务器，这将大大降低运营这类系统的成本。对于那些希望将私人数据限制在设备上的人来说，这也提供了一层保障。此前，三星电子曾在11月公开展示旗下首款生成式AI模型“高斯”（Gauss），但其仅限在内部员工中使用，有望在明年上半年搭载于Galaxy S24系列手机。
　　谷歌母公司Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）在一篇博客文章中写道：“我相信，我们正在见证的AI转变将是我们一生中最深刻的，比之前移动技术或互联网的转变要大得多。这一新时代的模型代表着我们公司所进行的最大规模的科学和工程努力之一。”
　　在Gemini发布前夕，皮查伊曾在采访中表示，Gemini令人瞩目的一大原因是它从根本上是一个多模态模型，并称向AI的转变非常深刻，现在还处于早期阶段，前方充满了无限的机会：“当我们研发Gemini时，运用了很多此前的经验。我们花费了更多时间研发 Gemini Ultra，部分原因是为了对其进行严格的安全测试。同时，我们也在对其进行微调，以充分发挥其潜能。”
　　在X（原推特）平台上，埃隆·马斯克（Elon Musk）也在皮查伊发布的Gemini介绍文章下评论道：“令人印象深刻。”马斯克还回应了哈萨比斯的一条帖子、向他表示祝贺，并赞同了SpaceX创始员工汤姆·穆勒（Tom Mueller）对于Gemini的评论，这条评论写道：“我知道很难定义AGI（通用人工智能）是什么，但无论它是什么，它都比你想象的更近。”
　　据谷歌介绍，作为包括Google Research在内的Google各团队共同的合作成果，Gemini能够通过阅读、过滤以及理解信息来从数十万份文件中提取见解，还能很好地理解数字。例如，给Gemini导入一张数据图和新的数据，Gemini可以给出这张数据图背后的代码，并生成导入了新数据的数据图。
　　Gemini通过左图和新数据生成右图。来源：官方视频
　　除了文字之外，Gemini还可以理解多种形式的输入和输出，包括文字、代码、音频、图片和视频。Gemini能很好地理解具有细微差别的信息，回答与复杂主题相关的问题，这就使其尤其擅长解释数学和物理等复杂科目中的推理。
　　Gemini能够根据照片按步骤讲题。来源：官方视频
　　谷歌还发布了一个时长六分钟的视频，展现了测试员和Gemini的一些有趣互动，其中包括让Gemini识别图片并用多种语言描述、让Gemini利用一张地图设计智力问答、和Gemini玩杯子游戏和推理小游戏等等。
　　在整个过程中，Gemini的反应速度都非常快，还会生成音频和图片来辅助回答，并用上一些口语化乃至幽默化的表达，可谓是让人大开眼界。在评论区，网友们纷纷称该视频“令人震惊”，庆祝谷歌终于在AI竞赛中回到自己应有的地位。
　　Gemini根据两团毛线给出可以制作的动物造型。来源：官方视频
　　被问到鸭子应该往哪边走，Gemini表示应该去有同伴的左边。来源：官方视频
　　而在编码方面，Gemini也能够理解、解释和生成使用世界上最流行的编程语言写出的高质量代码，包括Python、Java、C++和Go，能够跨语言工作并对复杂信息进行推理，还可用作更高级编码系统的引擎。
　　从12月13日开始，开发者和企业客户将可以通过谷歌AI Studio或谷歌Cloud Vertex AI中的Gemini API（应用程序编程接口）来访问Gemini Pro，安卓开发人员将可以使用Gemini Nano进行构建。
　　Gemini将为谷歌聊天机器人Bard带来其自发布以来最大的更新。谷歌宣布，从发布会当天开始，Bard将使用Gemini Pro来实现高级推理、规划、理解和其他功能，在170多个国家和地区提供英语服务，并且谷歌计划在未来几个月内扩展不同的模态、支持新的语言和地区。在明年年初，谷歌将推出Bard Advanced，其将使用Gemini Ultra。
　　不过，由于监管方面的原因，搭载Gemini技术的Bard将不会在欧盟国家和英国提供。谷歌的副总裁、Bard项目负责人萧茜茜（Sissie Hsiao）表示：“我们绝对会努力解决这个问题，并且正在与当地监管机构展开合作……以确保我们在任何特定地区推出该服务之前与相关方进行充分沟通。”
　　宣传视频夸大？
　　不过，在Gemini推出后不久，就有网友指出了宣传资料中的一些不妥之处。
　　在谷歌发布的60页技术报告中显示，在MMLU测试中，Gemini的结果下面有写着“CoT@32”的小字注释，表示其使用了思维链提示技巧，尝试了32次并从中选择最好结果。而作为对比的GPT-4却是无提示词技巧给5个示例，在这个标准下，Gemini Ultra的测试结果其实是83.7%，低于GPT-4的86.4%。
　　以及，在显示MMLU测试成绩比较的图中，Gemini 90.0%的测试结果与人类专家89.8%的成绩其实只差了一点，却被拉开了很远。
　　HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图，下面两个数据分别是在无提示词技巧给5个示例时，GPT-4（左）和Gemini（右）的成绩。来源：X
　　随后，谷歌DeepMind首席科学家杰夫·迪恩（Jeff Dean）在X平台上的一处讨论中对这个质疑作出了回应，写道：“我们报道了这两种方法。我们认为让社区看到我们新开发的CoT方法、并了解它与其他方法的不同是很有趣的。”
　　而对于那段精彩的互动演示视频，也有人从开篇的文字免责声明中发现了问题。机器学习讲师圣地亚哥·瓦尔达拉玛（Santiago Valdarrama）认为，声明可能暗示了视频中展示的是精心挑选的好结果，不是实时录制，而经过剪辑的。在声明中，谷歌写道：“我们一直在拍摄视频素材，在各种挑战上进行测试，向它（Gemini）展示一系列图像，并要求它推理出所看到的内容。”
　　演示视频开头的免责声明。来源：官方视频
　　随后，谷歌在一篇博客文章中解释了多模态交互过程，基本上也间接承认了只有使用静态图片和多段提示词拼凑，才能达成演示视频中的效果。例如，在视频中，向Gemini轮流展示拳头、剪刀手和张开的手掌，Gemini能立刻得出这是在玩猜拳游戏的结论。而在文章中，谷歌承认，只有在向Gemini同时展示这三个手势并提示其这是游戏时，Gemini才会得出猜拳游戏的结论。
　　当然，就算存在宣传方面的一些夸大，Gemini的性能依然不可小觑。
　　科技巨头竞赛，谁能胜出？
　　今年以来，各大科技巨头都在AI领域动作连连，各出奇招。
　　其中，谷歌的最大竞争对手之一微软尤为突出。今年2月，微软为旗下搜索引擎必应（Bing）植入了聊天机器人Bing AI。一个月后，微软又推出了Microsoft 365 Copilot，将大语言模型GPT-4的能力引入Office办公软件中。另外，为了帮助微软保持在办公工具中引入AI的先行优势，Microsoft 365 Copilot企业版于11月1日正式上市，每月订阅费用为30美元。一个多月前，微软宣布，AI助手Copilot将被正式接入Windows 11。
　　而在11月的首届开发者大会上，OpenAI也推出了可支持高达1.28万tokens的新模型GPT-4 Turbo，以及聊天机器人ChatGPT的一系列升级内容，包括自定义GPT。其中，Turbo支持1.28万tokens的上下文对话长度，具有视觉输入能力，和文生图模型DALL·E 3以及新的声音合成模型（TTS）一同进入多模态API。
　　多年以来，Facebook母公司Meta也一直是AI领域的积极参与者。今年7月，Meta宣布旗下作为GPT4竞争对手的大模型Llama 2正式开源，任何人都将其可以免费下载、修改并添加到自己的产品中。这一方法赢得了一些科技初创公司的赞誉，他们担心谷歌、微软和OpenAI会试图垄断AI市场，排挤掉任何竞争对手。但Meta的举措也因为让人们更容易运用AI技术作恶而受到批评，例如设计计算机病毒、生成声音或图像来实施诈骗等。
　　向来被认为在AI竞赛中落后的电商巨头亚马逊也开始加速。在上一周的2023 re:Invent全球大会上，亚马逊云科技（AWS）推出了名为“Amazon Q ”的生成式AI助手，可以“轻松聊天、生成内容和采取行动”。Amazon Q将专注于工作场所，而不是面向消费者。未来，亚马逊将向企业用户收取每月订阅费用20美元，而为开发和IT人员提供的版本每月订阅费用为25美元。

谷歌王者归来？最新推出的大模型到底有多强 能否挑战GPT-4