“精彩大戏”拉开帷幕：谷歌推出一系列AI产品追击OpenAI

　　本周的AI竞赛注定是一场不容错过的精彩大戏。

　　赶在竞争对手谷歌之前，OpenAI周二发布了更快、更类似人类的ChatGPT-4o大模型，让无数人感叹是否科幻电影中的情节已渐行渐近。但谷歌也不甘落后，在北京时间周三凌晨举办的年度开发者I/O大会上推出了一系列AI产品。
　　从新的AI搜索功能、人工智能体到文生视频模型，谷歌的加入让新一轮AI竞争进一步白热化。
　　谷歌I/O大会每年5月都在其总部所在地举行，旨在介绍最新的产品和技术。AI毫无疑问是这届活动的关键词。在谷歌首席执行官Sundar Pichai的演讲过程中，“人工智能”一词就被提及了121次，这一数字是由谷歌的AI大模型Gemini统计得到的。
　　市场研究机构eMarketer的分析师Jacob Bourne表示，“通过展示其最新模型及如何为现有产品提供强大的消费者影响力，谷歌正在表现如何有效地将自己与竞争对手区分开来。为了保持竞争优势并让投资者满意，谷歌需要专注于将AI创新成果大规模转化为可盈利的产品和服务。”
　　具备AI功能的谷歌搜索
　　首先，与其等待被别人革命，谷歌这次想要自己先发动对自己的革命。
　　比起OpenAI前段时间一连串关于AI搜索页面的烟雾弹，谷歌这次真的将AI融入了其核心产品搜索引擎中。
　　在搜索页面中，谷歌向用户展示了由AI生成的答案，将其称之为“AI概述”。这是在Gemini模型驱动下得到的，会与传统的基于链接的搜索结果一起出现。
　　据谷歌介绍，AI概述是为了响应较复杂的搜索，帮助用户寻求解决方案。例如当人们搜索素食准备或出行计划时，AI提供的答案会出现在搜索页面顶部，包括及可以了解更多信息的链接。用户还可以调整AI概述的详细程度，使其更为简洁或细致。
　　谷歌还提升了搜索的视觉功能，支持通过视频提出问题。在I/O大会上，谷歌演示了当面对一台唱头滑落、无法正常使用的唱片机时，只需将手机镜头对准它，就能通过新搜索得到包括修理步骤和资源在内的AI概述。
　　谷歌搜索负责人Liz Reid表示，“我们从生成式AI中看到的是，谷歌可以为你做更多的搜索工作。它可以为你分担搜索过程中的大量繁重工作，这样你就可以专注于你想做的事情，或者是你觉得令人兴奋的探索部分。”
　　升级后的搜索计划于当地时间周二在美国上线，之后再扩展至其他市场。Liz Reid称，预计到今年年底，AI概述将面向超过十亿人。
　　谷歌是全球搜索引擎的霸主，长期占据90%以上的市场份额，但近年来面临着ChatGPT等AI产品的威胁。多家媒体此前报道称，OpenAI计划发布一款搜索产品，与谷歌展开正面竞争。但OpenAI首席执行官Sam Altman否认了将于这周发布搜索引擎的说法，并推出了GPT-4o。而AI搜索初创公司Perplexity在新一轮融资中筹集到6300万美元，推动公司估值超过10亿美元，在三个月内翻了一倍。
　　但谷歌的搜索基础仍不容小觑。在I/O大会上，该公司表示谷歌在过去二十年里一直是搜索的代名词，而现在借助AI模型Gemini的技术，谷歌搜索将变得更加强大。
　　具备视觉记忆的人工智能体
　　像是在回击OpenAI发布的结合文本、视觉和音频模式的GPT-4o，谷歌还预览了仍在开发中的AI助手Project Astra，称其是具有“高级视觉和说话响应的智能体”。
　　在视频演示中，Project Astra可以与谷歌员工进行语音交互，通过手机摄像头识别为止，并理解计算机代码。令关注者感到惊奇的是，该项目还具备视觉记忆。在带着Project Astra在房间里绕了一圈后，当用户提出“我把眼镜放在哪了”的时候，尽管之前没有被询问到这一问题，智能体还是能够回答出眼镜的位置。
　　谷歌DeepMind部门的首席执行官Demis Hassabis表示，他们一直希望能够开发对日常生活有帮助的通用人工智能体。为了真正发挥作用，智能体需要像人类一样理解和响应复杂且动态的世界，可以与用户自然地交谈，没有滞后或延迟。但将响应时间缩短为对话式的内容是一项艰巨的挑战。
　　而在前一天推出GPT-4o时，OpenAI介绍该模型响应音频输入的平均时间在320毫米，最短可达232毫秒，这与人类在谈话中的响应时间相似。用户能够与ChatGPT进行更像真人的实时对话。尽管在演示过程中，ChatGPT回复的音频会不时出现卡顿。
　　谷歌的Gemini模型也迎来了一系列更新。2月份公布的Gemini 1.5 Pro得到了升级，新版本的上下文长度由100万Tokens扩大到200万，能够处理更多数据。谷歌介绍称，这相当于能够同时处理2小时的视频、22小时的音频、超过60,000行代码或超过140万个单词，处理量远超其他竞争对手。
　　此外，谷歌还推出了新的Gemini 1.5 Flash模型，称这是目前通过其API提供的最快的AI模型。Gemini 1.5 Flash专为较小的任务设计，例如快速总结对话、为图像或视频添加字幕或从文档中提取数据。
　　谷歌提出，Gemini最终会取代Android手机上的Google Assistant。这或许会在之后与苹果的AI助理Siri形成竞争。
　　但目前各大巨头的AI博弈格局仍未清晰。
　　苹果此前被传可能把谷歌的Gemini引入即将推出的iPhone操作系统iOS18中。但据彭博社报道，苹果已接近与OpenAI达成协议，正在敲定在iOS18中应用ChatGPT功能的具体条款。
　　狙击Sora的文生视频模型
　　OpenAI在今年2月发布文生视频模型Sora，引发市场轰动。三个月后，谷歌终于发布类似的模型Veo以正面迎战。
　　据谷歌介绍，Veo能够根据文本提示，创建超过一分钟、分辨率最高达1080P的高质量视频。而Sora能支持生成的视频时长为一分钟。
　　目前仅有一些创作者能够预览Veo。谷歌计划之后将Veo的部分功能引入到旗下的视频平台YouTube Shorts和其他产品中。
　　OpenAI目前仍未向公众开放Sora的使用权限，只有部分专业用户能够使用。而据媒体此前报道，一些尝试着使用Sora制作视频的团队反馈称，AI从文本一键生成理想中的视频依然只是美好的想象。在分镜、调色、特效等制作过程中，团队需要大量的人工来指导AI。
　　文生视频大模型这一赛道的热度还在不断攀升。4月底，生数科技联合清华大学发布了国内首个长时长文生视频大模型Vidu。生数科技首席科学家朱军介绍称，Vidu可以一次性生成16秒的视频，目前国内已有视频大模型的生成视频大多在4秒左右。在视频呈现效果上不输Sora，且更能理解中国元素。
　　相比起OpenAI和微软，谷歌虽然目前在AI竞赛上慢了一步，且策略相对保守，但谷歌在训练数据量方面仍有深厚积累，这或许会使谷歌有追上的机会。
　　I/O大会当天，谷歌收报170.34美元/股，较前一日上涨0.71%。

浏览过的版块