谷歌“Her”抢跑落地 OpenAI语音AI仍在“hold on”

　　北京时间8月14日凌晨，谷歌在“Made by Google”大会上正式发布了智能语音助手Gemini Live。这一功能直接挑战OpenAI的GPT-4o语音模式，并标志着人工智能交互向更加自然、通用和用户友好的方向又迈进了一步。

　　根据谷歌的介绍，用户可以与Gemini Live进行自由流畅的对话，而不是通过传统的输入和输出设置。
　　在对话过程中，用户可以打断以询问更多细节，或者暂停一段时间后再继续。
　　为了使对话更加自然，谷歌还提供了十种声音以供用户选择。谷歌称，“这就像你的口袋里有一个伙伴，你可以和它谈论新想法或练习重要的对话。”
　　Open AI此前发布的GPT-4o高级语音模式，也允许用户在对话过程中打断，并能感知和回应用户的情绪波动。在语音设置方面，Open AI提供了四种声音，均与专业的配音演员合作制作。
　　此外，谷歌还将Gemini Live与其他应用程序和工具连接。谷歌表示，将在未来几周推出Keep、Tasks、Utilities、Calendar、YouTube Music等扩展功能。
　　谷歌描述了这些功能的具体应用场景。比如用户需要举办一场晚宴，可以让Gemini Live找到特定的食谱，并把食材添加到Keep购物清单中，还能定制一份“让人想起90年代末”的歌单；再比如只需要拍一张音乐会海报的照片，Gemini Live就可以回答用户当天是否有空，并提醒用户买票。
　　不过，在“Made by Google”大会现场演示Gemini Live功能时，却出现了一点小插曲。谷歌高管Dave Citron询问Gemini Live他的日程表上有没有活动，接连尝试了两次Gemini Live都没有响应，直到第三次换了一个设备才演示成功。
　　目前，谷歌已向Android手机上的Gemini高级订阅用户提供英语版，并将在接下来的几周内扩展到iOS上，同时提供更多语言模式。谷歌发布的最新款Pixel 9系列手机也搭载了Gemini Live功能。
　　业内人士认为，Gemini Live的发布是人工智能交互发展的一个重要里程碑。通过引入语音中断和选择功能，谷歌既是在与OpenAI竞争，也是在推动人机交互的方式，从而改变人工智能聊天机器人市场的竞争格局，倒逼其他公司创造出更多自然、实用、吸引人的人工智能助手。
　　同时，人机交互的创新发展也带来了新的问题和挑战。例如，人工智能将如何快速处理话题变化，同时保持上下文的统一和相关性？如何在不丢失重要线索的情况下处理干扰信息？更重要的是，随着人工智能的深入发展，其与现实生活的边界在哪里？
　　而OpenAI早在3个月前就已经公开介绍过的GPT-4o，至今尚未完全落地。8月9日，OpenAI发布了一篇关于安全性的博客文章，详细介绍了公司在开发GPT-4o时所做的安全努力，并探讨了这些技术可能对社会带来的风险。
　　OpenAI在该报告中指出了人工智能的类人社交模式可能造成的风险。OpenAI认为，用户可能会与人工智能建立社交关系，而减少对人类互动的需求。这有利于孤独的个体，但会影响健康的人际关系。
　　OpenAI透露，在GPT-4o的早期测试时，他们观察到用户与模型的互动语言开始出现微妙的变化，例如，“这是我们在一起的最后一天”等等，这种看似无害的表达，背后可能隐藏着更大的问题。
　　此外，OpenAI还提到，GPT-4o有时会无意间生成模仿用户声音的输出，这意味着，AI语音引擎可能会被用来欺诈。
　　而这些安全问题，也是OpenAI把控GPT-4o落地节奏的原因之一。至于谷歌Gemini Live是否解决了类似的安全隐患，并未披露。
　　所有与安全相关的隐患，无论是我们能够意识到的，还是“潘多拉魔盒”附带的更多可能性，都是人工智能事业需要进一步解决的问题，以保证“技术的进步是为了服务于人类”。

浏览过的版块