グーグル「Her」フライング着地OpenAI音声AIは「ホールドオン」のまま

SOGO · 发表于 2024-8-14 20:39:30

北京時間8月14日未明、グーグルは「Made by Google」大会でスマート音声アシスタントのGemini Liveを正式に発表した。この機能はOpenAIのGPT-4 o音声モードに直接挑戦し、人工知能のインタラクションがより自然で汎用的でユーザーフレンドリーな方向にまた一歩前進したことを示している。
グーグルによると、ユーザーは従来の入出力設定ではなく、Gemini Liveと自由で滑らかな会話ができる。
会話中に、ユーザーは詳細を問い合わせるために中断したり、しばらく中断してから続行したりすることができます。
会話をより自然にするために、Googleはユーザーが選択できるように10種類の音声を提供しています。グーグルは、「ポケットにパートナーがいるように、新しいアイデアを話したり、重要な会話を練習したりすることができます」と話しています。
Open AIがこれまでに発表したGPT-4 oの高度な音声モデルは、ユーザーが会話中に中断し、ユーザーの感情の変動を感知し、応答することもできるようにしている。音声設定では、Open AIは4種類の音声を提供し、いずれもプロの声優と協力して制作している。
また、グーグルはGemini Liveを他のアプリケーションやツールに接続している。グーグルは、Keep、Tasks、Utilities、Calendar、YouTube Musicなどの拡張機能を今後数週間で提供すると発表した。
グーグルはこれらの機能の具体的な応用シーンを説明した。例えば、ユーザーはGemini Liveに特定のレシピを見つけさせ、Keepショッピングリストに食材を追加し、「90年代末を思い出させる」歌のリストをカスタマイズすることができるディナーを開催する必要があります。例えばコンサートのポスターの写真を1枚撮るだけで、Gemini Liveは当日空いているかどうかを答え、チケットを買うようにユーザーに注意することができます。
しかし、「Made by Google」大会でGemini Live機能を実演したところ、ちょっとしたエピソードが登場した。グーグルの幹部Dave Citron氏は、Gemini Liveのスケジュールにイベントがあるかどうかを尋ね、2回続けてGemini Liveを試みたが応答せず、3回目にデバイスを交換してからプレゼンテーションに成功した。
グーグルは現在、Android携帯電話のGeminiプレミアム購読者に英語版を提供しており、今後数週間以内にiOSに拡張しながら、より多くの言語モデルを提供する。グーグルが発表した最新のPixel 9シリーズの携帯電話にもGemini Live機能が搭載されている。
業界関係者は、Gemini Liveのリリースは人工知能のインタラクション発展の重要なマイルストーンだと考えている。音声中断と選択機能を導入することで、グーグルはOpenAIと競争するだけでなく、人間とのインタラクションを推進する方法でもある。これにより、人工知能チャットロボット市場の競争構造を変え、他社により多くの自然、実用、魅力的な人工知能の助力を創出させることができる。
同時に、ヒューマン・インタラクションの革新的な発展も新たな問題と挑戦をもたらした。たとえば、人工知能はコンテキストの統一性と相関性を維持しながらトピックの変化を迅速に処理するにはどうすればよいのでしょうか。重要な手がかりを失わずに干渉情報を処理する方法さらに重要なのは、人工知能が深く発展するにつれて、現実生活との境界はどこにあるのだろうか。
OpenAIが3カ月前から公開紹介してきたGPT-4 oは、まだ完全に着地していない。8月9日、OpenAIはセキュリティに関するブログ記事を発表し、GPT-4 oを開発する際に同社が行ったセキュリティへの取り組みを詳細に紹介し、これらの技術が社会にもたらす可能性のあるリスクを検討した。
OpenAIはこの報告書で、人工知能の類人社交モデルによるリスクを指摘している。OpenAIは、ユーザーが人工知能と社交関係を構築し、人間の相互作用に対する需要を減らす可能性があると考えている。これは孤独な個体に有利ですが、健康な人間関係に影響を与えます。
OpenAIによると、GPT-4 oの初期テスト時には、ユーザーとモデルのインタラクティブな言語に微妙な変化が現れ始めていることが観察された。例えば、「これは私たちが一緒にいる最後の日だ」など、無害に見える表現の背後にはより大きな問題が隠されている可能性がある。
また、OpenAIは、GPT-4 oが意図せずにユーザーの声を模倣した出力を生成することがあると述べ、AI音声エンジンが詐欺に使われる可能性があることを意味している。
これらのセキュリティ問題は、OpenAIがGPT-4 oの着地リズムを制御する原因の1つでもある。グーグルのGemini Liveが同様のセキュリティ上の危険性を解決したかどうかについては、明らかにしていない。
安全に関連するすべての隠れた危険性は、私たちが認識できることも、「パンドラの箱」に付属するより多くの可能性も、人工知能事業が「技術の進歩は人間に奉仕するため」であることを保証するためにさらに解決しなければならない問題である。

		自动登录	找回密码
密码			立即注册

グーグル「Her」フライング着地OpenAI音声AIは「ホールドオン」のまま

相关帖子

浏览过的版块