グーグル、最強モデルを放出OpenAIの重心をAIエージェントに狙撃

SOGO · 发表于 5 小时前

グーグルは最強の量子チップを発表したのに続き、AI上で重要な動きをしている。
北京時間12月12日未明、グーグルはOpenAIがChatGPTのiPhoneへの本格上陸を発表する前に、新しいモデルGemini 2.0を発表した。
グーグルのサンダル・ピチャイCEOによると、グーグルのこれまでで最も強力なモデルだという。ネイティブ画像やネイティブオーディオの出力などの多モード面の向上により、Gemini 2.0は新しいAIエージェントを構築することができ、グーグルが汎用アシスタントを構築するビジョンをさらに前進させることができる。
Gemini 2.0は主に開発者や信頼できるテスターに開放されていることを指摘しておく必要があります。現在、Gemini 2.0 Flash体験版モデルはすべてのGeminiユーザーに公開されている。
Gemini 2.0 Flashは1.5 Flashをベースにしたモデルで、これまで1.5 Flashはグーグルの開発者に最も人気のあるバージョンだった。1.5 Flashと比較して、Gemini 2.0 Flashは同じ高速な応答時間でさらにパフォーマンスが向上します。グーグル側によると、2.0 Flashは重要なベンチマークテストで1.5 Proを超えており、その速度は1.5 Proの2倍だという。
同時に2.0 Flashには、画像、ビデオ、オーディオなどのマルチモーダル入力をサポートするほか、画像とテキストが混在したコンテンツを直接生成したり、制御可能な多言語テキスト変換音声（TTS）オーディオをネイティブに生成したりするマルチモーダル出力をサポートする新機能もあります。また、Google Search、コード実行、サードパーティユーザ定義関数などのツールをネイティブで呼び出すこともできます。
グローバルなGeminiユーザーは、2.0 Flashに基づいて最適化されたチャットセッションをPC側とモバイル側で体験できるようになり、このバージョンはすぐにGeminiモバイルアプリケーションで発売されます。この新しいモデルに基づいて、ユーザーはGeminiアシスタントを体験することもできます。グーグルは来年初めにもGemini 2.0をより多くの製品に拡張する。
Gemini 2.0の最大の変化は、AIエージェントに重心を向け、すべてのAIエージェントのベースモデルを作りたいことにある。これに基づいて、Gemini 2.0はユーザーが適切なタスクを完了するのを支援する一連のプロトタイプを発行します。
その中で、Project Astraのアップグレード版は、将来の汎用AIアシスタントの能力を探索するための研究プロトタイプである。Google I/O大会でProject Astraを発表して以来、GoogleはAndroid携帯電話でそれを使用している信頼されたテスターにフィードバックを収集してきた。今回のアップグレード版では、複数の言語と混合言語間の会話を実現することができ、Google Search、Google Lens、Google Mapなどの新しいツールを使用することもでき、10分間にわたる会話の内容を記憶し、人間の会話の遅延に近い言語を理解することができます。
新しいProject Marinerは、ブラウザから人とエージェントの相互作用の将来を探る。Project Marinerは、Gemini 2.0で構築された初期の研究プロトタイプを使用して、ピクセルやテキスト、コード、画像、フォームなどのWebページ要素を含むブラウザページ内の情報を理解し、推理し、実験的なChrome拡張プログラムを通じてユーザーが対応するタスクを完了するのを支援します。今回のアップグレードで、Project Marinerは従来の速度が遅い問題を改善した。
簡単に言えば、ユーザーはこの機能を使用して、ブラウザ自身に特定のタスクを実行させることができます。例えば、一部のサイトのメールアドレスを一括検索することで、ブラウザの「自動実行」をある程度実現することができます。
Julesは開発者向けのコーディングエージェントで、開発者が開発タスクを完了するのを支援するGitHubワークフローに直接統合できます。
Googleのデモ動画では、デモ担当者が詳細なプログラミング問題を含むヒント語を長い列入力すると、Julesはこれらの要件を分析し、3ステップのプログラミングソリューションを提供し、同意をクリックすると、モデルは自動プログラミングを開始し、コードを生成します。これは、開発者が生産性をさらに向上させるのに役立つに違いありません。
グーグルは昨年末、情報の統合と理解を主な能力とするGemini 1.0モデルを発表した。Gemini 2.0は情報をより有用にすることができます。サンダル・ピチャイ氏によると、Gemini 2.0の進展はグーグルの10年間にわたるフルスタック型AIイノベーション研究への投入によるもので、グーグルがカスタマイズしたハードウェア第6世代TPU Trilliumに基づいて構築された。
グーグルが最強モデルを目指している間、OpenAIの12日間の製品発表活動が続いていた。同日、OpenAIはChatGPTとアップルApple Intelligenceの統合を対外的に示し、内容はやや平板だった。グーグルのGemini 2.0の突然の発表は、明らかに多くのOpenAIの風頭を奪った。
Gemini 2.0の加持の下で、グーグルは一気に3つのスマートボディ製品を発売し、マイクロソフトとOpenAI、アマゾンとAnthropicをバインドする競争の中でまた重要な一歩を踏み出したことを意味している。
スマートボディはすでに大モデル分野の競争の核心的な方向になっている。インテリジェントボディとは、環境を感知し、意思決定を行い、特定の目標を実現するために行動することができるシステムであり、大言語モデル（LLM）の着地応用の鍵とされている。
マイクロソフトはこの2カ月前、販売、運営などのシーンに向けて10のAIエージェントを連発していたが、その後、Copilot Studioプラットフォームがユーザーの自律的なエージェント構築をサポートしていることを発表し、同時に5つの事前構築されたエージェントを発表した。そして、終わったばかりの2024 re：Inventでは、アマゾンは複雑な推理タスクのために生まれたAmazon Nova Premierと同じマルチモーダルモデルの6つの大きなモデルを一気に発表した。
消費者側でも企業側のシーンでも、AIエージェントには想像空間が多く、商業化の将来性も明確である。複数の業界関係者は、2025年はAIエージェントのビジネスが爆発する年になると予想している。グーグルやOpenAIなど科学技術大手のスマートボディをめぐる競争が激しくなるのは必至だ。

		自动登录	找回密码
密码			立即注册

グーグル、最強モデルを放出OpenAIの重心をAIエージェントに狙撃

相关帖子