グーグルのビッグモデルがついに大股Gemini対決GPT-4へ

米時間12月6日、グーグルはGeminiの大モデルを正式に発表した。グーグルのサンダル・ピチャイCEO（Sundar Pichai）によると、これはグーグルがこれまでで最も強力で汎用性の高いモデルだという。
ChatGPTのリリースから、1年1週間が経過しました。ChatGPTの発表に伴い、OpenAIは人工知能分野で最も輝いている会社となった。特に大モデル分野では、グーグルを含む他のすべての科学技術会社の追撃目標でもある。
過去8年間、グーグルはAI-firstを会社戦略としてきたが、2016年に人間囲碁チャンピオンのAlphaGoを破ったのはグーグルの手によるものだ。誇張することなく、グーグルが巻き起こしたAIの波であり、AI業界全体の発展を変えたが、今では、大きなモデルの分野で自分を証明する必要がある。
Gemini 1.0バージョンには、Gemini Ultra、Gemini Pro、Gemini Nanoの3つの異なるサイズが含まれているという。このうち、Gemini Nanoは主にデバイス端末に応用されており、Pixel 8 ProはGemini Nanoを搭載した初のスマートフォンとなる。Gemini Proはさまざまなタスクに拡張するのに適しており、グーグルはGemini Proを使って傘下のチャットロボットBardのアップグレードを計画しており、検索、広告、Chromeなどを含むより多くのGoogle製品を提供する予定だ。
最も強力な機能を持つGemini Ultraについて、グーグルは現在信頼と安全検査を行っており、微調整と人間フィードバックに基づく強化学習（RLHF）を通じてモデルをさらに改善しており、来年初めに開発者や企業の顧客に発売する予定だと述べた。
サンダル・ピチャイ氏によると、Geminiの発表は、人工知能の発展の重要なマイルストーンであり、グーグルの新時代の始まりでもあるという。
GPT-4を超える？
Google DeepMindのデミス・ハサビス最高経営責任者（Demis Hassabis）によると、GeminiはGoogleチームが最初から構築したマルチモーダルモデルで、テキスト、コード、オーディオ、画像、ビデオなど、さまざまなタイプの情報を要約し、シームレスに理解し、処理できることを意味している。
性能試験では、Gemini Ultraは32の大言語モデル基準試験のうち30個が現在の最適成績を上回ったほか、MMLU（大規模マルチタスク言語理解）ではGemini Ultraの得点が90%となり、人類の専門家を超えた初の大モデルとなった。
デミス・ハサビス氏によると、画像基準をテストする過程で、Gemini Ultraは画像文字認識（OCR）システムからの支援なしに、これまでの最先端モデルを超えたという。これらのベンチマーク試験はGeminiの多モード能力を際立たせ、より複雑な推論能力を持つ早期の兆候も示している。
現在、マルチモーダルモデルを作成するための標準的な方法は、主に異なるモーダルの個々のコンポーネントを訓練し、それを結合することによって行われています。しかし、このような操作の結果、これらのモデルは、画像を記述するなど、いくつかのタスクを実行する上で良好に表現されることがあるが、より複雑な推論を処理するのは困難であることが多い。
「Geminiをネイティブマルチモーダルに設計し、最初から異なるモーダルに対して事前訓練を行った後、追加のマルチモーダルデータを使用して微調整を行い、その効果をさらに高めることができました」とデミス・ハサビス氏は紹介する。「これにより、Geminiは既存のマルチモーダルモデルよりもはるかに優れたさまざまな入力を最初からシームレスに理解し、推理することができ、その能力はほとんどの分野で最先端のレベルに達しています」。
例えば推論の面では、Gemini 1.0は複雑な書面と視覚情報を理解することができ、それは情報を読み、選別し、理解することによって、数十万件の文書から見解を抽出することができる。
また、Gemini 1.0は訓練を経て、テキスト、画像、オーディオなどを同時に識別し理解することができるため、微妙な情報をよりよく理解することができ、数学や物理などの複雑な学科の推理を行うなど、複雑なテーマに関する質問に答えることができる。
符号化の面では、Gemini 1.0は世界で最もポピュラーなプログラミング言語（例えばPython、Java、C++およびGo）の高品質コードを理解、解釈、生成することができる。2年前、グーグルはAIコード生成プラットフォームAlphaCodeを発表したが、現在はGeminiの助力でAlphaCode 2に反復し、性能も大幅に向上し、これまでのほぼ2倍の数の問題を解決することができるようになった。
セキュリティの最適化は継続中
サンダル・ピチャイ氏によると、グーグル製品の生成式AIを使用している人は現在、数百万人に達しており、1年前にはできなかったことをして、より複雑な質問への回答から新しいツールを用いたコラボレーションや創造に取り組んでいるという。同時に、開発者はグーグルのモデルとインフラストラクチャを使って新しい生成型AIアプリケーションを構築しており、世界のベンチャー企業や企業もグーグルのAIツールを利用して成長している。
そのような傾向はすでに信じられないが、これはまだ始まりにすぎない。
「私たちは大胆かつ責任を持ってこの仕事を進めています。これは、私たちの研究が人類と社会に大きな利益をもたらす能力を追求するとともに、保障措置を構築し、AIがより強力になるにつれて生じるリスクに対応するために政府や専門家と協力しなければならないことを意味しています」とサンダル・ピチャイ氏は述べた。
そのため、Geminiの開発過程でグーグルもセキュリティ審査を強化した。デミス・ハサビス氏によると、グーグルのAI原則と製品安全政策に基づいて、グーグルチームはGeminiのマルチモーダル能力に新たな保護措置を追加している。
それだけでなく、デミス・ハサービス氏は、開発の各段階でグーグルは潜在的なリスクを考慮し、テストと軽減に努めていることを強調した。
Geminiには、これまでのすべてのGoogle AIモデルの中で最も包括的なセキュリティ評価があり、偏見や有害情報の評価が含まれているという。また、内部評価方法における盲点を識別するために、グーグルはさまざまな外部専門家やチームと協力して、Geminiモデルに対してさまざまな問題でストレステストを行っている。
また注目すべきは、Geminiのトレーニングがグーグル独自のテンソル処理ユニット（TPUs）であるv 4とv 5 eに基づいていることだ。これらのTPUsでは、GeminiはGoogle以前のモデルよりも高速で低コストで動作しています。そのため、グーグルは新モデルのほか、先端AIモデルを訓練するために設計された新しいTPUシステム、Cloud TPU v 5 pを発売すると発表し、Geminiの開発にも使用される。
ある業界関係者は記者団に対し、グーグルが今回発表したGeminiは多くの性能でGPT-4を上回っているが、OpenAIとは時間差があり、GPT-4が発表されてから半年以上が経過しており、次世代モデルも開発中であるはずだと述べた。
「だからグーグルにとっては、GPT-4とさまざまなベンチマークテストを行うこととの比較は、その現段階の能力を示す一方で、自身の蓄積や強力な資源に頼ることができ、OpenAIとの時間差を短縮できるかどうかが鍵だ」と同筋は指摘する。また、Geminiはグーグルが大モデル時代に構築した新しいインフラとして、テストデータよりも日常的なユーザーや企業の顧客を満たすことができるかどうかが、Geminiの能力を検証する真の基準である。
デミス・ハサビス氏によると、グーグルはすでに検索でGeminiの試験を開始しており、ユーザーの検索生成体験をより速くしており、米国の英語検索では遅延が40%減少するとともに、品質の面でも向上しているという。
次に、Gemini 1.0の着地アプリケーションを加速させる過程で、Googleもコンテキストウィンドウを増やしてより多くの情報を処理し、より良い応答を提供するなど、将来のバージョンの機能をさらに拡張しています。

大規模財経丨新東方2025年度1季報：董宇輝がいなくなってから、東方オーディションは損をし始めた

百済神州幹部の殷敏氏が調査され、これまでアスファルトに勤務していたことが明らかになった。

木曜日の人気中間株の大半が下落ナスダック中国金龍指数は0.82%下落

米株の出来高上位20位：テスラは今週22%の大幅上昇