首页 报纸 正文

OpenAIが突然「小モデル」GPT-4 o miniをラインアップしたのに続き、Metaはその超大パラメータを投げ出す大モデルの爆発場を決定した。
Metaは7月24日、オープンソースの大モデルシリーズLlama 3.1 405 Bと、アップグレードされた70 Bと8 Bの2つのサイズモデルを発表した。
Llama 3.1 405 Bは現在最強のオープンソース大モデルと考えられている。Metaが発表した情報によると、このモデルのコンテキスト長は128 Kをサポートし、8つの言語へのサポートを増やし、汎用知識、操作性、数学、ツール使用、多言語翻訳などの面でGPT-4 oやClaude 3.5 sonnetなどの旗艦モデルに匹敵することができ、人工評価(Human Evaluation)の比較でも、この2つのモデルより全体的に優れたパフォーマンスを示している。
同時に、8 Bと70 Bの2つのモデルのアップグレードバージョンも多言語で、いずれも128 Kコンテキスト長に拡張されています。
Llama 3.1 405 BはMetaのこれまでで最大のモデルである。Meta氏によると、このモデルの訓練は15兆tokensを超え、合理的な時間内に理想的な効果を達成するために、チームは訓練スタック全体を最適化し、16000を超えるH 100 GPUを使用した--これもこのような大規模な計算力の下で訓練を完了した最初のLlamaモデルである。
この困難なトレーニング目標は、チームによって複数の重要なステップに分割されます。訓練の安定性を最大限に保証するために、MetaはMoEアーキテクチャ(混合専門家アーキテクチャ)を選択せず、標準デコーダのみを採用したTransformerモデルアーキテクチャを用いて小幅に調整した。
Metaによると、チームも反復的なポストトレーニングプロセスを使用して、各ラウンドに対して監督微調整と直接好み最適化を行い、各ラウンドのために最高品質の合成データを作成し、各能力の性能を向上させた。チームは、以前のリリースのLlamaと比較して、トレーニングの前、後に使用するデータの数と品質を向上させ、改善しました。
Llama 3.1 405 B爆撃場と同時に、マーク・ザッカーバーグ氏は「オープンソースAIは前進の道」と題した宣言を発表し、オープンソースの大モデルの意義と価値を改めて強調し、オープンAIなど閉源路線を歩んでいる大モデル会社を指す。
ザッカーバーグ氏は、オープンソースLinuxとクローズドソースUnixの物語を再提案し、前者はより多くの機能とより広範な生態系をサポートし、クラウドコンピューティングとほとんどのモバイルデバイスオペレーティングシステムを実行する業界標準の基礎であると考えている。「人工知能も同様の方法で発展すると信じています」
彼は、いくつかの科学技術会社がリードする閉源大モデルを開発しているが、開源大モデルは急速にこの差を縮小していると指摘した。最も直接的な証拠は、Llama 2はこれまで遅れている旧世代モデルとしか比較できなかったが、Llama 3はすでに最新モデルと比較でき、いくつかの分野でリードしている。
彼は来年からLlama 3が業界最先端のモデルになると予想しているが、それ以前は開放性、修正性、コスト効率の面でリードしていた。
ザッカーバーグ氏は、開発者にとってより透明な開発環境がより訓練、微調整、独自のモデルを抽出するために必要な理由を多く引用し、「効率的で負担のかかるモデルが必要だ」と述べた。
同氏は、ユーザー向けとオフライン向けの推理タスクについて、開発者は自社のインフラストラクチャ上でLlama 3.1 405 Bを実行することができ、コストはGPT-4 oなどの閉源モデルの約50%であると説明した。
オープンソース、クローズソースの2つの路線の争いをめぐって、これまで業界では多くの議論があったが、当時の主な基調は、両者にはそれぞれ価値があり、オープンソースは高い価格比で多くの開発者に恩恵をもたらすことができ、そして大言語モデル自体の技術の反復と発展に有利であり、クローズソースは資源を集中してより速く、より深く性能のボトルネックを突破することができ、オープンソースよりも先にAGI(汎用人工知能)を達成することが期待されていた。
言い換えれば、モデルの性能レベルでは、オープンソースがクローズソースに追いつくのは難しいと業界では一般的に考えられている。一方、Llama 3.1 405 Bの出現は業界にこの結論を再考させるかもしれず、閉源モデルサービスを利用する傾向にある企業や開発者の多くに影響を与える可能性が高い。
現在、Metaの生態圏は非常に巨大になっている。Llama 3.1モデルがオンラインになると、アマゾンAWS、インビダー、Databricks、Groq、デル、マイクロソフトAzure、グーグルクラウドなど。
ただ、ザッカーバーグ氏がLlamaシリーズモデルをリードしているのは来年だと予想されており、途中で閉源モデルによって屋根が跳ね返る可能性は排除されていない。この間、Llama 3.1405 Bの閉源大モデルに及ばない性能レベルに注目が集まる可能性があり、現在の状況は確かに気まずい。
また、特に中国と米国の大モデル分野での競争について言及し、米国がこの点で永遠に中国を数年リードするのは現実的ではないと考えている。しかし、数カ月のわずかなリードでも、時間が経つにつれて「ちりも積もれば山」となり、米国を「明らかな優位性」に導くことができる。
「米国の強みは脱中心化とオープンイノベーションだ。中国がこれらのモデルを獲得するのを防ぐために我々のモデルを閉鎖しなければならないと考える人もいるが、それは通用しないと思う。米国とその同盟国を不利にするだけだ」。ザッカーバーグ氏によれば、閉鎖モデルしかない世界は、少数の大手企業や地政学的ライバルがリードするモデルを獲得することにつながり、ベンチャー企業、大学、小企業はチャンスを逃すだろう。また、米国のイノベーションを閉鎖的な開発に制限することで、完全にリードできない可能性が高まっています。
逆に、私たちの最善の戦略は、最新の進展を最大限に活用し、長期的に持続可能な先発優位性を実現できるようにするために、私たちのリーディングカンパニーが政府や同盟国と密接に協力する強力なオープンエコシステムを構築することだと思います」とザッカーバーグ氏は述べた。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

内托体头 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    40