首页 报纸 正文

人工知能の発展の道で、科学技術大手たちはかつて大規模な言語モデルの開発を競っていたが、今では小型言語モデル(SLM)が頭角を現しつつあり、過去の「大きければ大きいほど良い」という観念に挑戦しているという新しい傾向が現れている。
マイクロソフトと英偉達は現地時間8月21日、Phi-3.5-mini-instructとMistral-NeMo-Minitron 8 Bという最新の小型言語モデルを相次いで発表した。この2つのモデルの主なセールスポイントは、コンピューティングリソースの使用と機能パフォーマンスの間でバランスがとれていることです。いくつかの点では、それらの性能は大型モデルに匹敵することさえできます。
人工知能のベンチャー企業Hugging FaceのClem Delangue最高経営責任者は、使用シーンの99%がSLMで解決でき、2024年がSLMの年になると予測している。不完全な統計によると、Meta、マイクロソフト、グーグルを含む科学技術大手らは今年、9種類の小型モデルを発表した。
大モデルのトレーニングコストは上昇するが、パフォーマンスの向上には限界がある
SLMの台頭は偶然ではなく、大モデル(LLM)のパフォーマンス向上とリソース消費への挑戦と密接に関連している。
AIベンチャー企業のVellumとHugging Faceが今年4月に発表した性能比較によると、LLM間の性能格差は急速に縮小しており、特に複数の選択問題、推理、数学問題など特定のタスクの中で、トップモデル間の差は極めて小さい。例えば、複数の選択問題では、Claude 3 Opus、GPT-4、Gemini Ultraのスコアはいずれも83%を超え、推理タスクではClaude 3 Opus、GPT-4、Gemini 1.5 Proの精度は92%を超えている。
Uber AIの元責任者Gary Marcus氏は、LLMの最新の研究論文はすべて同じ方向を指しており、十数のLLMはGPT-4と同じ分野にあると指摘した。「その中のいくつかの性能はGPT-4よりやや優れているが、質の飛躍はない。誰もがGPT-4はGPT-3.5より一歩リードしていると言うと思うが、それからの1年以上は質の飛躍は何もない」。
LLMのトレーニングコストは、限られたパフォーマンス向上に比べて上昇しています。これらのモデルを訓練するには、膨大なデータと数億から数兆のパラメータが必要であり、極めて高い資源消費を招いている。LLMのトレーニングと実行に必要な計算能力とエネルギー消費は舌を巻くほどで、コアLLM開発に小規模な組織や個人が参加するのは難しい。
国際エネルギー庁は、データセンター、暗号化通貨、人工知能関連の電力消費量は2026年までに日本全国の電力使用量にほぼ匹敵すると推定している。
OpenAIのSam Altman最高経営責任者はマサチューセッツ工科大学のイベントで、GPT-4を訓練するコストは少なくとも1億ドルだと述べたが、AnthropicのDario Amodei最高経営責任者は、将来の訓練モデルのコストは1000億ドルに達する可能性があると予測している。
また、LLMを使用するために必要なツールやテクノロジーの複雑さも開発者の学習曲線を増やしています。トレーニングから導入までのプロセス全体に時間がかかり、開発速度が遅くなります。ケンブリッジ大学の研究によると、企業は機械学習モデルを導入するのに90日以上かかる可能性がある。
LLMのもう1つの重大な問題は、モデル生成の出力が合理的に見えるが、実際には正しくないという「幻覚」が生じやすいことである。これは、LLMのトレーニング方法がデータ中のパターンに基づいて情報を理解するのではなく、次の最も可能な単語を予測するためである。そのため、LLMは自信を持って虚偽の陳述を生成したり、事実をでっち上げたり、でたらめな方法で関連しない概念を組み合わせたりする可能性があります。これらの「幻覚」をどのように検出し、減少させるかは、信頼性と信頼性の高い言語モデルを開発するための継続的な課題である。
拡張パラメータはパフォーマンスを向上させる唯一のパスではありません
LLMの巨大なエネルギー需要への懸念や、企業により多様なAIオプションを提供する市場機会を提供することで、テクノロジー企業はSLMに徐々に注意を向けている。
毎日経済新聞の記者は、Arcee、Sakana AI、Hugging FaceなどのAIベンチャー企業であれ、テクノロジー大手であれ、SLMとより経済的な方法で投資家と顧客を獲得していることに気づいた。
グーグル、Meta、OpenAI、Anthropicはこれまで、旗艦LLMよりもコンパクトで柔軟な小型言語モデルを発表してきた。これにより、開発と導入のコストが削減されるだけでなく、ビジネスのお客様にもより安価なソリューションが提供されます。投資家がAI企業の高コストと不確実なリターンを懸念していることを考慮すると、より多くのテクノロジー企業がこの道を選ぶ可能性があります。マイクロソフトや英偉達でも、現在は独自の小型モデル(SLM)を相次いで発売している。
SLMはLLMのシンバージョンであり、パラメータが少なく、設計が簡単で、データとトレーニング時間が数分または数時間しかかからない。これにより、SLMはより効率的になり、小型デバイスへの導入が容易になります。たとえば、スーパーコンピューティングリソースを消費することなく携帯電話に組み込むことができ、コストを削減し、応答速度を大幅に向上させることができます。
マイクロソフトは小型モデル技術報告書で、Phi-3.5-mini-instructは携帯電話のローカル配置のために設計された高性能言語モデルであると指摘した。
SLMのもう1つの主要な利点は、特定のアプリケーションに特化していることです。SLMは特定のタスクや領域に集中しており、実際のアプリケーションでより効率的に使用できます。例えば、感情解析、命名エンティティ識別、または特定の分野の質疑応答では、SLMの表現は一般的なモデルよりも優れていることが多い。このカスタマイズにより、企業は特定のニーズに効率的に対応するモデルを作成することができます。
SLMは通常、より狭く、より的確なデータセットで訓練されているため、特定の領域でも「幻覚」が発生しにくい。これは、モデルがそのタスクに最も関連するパターンと情報を学習するのに役立ちます。SLMの集中性は、非相関、予期しない、または不一致な出力を生成する可能性を低下させる。
規模が小さいにもかかわらず、SLMのパフォーマンスは大モデルに劣らないものがあります。マイクロソフトが最新発表したPhi-3.5-mini-instructは38億個のパラメータしか持っていないが、Llama 3.18 BやMistral 7 Bなどのパラメータよりも性能が優れている。米東北大学言語モデル研究家のAaron Mueller氏は、拡張パラメータ数はモデルの性能を向上させる唯一の方法ではなく、より質の高いデータを用いた訓練でも同様の効果が得られると指摘している。
OpenAIのSam Altman最高経営責任者は4月のイベントで、現在は巨大モデル時代の末期にあると信じており、「他の方法でパフォーマンスを向上させる」と述べた。
ただし、SLMの専門化は大きなメリットですが、限界もありますので注意が必要です。これらのモデルは、特定のトレーニング分野以外ではパフォーマンスが悪く、幅広い知識ベースが不足している可能性があり、LLMと比べて幅広いテーマに関するコンテンツを生成することはできません。この制限は、組織が異なる需要分野をカバーするために複数のSLMを配備する可能性があり、AIインフラストラクチャを複雑にする可能性があります。
AI分野の急速な発展に伴い、小型モデルの基準は絶えず変化する可能性がある。東京の小型モデルベンチャー企業サカナの共同創業者で最高経営責任者のDavid Ha氏によると、数年前は巨大に見えたAIモデルが、今では「ちょうどいい」ように見えるという。「大きさはいつも相対的です」とDavid Haさんは言いました。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

寒郁轩良 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    40