找回密码
 立即注册
搜索
热搜: Apple Tesla Amazon
查看: 1299|回复: 0

チーターモバイル・フーリエ:データこそ大モデル競争の真の障壁

[复制链接]

2

主题

0

回帖

10

积分

新手上路

积分
10
发表于 昨天 23:50 | 显示全部楼层 |阅读模式

21世紀経済報道記者ポプラ北京報道
AI大モデルの激しい競争の中で、コンピューティング資源とアルゴリズムの最適化は常に各大企業が追いかけている焦点である。しかし、技術が成熟するにつれて、業界の焦点は微妙な転換が起こっている。単純なモデル訓練と計算力の投入から、大量、高品質のデータをどのように処理し、利用するかに変わった。
実際、データはすでに大きなモデルが成功裏に着地できるかどうかの決定的な要素となっている。11月27日、チーターモバイルのフーソン会長兼CEOは21世紀経済報道記者のインタビューで、「アルゴリズムと計算力は大きなモデルの核心競争力ではなく、真の障壁はデータだ」と明らかにした。
傅盛氏によると、大規模なモデル企業の多くはアルゴリズム上で顕著な差異化がないという。チップとアルゴリズムは依然として重要であるが、その差はデータほど深刻ではない。「データに十分な品質と量がなければ、どのアルゴリズムと計算力の優位性も発揮できない」。
大モデルのトレーニングは大量の寸法データに依存し、このプロセスはモデルの実際の効果を直接決定する。傅盛氏は、モデルは成長している子供のようなもので、正しい情報を得てこそ、正しく学ぶことができるとたとえた。
データは品質と数量の二重の課題に直面している
しかし、データの取得と利用の面では、大モデルの発展は多くの課題に直面している。
まず、大モデルの訓練に使用できる真のデータが枯渇している。DeepMindは論文の中でScaling問題を深く検討し、1つのモデルを十分に訓練するために、そのtoken数はこのモデルのパラメータ量の20倍に達する必要があると結論した。
現在、閉源モデルの中で訓練token数が最も多いのはGPT 4であり、約20 Tであることが知られている。オープンソースモデルの中でトレーニングトークン数が最も多いのはLLaMA 3で、約15 Tである。この計算によると、5000億パラメータのDenseモデルが同じトレーニング効果を達成するには、現在の業界が保有しているデータ量をはるかに上回る約token数107 Tのトレーニングが必要です。
そのため、合成データを使用することは大きなモデルの共通認識となっている。2026年までに自然データは大モデルによってすべて使い切られ、2030年には人工知能が使用する合成データが実際のデータを上回るという予測データがある。
しかし、傅盛氏は、合成データを直接使用して大モデルを訓練することには大きなリスクがあると考えている。合成データ自体には必然的に系統的な偏差があるため、直接訓練に使用すると、モデルは誤ってこれらの偏差を通常と見なし、長期的にはモデルの認知に致命的な欠陥が生じる可能性がある。
そのため、合成データの品質を向上させるためには、人手によるチューニングや他のデータによる強化などの処理も必要です。
実際のデータに対して、最も顕著な問題は利用率が高くないことです。多くの企業は十分なデータを持っていますが、訓練された大モデルの効果は常に理想的ではありません。その理由は、データの品質が十分ではないからです。
データサービスのビジネスチャンスの発掘
これに基づいて、チーターモバイルもビジネスチャンスを見て、その持株会社であるチーター星空は新しいデータサービス製品であるAIデータ宝AirDS(AI-Ready Data Service)を発売した。
AIデータ宝AirDSが提供するサービスは、データ収集、洗浄、表示、プロンプトワード工学、評価などの一環をカバーしている。傅盛氏によると、チーター移動自身も大モデルを訓練しているため、従来のデータマークアップ会社に比べて、チーター移動は大モデルに対してより深い理解を持ち、企業のデータに対する需要を満たすことができるという。
現在のデータサービスには人手が必要です。大モデル時代には、データのスクリーニング、クリーンアップなどの一環として、いくつかのツールを利用して効率を高めることができますが、高品質のデータを得るためには、人工的な精細な表示は不可欠です。
傅盛氏によると、大モデル時代、チーターモバイルのコアビジネスモデルはモデルインタフェースを通じて稼ぐのではなく、顧客がAIアプリケーションの着地を実現するのを支援することで価値を創造したという。
このビジネスモデルの中核は、大モデルのアプリケーションシーンを中心に深掘りを行うことです。AIデータ宝(AirDS)を例に、チーターモバイルはデータサービス製品を通じて、企業の顧客がデータ洗浄からマークアップ、さらに応用最適化までの全プロセスサービスを実現するのを支援し、これは企業のAI応用効果を大幅に向上させただけでなく、チーターモバイルのために巨大な商業化空間を創造した。
現在、AIデータ宝の成功例はすでに複数の業界をカバーしており、移動通信、インターネット娯楽、新エネルギー自動車などが含まれている。
大きなモデルの将来の発展について、フーソン氏は、技術的なボトルネックがモデルの反復速度を減速させているにもかかわらず、応用シーンの深さと広さは絶えず広がっていると考えている。特に検索、企業サービスなどの垂直業界では、データの品質と応用能力の向上に伴い、AIは業界に革命的な変革をもたらすことが期待されている。
「来年は大繁栄を応用する年になるだろう」と傅盛氏は予測した。「大モデルの能力は比較的安定しており、次の競争は特定のシーンにどのように大モデルを応用するかに依存する。シーンが十分にはっきりしていれば、その爆発力は非常に強いだろう」。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|www.LogoMoeny.com

GMT+8, 2024-12-5 09:35 , Processed in 0.097060 second(s), 8 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表