OpenAI「言ってはいけない秘密」が公開された？YouTubeデータトレーニングモデルを使用した取得方法は不名誉である

愿为素心人 · 发表于 2024-3-19 21:47:30

GPTの大モデルが階段を上り続けると同時に、OpenAIが直面している非難は少なくないようだ。マスクが何度も問い詰めてきた「オープンソース」の問題を除いて、OpenAI訓練大モデルのデータソースは不明で、あるいはすでにこの会社のために権利侵害訴訟の地雷を埋めている。
現在のAI大モデルの訓練では、データ端に巨大なデータ量の大規模なデータセット投与が必要である。公開資料によると、OpenAIのデータソースには、書籍、Webページ、ニュース記事、学術論文など、インターネット上のさまざまなリソース、パートナーとサードパーティのデータプロバイダが提供するデータセット、医療、法律、科学文献など、購入した特定分野のデータ、合成データ、OpenAIはそのモデルを使用してデータを自己生成する可能性があり、例えばモデル自身の出力によるモデルの訓練と改善、クラウドファンディングとコミュニティ貢献のためのデータ。
データソースは最も重要な問題ではなく、OpenAIがこれらのデータをどのように入手するかに焦点が当てられている。
■盗んだ？
Business Insiderが報じたように、OpenAIが大量のYouTubeビデオトレーニングモデルを使用することはすでに「公開の秘密」であり、受益製品には新たに発売された文生ビデオ分野モデルSoraが含まれている。謎はOpenAIがどのようにして十分なYouTubeコンテンツを取得するかにある。
YouTubeはグーグルの子会社であることを知っておく必要があります。2006年、YouTubeはグーグルに16億5000万ドルで買収され、グーグルの支援を受けて世界最大の動画共有プラットフォームに急成長した。
グーグルはAIの発展に力を入れており、OpenAIの主要なライバルの1人であり、自宅の金鉱を無償で対家に提供することはもちろんない。YouTubeはすでに商業目的でのダウンロードを禁止しており、YouTubeの動画データを大量にダウンロードする行為も制限する。このような厳格な制御により、個人ユーザーも影響を受けており、YouTube動画を1つダウンロードしても、速度が非常に遅く、完成までに数時間かかるという声もある。
一般的な推測の1つは、OpenAIが爬虫類を使って、YouTubeのデータを「盗んだ」ということだ。OpenAIは、大きなモデルの訓練にデータをキャプチャして収集するためのGPTbotというネットワーク爬虫類ロボットを発売したことを認めている。
OpenAI幹部は関連問題について言葉を濁し、側面からも「データ泥棒」の印象を深めた。ウォールストリート・ジャーナルは最近、YouTube、インスタグラム、Facebookなどからの動画を使ってソラを訓練しているかどうかをOpenAIのMira Murati最高技術責任者に尋ねた。
「私は実際には確信していません」と彼女は言った。トレーニングデータの出所を再び問われると、Muratiは「詳細は明らかにしない」と答えを拒否した。
Business Insiderの最新記事によると、OpenAIの運営に詳しいある人は、同社はトレーニングデータを取得するために厳密に保護されたチームを割り当てており、これらのデータをどのように取得するかについては秘密にしていると述べている。
■フェンスが生い茂るAI野原
爬虫類を使用する行為はグーグルには許されず、同社傘下のYouTubeはロボットや他の自動化方法で動画をキャプチャすることを禁止している。
しかし、OpenAIにとって、グーグルのサービス条項に違反する方法でYouTube動画にアクセスすることは違法ではないかもしれない。米国の判例法と「合理的な使用」の原則は、企業に異なる方法でオンラインコンテンツを自由に使用する権利を与えている。
簡単に言えば、グーグル、OpenAI、その他の科学技術会社は、著作権保護されたコンテンツを用いた人工知能モデルの訓練も合法的だと考えている。規制当局もこれについて明確に規定していない。人工知能の競技場は依然として広大な原野であり、データに関するゲームのルールはまだ決まっていないか、無視されている。
各メーカーは先を争って入場し、独自の技術フェンスを構築した。
OpenAIや他の大モデル開発者はこれまで、発表された研究論文で訓練データソースを公開してきたが、競争が激化するにつれて、このやり方はもはや盛んではない。誰もが自分の技術の秘訣を残して、相対的な優位性を求めている。特に有利な地位を占めているヘッドメーカーは、オープンソース争いもメーカーが切り札を自留しようとしていることの表れだ。
唯一確定したのは、生成式AI技術のさらなる反復に伴い、類似したトラブルが多いか少ないかだけである。
大企業は矢面に立たされやすく、データを例にとると、責任を負い、高いデータ調達コストを負担しても、データの完全なコンプライアンスを実現するのは容易ではありません。パラメータの量が大きいため、大モデルは分散コンピューティングやクラウドサービスなどの技術を利用して訓練と配置を行う必要があり、またデータが盗まれたり、改ざんされたり、悪用されたり、漏洩されたりするリスクが増加します。
プライバシー保護と技術革新をどのようにバランスさせ、どのように企業の生存とコンプライアンス生産の間の最適な経路を見つけるかは、すでに生成型AI事業に力を入れている企業ごとに避けられない問題である。

		自动登录	找回密码
密码			立即注册

OpenAI「言ってはいけない秘密」が公開された？YouTubeデータトレーニングモデルを使用した取得方法は不名誉である

相关帖子