首页 报纸 正文

【英偉達などの大手企業がYouTubeデータを不正に使用した訓練モデルが17万件の動画に関与していることが明らかに】メディアによると、アップル、英偉達、Salesforce、Anthrophicを含む一部の大手科学技術会社は、AIモデルを訓練する際にグーグル傘下の動画サイトYouTubeからの不正データを使用していたことが明らかになった。これらの企業は、YouTubeからキャプチャされた大量のビデオ字幕テキストを含む第三者によって提供されたデータセットを使用しており、YouTubeがプラットフォームから許可なくコンテンツをキャプチャすることを禁止する規定に違反している。記事によると、これらの科学技術会社はAIモデルを訓練する際に「YouTube Subtitles(YouTube字幕)」というデータセットを使用しており、大きさは5.7 GBで、4億8900万語が含まれており、Youtube上の4万8000チャンネルを超える17万3500件の動画から来ている。このデータセットは、ビデオブロガーがアップロードした部分とYoutubeで自動転写されたテキストを含むビデオ字幕のプレーンなテキストで構成されており、英語のほか、通常は日本語、ドイツ語、アラビア語などの言語の翻訳が付属しています。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

123458133 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    3