首页 신문 正文

"엔비디아 등 거물들이 규정을 어기고 유튜브 데이터 훈련 모델을 사용한 것으로 드러나 17만 개의 동영상이 관련되었다."언론 보도에 따르면 애플, 엔비디아, Salesforce, Anthrophic을 포함한 일부 대형 기술 회사들이 AI 모델을 훈련할 때 구글 산하 동영상 사이트 유튜브에서 온 무허가 데이터를 사용한 것으로 드러났다.이들 회사는 유튜브에서 캡처한 대량의 동영상 자막 텍스트가 포함된 제3자가 제공한 데이터 세트를 사용해 유튜브가 플랫폼에서 허가 없이 콘텐츠를 캡처하는 것을 금지하는 규정을 위반했다.이 기술회사들은 AI 모델을 훈련할 때 모두'유튜브 서브타이틀스(YouTube Subtitles)'라는 데이터 세트를 5.7GB 크기로 4억8천900만 개의 단어를 포함하고 있으며, 유튜브의 4만8천 개 이상의 채널 중 17만3천500개의 동영상에서 나온 것이라고 신문은 지적했다.이 데이터 세트는 비디오 블로거가 업로드한 부분과 유튜브가 자동으로 전사한 텍스트를 포함한 비디오 자막의 순수 텍스트로 구성되며, 영어 외에도 일반적으로 일본어, 독일어, 아랍어 등의 언어로 번역됩니다.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

凤翩翩求其凰翩d 新手上路
凤凰台上凤凰游
  • 粉丝

    0

  • 关注

    2

  • 主题

    1