엔비디아 등 거물들, 규정을 어기고 유튜브 데이터 훈련모형 사용 폭로, 17만개 동영상 관련

凤翩翩求其凰翩d 发表于 2024-7-17 15:00:45

1421 0 0

"엔비디아 등 거물들이 규정을 어기고 유튜브 데이터 훈련 모델을 사용한 것으로 드러나 17만 개의 동영상이 관련되었다."언론 보도에 따르면 애플, 엔비디아, Salesforce, Anthrophic을 포함한 일부 대형 기술 회사들이 AI 모델을 훈련할 때 구글 산하 동영상 사이트 유튜브에서 온 무허가 데이터를 사용한 것으로 드러났다.이들 회사는 유튜브에서 캡처한 대량의 동영상 자막 텍스트가 포함된 제3자가 제공한 데이터 세트를 사용해 유튜브가 플랫폼에서 허가 없이 콘텐츠를 캡처하는 것을 금지하는 규정을 위반했다.이 기술회사들은 AI 모델을 훈련할 때 모두'유튜브 서브타이틀스(YouTube Subtitles)'라는 데이터 세트를 5.7GB 크기로 4억8천900만 개의 단어를 포함하고 있으며, 유튜브의 4만8천 개 이상의 채널 중 17만3천500개의 동영상에서 나온 것이라고 신문은 지적했다.이 데이터 세트는 비디오 블로거가 업로드한 부분과 유튜브가 자동으로 전사한 텍스트를 포함한 비디오 자막의 순수 텍스트로 구성되며, 영어 외에도 일반적으로 일본어, 독일어, 아랍어 등의 언어로 번역됩니다.

엔비디아 등 거물들, 규정을 어기고 유튜브 데이터 훈련모형 사용 폭로, 17만개 동영상 관련

蔚来が第2四半期の財政報告を発表した売上高は174億5000万元、米株の当日の売上高は14%超上昇した

小鵬MONA M 03は肇慶高新区で量産され、上場48時間で大定破3万大旺智造爆金が頻出した

FRBは引きずるな！小摩経済学者も態度を転換：9月には大きな動きをしなければならない

クアルコムCEO：サムスンとグーグルと協力してハイブリッド現実眼鏡を開発中