오픈AI'말할 수 없는 비밀'공개됐다?YouTube 데이터를 사용하여 모델 획득 방법을 훈련하는 것은 불명예스럽습니다.

崔炫俊献 · 发表于 2024-3-19 21:47:32

GPT 대형 모델이 계속 진급하는 동시에 OpenAI가 직면한 비난은 적지 않은 것 같다. 머스크가 거듭 추궁하는'오픈 소스'문제를 제외하고 OpenAI가 대형 모델을 훈련하는 데이터의 출처가 불분명하거나 이미 이 회사에 권리침해 소송의 지뢰를 묻었다.
현재 AI 대형 모델의 훈련은 데이터 단에서 거대한 데이터 양의 대규모 데이터 세트 투입이 필요하다.공개된 자료에 따르면 OpenAI의 데이터 출처는 포함되지만 이에 국한되지 않을 수 있다: 인터넷상의 각종 자원, 예를 들면 서적, 웹페이지, 뉴스 기사, 학술 논문 등을 공개한다;파트너 및 타사 데이터 공급업체가 제공하는 데이터 세트의료, 법률 또는 과학 문헌과 같은 특정 분야의 데이터를 구매합니다.데이터를 합성하면 OpenAI는 모델 자체의 송출을 통해 모델을 훈련하고 개선하는 등 모델을 사용하여 스스로 데이터를 생성할 수 있습니다.크라우드소싱 및 커뮤니티 기여 데이터.
데이터 출처는 가장 중요한 문제가 아니다. 외부의 관심은 OpenAI가 어떻게 이 데이터를 입수할 것인가에 있다.
훔쳤다고?
Business Insider의 보도처럼 OpenAI가 많은 수의 YouTube 비디오 훈련 모델을 사용하는 것은 이미"공개된 비밀"이며, 수혜 제품에는 새로 출시 된 문생 비디오 분야 모델 Sora가 포함됩니다.수수께끼는 OpenAI가 어떻게 충분한 유튜브 콘텐츠를 얻을 수 있는지에 있다.
유튜브는 구글의 자회사라는 것을 알아야 한다.2006년 구글에 16억5천만달러에 인수된 유튜브는 구글의 지원을 받아 세계 최대 동영상 공유 플랫폼으로 급성장했다.
구글은 AI를 발전시키기 위해 노력해 왔으며, OpenAI의 주요 경쟁자 중 하나이며, 자연히 자사의 금광을 무상으로 가정에 제공하지 않을 것이며, 유튜브는 이미 상업적 목적의 다운로드를 금지하고 있으며, 유튜브의 동영상 데이터를 대량으로 다운로드하는 행위도 제한할 것이다.이런 엄격한 통제로 개인 사용자들도 영향을 받았다. 유튜브 동영상 하나를 다운로드해도 속도가 매우 느려 몇 시간이 걸려야 완성할 수 있다는 반응도 나왔다.
한 가지 일반적인 추측은 OpenAI가 파충류를 사용하여 YouTube의 데이터를"훔쳤다"는 것입니다.OpenAI는 GPTBot이라는 네트워크 파충류 로봇을 출시하여 빅 모델 훈련에 사용할 데이터를 캡처하고 수집하는 데 사용했다고 인정한 바 있다.
OpenAI 임원이 관련 문제에 대해 얼버무리는 것은 그의'데이터 도둑'에 대한 인상을 측면에서 심화시켰다.WSJ은 최근 OpenAI 최고기술책임자 Mira Murati에게 이 스타트업이 유튜브, 인스타그램, 페이스북을 포함한 동영상을 이용해 소라를 훈련시키는지 물었다.
"나는 사실 이것에 대해 확실하지 않다."라고 그녀가 말했다.훈련 데이터의 출처를 다시 묻자 Murati는"자세한 내용은 밝히지 않을 것"이라고 대답을 거부했다.
Business Insider의 최신 보도에 따르면 OpenAI 운영에 익숙한 한 인사는 이 회사가 엄밀하게 보호된 팀을 파견하여 훈련수치를 획득하게 했는데 이런 수치를 어떻게 획득할것인가에 대해서는 비밀문제라고 표시했다.
▌ 울타리가 무성한 AI 들판
파충류를 사용하는 행위는 구글에 용납되지 않는다. 이 회사 산하 유튜브는 로봇과 다른 자동화 방법을 통해 동영상을 잡는 것을 금지한다.
그러나 OpenAI의 경우 구글의 서비스 약관을 위반하는 방식으로 유튜브 동영상에 접근하는 것은 불법이 아닐 수 있다.미국의 판례법과'합리적 사용'원칙은 회사에 다양한 방식으로 온라인 콘텐츠를 자유롭게 사용할 수 있는 권리를 부여한다.
간단히 말해서, 구글, OpenAI 및 기타 기술 회사들은 현재 저작권 보호 된 콘텐츠를 사용하여 인공 지능 모델 훈련을 수행하는 것도 합법적이라고 생각합니다.규제 기관도 아직 이에 대해 명확한 규정을 내리지 않았다.인공지능의 경기장은 여전히 드넓은 들판으로서 데터와 관련된 게임규칙은 아직 확정되지 않았거나 홀시되였다.
각 제조업자가 앞다투어 입장하여 자신의 기술 울타리를 세웠다.
OpenAI와 다른 대형 모델 개발자들은 이전에 발표 된 연구 논문에서 훈련 데이터 소스를 공개했지만 경쟁이 심화됨에 따라 이러한 관행은 더 이상 성행하지 않습니다.사람마다 모두 자신의 기술비법을 보류하여 상대적인 우세를 추구하려고 하는데 특히 유리한 지위를 차지하는 머리제조업체는 개원쟁탈도 제조업체가 스스로 승부수를 남기려는 시도의 구현이다.
유일하게 확실한 것은 생성식 AI 기술이 더 반복되면서 비슷한 분쟁이 많을 뿐 적지는 않을 것이라는 점이다.
대기업은 더욱 쉽게 뭇매를 맞을수 있다. 데터를 례로 들면 그들이 과감하게 책임을 지고 높은 데터구매원가를 부담한다 하더라도 데터를 완전히 합법적으로 획득하기란 쉽지 않다.매개변수의 양이 엄청나기 때문에 큰 모델은 분산 컴퓨팅과 클라우드 서비스 등의 기술을 사용하여 훈련하고 배치해야 하며, 데이터가 절취, 변조, 남용 또는 유출될 위험도 증가한다.
어떻게 개인의 프라이버시 보호와 기술 혁신을 균형시키고 장려하며, 어떻게 기업의 생존과 준법 생산 간의 가장 좋은 경로를 찾을 것인가는 이미 생성식 AI 사업에 주력하는 모든 회사가 우회할 수 없는 문제이다.

		自动登录	找回密码
密码			立即注册

오픈AI'말할 수 없는 비밀'공개됐다?YouTube 데이터를 사용하여 모델 획득 방법을 훈련하는 것은 불명예스럽습니다.

相关帖子