OpenAI“不能说的秘密”被公开了?使用YouTube数据训练模型 获取方式并不光彩
Aim_yuan
发表于 2024-3-19 21:47:26
178
0
0
当前AI大模型的训练,数据端需要巨大数据量的大规模数据集投喂。公开资料显示,OpenAI的数据来源可能包括但不限于:公开可用的数据集,如互联网上的各种资源,如书籍、网页、新闻文章、学术论文等;合作伙伴和第三方数据提供商提供的数据集;购买的特定领域的数据,如医疗、法律或科学文献;合成数据,OpenAI可能会使用其模型自生成数据,例如通过模型自身的输出来训练和改进模型;众包和社区贡献的数据。
数据来源并不是最重要的问题,外界关注的焦点是OpenAI如何拿到这些数据。
▌“偷”来的?
正如Business Insider报道,OpenAI使用大量YouTube视频训练模型已经是“公开的秘密”,受益产品包括其新推出的文生视频领域模型Sora。谜团在于OpenAI如何取得足够的YouTube内容。
要知道,YouTube是谷歌的子公司。2006年,YouTube被谷歌以16.5亿美元的价格收购,并在谷歌的支持下迅速成长为全球最大的视频分享平台。
而谷歌一直致力于发展AI,是OpenAI的主要竞争对手之一,自然不会将自家金矿无偿提供给对家使用,YouTube早已禁止出于商业目的的下载,还将限制大量下载YouTube视频数据的行为。这种严格把控下,个人用户也受到了影响,有人表示,即使下载一个YouTube视频,速度也非常缓慢,需要几个小时才能完成。
一个普遍的猜测是,OpenAI使用爬虫,“偷走”了YouTube的数据。OpenAI曾经承认,推出了名为GPTBot的网络爬虫机器人,用于抓取和收集数据用于大模型训练。
OpenAI高管对相关问题闪烁其词,也从侧面加深了人们对其“数据小偷”的印象。《华尔街日报》最近询问OpenAI首席技术官Mira Murati,该初创公司是否使用包括来自YouTube、Instagram和Facebook的视频来训练Sora。
“我实际上对此并不确定,”她说。当再次被问及训练数据的来源时,Murati拒绝回答,“我不会透露细节。”
Business Insider最新报道指出,一位熟悉OpenAI运营的人士表示,该公司指派了一个严密保护的团队来获取训练数据,关于如何获得这些数据,是一个保密问题。
▌栅栏丛生的AI原野
使用爬虫的行为并不为谷歌所容,该公司旗下的YouTube禁止通过机器人和其他自动化方法抓取其视频。
但对于OpenAI来说,以违反谷歌服务条款的方式访问YouTube视频可能并不违法。美国的判例法和“合理使用”原则赋予了公司以不同方式自由使用在线内容的权利。
简而言之,谷歌、OpenAI和其他科技公司目前认为,使用受版权保护的内容进行人工智能模型训练也是合法的。监管机构也尚未就此做出明确规定。人工智能的竞技场仍然是一片广袤的原野,与数据有关的游戏规则要么尚未确定,要么被忽视。
各厂商争先入场,搭建自己的技术栅栏。
OpenAI和其他大模型开发商此前曾在发表的研究论文中公开其训练数据源,但随着竞争加剧,这种做法不再盛行。人人都想要保留自己的技术秘诀,以求相对优势,尤其是占据有利地位的头部厂商,开源之争也是厂商试图自留杀手锏的体现。
唯一确定的是,随着生成式AI技术的进一步迭代,类似的纠纷只会多不会少。
大公司更容易成为众矢之的,以数据为例,即使它们敢于承担责任,承担高昂的数据采购成本,但要做到数据获取完全合规,并不容易。由于参数量巨大,大模型需要借助分布式计算和云服务等技术来进行训练和部署,又增加了数据被窃取、篡改、滥用或泄露的风险。
如何平衡个人隐私保护和鼓励技术创新,如何找到企业生存与合规生产间的最优路径,已经是每个致力于生成式AI事业的公司绕不开的问题。
CandyLake.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表CandyLake.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 大模型加速落地 百度智能云发布千帆大模型平台3.0
- 百度李彦宏:现在距离大模型的理想情况还差很远 未来模型之间的差距会变大
- 欧洲隐私监管机构调查谷歌将数据用于人工智能模型的情况
- 欧洲隐私监管机构调查谷歌将数据用于人工智能模型的情况
- 百度沈抖:面向10万卡算力集群升级计算平台能力 文心大模型日调用量超7亿次
- Meta发布重磅新品:299美元的Quest 3S头显、AR眼镜原型、多模态AI模型
- 百度世界2024宣布定档11月12日 文心大模型日调用量已超7亿
- 百度世界2024将于11月12日召开 文心大模型日均调用量已超7亿次
- 业界共话大模型应用创新实践——2024百度云智大会大模型应用产品论坛举行
- 对话|百度李涛:汽车智能化和大模型浪潮重叠是历史必然
-
AIエクスプレスによると、10月3日、米株の人気の中概株盤の前が低くなり、ピッピッピッと5%近く下落し、相多、名創優品、小鵬自動車は3%超下落し、百度、蔚来自動車、京東は2%超下落した。 ...
- SOGO
- 前天 17:06
- 支持
- 反对
- 回复
- 收藏
-
ナスダック中国の金龍指数は5%超上昇し、楽しい自動車は120%超上昇し、金山雲は18%超上昇し、ピシャリと12%超上昇し、子牛の電動、怪獣の充電は10%超上昇し、愛奇芸は8%超上昇し、テンセント音楽、新東方は7%超上昇 ...
- hecgdge4
- 前天 10:28
- 支持
- 反对
- 回复
- 收藏
-
10月1日、理想自動車が9月に納入したデータによると、9月に理想自動車が新車53709台を納入し、前年同月比48.9%増となった。 今年第3四半期、理想自動車は前年同期比45.4%増の152831台を納入した。今年9月30日現在、 ...
- 就放荡不羁就h
- 3 天前
- 支持
- 反对
- 回复
- 收藏
-
EUが中国の電気自動車に関税を課す方針、独首相と財務相が反発 ドイツ連邦のショルツ首相は現地時間の10月2日、EUが中国の電気自動車に一時的な補助金税を課す紛争を解決するために中国と交渉することを表明した。 ...
- 寒郁轩良
- 昨天 10:13
- 支持
- 反对
- 回复
- 收藏