据最新报道,为了获得高质量的数据来训练其人工智能模型,OpenAI、谷歌和 Meta 等人工智能公司采取了不正当的手段。《纽约时报》的一篇报道称,OpenAI 据称已经转录了超过 100 万小时的 YouTube 视频数据,用于训练其最先进的大型语言模型(LLM)GPT-4。
据报道,OpenAI 开发的 Whisper 音频转录模型帮助该公司从 YouTube 视频中获取数据。据《纽约时报》报道,OpenAI 知道这种方法可能会受到审查,但他们还是采用了这种方法,因为他们认为这是合理使用。有趣的是,YouTube 的所有者谷歌公司也被指参与了同样的人工智能模型实践,从而侵犯了创作者的版权。
《纽约时报》的报道与《The Information》的报道不谋而合,后者强调 OpenAI 涉嫌从 YouTube 视频和播客中截取数据来训练其两个人工智能系统。该报道还指出,OpenAI 的总裁格雷格-布罗克曼(Greg Brockman)也在该团队中。
YouTube 首席执行官尼尔-莫汉(Neil Mohan)在接受彭博社采访时表示,公司的政策 "不允许下载转录或视频片段等内容,这明显违反了我们的服务条款"。然而,当他被问及 YouTube 数据是否被 OpenAI 使用时,莫汉给出了一个模棱两可的答案,他说:"我看到有报道说可能使用了,也可能没有。我自己没有相关信息。"
《纽约时报》的报道还称,谷歌内部有人知道 OpenAI 转录 YouTube 数据的做法,但他们无能为力,因为谷歌也采用了同样的做法来训练自己的人工智能模型。不过,谷歌对《纽约时报》表示,只有在视频创作者同意后,谷歌才会对视频进行数据搜刮。
报道称,谷歌在 2023 年 6 月要求一个团队 "调整其隐私政策","以允许谷歌能够为其更多的人工智能产品获取公开的谷歌文档、谷歌地图上的餐厅评论以及其他在线资料"。