传谷歌让 OpenAI 转录了一百万小时的 YouTube 视频来训练 GPT-4-电脑志

据最新报道，为了获得高质量的数据来训练其人工智能模型，OpenAI、谷歌和 Meta 等人工智能公司采取了不正当的手段。《纽约时报》的一篇报道称，OpenAI 据称已经转录了超过 100 万小时的 YouTube 视频数据，用于训练其最先进的大型语言模型（LLM）GPT-4。

据报道，OpenAI 开发的 Whisper 音频转录模型帮助该公司从 YouTube 视频中获取数据。据《纽约时报》报道，OpenAI 知道这种方法可能会受到审查，但他们还是采用了这种方法，因为他们认为这是合理使用。有趣的是，YouTube 的所有者谷歌公司也被指参与了同样的人工智能模型实践，从而侵犯了创作者的版权。

《纽约时报》的报道与《The Information》的报道不谋而合，后者强调 OpenAI 涉嫌从 YouTube 视频和播客中截取数据来训练其两个人工智能系统。该报道还指出，OpenAI 的总裁格雷格-布罗克曼（Greg Brockman）也在该团队中。

ChatGPT创建者OpenAI将于11月6日举行首次开发者大会

YouTube 首席执行官尼尔-莫汉（Neil Mohan）在接受彭博社采访时表示，公司的政策 "不允许下载转录或视频片段等内容，这明显违反了我们的服务条款"。然而，当他被问及 YouTube 数据是否被 OpenAI 使用时，莫汉给出了一个模棱两可的答案，他说："我看到有报道说可能使用了，也可能没有。我自己没有相关信息。"

《纽约时报》的报道还称，谷歌内部有人知道 OpenAI 转录 YouTube 数据的做法，但他们无能为力，因为谷歌也采用了同样的做法来训练自己的人工智能模型。不过，谷歌对《纽约时报》表示，只有在视频创作者同意后，谷歌才会对视频进行数据搜刮。

报道称，谷歌在 2023 年 6 月要求一个团队 "调整其隐私政策"，"以允许谷歌能够为其更多的人工智能产品获取公开的谷歌文档、谷歌地图上的餐厅评论以及其他在线资料"。

OnePlus或早于谷歌发布Android 14

本文由 King 发布在电脑志，转载此文请保持文章完整性，并请附上文章来源（电脑志）及本页链接。
原文链接：https://www.pcsofter.com/news/92826.html