OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

OpenAI 为训练 GPT-4模型转录了超过一百万小时的 YouTube 视频

    正在检查是否收录...

AI 公司在获取高质量训练数据方面遇到的挑战,OpenAI 为了训练其最先进的大型语言模型 GPT-4,使用了超过一百万小时的 YouTube 视频副本。

据了解,该公司通过其 Whisper 音频转录模型转录这些视频,尽管这一做法在法律上具有争议性,OpenAI 仍认为这属于合理使用。

Google 对此表示关注,指出其条款禁止未经授权地获取 YouTube 内容。同时,Google 和 Meta 也遇到了训练数据获取的限制,为了跟进 OpenAI 的步伐,这两家公司也采取了一些争议性的做法。

AI 领域正面临训练数据短缺的挑战,而解决方案尚未明朗,公司们需要权衡利弊并寻求合理途径应对这一问题。

openai训练数据youtubegooglegpt-4gpt语言模型大型语言模型高质量解决方案音频转录whisper数据获取
  • 本文作者:李琛
  • 本文链接: https://wapzz.net/post-12638.html
  • 版权声明:本博客所有文章除特别声明外,均默认采用 CC BY-NC-SA 4.0 许可协议。
本站部分内容来源于网络转载,仅供学习交流使用。如涉及版权问题,请及时联系我们,我们将第一时间处理。
文章很赞!支持一下吧 还没有人为TA充电
为TA充电
还没有人为TA充电
0
  • 支付宝打赏
    支付宝扫一扫
  • 微信打赏
    微信扫一扫
感谢支持
文章很赞!支持一下吧
关于作者
2.3W+
5
0
1
WAP站长官方

Scaling Law被证伪,谷歌研究人员实锤研究力挺小模型更高效,不局限于特定采样技术!

上一篇

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢!

下一篇
  • 复制图片
按住ctrl可打开默认菜单