漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品

科技巨头如何为AI采集数据走捷径

talkingdev • 2024-04-08

474510 views

近期,科技巨头们在人工智能领域领跑的比赛中采取了一些颇具争议性的数据获取方式。OpenAI通过开发名为Whisper的语音识别工具,成功从YouTube视频中转录音频,为训练其AI系统提供了新文本。该团队最终转录了超过一百万小时的视频来训练GPT-4。谷歌和Meta也采用了类似的手段来获取数据,这些行为在法律和道德上存在争议。本文将讨论公司为了AI训练目的所采用的各种数据获取方法,或考虑使用的数据获取方法。

核心要点

  • OpenAI利用新开发的Whisper工具从YouTube视频中转录音频,以获取AI训练数据
  • 谷歌和Meta在AI领域的数据获取方式存在法律和道德风险
  • 科技巨头们在数据获取上采取的捷径行为引发业界对AI伦理和法律问题的讨论

Read more >