数据训练的相关内容 - 漫话开发者

2024-11-20 talkingdev

Niantic发布基于《宝可梦Go》玩家数据训练的“大型地理空间模型”

Niantic公司近日宣布，他们训练了一个名为“大型地理空间模型”（Large Geospatial Model）的人工智能模型，该模型使用了《宝可梦Go》的玩家数据进行训练。这个模型的目的是为了更好地理解和预测玩家在现实世界中的移...

2024-06-01 talkingdev

自去年推出以来，语言模型（LLMs）已成为人工智能领域的热点。一年来，我们使用LLMs构建了许多项目，并从中获得了许多宝贵的经验教训。首先，LLMs需要大量的数据来进行训练，只有这样才能产生准确的结果。其次，LLMs...

2024-05-10 talkingdev

Buzz是一个创新型的数据集，它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现，这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现，无疑为人工智能研究提供了新...

2024-04-15 talkingdev

近期，科技界发起了一项名为BabyLM的挑战，旨在推动研究人员和开发者在极度有限的数据条件下，训练出性能卓越的文本和视觉模型。这一挑战的核心理念是模仿人类婴儿在成长初期所接触到的数据量，大约为1000万个token...

2024-02-21 talkingdev

近日，一项名为ZeroSwot的新方法被提出，通过独特的技术，成功突破了语音和文本之间的差异以及数据缺乏等难题，实现了提高语音翻译准确度的目标。具体来说，ZeroSwot通过使用语音识别数据训练语音编码器，然后将其与...

2024-02-08 talkingdev

由于LAION等大规模数据集的删除，以及版权问题，使得训练大规模图像模型变得具有挑战性。但是，这项工作表明，使用3000万个全合成的图像可以训练出强大的CLIP模型。

2024-02-02 talkingdev

FireLlava是一个新的开源视觉模型，经过数据训练，可以用于商业任务。它与原始Llava的性能相当，但还没有达到Llava 1.5的水平。

2024-01-22 talkingdev

以往认为难问题需要难数据，但这些数据很难标记且带噪音。这项研究表明，对相关但易处理的数据进行微调训练，可以极大提高模型解决难问题的能力。这是支持微调训练是引出知识而非添加知识的又一数据点。本研究成果对...

2023-11-29 talkingdev

伯克利的一组研究人员使用合成偏好数据训练了一个新的最先进的7B参数模型。本文讨论了训练奖励模型的新挑战（例如，示例在列表中的位置会改变其排名）以及他们如何克服这些挑战。结果模型可与经过训练的奖励模型一起...

2023-11-17 talkingdev

阿里云近日发布了Qwen Audio模型，该模型是一款通用的音频转语言模型，能够用于音乐、语音等多种任务。该模型基于深度学习技术，经过大量数据训练，能够准确地识别语音，并将其转化为对应的语言文字，为用户提供更加...