漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-03 talkingdev

HuggingFace团队揭示大规模合成数据在预训练模型中的应用

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成,还包括对数据进行精心的筛选和过滤,以确保其在模型训练中的有效性和准确性。通过这种方...

Read More
2024-02-08 talkingdev

论文:CLIP模型使用全合成数据进行训练

由于LAION等大规模数据集的删除,以及版权问题,使得训练大规模图像模型变得具有挑战性。但是,这项工作表明,使用3000万个全合成的图像可以训练出强大的CLIP模型。

Read More
2024-01-31 talkingdev

谷歌论文:通过通用图灵机学习元学习

元学习是训练系统学习和快速适应新任务的过程。谷歌的这项工作使用从通用图灵机生成的合成数据来改进元学习,并在实验和理论上分析结果。该论文称,通用预测器(UP)是一种通用的元学习方法,可以学习任何任务。UP是...

Read More
2024-01-29 talkingdev

更好的图像相似度度量

图像相似度系统根据两个图像的相似程度给出分数。这项工作通过依赖于合成数据和人类偏好,改进了以前的方法。以往的方法主要是基于像素级别的相似度计算,而本研究使用了更先进的方法,如卷积神经网络,将图像表示为...

Read More
2024-01-25 talkingdev

自动训练的PairRM与DPO

一种非常强大的新Mistral曲调,利用巧妙的弱监督和合成数据生成与DPO兼容的数据集。 描述的过程可以重复多次并应用于各种企业用例。

Read More
2024-01-03 talkingdev

论文:微软研究使用LLM改进文本嵌入技术

微软的研究人员使用合成数据来训练基于Mistral的解码器,以改进嵌入技术。该技术是同类产品中最佳的。有趣的是,他们使用GPT-4的两步提示策略来生成合成检索训练数据。

Read More
2023-12-07 talkingdev

自学习语言模型实现领域自适应

在需要专业知识的领域中使用语言模型时,可以进行微调或使用某些检索技术。但两者都有缺点。这种新颖的方法使用自动生成的合成数据来更好地学习测试时的信息。它在标准适应基准测试中显示出比微调和RAG更好的表现。

Read More
2023-12-07 talkingdev

深入探讨:指令调优的最新进展

指令调优的引入大大提高了语言模型的实用性。近来,出现了许多新的进展,例如合成数据管道,使这一过程变得更好、更高效。

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page