大规模数据集的相关内容 - 漫话开发者

2024-03-19 talkingdev

16种不同的分词器预训练同一模型揭秘

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2024-03-18 talkingdev

本文详细介绍了Lamini公司在AMD GPU上进行大型语言模型训练的技术架构。这包括了他们所使用的调度程序、模型训练技术以及其他相关技术细节。Lamini的技术团队选择了AMD GPU作为硬件加速平台，以优化模型训练的性能和...

2024-02-08 talkingdev

由于LAION等大规模数据集的删除，以及版权问题，使得训练大规模图像模型变得具有挑战性。但是，这项工作表明，使用3000万个全合成的图像可以训练出强大的CLIP模型。

2024-01-30 talkingdev

HuggingFace最近发布了一种名为WebDataset的数据格式，它可以将多个记录组合在一起。任何具有相同前缀的内容都会被视为同一条记录。这种格式非常适合于流式传输和快速数据加载。WebDataset还可以支持使用并行处理来...

2024-01-24 talkingdev

Depth Anything是一种新的单目深度估计方法，它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督，该模型实现了令人印象深刻的泛化能力，并在深度估计方面树立了新的标准...

2023-10-27 talkingdev

研究介绍了RGM（Robust Generalist Matching）,这是一种专为图像中的稀疏和密集像素匹配而设计的深度学习模型。该方法利用了一种独特的级联GRU模块和一个新的大规模数据集。该模型可以应用于多种场景，具有广泛的适...

2023-09-13 talkingdev

Arcus公司通过使用分层检索器将检索增强生成（RAG）技术扩展到行星级规模。这种技术是通过将文件基于其语义内容进行分组聚类，然后逐步过滤这些组来缩小搜索空间。这样可以检索到更相关的上下文，减少幻觉，并在行星...

2023-07-24 talkingdev

近日，研究人员推出了一个名为SlowTV的大规模数据集，该数据集主要从YouTube收集而来，旨在提升自监督单目深度估计模型在不同环境下的深度理解能力。这些环境场景包括徒步旅行的小路、水下场景以及室内空间等。通过...