模型训练的相关内容 - 漫话开发者

2024-03-22 talkingdev

Fed3DGS推出联邦学习框架，实现可扩展的3D重建

最近，Fed3DGS发布了一种基于联邦学习的3D重建框架，该框架采用3D高斯投影（3DGS）技术，能够实现在广阔区域内的去中心化场景构建。这种创新方法不仅提高了3D重建的效率和精确度，还保证了数据处理的隐私性。联邦学...

2024-03-20 talkingdev

近日，一项名为Poster Dataset Distillation的技术引起了广泛关注。该技术能够将庞大的数据集压缩成一个单一的'海报'，使得人工智能模型能够通过不到一张每个类别的图片进行学习。这一创新方法大幅减少了训练AI模型...

2024-03-19 talkingdev

现代语言模型的一个奇特事实是，在训练模型之前，我们首先训练分词器。另一个奇怪的事实是，在大规模场景下，词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象，分析分词器在模型预训练中的角色和影响，以及...

2024-03-18 talkingdev

本文详细介绍了Lamini公司在AMD GPU上进行大型语言模型训练的技术架构。这包括了他们所使用的调度程序、模型训练技术以及其他相关技术细节。Lamini的技术团队选择了AMD GPU作为硬件加速平台，以优化模型训练的性能和...

2024-03-15 talkingdev

这项工作表明，您可以单独训练模型，然后将它们合并成单个Mixture-of-Experts模型。

2024-03-15 talkingdev

OpenAI宣布与Le Monde和Prisa Media合作，将他们的内容整合到ChatGPT中，以为用户提供交互式和深入的新闻访问，并协助模型训练。Le Monde和Prisa Media将提供大量的新闻和其他内容，以帮助改进ChatGPT的质量和精度。...

2024-03-12 talkingdev

互联网档案馆拥有超过2亿个OCR图书页面，可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

2024-03-08 talkingdev

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术，以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术，并详细讨论了它们的优缺点。...