漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-22 talkingdev

Fed3DGS推出联邦学习框架,实现可扩展的3D重建

最近,Fed3DGS发布了一种基于联邦学习的3D重建框架,该框架采用3D高斯投影(3DGS)技术,能够实现在广阔区域内的去中心化场景构建。这种创新方法不仅提高了3D重建的效率和精确度,还保证了数据处理的隐私性。联邦学...

Read More
2024-03-20 talkingdev

全新数据压缩技术:AI模型训练数据集大幅缩减

近日,一项名为Poster Dataset Distillation的技术引起了广泛关注。该技术能够将庞大的数据集压缩成一个单一的'海报',使得人工智能模型能够通过不到一张每个类别的图片进行学习。这一创新方法大幅减少了训练AI模型...

Read More
2024-03-19 talkingdev

16种不同的分词器预训练同一模型揭秘

现代语言模型的一个奇特事实是,在训练模型之前,我们首先训练分词器。另一个奇怪的事实是,在大规模场景下,词汇量大小似乎并不是那么重要。本文将深入探讨这两种现象,分析分词器在模型预训练中的角色和影响,以及...

Read More
2024-03-18 talkingdev

AMD GPU上的多节点大型语言模型训练解析

本文详细介绍了Lamini公司在AMD GPU上进行大型语言模型训练的技术架构。这包括了他们所使用的调度程序、模型训练技术以及其他相关技术细节。Lamini的技术团队选择了AMD GPU作为硬件加速平台,以优化模型训练的性能和...

Read More
2024-03-15 talkingdev

Branch-Train-MiX:将专家LLM混合到Mixture-of-Experts LLM中

这项工作表明,您可以单独训练模型,然后将它们合并成单个Mixture-of-Experts模型。

Read More
2024-03-15 talkingdev

OpenAI宣布与Le Monde和Prisa Media合作,将其内容整合到ChatGPT中

OpenAI宣布与Le Monde和Prisa Media合作,将他们的内容整合到ChatGPT中,以为用户提供交互式和深入的新闻访问,并协助模型训练。Le Monde和Prisa Media将提供大量的新闻和其他内容,以帮助改进ChatGPT的质量和精度。...

Read More
2024-03-12 talkingdev

互联网档案馆图书数据集开放

互联网档案馆拥有超过2亿个OCR图书页面,可供研究使用。该数据集可用于文本识别、自然语言处理、信息检索等多个领域的研究。研究人员可以使用该数据集进行模型训练、语言建模、数据分析等工作。该数据集的发布将加速...

Read More
2024-03-08 talkingdev

深入探讨:大规模模型训练的并行化技术

这是一篇关于大规模模型训练的并行化技术的教程。文章详细介绍了不同类型的并行化技术,以及如何在训练大模型时实现高效的并行化。本文介绍了数据并行、模型并行和混合并行等不同的技术,并详细讨论了它们的优缺点。...

Read More
  1. Prev Page
  2. 4
  3. 5
  4. 6
  5. Next Page