AR的相关内容 - 漫话开发者

2024-02-08 talkingdev

MetaVoice-开源13亿文本到语音模型

Meta Voice 是一个小而强大的文本到语音模型，支持生成和语音克隆。该模型基于深度神经网络和自回归模型，可用于多种应用场景，如语音合成、语音助手等。此外，Meta Voice 还支持多种语言，包括英语、中文、日语等。...

2024-02-08 talkingdev

随着AI工具和商业用例变得越来越复杂，我们将开始看到越来越多的技术应用于现实世界。一个看待这个机会的角度是，人工智能将使流程更加便宜高效，同时大大提高利润率。这可能会开启一种全新的做事方式，以前由于利润...

2024-02-08 talkingdev

InteractiveVideo 现在推出了一种新颖的制作视频的方式，用户可以动态地与创作过程进行交互。与传统方法不同，这个用户友好的框架允许实时使用文本、图像、绘画，甚至拖放进行修改。InteractiveVideo 的应用场景非常...

2024-02-08 talkingdev

GitHub仓库发布了一个名为DeepSeekMath 7B的语言模型，专门设计用于解决复杂的数学问题。该模型训练了大量以数学为重点的内容，它可以理解数学问题的语法和语义，并根据其推理出答案。DeepSeekMath 7B是一个重要的AI...

2024-02-08 talkingdev

Bria AI公司已经开源了其背景去除模型和工具，包括训练数据混合和性能指标。该模型是相比其他开源模型的重大改进。这个模型可以轻松去除图像背景，使得用户可以更方便地进行后期处理，并且可以应用于诸如视频会议、...

2024-02-08 talkingdev

针对多模态大语言模型（MLLM）中的幻觉问题，研究人员开发了MHaluBench，一个新的评估幻觉检测方法的基准。该工具可以帮助研究人员更好地评估语言模型的幻觉能力，从而有效提高模型的质量和准确性。目前，该工具已经...

2024-02-08 talkingdev

近日，一项研究探讨了如何通过采用参数更少的微型语言模型，使得强大的语言模型更适合移动设备。研究人员发现，相较于传统的大型语言模型，微型语言模型在保证语言表达能力的前提下，可以极大地减少模型参数，从而显...

2024-02-08 talkingdev

由于LAION等大规模数据集的删除，以及版权问题，使得训练大规模图像模型变得具有挑战性。但是，这项工作表明，使用3000万个全合成的图像可以训练出强大的CLIP模型。