漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-10-14 talkingdev

论文:DeepSeek通过大规模合成数据推动LLM中的定理证明进展

DeepSeek项目致力于通过大规模合成数据提升LLM在定理证明领域的能力。传统的定理证明通常依赖于有限的标注数据,这限制了模型的学习和推理能力。DeepSeek通过生成多样化的合成数据集,训练模型识别和解决复杂的数学...

Read More
2024-07-02 talkingdev

论文:以10亿人格特征来创建合成数据的新方法

近期,一项新的研究将网络文本视为来自某种“人格”,并以此作为条件,显著提高了下游任务的性能。研究人员发现,在数学领域,这种方法使性能提升了20个百分点。这项研究的方法是通过大规模网络文本数据,创造出约10亿...

Read More
2024-06-26 talkingdev

AI与Morph Labs联手优化信息检索增强型生成模型

近日,AI与Morph Labs联合发布了一篇关于信息检索增强型生成(RAG)模型微调的优秀博客文章。在文章中,他们展示了一些合成数据的使用情况。信息检索增强型生成模型是一种新型的深度学习模型,它结合了信息检索技术...

Read More
2024-06-25 talkingdev

ParaLLM :Mac上基于MLX实现每秒1300个Token推理

在MLX中实施批量并行KV缓存,导致合成数据生成和模型完成的推理时间显著提速。这种新的技术实现方式大大加快了处理速度,从而在Mac上每秒可以处理1300个Token。这一突破性的技术进步,不仅可以提高处理效率,同时也...

Read More
2024-05-23 talkingdev

Neosync:面向开发者的数据匿名与合成数据生成工具

Neosync是一个面向开发者,专注于PII(个人身份信息)匿名化、合成数据生成及环境同步的创新工具。它能够为测试、调试和开发提供更安全、高效的体验。开发者可以利用Neosync安全地在生产数据上测试代码,本地重现错...

Read More
2024-04-30 talkingdev

星际编程2 15B模型:人类与合成数据的混合训练成果

星际编程2 15B模型是一款在合成数据和人类数据上进行训练的人工智能模型。该模型在humaneval测试中获得了72.6的高分,表现出色。开发者在训练过程中不仅展示了他们的数据管道复制能力,还提供了将合成数据应用于其他...

Read More
2024-04-10 talkingdev

人工智能数据竞赛的四个关键看点

人工智能的发展,尤其是像GPT-3这样的大型语言模型,严重依赖于大量数据。随着高质量在线数据可能在2026年耗尽,科技公司如Meta和Google正竞相收集更多数据。这些科技巨头采用有争议的方法来推动他们的AI进步,包括...

Read More
2024-04-08 talkingdev

人工智能竞赛中的数据争夺战:四大看点

人工智能的发展极度依赖大量数据支持,科技公司对数据的渴求速度远超数据产生的速度,有预测指出到2026年高质量数字数据可能会耗尽。为此,像OpenAI、谷歌和Meta这样的公司正在探索获取更多数据的新方法,包括使用Yo...

Read More
2024-04-05 talkingdev

Gretel开源2300万文本至SQL数据集,助力自然语言处理技术发展

HuggingFace平台上新发布了一个由Gretel收集的大规模文本至SQL数据集,包含2300万条数据。该数据集旨在通过自然语言处理技术生成SQL查询语句,对RAG应用程序和合成数据生成领域具有重要意义。文本至SQL的任务一直是...

Read More
2024-04-03 talkingdev

HuggingFace团队揭示大规模合成数据在预训练模型中的应用

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成,还包括对数据进行精心的筛选和过滤,以确保其在模型训练中的有效性和准确性。通过这种方...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page