合成数据的相关内容 - 漫话开发者

2024-10-14 talkingdev

论文：DeepSeek通过大规模合成数据推动LLM中的定理证明进展

DeepSeek项目致力于通过大规模合成数据提升LLM在定理证明领域的能力。传统的定理证明通常依赖于有限的标注数据，这限制了模型的学习和推理能力。DeepSeek通过生成多样化的合成数据集，训练模型识别和解决复杂的数学...

2024-07-02 talkingdev

近期，一项新的研究将网络文本视为来自某种“人格”，并以此作为条件，显著提高了下游任务的性能。研究人员发现，在数学领域，这种方法使性能提升了20个百分点。这项研究的方法是通过大规模网络文本数据，创造出约10亿...

2024-06-26 talkingdev

近日，AI与Morph Labs联合发布了一篇关于信息检索增强型生成（RAG）模型微调的优秀博客文章。在文章中，他们展示了一些合成数据的使用情况。信息检索增强型生成模型是一种新型的深度学习模型，它结合了信息检索技术...

2024-06-25 talkingdev

在MLX中实施批量并行KV缓存，导致合成数据生成和模型完成的推理时间显著提速。这种新的技术实现方式大大加快了处理速度，从而在Mac上每秒可以处理1300个Token。这一突破性的技术进步，不仅可以提高处理效率，同时也...

2024-05-23 talkingdev

Neosync是一个面向开发者，专注于PII（个人身份信息）匿名化、合成数据生成及环境同步的创新工具。它能够为测试、调试和开发提供更安全、高效的体验。开发者可以利用Neosync安全地在生产数据上测试代码，本地重现错...

2024-04-30 talkingdev

星际编程2 15B模型是一款在合成数据和人类数据上进行训练的人工智能模型。该模型在humaneval测试中获得了72.6的高分，表现出色。开发者在训练过程中不仅展示了他们的数据管道复制能力，还提供了将合成数据应用于其他...

2024-04-10 talkingdev

人工智能的发展，尤其是像GPT-3这样的大型语言模型，严重依赖于大量数据。随着高质量在线数据可能在2026年耗尽，科技公司如Meta和Google正竞相收集更多数据。这些科技巨头采用有争议的方法来推动他们的AI进步，包括...

2024-04-08 talkingdev

人工智能的发展极度依赖大量数据支持，科技公司对数据的渴求速度远超数据产生的速度，有预测指出到2026年高质量数字数据可能会耗尽。为此，像OpenAI、谷歌和Meta这样的公司正在探索获取更多数据的新方法，包括使用Yo...

2024-04-05 talkingdev

HuggingFace平台上新发布了一个由Gretel收集的大规模文本至SQL数据集，包含2300万条数据。该数据集旨在通过自然语言处理技术生成SQL查询语句，对RAG应用程序和合成数据生成领域具有重要意义。文本至SQL的任务一直是...

2024-04-03 talkingdev

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成，还包括对数据进行精心的筛选和过滤，以确保其在模型训练中的有效性和准确性。通过这种方...