漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-07 talkingdev

Nomic-Embed-Text-V1:全新文本嵌入模型的里程碑

Nomic-Embed-Text-V1是一种开源、完全可重现的文本嵌入模型,为短文本和长文本任务树立了新的标杆。在透明度方面独树一帜,Nomic-Embed-Text-V1提供完全访问其训练代码、模型权重和包含2.35亿个文本对的大型数据集的...

Read More
2024-01-03 talkingdev

论文:微软研究使用LLM改进文本嵌入技术

微软的研究人员使用合成数据来训练基于Mistral的解码器,以改进嵌入技术。该技术是同类产品中最佳的。有趣的是,他们使用GPT-4的两步提示策略来生成合成检索训练数据。

Read More
2023-10-16 talkingdev

论文:文本嵌入向量揭示的隐私问题引起关注

最近,一项研究发现,使用迭代重新嵌入和将嵌入反演视为条件生成问题,使攻击者仅凭密集向量就能成功重现92%的嵌入文本,这引起了隐私问题的关注。这意味着虽然文本嵌入被广泛用于自然语言处理和机器学习任务,但其...

Read More