漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-03 talkingdev

Conifer开源:显著提升LLM对复杂指令的理解能力

Conifer通过引入一个专门的数据集和渐进式学习方法,显著提升了大规模语言模型(LLM)对复杂指令的理解能力。该方法不仅能让LLM在处理复杂任务时表现得更为精准,还能有效减少错误率。专门的数据集涵盖了各类复杂指...

Read More
2024-05-07 talkingdev

ml-rpm-bench: 视觉-语言模型在视觉推理方面的限制评估

像GPT-4V这样的视觉-语言模型在理解和与图像和文本交互方面正在快速发展。然而,最近的一项研究揭示了它们在视觉推理上的重大限制。研究人员使用复杂的视觉难题,如智商测试中的难题,来测试这些模型,并发现它们在...

Read More
2024-04-15 talkingdev

论文-DGMamba框架:采用状态空间模型应对领域泛化挑战

DGMamba框架是一种创新的技术,它利用状态空间模型Mamba来解决领域泛化中的挑战。状态空间模型是一种先进的机器学习方法,通过将系统状态表示为一组变量,并预测其在时间上的演变,从而提高模型的泛化能力和对新场景...

Read More
2024-03-25 talkingdev

HETAL推出保护隐私的迁移学习方法,采用同态加密技术提升AI训练安全性

在最新的研究中,HETAL提出了一种新颖的迁移学习方法,该方法通过同态加密技术来确保数据隐私,这对于安全AI训练来说是一次重大的进步。同态加密允许在加密数据上直接进行计算,而无需解密,从而保护了数据的私密性...

Read More
2024-03-20 talkingdev

LlamaGym:在线强化学习优化大模型Agent

近日,GitHub上出现了一个新的项目LlamaGym,该项目专注于通过在线强化学习方法对大型语言模型(LLM)代理进行微调。大型语言模型在近年来取得了显著的进展,但如何进一步提升其性能,尤其是在特定任务上的表现,成...

Read More
2024-03-08 talkingdev

DP3引领机器人模仿学习新方向

DP3推出了一种先进的模仿学习方法,结合3D视觉数据和扩散策略,以高效的方式为机器人教授复杂技能。该方法通过将多个示教者的动作数据进行聚合,形成一个复杂的运动模型,并通过扩散过程来优化该模型。该模型可以有...

Read More
2024-03-01 talkingdev

Distilabel-框架用于对齐数据收集

Distilabel是为AI工程师设计的框架,使用人类反馈的强化学习方法(例如奖励模型和DPO)对大型语言模型进行对齐。 它主要专注于LLM微调和适应性。 Distilabel可协助数据收集,清洗和训练。

Read More
2024-02-27 talkingdev

论文:简单的强化学习算法战胜PPO

REINFORCE是一种简单、标准且易于理解的强化学习方法。然而,在模拟器中使用它很难稳定地进行训练。PPO在一般情况下更为高效和稳定。Gemini使用REINFORCE算法,而据信GPT-4使用PPO算法。

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page