漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-02 talkingdev

论文:在多智能体Agent模型中更好地探索-QMIX的改进

科研人员已经通过在最大熵框架内增加了一个局部Q价值学习方法,改进了被广泛应用的多智能体强化学习方法QMIX。QMIX是一个众所周知的多代理强化学习方法,它能有效地解决多代理学习中的挑战,如策略的协调和通信难题...

Read More
2024-06-25 talkingdev

在TRL中训练视觉模型

TRL是一个Hugging Face库,专为使用强化学习训练变形金刚设计。这个示例允许您对基于视觉的语言模型如LLaVA进行相同的处理。Hugging Face是一个开源NLP(自然语言处理)社区和公司,致力于使用人工智能推动自然语言...

Read More
2024-06-24 talkingdev

ReaLHF训练技术开源,刷新训练效率新高度

ReaLHF是一种全新的系统,它通过在训练过程中动态地重新分配参数和优化并行化,以提高来自人类反馈的强化学习(RLHF)的效率。ReaLHF通过创新的技术手段,实现了动态参数分配和并行化优化,从而达到了提高训练效率的...

Read More
2024-06-24 talkingdev

论文:QMIX方法对多Agent模型中的更优探索

科研人员已经通过在最大熵框架内增加一种本地Q值学习方法,改进了用于多代理强化学习的流行方法QMIX。这种新的改进方法可以使多代理模型在进行任务处理时,更加精确和高效。本地Q值学习方法的引入,使得每个代理都能...

Read More
2024-06-24 talkingdev

MacroHFT-智能化加密货币交易的新方法

MacroHFT是一种新的高频交易(HFT)方法,专门针对加密货币市场。这种方法利用强化学习来改进决策过程并提高盈利能力。传统的高频交易是一种算法交易,它的核心在于高速、大量地买卖证券,以获得微小的价格差异带来的...

Read More
2024-05-27 talkingdev

论文:Lyft利用强化学习技术优化司机与乘客匹配

Lyft团队采用在线强化学习技术,通过司机未来收入来奖励司机,从而实现司机与乘客的匹配优化。这种方法使得匹配过程能够实时显著改进,每年为乘客额外创造了大约3000万美元的收入。强化学习是一种机器学习技术,它通...

Read More
2024-04-11 talkingdev

策略引导扩散技术:提升离线强化学习模型性能

策略引导扩散(Policy-Guided Diffusion)是一种新颖的训练代理的方法,适用于离线环境。该技术通过创建与行为和目标策略都非常接近的综合轨迹,从而生成更加真实的训练数据。这不仅有助于提高离线强化学习模型的性...

Read More
2024-04-09 talkingdev

论文:AI图像生成技术新突破,提示自动编辑技术助力文本到图像转换

近期,研究人员开发了一种名为提示自动编辑(Prompt Auto-Editing,简称PAE)的新技术,旨在提升基于文本生成图像的技术水平。该技术利用了Imagen和Stable Diffusion等扩散模型,通过在线强化学习动态调整文本提示中...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page