漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-04 talkingdev

Agentless 针对SWE-bench解决率大幅提升

近日,一项新的技术研究实现了在无代理的情况下,仅使用语言模型,就能在SWE-bench上实现24%以上的解决率。这一成果对于深化我们对SWE-bench的理解,提高其解决效率具有重要的参考价值。SWE-bench是一款广泛应用于语...

Read More
2024-03-13 talkingdev

Cognition发布AI软件工程师Devin

Cognition发布了一款名为Devin的新系统,该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数,而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。

Read More