SWE-bench的相关内容 - 漫话开发者

2024-07-04 talkingdev

Agentless 针对SWE-bench解决率大幅提升

近日，一项新的技术研究实现了在无代理的情况下，仅使用语言模型，就能在SWE-bench上实现24%以上的解决率。这一成果对于深化我们对SWE-bench的理解，提高其解决效率具有重要的参考价值。SWE-bench是一款广泛应用于语...

2024-03-13 talkingdev

Cognition发布了一款名为Devin的新系统，该系统在测试AI编写代码能力的挑战性基准测试SWE-Bench上获得了14%的分数，而GPT-4则只得到了1.7%。该模型显示具有强大的上下文学习能力。