大模型输出不稳定?WorkOS用评估系统(evals)解决AI代码生成不一致难题
thinkindev • 2026-06-18
1652 views
在AI辅助编程日益普及的今天,一个令人头疼的问题浮出水面:相同的输入和提示词,却总能得到不同的输出结果。这种不确定性严重阻碍了AI代理(Agent)在代码编写中的可靠性。知名身份认证平台WorkOS的工程师Nick Nisi,近期通过构建一套实用的评估系统(evals),为这个行业性难题提供了可借鉴的解决方案。他主要针对两款AI工具进行改进:一是基于命令行的脚手架工具`npx workos@latest`,它能自动在项目中安装身份认证套件AuthKit;二是WorkOS的代理技能系统,用于支撑关于单点登录(SSO)、目录同步和基于角色的访问控制(RBAC)等功能的LLM(大语言模型)响应。该评估系统的核心在于,如何针对真实且复杂的项目结构进行测试,如何对每次输出都不同的生成结果进行量化评分,以及如何准确捕捉AI代理“编造”出根本不存在的API方法或函数这类幻觉问题。这一工作流不仅提升了WorkOS自身产品的鲁棒性,也为其他面临类似问题的开发团队提供了从“能用”到“好用”的关键技术路径。
核心要点
- WorkOS工程师Nick Nisi为解决AI代码生成器输出不一致、不可靠的问题,开发了专门的评估系统(evals)。
- 该系统针对两款AI工具:CLI安装代理和LLM响应技能,在真实项目结构下进行测试与评分。
- 评估系统能有效检测AI“幻觉”,即编造不存在的函数或方法,显著提升了大模型在实际项目中的可靠性。