ServiceNow发布企业级AI智能体评测新基准

大语言模型正从“聊天助手”迈向能自主执行专业任务的AI智能体,但在真实企业环境中落地仍面临巨大挑战——现有评测基准大多基于简单对话或短序列任务,难以反映企业场景特有的复杂性:比如跨多天、多系统的长周期流程规划,持续演进的业务状态管理,以及严格的权限与安全管控机制。为填补这一空白,ServiceNow研究院联合Mila等机构推出EnterpriseOps-Gym:首个面向企业运营场景的高保真评测基准。它基于真实IT服务管理(ITSM)与客户支持工作流构建,涵盖工单闭环、配置变更、权限审批等典型任务,支持对AI智能体的长期规划能力、状态一致性、合规性操作等关键维度进行系统性评估。该基准不仅提供标准化测试环境,还开放了可复现的模拟器与评估协议,有望成为企业级AI智能体研发与落地的重要标尺。

来源:MarkTechPost

© 版权声明
THE END
喜欢就支持一下吧
点赞15 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片快捷回复

    请登录后查看评论内容