ServiceNow发布企业级AI智能体评测新基准-象者信息AI集锦

大语言模型正从“聊天助手”迈向能自主执行专业任务的AI智能体，但在真实企业环境中落地仍面临巨大挑战——现有评测基准大多基于简单对话或短序列任务，难以反映企业场景特有的复杂性：比如跨多天、多系统的长周期流程规划，持续演进的业务状态管理，以及严格的权限与安全管控机制。为填补这一空白，ServiceNow研究院联合Mila等机构推出EnterpriseOps-Gym：首个面向企业运营场景的高保真评测基准。它基于真实IT服务管理（ITSM）与客户支持工作流构建，涵盖工单闭环、配置变更、权限审批等典型任务，支持对AI智能体的长期规划能力、状态一致性、合规性操作等关键维度进行系统性评估。该基准不仅提供标准化测试环境，还开放了可复现的模拟器与评估协议，有望成为企业级AI智能体研发与落地的重要标尺。

来源：MarkTechPost

文章版权归作者所有，未经允许请勿转载。

THE END