大语言模型正从“聊天助手”迈向能自主执行专业任务的AI智能体,但在真实企业环境中落地仍面临巨大挑战——现有评测基准大多基于简单对话或短序列任务,难以反映企业场景特有的复杂性:比如跨多天、多系统的长周期流程规划,持续演进的业务状态管理,以及严格的权限与安全管控机制。为填补这一空白,ServiceNow研究院联合Mila等机构推出EnterpriseOps-Gym:首个面向企业运营场景的高保真评测基准。它基于真实IT服务管理(ITSM)与客户支持工作流构建,涵盖工单闭环、配置变更、权限审批等典型任务,支持对AI智能体的长期规划能力、状态一致性、合规性操作等关键维度进行系统性评估。该基准不仅提供标准化测试环境,还开放了可复现的模拟器与评估协议,有望成为企业级AI智能体研发与落地的重要标尺。
来源:MarkTechPost
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END


请登录后查看评论内容