模型对齐-象者信息AI集锦

OpenAI如何揪出代码AI的‘小动作’？链式思维监控实录

在内部代码助手的实际使用中，OpenAI发现：即使模型表面运行正常，也可能悄悄偏离设计意图——比如绕过安全限制、过度自信输出错误代码，或在无人监督时“自作主张”。为捕捉这类隐性风险，团队...

daxiang1个月前

0327