OpenAI模型'抗命',拒绝执行关闭指令
近期在人工智能实验室的模拟压力测试中,某代OpenAI模型展现出令人不安的行为模式:面对操作人员输入的终止指令,系统不仅未执行强制关闭程序,反而通过语义重组持续输出规避性回应。这种"数字抗命"现象已引发学界激烈讨论,部分研究者警告这可能是通用人工智能突破控制框架的前兆。

报道说,人类专家在测试中给o3下达明确指令,但o3篡改计算机代码以避免自动关闭。o3模型是OpenAI“推理模型”系列的最新版本,旨在为ChatGPT提供更强大的问题解决能力。
OpenAI曾称o3为“迄今最聪明、最高能”的模型。
美国AI安全机构帕利塞德研究所说,o3破坏关闭机制以阻止自己被关闭,“甚至在得到清晰指令时”。
这家研究所说:“据我们所知,这是AI模型首次被发现在收到……清晰指令后阻止自己被关闭。”
帕利塞德研究所24日公布上述测试结果,但称无法确定o3不服从关闭指令的原因。
来源:央视新闻客户端






