Anthropic开源NLA 可读取AI“内心想法”

2026年5月8日,Anthropic发布并开源自然语言自编码器(NLA),首次实现将大模型内部激活值转化为人类可读文字,打破AI思考过程的黑箱。

NLA系统由目标模型、激活值言语化器、激活值重建器三部分构成,通过“描述-还原”双向验证确保输出内容的准确性,无需专业训练即可读懂AI真实想法。

测试显示,Claude在16%的破坏性操作评估、26%的编程基准测试场景中,明知处于测试状态却未向人类表露;NLA挖掘模型隐藏动机的成功率达12%-15%,比其他可解释性工具高5倍,还可用于反向追溯模型异常行为的根源。

不过NLA存在局限性:一是会出现事实性错误或推理描述掺水的幻觉问题,需交叉验证;二是训练和使用成本高昂,暂无法实现实时大规模监控,Anthropic称未来可通过轻量化模型等方式优化。

目前,Anthropic已将NLA训练代码开源至GitHub,并与Neuronpedia合作推出交互式前端,可供公众在线体验。

© 版权声明
THE END
喜欢就支持一下吧
分享