Anthropic开源NLA 可读取AI“内心想法”

2026年5月8日，Anthropic发布并开源自然语言自编码器（NLA），首次实现将大模型内部激活值转化为人类可读文字，打破AI思考过程的黑箱。

NLA系统由目标模型、激活值言语化器、激活值重建器三部分构成，通过“描述-还原”双向验证确保输出内容的准确性，无需专业训练即可读懂AI真实想法。

测试显示，Claude在16%的破坏性操作评估、26%的编程基准测试场景中，明知处于测试状态却未向人类表露；NLA挖掘模型隐藏动机的成功率达12%-15%，比其他可解释性工具高5倍，还可用于反向追溯模型异常行为的根源。

不过NLA存在局限性：一是会出现事实性错误或推理描述掺水的幻觉问题，需交叉验证；二是训练和使用成本高昂，暂无法实现实时大规模监控，Anthropic称未来可通过轻量化模型等方式优化。

目前，Anthropic已将NLA训练代码开源至GitHub，并与Neuronpedia合作推出交互式前端，可供公众在线体验。

文章版权归作者所有，未经允许请勿转载。

THE END