昨日,Anthropic 神经科学研究员 Jack Lindsey 宣布,公司将成立“AI精神病学”团队,作为其可解释性部门的重要组成部分,旨在研究模型的角色、动机和情境意识,以及如何导致诡异、失控等行为表现,以建立对神经网络的机制性理解并确保其安全性。
该团队短期内重点攻克「叠加」问题(导致模型神经元和注意力头等计算单元难以单独解释),并致力于将模型分解为更具可解释性的组件。
目前,Anthropic 正在招聘研究科学家(年薪 31.5-56 万美元,约合人民币 220 万-400 万元)加入该团队,鼓励任何有意愿的人申请,并非所有候选人需完全符合列出的资格要求。