OpenAI 宣布正在组建一个由其联合创始人兼首席科学家 Ilya Sutskever 和 Alignment 负责人 Jan Leike 共同领导的新团队,以开发引导和控制超智能人工智能(Superintelligent AI)系统的方法。“我们需要科学和技术突破来引导和控制比我们聪明得多的 AI 系统。”
该团队由 OpenAI 之前的 Alignment 部门的研究人员和工程师,以及来自公司其他团队的研究人员组成;他们有权使用公司迄今为止已获得的 20% 的计算资源,目标是在未来四年内解决控制超智能 AI 的核心技术挑战。
Sutskever 和 Leike 认为,超智能将可能在十年内实现。这将是人类发明的最具影响力的技术,可以帮助解决许多重要的问题。但与此同时,其巨大的力量也可能非常危险,并可能导致人类丧失主权甚至灭绝。
“我们如何确保比人类更聪明的 AI 系统遵循人类的意图?目前,我们还没有一个解决方案来引导或控制潜在的超智能 AI,并防止其失控。我们当前调整人工智能的技术,例如根据人类反馈进行强化学习,均依赖于人类监督人工智能的能力。但人类无法可靠地监督比我们聪明得多的 AI 系统。”
他们计划构建一个大致达到人类水平的“automated alignment researcher”。然后使用大量计算来扩展工作,并迭代地调整超级智能。为此,首先要做的是:1) 开发可扩展的训练方法,2) 验证生成的模型,3) 对整个对齐管道进行压力测试:
- 研究人员计划利用 AI 系统来协助评估其它 AI 系统(可扩展的监督),同时还希望了解和控制他们的模型是如何将监督推广到人类研究员无法监督的任务上。
- 为了验证系统的一致性,研究人员自动搜索了有问题的行为,以及存在问题的内部结构。
- 最后计划可以通过故意训练未对准的模型来测试整个流程,确认其技术可以检测到最严重的未对齐类型(对抗性测试)。
Sutskever 和 Leike 表示,随着研究的深入,预估其将来的研究重点也可能出现发生变化,甚至还可能会有新的研究领域出现。
目前,这一 Superalignment 团队还在招募机器学习研究人员和工程师。Sutskever 和 Leike 认为,Superintelligence alignment 从根本上来说是一个机器学习问题,因此优秀的机器学习专家对于解决这个问题至关重要。他们计划广泛分享团队的研究成果,并将促进非 OpenAI 模型的一致性和安全性视为其工作的重要组成部分。
“这个新团队的工作是对 OpenAI 现有工作的补充,旨在提高ChatGPT 等当前模型的安全性,以及理解和减轻人工智能带来的其他风险,例如滥用、经济破坏、虚假信息、偏见和歧视、成瘾和过度依赖等问题。虽然这个新团队将专注于将超智能 AI 系统与人类意图结合起来的机器学习挑战,但我们正在积极与跨学科专家合作解决相关的社会技术问题,以确保我们的技术解决方案考虑到更广泛的人类和社会问题。”