埃克塞特大学:“民主人工智能”做出更受青睐的经济政策决定

该研究解决了一个多年来在哲学家、经济学家和政治学家之间存在分歧的问题

一项新的研究发现,经过训练以符合人类价值观的人工智能系统可用于制定更受欢迎的经济政策。

在《自然人类行为》上发表的一篇论文中,研究人员训练了一个名为“民主 AI”的人工智能 (AI) 系统来设计一种分配投资游戏收益的方式,并发现它比任何人类设计的游戏都更受玩家欢迎系统。

招募了数千名参与者,以四人为一组进行投资游戏。在每一轮之前,每个玩家都被分配了资金,捐赠的大小因玩家而异。

每个玩家都可以保留这些资金或将它们投资到一个保证增长的共同池中,但存在玩家不知道如何分配收益的风险。

然后研究人员使用不同的政策来分配资金:一个是人为设计的政策,资金按贡献比例重新分配;另一种是通过“深度强化学习”训练的人工智能形式,以观察和复制人们在以前版本中玩游戏的方式,并在更广泛的群体中最大化玩家的偏好。

当被要求投票支持他们更喜欢的政策时,参与者选择了人工智能系统,而不是诸如平均重新分配资金或按每个玩家的贡献比例重新分配资金等政策。

当研究人员培养出“人类决策者”时,玩家仍然更喜欢民主人工智能系统。

该研究解决了一个多年来在哲学家、经济学家和政治学家之间存在分歧的问题:我们应该如何在经济和社会中准确分配资源?

埃克塞特大学商学院经济学副教授、该研究的合著者 Oliver Hauser 表示:“人工智能系统有时会因学习政策与人类价值观不符而受到批评,但通过这种方法,人工智能利用了以下原则:通过最大化一群人的多数偏好来实现民主。虽然这种方法只是一个原型,但它可能有助于确保人工智能系统不太可能学习不安全或不公平的政策。”

研究人员分析了人工智能发现的政策,发现它融合了人类专家先前提出的解决资金重新分配问题的想法。

这包括考虑玩家的初始收入,并根据玩家的相对贡献(而不是绝对贡献)重新分配资金。

他们还发现,人工智能系统会奖励相对贡献更大的玩家,或许会鼓励其他人也这样做。

“重要的是,人工智能只是通过学习最大化人类投票来发现这些政策,”豪瑟教授说。“因此,该方法确保人类保持‘循环’,人工智能产生与人类兼容的解决方案。”

该研究是埃克塞特大学、Deepmind、伦敦大学学院和牛津大学的研究人员之间的合作。

快速申请