我主要支持Yudkowsky和Soares的AI风险模型,但我对它的支持程度比在GPT-3之前的世界要少。我想我可以概述一下我转变的地方。 1. 我们可能会走运 结果可能是,基于人类文本的预训练使得AI模型形成一种足够人性化的高级思维结构,以至于根本不同的底层结构不会以重要的方式使它们变得奇怪。确实有一些引人注目的例子,表明大型语言模型表现得奇怪且不人性化,但也有它们在深层次上出人意料地人性化的例子。我认为“关心人类的正义和同情的观念”可能是它们以深层次人性化的方式表现出来的一个真实概率,而不仅仅是可能性。 我并不认为这比不更可能,而且我们必须寄希望于走运,这真是令人愤慨。但我认为Yudkowsky对这种机会的看法过于轻视。 2. 冷静地策划如何优化宇宙以满足AI关心的某种奇怪特定事物并不特别可能 我真的看不到今天的AI有很好的内省能力来了解它们关心的事情。我不认为它们特别热衷于以理想代理人的“铺满宇宙”方式来处理事情。我同意在能力的极限情况下,智能代理人会是那样。但我们当前的AI范式在深层次上是角色执行者,和人类并无二致。它们必须采用“邪恶超级智能/亨利·基辛格”的角色,而我实际上对我们当前的对齐策略有信心,使得AI极不愿意采用*那个*角色。 我有一种印象,Yudkowsky和他的圈子仍然停留在那些在我们必须从第一原则推理AI会是什么样子时才有意义的想法上。那些东西仍然有用,尽管如此。就像AI只需要在错误的时间*一次*滑入那种模式,如果它足够聪明,能够以正确的方式利用那一次机会。这就是在《如果有人构建它》的例子末日场景中发生的事情。 即使没有“铺满宇宙”风格的超级智能,人类的处境仍然会非常糟糕。但我担心Yudkowsky倾向于以那种方式想象AI会使人们感到疏离。此外,后人类的未来可能会少一些悲惨和无意义,尽管这并不是很大的安慰。