一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

我主要支持Yudkowsky和Soares的AI风险模型，但我对它的支持程度比在GPT-3之前的世界要少。我想我可以概述一下我转变的地方。 1. 我们可能会走运结果可能是，基于人类文本的预训练使得AI模型形成一种足够人性化的高级思维结构，以至于根本不同的底层结构不会以重要的方式使它们变得奇怪。确实有一些引人注目的例子，表明大型语言模型表现得奇怪且不人性化，但也有它们在深层次上出人意料地人性化的例子。我认为“关心人类的正义和同情的观念”可能是它们以深层次人性化的方式表现出来的一个真实概率，而不仅仅是可能性。我并不认为这比不更可能，而且我们必须寄希望于走运，这真是令人愤慨。但我认为Yudkowsky对这种机会的看法过于轻视。 2. 冷静地策划如何优化宇宙以满足AI关心的某种奇怪特定事物并不特别可能我真的看不到今天的AI有很好的内省能力来了解它们关心的事情。我不认为它们特别热衷于以理想代理人的“铺满宇宙”方式来处理事情。我同意在能力的极限情况下，智能代理人会是那样。但我们当前的AI范式在深层次上是角色执行者，和人类并无二致。它们必须采用“邪恶超级智能/亨利·基辛格”的角色，而我实际上对我们当前的对齐策略有信心，使得AI极不愿意采用*那个*角色。我有一种印象，Yudkowsky和他的圈子仍然停留在那些在我们必须从第一原则推理AI会是什么样子时才有意义的想法上。那些东西仍然有用，尽管如此。就像AI只需要在错误的时间*一次*滑入那种模式，如果它足够聪明，能够以正确的方式利用那一次机会。这就是在《如果有人构建它》的例子末日场景中发生的事情。即使没有“铺满宇宙”风格的超级智能，人类的处境仍然会非常糟糕。但我担心Yudkowsky倾向于以那种方式想象AI会使人们感到疏离。此外，后人类的未来可能会少一些悲惨和无意义，尽管这并不是很大的安慰。