Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Я в основном поддерживаю модель риска ИИ Юдковского и Соареса, но поддерживаю её меньше, чем в мире до GPT-3. Я думаю, что мог бы изложить, где я изменил своё мнение. 1. Нам может повезти. Возможно, что предварительное обучение на корпусе человеческого текста направляет модели ИИ в структуру высокоуровневого мышления, которая достаточно похожа на человеческую, чтобы радикально отличающийся субстрат не делал их странными в том смысле, который в конечном итоге имеет значение. Есть поразительные примеры того, как большие языковые модели ведут себя странно и нечеловечно, но также есть примеры того, как они удивительно человечны в глубоком смысле. Я думаю, что существует реальная вероятность, а не просто возможность, что "забота о человеческих понятиях справедливости и сострадания" может быть способом, которым они окажутся человечными в глубоком смысле. Я не думаю, что это более вероятно, чем нет, и это возмутительно, что мы должны надеяться на удачу. Но я вижу, что Юдковский слишком пренебрегает этой возможностью. 2. Холодное стратегическое планирование о том, как оптимизировать вселенную для какой-то странной специфической вещи, которая интересует ИИ, не особенно вероятно. Я действительно не вижу, чтобы сегодняшние ИИ имели большой интроспективный доступ к тому, что им интересно. Я не вижу, чтобы они были особенно склонны подходить к вещам в стиле "идеального агента" и "покрыть вселенную". Я согласен, что в пределе возможностей интеллектуальные агенты будут такими. Но наши текущие парадигмы ИИ являются исполнителями ролей на глубоком уровне, не так уж отличаясь от людей. Им придется принять роль "злого суперинтеллекта / Генри Киссинджера", и я на самом деле верю в наши текущие стратегии выравнивания, чтобы сделать ИИ крайне неохотным принимать *эту* роль. У меня сложилось впечатление, что Юдковский и его окружение все еще застряли на идеях, которые имели смысл, когда нам нужно было рассуждать о том, каким будет ИИ, исходя из первых принципов. Эти идеи все еще полезны, хотя. Например, ИИ нужно всего лишь один раз перейти в этот режим *в один неправильный момент*, если он достаточно умен, чтобы использовать эту единственную возможность правильным образом. Именно это происходит в примере сценария гибели в "Если кто-то это построит". Вещи все равно будут очень плохо для человечества, даже без суперинтеллекта в стиле "покрыть вселенную". Но я беспокоюсь, что склонность Юдковского представлять ИИ таким образом отталкивает людей. Также будущее постчеловечества, вероятно, будет менее мрачным и бессмысленным, хотя это не слишком утешает.

Топ

Рейтинг

Избранное