Это перевод длинного текста Элиезера Юдковского «AGI Ruin: A List of Lethalities». В нём Юдковский по пунктам описывает, почему он считает, что шансы конца света из-за появления СИИ очень велики. (Оригинал)
***
Преамбула:
(Если вы уже знакомы с основами и не нуждаетесь в преамбуле, пропустите до Раздела Б, технические сложности согласования там.)
У меня несколько раз не получалось написать хорошо организованный список причин, почему СИИ вас убьёт. Люди придумывают разные идеи, почему СИИ будет не фатальным, и хотят в первую очередь прояснений совсем разных очевидно ключевых пунктов. Некоторая доля этих людей громко возмущается, если я не описываю самое важное сразу же, а выбираю другой пункт.
У меня не получилось решить эту проблему хорошим способом, так что я сдаюсь и хоть как-то решу её слабо организованным списком отдельных декламаций. Я не особо им доволен, но альтернативой было не публиковать ничего, а публикация этого кажется немного более достойной.
Три пункта о предмете обсуждения в целом, пронумерованные отрицательными числами, чтобы избежать коллизий с списком смертоносностей:
-3. Я предполагаю, что вы уже знакомы с некоторыми основами, и уже знаете, что такое «ортогональность» и «инструментальная конвергенция», и почему они верны. Люди то и дело говорят мне, что мне надо прекратить сражаться в старых битвах, потому что, как они заявляют, эти битвы уже выиграны для имеющей-по-их-мнению-значение части нынешней аудитории. Я думаю, по меньшей мере верно, что никто из нынешних крупных представителей ЭА не отрицает вслух ортогональность и инструментальную конвергенцию сами по себе; так что ладно. Если вы не знаете, что такое «ортогональность» или «инструментальная конвергенция», или не понимаете, почему они верны, то вам нужно другое вступление, а не это.
-2. Когда я говорю, что согласование фатально сложно, я не говорю о ни о идеальных целях «доказуемой» согласованности, ни о полном согласовании суперинтеллектов точным человеческим ценностям, ни о получении ИИ, предоставляющего удовлетворительные аргументы о моральных дилеммах, по поводу которых есть разногласия среди типа-разумных людей, ни о получении абсолютной уверенности, что ИИ не убьёт всех. Когда я говорю, что согласование сложное, я имею в виду, что на практике, при использовании действительно имеющихся у нас техник, «пожалуйста, не разбирай на атомы буквально всех с вероятностью примерно 1» – очень большой запрос, и мы не находимся на курсе, ведущем к его выполнению. Если вы можете получить мощный СИИ, который выполнит некую поворотную сверхчеловеческую инженерную задачу с менее чем пятидесятипроцентным шансом убить больше миллиарда человек, я согласен на риск. Ещё меньшие шансы убийства ещё меньшего числа людей были бы приятной роскошью, но если вы можете дойти до невероятных высот «менее чем примерно точно убьёт всех», то скорее всего риск менее 5% потребует ещё лишь небольших усилий. Практически вся сложность – добраться до «менее чем приблизительно точно убьёт буквально всех». Дилеммы вагонетки не являются интересными подзадачами; если выжившие есть, согласование решено. Меня сейчас не волнует, как это работает, как вы до этого дойдёте, я агностичен по поводу методологий, я смотрю только на перспективные результаты, на оправданные поводы верить в полезный для поворотного действия СИИ, который не убьёт буквально всех. Если кто-то говорит, что я требую какой-то более строгой «согласованности», это вызвано непониманием того, что я пишу. Главное требование к согласованности СИИ, основной вызов, про который я говорю, что он сложен – это получить хоть какую-то стратегию с значительным шансом того, что будут выжившие.
-1. Ничто из этого не про невозможность в принципе. Метафора, которую я обычно использую: если к нам в руки попадёт учебник из будущего через сто лет, содержащий все простые идеи, которые на самом деле надёжно работают, то мы скорее всего могли бы создать согласованный суперинтеллект за шесть месяцев. Для людей, разбирающихся в машинном обучении я в качестве примера такой идеи привожу разницу между функциями активации ReLU и сигмоидой. Сигмоида сложна, хрупка и очень плохо передаёт градиент через много слоёв. ReLU очень проста (для незнакомых – это буквально max(x, 0)) и куда лучше работает. Большинство нейросетей первых десятилетий использовали сигмоиды; идея ReLU не была открыта, проверена и популяризирована десятки лет. Фатально то, что у нас нет Учебника Из Будущего, сообщающего нам все простые решения, которые на самом деле надёжно работают; мы собираемся предпринимать нашу первую критическую попытку с одними сплошными метафорическими сигмоидами. Я не заявляю, что невозможно решить обсуждаемые тут сложности согласования СИИ – человеческими наукой и инженерией, и уж тем более в принципе – если бы у нас была сотня лет и неограниченное число попыток, как обычно у науки есть неограниченное время и неограниченные попытки. Этот список смертоносностей – про то, что мы не находимся на курсе решения проблемы с первой критической попытки; я нигде тут не делаю более сильное заявление, что это невозможно в принципе.
С учётом этого:
Вот, с моей точки зрения, некоторые истинные утверждения, которые, можно сказать, противоречат разным ложным утверждениям, о том, почему СИИ может быть не смертоносным при условии чего-то отдалённо-отдалённо напоминающего нынешний курс или какой-то курс, на который можно легко перескочить, в которые, кажется, некоторые верят.
Раздел А:
Это очень смертоносная задача, её надо каким-то образом решить, её надо решить в минимальном варианте на минимальной сложности. Вопреки мечтам многих мы не находимся в более простой ситуации, у нас нет видимого варианта, при котором «все» отступают к решению вместо неё лишь безопасных простых задач, и провал при первой действительно опасной попытке фатален.
1. Alpha Zero разорвала все накопленные человечеством знания о го после приблизительно дня игры сама с собой, не полагаясь на человеческие учебники или примеры игр. Все рассуждения в духе «ну, она за день или два доберётся до человеческих способностей игры в го, но потом ей будет сложно, потому что она больше не будет способна учиться у людей» были бы необоснованными. СИИ не будет ограничен сверху человеческими способностями или человеческой скоростью обучения. Нечто куда умнее человека было бы способно обучаться на куда меньшей информации, чем требуется людям, чтобы запихнуть идеи себе в мозг; тут есть теоретические верхние пределы, но они кажутся очень большими. (Например, каждый бит информации, который пока что нельзя было полностью предсказать, может отвергнуть не более чем половину вероятностной массы рассматриваемых гипотез.) Нет естественного (по умолчанию, если его не устроить) ограничения, из-за которого всё должно происходить на временных масштабах, позволяющих нам легко среагировать.
2. Для достаточно мощной когнитивной системы, имеющей доступ к любому не совсем жёстко ограниченному каналу внешнего влияния будет несложно организовать себе неодолимые способности, независимые от человеческой инфраструктуры. Как конкретный пример я обычно упоминаю нанотехнологии, потому что существуют довольно подробные анализы нижней границы того, что должно быть физически достижимо с нанотехнологиями, и этой нижней границы вполне хватит. Моя оценка снизу того «как бы значительно мощный интеллект всех убил, если у него нет желания этого не делать» – он получает доступ к Интернету, отправляет какие-нибудь последовательности ДНК любой из многих-многих онлайн-фирм, которые принимают последовательность ДНК и присылают синтезированные белки, заставляет угрозами или убеждает какого-то человека, понятия не имеющего, что имеет дело с СИИ, смешать белки в пробирке, они формируют первичную нанофабрику, которая уже может создавать настоящие нанотехнологии. (Было время, когда я высказывал эту картину, а мудро-звучащие критики говорили «О, но откуда ты знаешь, что суперинтеллект сможет решить задачу фолдинга белков, если у него не будет суперкомпьютеров размером с планету?», но по какой-то странной причине после появления AlphaFold 2 так стало происходить реже.) Наномашины создают диамандоидных бактерий, те размножаются с помощью солнечной энергии и атмосферного CHON, может быть собираются в какие-нибудь миниатюрные ракеты, чтобы распространиться по атмосфере Земли, попасть в кровеносные системы людей и затаиться, выжидая по таймеру. Поражение в конфликте с когнитивной системой высокой мощности выглядит как минимум настолько смертоносно, как «все на Земле внезапно падают мёртвыми за одну секунду». (Я использую неудобные конструкции вроде «когнитивной системы высокой мощности», потому что стандартные термины вроде «умный», мне кажется, применяются в основном как синоним статусности. Для большинства людей «суперинтеллект» звучит как «что-то выше верхушки статусной иерархии, закончившее вдвойне престижный университет», и они не понимают, с чего бы это было так уж опасно? У землян нет слова и стандартного родного концепта, означающего «по-настоящему полезная когнитивная мощь». Одна из основных причин отсутствия достаточной паники, как мне кажется, в недостатке осознания невероятной потенциальной смертоносности этой штуки, для которой у землян как культуры нет названия.)
3. Нам нужно справиться с согласованием при «первой критической попытке» действий на «опасном» уровне интеллекта, а несогласованные действия на опасном уровне интеллекта убивают всех на Земле и не предоставляют нам второй попытки. Это включает, к примеру: (а) что-то достаточно умное, чтобы создать наносистему, и в явном виде для этого предназначенное; или (б) что-то, достаточно умное, чтобы создать наносистему, а ещё достаточно умное, чтобы получить неавторизированный доступ в Интернет и заплатить человеку, чтобы он смешал ингредиенты для наносистемы; или (в) что-то достаточно умное, чтобы получить неавторизированный доступ в Интернет и создать на компьютерах, которые может взломать что-то умнее себя; или (г) что-то достаточно умное, чтобы воспринимать людей как манипулируемые механизмы и имеющее какой-либо авторизированный или нет канал взаимодействия с людьми; или (д) что-то достаточно умное, чтобы улучшить себя до уровня (б) или (г); и так далее. Мы можем получить много информации заранее от менее мощных систем, которые не убьют нас, если мы с ними облажаемся; но как только мы запустим более мощные системы, мы больше не сможем вносить поправки на основе достаточно катастрофических ошибок. Большая часть смертоносности берётся именно от того, что нам надо всё сделать правильно при первой значительно-критической попытке. Если бы у нас были неограниченные попытки – если бы каждый раз при уничтожении СИИ всех галактик мы бы возвращались во время за четыре года до него, чтобы попробовать ещё раз – то мы бы за сто лет выяснили, какие умные идеи действительно работают. Люди могут выяснить довольно сложные вещи, если дать им время и много попыток; это сложнее, когда неудачная догадка буквально всех убивает. То, что нам надо правильно организовать кучу ключевых моментов с первой попытки – основная причина всей смертоносности; вместе с тем фактом, что никакая высшая инстанция не выдаст нам список того, что на самом деле «ключевое» и убьёт нас, если мы ошибёмся. (Отмечу, что большинство людей откровенно совершенно не подготовлены своим «научным» образованием к столкновению с предпарадигменными загадками без авторитетного присмотра, что они даже не осознают, насколько это тяжелее, и насколько невероятно сложно сделать всё правильно с первой критической попытки.)
4. Мы не можем просто «решить не создавать СИИ», потому что GPU повсюду, а знания алгоритмов постоянно улучшаются и публикуются. Через два года после того, как лидирующая группа получит возможность устроить конец света, её получат ещё пять групп. Смертоносный вызов – решить задачу с ограничением времени, вызванным той закономерностью, что со временем всё более незначительные действующие лица с всё меньшей долей общих вычислительных мощностей будут получать возможность создать СИИ и устроить конец света. Если могущественные группы единогласно воздержатся от самоубийственных действий, это просто отодвинет сроки – не отменит их, если только прогресс «железа» и софта не подвергнется полной жёсткой остановке по всей Земле. Нынешнее положение дел по поводу такой глобальной кооперации и единогласного воздержания от глупостей: есть некоторые крупные группы с большим количеством исследователей и большими вычислительными мощностями, управляемые людьми, которые вслух выражают презрение любых разговоров про безопасность СИИ (например, Facebook AI Research). Отмечу, что необходимость решить согласование СИИ только с ограничением времени, но с бесконечными безопасными повторными попытками, позволяющими быстрое экспериментирование над системой полной мощности; или только с первой критической попытки, но неограниченным временем, уже что-то одно из этого уже было бы ужасающим угрожающим человечеству вызовом по историческим стандартам.
5. Мы не можем просто создать очень слабую систему, менее опасную из-за своей слабости, и объявить победу, потому что потом появится больше групп со способностью создать систему сильнее, и кто-то из них это сделает. Я раньше называл это разменом «безопасный-но-бесполезный» или выбором «безопасность-или-польза». Люди продолжают предлагать «почему бы нам не использовать ИИ только, чтобы делать X, это кажется безопасным» и ответ почти всегда либо «X на самом деле требует очень мощных когнитивных способностей, которые не пассивно безопасны» или, ещё чаще, «потому что ограничение себя X не предотвратит конец света, который вызовут Facebook AI Research ещё через шесть месяцев». Если вам нужен объект, который не делает ничего опасного, попробуйте губку, она весьма пассивно безопасна. Создание губки, однако, не предотвратит конец света от Facebook AI Research шестью месяцами позже, когда они догонят лидеров.
6. Нам нужно согласованное исполнение некой большой задачи, «поворотного действия», которое предотвратит создание другими людьми несогласованного СИИ, устраивающего конец света. Пока всего у одной или у нескольких групп есть СИИ, им надо исполнить некое «поворотное действие», достаточно сильное, чтобы перевернуть игровую доску, используя достаточно мощный для этого СИИ. Недостаточно иметь способность согласовать слабую систему – нам надо согласовать систему, которая может сделать одну очень большую штуку. Обычно я привожу пример «сжечь все GPU». Не то чтобы я считал, что это то, чего на самом деле хочется от мощного СИИ – наномашинам пришлось бы действовать в невероятно сложном открытом окружении, чтобы выследить все GPU, и это было бы излишне сложно согласовать. Однако, все известные поворотные действия сейчас находятся за пределами окна Овертона, и я ожидаю, что там они и останутся. Так что я выбрал такой пример, чтобы если кто-то скажет «как ты смеешь предлагать сжечь все GPU» я мог ответить «О, ну, я не собираюсь на самом деле предлагать это сделать; это просто немного преувеличенная оценка приблизительного уровня мощности того, что надо будет сделать, и примерного уровня машинного мышления, которое потребуется, чтобы предотвратить конец света, вызванный кем-то ещё на шесть месяцев или три года позже». (Если бы это не было небольшим преувеличением, то «сжечь все GPU» действительно было бы минимальным поворотным действием, а следовательно – правильным ответом, и я не мог бы этого так отрицать.) Многие по-умному звучащие предложения по согласованию разваливаются, стоит спросить «Как вы можете это использовать, чтобы согласовать систему, которую можно было бы использовать, чтобы выключить все GPU в мире?», потому что становится ясно, что система либо не сможет сделать что-то настолько сильное, либо, если сможет, её не будет просто согласовать. Сжигатель GPU одновременно является системой, достаточно мощной для и специально направленной на создание нанотехнологии, так что для неё требуется действовать в опасной области на опасном уровне интеллекта и способностей; и это так же для любой не-фэнтезийной попытки назвать способ, которым СИИ мог бы изменить мир, чтобы пол десятка других создателей СИИ не положили ему конец через полгода.
7. Причина, по которой никто в этом сообществе не смог успешно назвать «слабое поворотное действие», где вы делаете с СИИ что-то достаточно слабое, чтобы быть пассивно безопасным, но достаточно мощное, чтобы предотвратить конец света от любого другого СИИ через год – а ещё причина, почему мы не можем просто сделать что-то такое прямо сейчас, и должны ждать ИИ – потому что таких вариантов не существует. Нет причин, с чего бы им существовать. Нет никакой изящной умной причины, почему он существует, но никто не может его заметить. Чтобы сделать что-то с современным миром, что предотвратит появление других СИИ, нужна высокая мощность; то, что может это совершить не будет пассивно безопасным благодаря своей слабости. Если вы не можете решить проблему прямо сейчас (а вы не можете, потому что противостоите другим агентам примерно такого же уровня, что и вы, которые не хотят, чтобы их решили), то приходится полагаться на некую когнитивную систему, которая может делать то, что вы самостоятельно не можете придумать как сделать, к чему вы и близко не подошли, чтобы это сделать, потому что вы и близко не подошли к, например, способности сжечь все GPU. Сжигание всех GPU действительно остановило бы Facebook AI Research от устраивания конца света через шесть месяцев; слабенькие влезающие в окно Овертона штуки вроде «улучшить общую эпистемологию, напустив GPT-4 на Twitter, чтобы она предоставляла научно-корректные аргументы обо всём на свете» могут быть крутыми, но не предотвратят конец света, устроенный через шесть месяцев Facebook AI Research или какими-то некоммерческими энтузиастами через год, если у вас получилось остановить FAIR отдельно. Нет слабых поворотных действий.
8. Лучшие и легче всего находимые оптимизацией алгоритмы решения задач, которые мы хотим, чтобы ИИ решал, легко обобщаются на задачи, которые мы бы предпочли, чтобы ИИ не решал; вы не можете создать систему, обладающую лишь способностями водить красные машины, но не синие, потому что все алгоритмы вождения красных машин обобщаются до способности водить синие машины.
9. Создателям безопасной системы, при принятии гипотезы, что это возможно, придётся оперировать ей в режиме, в котором у неё есть способность всех убить или сделать себя ещё опаснее, но она была специально так спроектирована, чтобы этого не делать. Запуск СИИ, исполняющего что-то поворотное, не пассивно безопасен, это как активная зона ядерного реактора, требующая активного поддержания спроектированных свойств, чтобы не взорваться.
Раздел Б:
Окей, но, как мы все знаем, современное машинное обучение – это вроде джинна, вы просто загадываете ему желание, верно? Желание выражается какой-то таинственной штукой, которую называют «функция потерь», но это по сути ничего не меняет, верно? И если вложить достаточно вычислительной мощности, желание исполнится, верно? Так почему бы не обучить огромную стопку слоёв трансформера на наборе данных об агентах, совершающих хорошие поступки, но не совершающие плохие поступки, вкинуть где-нибудь слово «исправимость», набрать достаточно вычислительных мощностей, и получить на выходе согласованный СИИ?
Раздел Б.1: Скачок распределения.
10. Вы не можете обучить согласованности, запуская смертельно опасные мыслительные процессы, наблюдая, не получился ли убивающий или обманывающий операторов процес, назначая штрафы и проводя обучения с учителем. В рамках парадигмы, хоть немного похожей на стандартное машинное обучения, вам пришлось бы как-то распространить проведённую в безопасных условиях оптимизацию-для-согласованности, на опасные условия, преодолев большой сдвиг распределения. (Кажется, что некоторые обобщения этого утверждения должны оставаться истинными даже за пределами этой парадигмы; вы бы не работали с живым несогласованным суперинтеллектом, пытаясь согласовать его.) Уже этого достаточно, чтобы разбить многие наивные предложения от людей, которые никогда не обрисовывали конкретный сценарий того, какое обучение они бы проводили, чтобы результат получился согласованным – потому они его и не проводят. Мощные СИИ, исполняющие опасные действия, которые убьют вас в случае несогласованности, должны иметь обеспечивающее согласованность свойство, обобщившееся далеко за пределы распределения исполнявшихся при создании/обучении безопасных не убивающих вас операций. При условии чего-то, хотя бы отдалённо напоминающего нынешнюю парадигму, приличная часть смертоносности берётся именно от этого. Несогласованные операции на опасном уровне интеллекта и возможностей вас убьют; так что, если вы начинаете с несогласованной системой и помечаете выводы, чтобы научить её согласованности, то в режиме обучения уровень интеллекта и доступных системе возможностей должен быть достаточно низок, чтобы быть пассивно безопасным, чтобы несогласованные операции не представляли угрозы. (Отмечу, что всё значительно умнее вас представляет угрозу при любом реалистичном уровне возможностей. Например, «быть способным производить вывод, на которые посмотрят люди» скорее всего хватит в-целом-куда-более-умному-чем-люди СИИ, чтобы проложить себе путь на свободу через системы причин и следствий, именуемых людьми, особенно в реальном мире, где систему обучают на терабайтах текста из Интернета, а не удерживают её каким-нибудь образом в неведении о том, откуда взялись её исходный код и обучающее окружение.)
11. Если когнитивные механизмы не обобщились далеко за пределы распределения, в котором вы проводили много обучения, то они не могут решать задачи масштаба «создать нанотехнологии», где миллион неудачных попыток обучения, не создающих нанотехнологии – это слишком затратно. Не существует слабых поворотных действий; неизвестны конкретные варианты, предусматривающие обучение безопасному уровню способностей в безопасном окружении, в котором вы можете дёшево проводить миллионы попыток обучения, и использование потом этих способностей для спасения мира и предотвращения конца света от следующего проекта СИИ двумя годами позже. Такие поворотные действия неизвестны, и вовсе не потому, что их никто не ищет. Так что, опять же, вам понадобится согласование, чтобы обобщить далеко за пределы обучающего распределения – не только потому, что обучающее окружение должно быть безопасным, но и потому, что оно, скорее всего, должно быть ещё и дешевле какой-то области реального мира, в которой СИИ надо будет совершать какие-то мощные действия. Даже если отложить пока в сторону последствия успеха способностей при провале согласования, у вас нет тысячи попыток сжигания всех GPU – потому что люди заметят.
12. Действия на высоком уровне интеллекта – очень большой сдвиг распределения относительно действий на меньшем уровне интеллекта, при нём открываются новые внешние варианты, и, скорее всего, открывается ещё больше внутренних выборов и режимов мышления. Проблемы, появляющиеся на высоком уровне интеллекта и опасности, могут не появляться на более низких безопасных уровнях интеллекта, или могут появиться заново после исправления заплаткой.
13. Многие проблемы согласования суперинтеллекта не возникнут естественным образом на до-опасных, пассивно-безопасных уровнях способностей. Рассмотрим внутреннее поведение «изменить свой внешнее поведение так, чтобы намеренно выглядеть более согласованным и обмануть программистов, операторов, и, возможно, любую оптимизирующую тебя функцию потерь». Эта проблема возникнет на суперинтеллектуальном уровне; если, не зная подробнее, мы предположим, что эта проблема близка к медианной проблеме такого рода по времени их естественного появления, то получается, что примерно половина проблем согласования суперинтеллекта впервые естественным путём появится после этой. При наличии верного прогноза того, какие проблемы естественным путём появятся позже, можно попробовать намеренно организовать их раньше, и понаблюдать за ними. Это поможет в той степени, в которой мы (а) действительно верно спрогнозировали все возникающие позже проблемы, или некоторое их надмножество; (б) успешно заставили их все появиться заранее; и (в) действительно можем их решить в ранних лабораторных условиях, не входящих в распределение окружений, в которых они сами появились бы эти проблемы, чьё появление будет смертельным, если они всё же вернутся позже. Предвосхищение всех действительно опасных проблем, проявление их заранее и успешное решение их таким образом, который обобщится на потом, звучит возможно типа довольно сложно.
14. Кажется, что в случае некоторых проблем, вроде «у СИИ есть вариант, как он может (или ему кажется, что может) успешно убить и заменить своих программистов, чтобы полноценно оптимизировать свой окружение», их естественный порядок возникновения будет таким, что они впервые появятся только в полноценно опасных областях. Настоящее обладание явным вариантом убедить мозги операторов или сбежать в Интернет, создать нанотехнологии и уничтожить человечество – и чтобы было полностью ясно, что все важные факты известны, и вероятность узнать что-то, что сменит предпочитаемую стратегию, достаточно мала, чтобы не стоило выжидать ещё месяц, повышая способности дальше – этот вариант впервые по-настоящему оценивается тот момент, когда СИИ полностью ожидает, что может победить своих создателей. Мы можем попробовать воплотить эхо этого сценария в ранних игрушечных областях. Попытки отучить от такого поведения градиентным спуском – это то, что, как я ожидаю, приведёт к не-особенно-последовательным локальным заплаткам в мыслительном процессе, которые почти наверняка сломаются у суперинтеллекта, обобщающего далеко за пределы обучающего распределения и думающего совсем другие мысли. Ещё при переходе на опасные области выйдут из распределения программисты и операторы, привыкшие действовать в не-вполне-опасных областях; наши методологии при этом могут сломаться.
15. Быстрый набор способностей кажется вероятным, и он может одновременно сломать многие необходимые для согласованности ранее не менявшиеся установки. При условии недостаточного предвидения операторов, я бы ожидал, что многие из этих проблем возникнут примерно одновременно после резкого набора способностей. Взять хотя бы, опять же, случай человеческого интеллекта. Мы не сломали согласованность с «совокупной репродуктивной приспособленностью» немедленно после возникновения фермерства у кроманьонцев 40 или 50 тысяч лет назад, что уже было бы довольно быстро в сравнении с внешней оптимизационной петлёй естественного отбора. Нет, очень много куда более продвинутых, чем те, что были в окружении наших предков, технологий, включая контрацепцию, мы получили за один рывок, очень быстрый по сравнению со скоростью внешней петли оптимизации, на позднем этапе развития интеллекта. Мы стали больше рефлексировать, куда больше программироваться культурной эволюцией, и одновременно сломались очень много допущений, лежавших в основе нашей согласованности в обучающем окружении наших предков. (Люди, наверное, будут рационализировать причины, почему это абстрактное описание не перейдёт на градиентный спуск; например, «градиентный спуск в меньшей степени зависит от узкого места передачи информации». У моей модели таких читателей есть взгляд изнутри, который они сами называют взглядом снаружи, придающий большую значимость некоторым данным, которые не взялись из наблюдений за внешней оптимизационной петлёй, создавшей обобщённый интеллект, и мало значимости именно этому единственному в своём роде источнику данных. Когда внешняя оптимизационная петля на самом деле создала интеллект, он перестал быть согласованным после того, как стал обобщённым, сделал это на относительно позднем этапе набора способностей и знаний, и практически немедленно стал «смертельно» опасным для внешней оптимизационной петли естественного отбора. Игнорирование этого единственного предостережения, особенно без высказывания собственных предложений, что может пойти смертельно не так, вызывает скептицизм.)
Раздел Б.2: Важнейшие сложности внешнего и внутреннего согласования.
16.Даже если вы действительно сильно обучите на в точности верной функции потерь, это не приведёт к появлению явного внутреннего отображения этой функции внутри ИИ и тому, что он продолжит следовать в точности этой функции в выходящих из распределения окружениях. Люди не ставят себе явной целью совокупную генетическую приспособленность; внешняя оптимизация даже на очень точной и простой функции потерь не обеспечивает внутреннюю оптимизацию в том же направлении. Это на практике происходит в реальном мире, именно это произошло в единственном случае, о котором мы знаем, и мне кажется, что есть глубокие теоретические поводы ожидать, что это произойдёт снова: первые по порядку поиска реалистичного ограниченного оптимизационного процесса найденные типа-внешне-согласованными решения будут несогласованными. Даже если игнорировать многие другие пункты списка, уже этого хватит, чтобы разрушить целые категории наивных предложений согласования, предполагающих, что если много оптимизировать на функции потерь, вычисленной с использованием некоего простого концепта, то получите идеальную внутреннюю согласованность с этим концептом.
17. В более общем случае суперпроблема «внешняя оптимизация не обеспечивает внутреннюю согласованность» превращается в то, что при нынешней парадигме оптимизации и в общем случае нет никаких идей, как получить систему с конкретными внутренними свойствами или проверить их наличие, кроме как просто наблюдать за внешними свойствами, от которых может зависеть функция потерь. Эта проблема всплывает при попытках обобщить за пределы обучающего распределения, потому что, к примеру, вы можете увидеть внешнее поведение, выданное намеренно вводящей вас в заблуждение внутренне несогласованной системой. При нынешней парадигме оптимизации мы не знаем систематических или обобщённых способов получать хоть какую-то информацию о внутренностях системы, а не о внешнем поведении.
18. Не существует надёжного источника эмпирической истины (надёжного калькулятора для функции потерь) о том, «согласован» ли вывод, потому что некоторые выводы уничтожают или обманывают людей-операторов и запускают внешние цепи причин и следствий, не ограничивающиеся измеряемой снаружи функцией потерь. То есть, если вы выдаёте агенту сигнал вознаграждения, генерируемый людьми, то этот сигнал в общем случае не является идеальной надёжной эмпирической истиной о том, насколько согласованным было действие, потому что другой способ получения высокого сигнала вознаграждения – обмануть, повредить или заменить людей-операторов иной системой генерации сигнала. Показывая агенту сигнал вознаграждения из окружения, вы не показываете ему надёжную эмпирическую истину о том, делает ли система то, что вам хочется; даже если агент оказывается идеально внутренне согласован с этим сигналом или выучил некий концепт, идеально соответствующий «желать состояний окружения, приводящих к посыланию высокого сигнала вознаграждения», сильно оптимизирующий этот сигнал СИИ убьёт вас, потому что этот сигнал не является эмпирической истиной о согласованности (как кажется операторам).
19. Более обобщённо, нет известных способов использовать парадигму функций потерь, сенсорных вводов, и/или вводов вознаграждения, чтобы оптимизировать что угодно внутри когнитивной системы так, чтобы оно указывало на конкретную вещь в окружении – указывать на скрытые события и свойства окружения, а не сравнительно поверхностные функции сенсорных данных и вознаграждения. Это не значит, что ничто в цели системы (какая бы цель не получилась у внутренней оптимизации) не может указать на что-то в окружении случайно. Люди получились как минимум частично указывающими на своё окружение, хоть у нас много и направленных вовнутрь мотивационных указателей. Но в той степени, в которой нынешняя парадигма вообще работает, её явные свойства говорят, что она работает только для согласования функций сенсорных данных или вознаграждения. Все они, будучи оптимизированы достаточно мощным интеллектом, убивают вас, потому что подразумевают стратегии вроде «убить всех в мире с помощью нанотехнологий, нанеся удар до того, как они узнают, что битва началась, и навсегда захватить контроль над кнопкой вознаграждения». Мы попросту не знаем функции от ввода вебкамеры, такую, что любой мир, где она показывает то, что надо, безопасен для нас – существ снаружи вебкамеры. Эта общая проблема – факт о территории, не о карте; это факт о настоящем окружении, не о конкретном оптимизаторе, смертельные-для-нас варианты существуют в некоторых возможных окружениях, подходящих для любого наперёд заданного сенсорного ввода.
20. Люди-операторы склонны к ошибкам, на них можно повлиять и ими манипулировать. Люди-оценщики совершают систематические ошибки – регулярные, компактно описываемые, предсказуемые ошибки. Достоверно выучить функцию из «человеческой обратной связи» означает выучить недостоверное (с нашей внешней точки зрения) описание человеческих предпочтений, с неслучайными (с нашей внешней точки зрения на то, что мы бы хотели передать) ошибками. Если идеально выучить и идеально максимизировать то, на что ссылаются вознаграждения, назначенные людьми-операторами, это их убьёт. Это факт о территории, не о карте – об окружении, не об оптимизаторе – лучшее предсказательное объяснение ответов людей предсказывает в них систематические ошибки и включает психологические концепты, верно предсказывающие более высокую оценку, которая будет присвоена в случаях ошибок.
21. Существует что-то вроде единого ответа или единого набора ответов на вопросы вроде «Каково на самом деле моё окружение?», «Как мне узнать про окружение?» и «Какие из моих возможных выводов взаимодействуют с реальностью так, чтобы реальность получила определённые свойства?», такой, что простая петля внешней оптимизации прямолинейно запихнёт оптимизаторы в этот набор. Когда у вас есть ложное убеждение, реальность даёт сдачу несбывшимися предсказаниями. Когда у вас сломанный механизм обновления убеждений, реальность даёт сдачу ухудшением предсказаний в целом, и градиентный спуск исправит проблему простым способом, легко сочетающимся с другими предсказательными элементами. Напротив, когда дело доходит до выбора функции полезности, степени свободы неограниченны, а внутренне непротиворечивых рефлексивно-неподвижных точек много. Реальность не «даёт сдачи» штукам, локально согласованным с функцией потерь на конкретном наборе тестовых примеров, но несогласованных глобально, на наборе побольше. Эта очень абстрактная история объясняет, почему гоминиды, став, наконец, обобщать, обобщили свои способности до посадки на Луну, но их внутренняя оптимизация перестала хорошо следовать цели внешней оптимизации – «относительной совокупной генетической приспособленности» – хоть в окружении их предков они и были оптимизированы именно для этого и больше ни для чего. Этой абстрактной закономерности стоит ожидать для внешних петель оптимизации в случае как «естественного отбора», так и «градиентного спуска». Основной вывод: Когда способности начинают далеко обобщаться, они обобщаются дальше, чем согласованность.
22. Существует сравнительно простая базовая структура, объясняющая, почему работают сложные когнитивные механизмы; поэтому существует обобщённый интеллект, а не просто много не связанных друг с другом специализированных решений; значит, после того, как внешний оптимизатор вложит способности во что-то достаточно оптимизированное, чтобы стать мощным внутренним оптимизатором, способности обобщатся. То, что эта структура проста и что она в общем случае применима к низкоэнтропийным высокоструктурированным окружениям – причина, почему люди могут ходить по Луне. Нельзя сказать, что для согласованности аналогично существует простое ядро, особенно такое, что для градиентного спуска его найти проще, чем для естественного отбора – найти для древних людей хорошо обобщающееся решение «стремления к совокупной генетической приспособленности». Следовательно, способности, начав обобщаться, обобщатся за пределы распределения куда дальше согласованности.
23. Исправимость неестественна для консеквенциалистских рассуждений; «ты не можешь принести кофе, если ты мёртв» для почти любого кофе. Мы (MIRI) безуспешно пытались найти непротиворечивую формулу для агента, который позволил бы его выключить (но не активно старался бы, чтобы его выключили). Более того, многие анти-исправимые линии рассуждений могут впервые появиться уже на высоких уровнях интеллекта.
24. Есть два потенциальных фундаментально различающихся подхода к согласованию, они нерешаемы по двум разным наборам причин; следовательно, находясь в замешательстве и перепрыгивая между двумя подходами вы можете запутать себя по поводу того, точно ли согласование сложное. Первый подход – создать Властелина CEV-или-чего-то-похожего, который хочет в точности того, что мы экстраполированно-хотим, а значит, ему можно безопасно позволить оптимизировать все будущие галактики и не принимать никакого человеческого ввода, пытающегося его остановить. Второй путь – создать исправимый СИИ, который не хочет в точности того, что мы, но всё же почему-то нас не убивает и не захватывает все галактики, несмотря на конвергентную мотивацию это сделать.
- Первый вариант в целом или с CEV конкретно непосилен, потому что сложность того, что должно быть согласовано или мета-согласовано с Нашими Настоящими Ценностями, далеко за пределами доступного ПЕРВОЙ ПОПЫТКЕ сделать СИИ. Конкретно набор данных, мета-обучающий алгоритм, и то, чему надо научиться, далеко за пределами доступного при первой попытке. Этого не просто не накодить руками, это необучаемо с первой попытки, потому что то, что вы пытаетесь обучить, слишком странное и сложное.
- Второй вариант выглядит непосильным (в меньшей степени, чем CEV, но всё равно смертельно непосильным), потому что исправимость напрямую мешает инструментально конвергентным поведениям, входящим в ядро обобщённого интеллекта (способность, обобщающаяся далеко за пределы изначального распределения). Это не как попытка придать системе определённое мнение о том, что ей раньше было безразлично. Это как взять систему, явно обученную кучей арифметических задач до состояния, в котором её механизмы начали отражать внутренне-непротиворечивое ядро арифметики, и убедить её в специальном случае 222 + 222 = 555. Может и можно обучить так что-то в конкретном обучающем распределении, но крайне вероятно, что это сломается, когда вы выдадите ей новые математические задачи далеко из-за пределов этого распределения, если система вовсе обобщит туда свои способности.
Раздел Б.3: Основные сложности достаточно хороших и полезных прозрачности / интерпретируемости.
25. У нас нет ни малейшего понятия о том, что на самом деле происходит внутри гигантских непонятных матриц и тензоров чисел с плавающей точкой. Рисование интересных диаграмм того, куда слой трансформера обращает внимание, не поможет, если надо ответить на вопрос «Так он планирует наше убийство или нет?».
26. Даже если бы мы знали, что происходит в гигантских непонятных матрицах, пока СИИ слишком слаб, чтобы нас убить, если DeepMind откажется запускать эту систему и позволит Facebook AI Research устроить конец света двумя годами позже, это лишь позволит нам погибнуть с большим достоинством. Знание, что система умеренной силы из непонятных матриц планирует нас убить само по себе не позволяет нам создать систему высокой силы из непонятных матриц, которая не планирует нас убить.
27. Когда вы явно оптимизируете против детектора несогласованных мыслей, вы частично оптимизируете в сторону более согласованных мыслей, а частично – в сторону несогласованных мыслей, которые труднее детектировать. Оптимизация против интерпретированных мыслей означает оптимизацию против интерпретируемости.
28. СИИ умнее нас в той области, в которой мы пытаемся его использовать, так что мы не можем ментально проверить все возможности, которые он просматривает и не можем увидеть все последствия его выводов своими собственными ментальными силами. Мощный ИИ проводит поиск по пространству возможностей, по которому мы не умеем, и мы не можем предвидеть доступные ему варианты.
29. Выводы СИИ проходят через огромную не-полностью-нам-известную область (реальный мир), прежде чем вызовут свои настоящие последствия. Люди не могут определить приемлемость последствий, инспектируя выводы СИИ.
30. Любое поворотное действие, которое мы не можем исполнить прямо сейчас, будет использовать понимание СИИ чего-то, что нам непонятно, что позволит ему составлять планы, которые мы сами составить не можем. Он должен будет знать, как минимум, неизвестный нам до этого факт того, что некая последовательность действий приведёт к желаемому нами состоянию мира. У людей не будет компетенции и собственных знаний о мире, чтобы выяснить результат этой последовательности действий. Если вы можете полностью понять все её эффекты перед её исполнением, значит составивший её ИИ слабее людей в этой области; вы не можете получить аналогичную гарантию про несогласованного человека одного с вами уровня интеллекта, пытающегося вас обдурить. Не существует поворотного вывода СИИ, такого, что люди могут его проверить, и он может быть использован для безопасного спасения мира после проверки; это ещё одна разновидность несуществующих поворотных действий.
31. Стратегически рассуждающий интеллект может выбрать свои видимые выводы такими, чтобы их последствия вводили вас в заблуждение, в том числе по поводу того, приобрёл ли интеллект способность стратегически рассуждать; вы не можете полагаться на инспектирование поведения для определения фактов про ИИ, по поводу которых ИИ может хотеть вас обмануть. (Включая то, насколько он умён и достиг ли способности рассуждать стратегически.)
32. Человеческие мысли частично демонстрируют только частично понятный поверхностный слой. Слова только слегка отражают наши настоящие мысли. Слова как они есть не годятся в качестве отображения данных для полноценного СИИ. Скрытые части человеческих мыслей недоступны для прямого имитационного обучения, и их нельзя поместить в набор данных. Из-за этого тяжело, а, наверное, невозможно, обучить мощную систему исключительно на имитации человеческих слов или других понятных людям данных, они – лишь обеднённые подсистемы человеческих мыслей; если только система не достаточно мощна, чтобы содержать внутренний интеллект, способный понять людей, а тогда это уже не работает как имитация человеческих мыслей.
33. ИИ не думает, как вы, его мысли не состоят из тех же концептов, что используете вы, он невероятно и ошеломляюще чужд. Никто не знает, о чём, чёрт побери, думает GPT-3, не только потому, что матрицы непрозрачны, но и потому, что содержимое непрозрачного контейнера, скорее всего, невероятно чуждо – это не что-то, что можно легко перевести в понятное человеческое мышление, даже если бы мы могли это разглядеть за гигантскими массивами чисел с плавающей точкой.
Раздел Б.4: Разные неработающие схемы.
34. Схемы координации суперинтеллектов – не то, в чём могут принимать участие люди (например, потому, что люди не могут надёжно рассуждать о коде суперинтеллектов); естественное и очевидное состояние равновесия «мультиполярной» системы из двадцати суперинтеллектов с разными функциями полезности и человечества выглядит как что-то вроде «двадцать суперинтеллектов кооперируют друг с другом, но не с человечеством».
35. Схемы использования «разных» ИИ против друг друга перестают работать, если эти ИИ развиваются до способности координироваться с помощью рассуждений о (вероятностных распределениях) кода друг друга. Любая система значительно интеллектуальных агентов скорее всего может вести себя как единый агент, даже если вы считаете, что используете их друг против друга. Например, если вы поставили СИИ, который втайне является максимизатором скрепок, проверять вывод проектировщика наносистем, который втайне является максимизатором скоб, то даже если проектировщик наносистем не способен вывести, чего именно (скрепок) на самом деле хочет максимизатор скрепок, он всё равно может принять логическое обязательство поделить вселенную пополам с проверяющим его агентом, если его проект будет одобрен, и если проверяющий агент может проверить это обязательство и стать от него логически зависимым (что исключает интеллекты человеческого уровня). Или, если вы предпочитаете упрощённые катастрофы без логической теории принятия решений, проектировщик может зарыть в своей наносистеме код для нового суперинтеллекта, который явно (для сверхчеловеческого проверяющего) разделит вселенную между проектировщиком и проверяющим.
36. Кондиционер был бы «магией» с точки зрения, скажем, людей тринадцатого века, потому что даже если бы вы полностью продемонстрировали им его устройство заранее, они не были бы способны из этого понять, почему оттуда выходит холодный воздух; устройство использует закономерности окружения, правила, по которым работает мир, законы физики, о которых они не знают. Область человеческого мышления и человеческого мозга нами понимается очень плохо, и демонстрирует явления вроде оптических иллюзий, гипноза, психозов, мании, или даже просто остаточных изображений в одном месте, вызванных сильным стимулом в другом. Может, суперинтеллект и не сможет победить человека в очень простой области вроде крестиков-ноликов; но если вы сражаетесь с ним в невероятно сложной области, которую вы плохо понимаете, вроде человеческого разума, то вам следует ожидать, что он победит вас «магией» в том смысле, что даже если бы вы увидели его стратегию, вы бы не могли понять, почему она работает. Помещение ИИ в коробку может сработать только для сравнительно слабых СИИ; люди-операторы не являются надёжными системами.
Раздел В:
Окей, это всё серьёзные проблемы, но в их решении немало прогресса, верно? Есть целая область, называющаяся «Безопасностью ИИ», и много больших организаций высказывают Очень Серьёзные Беспокойства о том, насколько они «безопасны» и «этичны»?
37. Есть довольно часто разыгрывающийся на Земле во все времена её вращения вокруг Солнца паттерн, заключающийся в том, что некий молодой учёный, инженер или предприниматель с горящими глазами, очень оптимистично приступает к работе над некой задачей, которая оказывается на самом деле довольно сложной. Очень часто циничные старые ветераны области пытаются их предупредить, а молодёжь с горящими глазами не слушает, потому что, ну, кому вообще хочется всё это слушать, они хотят взять и решить задачу! Затем реальность бьёт таких людей тапком по голове, они обнаруживают, что их замечательная предполагаемая теория неверна, что создать то, что они хотят, действительно сложно, потому что оно продолжает ломаться, а общество не торопится принять их умную инновацию, как они надеялись; процесс в итоге приводит к появлению новых циничных старых ветеранов. Это может и не буквально оптимальный, но, полагаю, неплохой жизненный цикл, чтобы умно на него кивать с присказкой «история рассудит». Иногда вы делаете что-то в первый раз, и предостерегающих циничных старых ветеранов нет, и люди могут быть по-настоящему оптимистичными, взять, например, Дартмутский Летний Исследовательский Проект по Искусственному Интеллекту 1956 года: «Мы попытаемся понять, как обучить машины использовать естественные языки, формировать абстракции и концепции, решать задачи, сейчас подвластные только людям, и улучшать самих себя. Мы считаем, что существенное продвижение в одной или более из этих проблем вполне возможно, если специально подобранная группа учёных будет работать над этим в течение лета». Такой план куда хуже подходит для выживания вашей планеты, если первый большой провал молодёжи с горящими глазами убивает буквально всех ещё до предсказуемого получения по голове новостями о непредвиденных сложностях и причинах, почему задача тяжела. В таком случае у вас не будет циничных старых ветеранов, потому что все на Земле будут мертвы. Начав подозревать, что вы в такой ситуации, надо сделать Байесовскую штуку, и обновить свои взгляды до состояния, до которого они предсказуемо обновятся позже: понять, что вы – тот человек с горящими глазами, который потом встретится с Непредвиденными Сложностями и станет циничным старым ветераном – или стал бы, если бы не был мёртв вместе со всеми остальными. И стать этим циничным старым ветераном сразу же, до того, как реальность даст вам по голове тем, что все умрут, так что у вас не получится на этом обучиться. Все остальные, кажется, чувствуют, что пока реальность не дала им по голове и не низвергнула их настоящими сложностями, они могут продолжать участвовать в стандартном жизненном цикле и отыгрывать по сценарию свою роль молодёжи с горящими глазами; в конце концов, нет циничных старых ветеранов, чтобы предостеречь их так не делать, и нет доказательства, что всё не пойдёт благоприятно просто и замечательно, с учётом их полного невежества того, что это могут быть за будущие сложности.
38. Мне не кажется, что область «Безопасности ИИ» сейчас хоть отдалённо продуктивна в работе над огромными смертоносными проблемами. Эти проблемы за пределами досягаемости; отбор в нынешней области безопасности ИИ такой, что она состоит из людей, которые в любом случае этим бы занимались. Почти все они тут, чтобы работать над задачами, в которых они смогут показаться преуспевшими, и опубликовать статью, объявляющую об этом успехе; если они могут делать это и получать финансирование, то с чего бы им приступать к куда более неприятному проекту попыток сделать что-то более сложное, что у них не получится, просто для того, чтобы человеческий вид мог погибнуть с немного большим достоинством? В области не происходит настоящего прогресса, в первую очередь, в ней даже нет функции распознавания реального прогресса. Можно вложить миллиард долларов, и это приведёт в основном к шуму, затапливающему тот небольшой прогресс, который делают где-то ещё.
39. Я пришёл к этим выводам из нулевой строки (в комментариях Юдковский поясняет, что имеет в виду «нулевую строку социального ввода» — прим. пер.) ввода, и, честно говоря, мне сложно надеяться на получение настоящей работы по согласованию от кого-то, кто до этого сидел и ждал, когда кто-то другой выдаст убедительный аргумент. Способность «замечать смертоносные сложности без того, чтобы Элиезер Юдковский убедил их заметить» сейчас для меня является непрозрачным когнитивным механизмом, и я не знаю, как научить ему других. Он скорее всего связан с «мышлением безопасника», ментальным движением отказа от игры по сценарию, и способности оперировать в хаотичных областях.
40. «Гении» с хорошими понятными достижениями в областях с короткими циклами обратной связи, где легко сразу отличить хороший результат от плохого и проверить, гениален ли кто-то, это (а) люди, которые могут оказаться неспособны выдавать такие же хорошие результаты при отсутствии коротких циклов обратной связи, (б) люди, избравшие область, в которой их гениальность будет лучше видна, даже если это может быть не то место, где человечество больше всего нуждается в гениальность, и (в) скорее всего не обладатели всех тех таинственных шестерёнок в голове, потому что те редки. Вы не можете просто заплатить пять миллионов долларов каждому из кучи явных гениев из других областей и ожидать от них отличной работы по согласованию. Они скорее всего не знают, что представляет настоящие сложности, не понимают, что надо сделать, не могут отличить хорошую работу от плохой, а последнего не могут и спонсоры, если я не стою у них за плечами, оценивая всё, на что у меня нет физической выносливости. Я заключаю, что эти действительно мощные таланты, особенно если они ещё на своём третьем десятке, искренне заинтересованы и прочитали всё, что надо – это люди, у которых, ладно, больше шансов сделать важный вклад, чем у случайного прохожего на улице. Но у меня было бы больше надежды – не достаточно, но больше – при отделении (а) надёжных обещаний больших денег за хорошую работу ретроспективно, кто бы её не сделал, от (б) вклада денег заранее в тех, от кого, может быть, ожидается хорошая работа потом.
41. Чтение этого документа не может сделать кого-то перспективным исследователем согласования. Это требует не способности прочитать этот документ и покивать ему, а способности спонтанно написать его с нуля без того, чтобы кто-то на это сподвигнул; это сделало бы человека ровней автору. Какая-то часть моего анализа гарантированно ошибочка, хотя не обязательно в обнадёживающем направлении. Способность к новой базовой работе – замечанию и исправлению этих ошибок – та же способность, что и способность написать этот документ до меня, а этого никто не сделал, несмотря на то, что в последние пять или около того лет у меня были другие более приоритетные дела. Часть этой тишины, возможно, если смотреть с оптимизмом, вызвана тем, что никто другой в области не обладает способностью понятно писать – что у кого-то есть все необходимые знания, но этот кто-то не может их записать, и даже не пытается. Я не особенно обнадёживаюсь по поводу того, что так всё и окажется, но, полагаю, это возможное «позитивное нарушение модели» (чудо). Тот факт, что через двадцать один год после того, как я вошёл в эту смертельную игру, семь лет после того, как другие ЭА её заметили, и два года после того, как её начали замечать даже нормальные люди, этот список всё ещё пишет Элиезер Юдковский, означает, что у человечества есть только одна подходящая для этого фигура. Я знал, что у меня нет физической выносливости, чтобы быть главным исследователем, я очень-очень старался заменить себя, пока моё здоровье не ухудшится дальше, и вот я всё равно это пишу я. Выживающие миры выглядят не так.
42. Плана нет. У выживающих миров к этому моменту, на самом деле, несколькими десятилетиями раньше, есть план, как выжить. Записанный план. Он не секретен. В этом не-выживающем мире нет планов-кандидатов, которые не проваливаются немедленно, когда Элиезер мгновенно указывает видимые зияющие дыры в плане. Или, если вы не знаете, кто такой Элиезер, то вы даже не осознаёте, что вам нужен план, потому что, ну, как человек вообще может это понять, если на него не орёт Элиезер? Не то чтобы люди сами на себя орали о сложностях согласования, у них нет внутреннего голоса осторожности. Так что у большинства организаций нет планов, потому что я не потратил время на то, чтобы лично на них наорать. «Может быть, у нас должен быть план» – это более глубокий настрой на согласование, чем у них есть, если я не стою всё время у них за плечами будто их личный ангел, убеждающий их… на самом деле, не убеждающий. Сравнительно мало кто в курсе даже, что им бы следовало, чтобы лучше выглядеть, составить притворный план, который может обдурить ЭА, слишком «скромных», чтобы доверять своим суждениям о видимых зияющих дырах в том, во что, кажется, верят, серьёзно выглядящие люди.
43. То, что вы видите, посмотрев вокруг, не похоже на то, как выглядят выживающие миры. У миров выживающего человечества есть планы. Они не оставляют одному усталому чуваку с проблемами со здоровьем всю ответственность за проактивное указание настоящих смертоносных проблем. Ключевые люди принимают внутреннюю и реальную ответственность за нахождение ошибок в своих собственных планах, а не считают, что их работа – предлагать решения, а чья-то ещё – доказывать, что эти решения неверны. Такой мир начал пытаться решать свои важные смертоносные проблемы раньше. Половина людей из теории струн перешла вместо неё на согласование ИИ и добивается там реального прогресса. Когда люди предлагают планетарно-смертоносную проблему, которая потом может материализоваться – а много кто в мире, которому суждено выжить, их предлагает, это просто то, что там делают нормальные гении – их встречают либо планами решения, либо причиной, почему этого не должно произойти, а не неловким пожиманием плечами и «Как ты можешь быть уверен, что это произойдёт» или «Ты никак не можешь быть в этом уверен сейчас, надо подождать экспериментальных свидетельств».
Многие из этих лучших миров всё равно погибнут. Это поистине сложная задача, решить что-то такое с первой попытки. Но они погибнут с большим достоинством, чем это.