Вероятные (и дизъюнктные) сценарии погибели от СИИ

Перевод текста Нейта Соареса. На практике, это, скорее «Не очень вероятные (и конъюнктные) условия не-погибели», но знакомым с логикой должно быть понятно, что это эквивалентно. (Оригинал)

***

Кажется, у некоторых людей сложилось впечатление, что я убеждён, что погибель от СИИ – маленькая и узкая мишень. Это не так. Я убеждён, что большая часть пространства исходов заполнена погибелью от СИИ, и что это её избегание требует прохождения коварного и узкого курса.

Так что, для ясности, вот очень грубая модель того, почему я считаю, что погибель от СИИ вероятна. (>90% вероятности при нашей жизни.)^[1]

Мои настоящие модели устроены сложнее, принимают во внимание больше факторов и хуже рассказываются. Но люди продолжают приходить ко мне и говорить «для меня это звучит, будто ты думаешь, что человечество каким-то образом должно пройти по канату, обойти препятствия и протиснуться в игольное ушко, чтобы попасть в узкую мишень катастрофы, и я не понимаю, почему ты по её поводу так уверен». (Даже после чтения Списка Смертоносностей Элиезера – с которым я в основном согласен, и который написан совсем в другом тоне.)

Надеюсь, игрушечная модель такого рода даст вам по крайней мере какое-то приблизительное понимание, откуда я беру свою позицию.

Упрощённая модель Нейта

Краткая версия моей модели такова: при начале с нынешней позиции на игровой доске, для нашего выживания много чего должно пройти правильно.

Если подробнее, правильно должно пройти следующее:

Общее состояние мира должно быть таковым, чтобы можно было провести развёртывание ИИ, который сделает всё хорошо. Не исчерпывающий список того, что для этого должно произойти:
- Миру надо признать стратегию развёртывания СИИ (совместимую с реалистично согласуемыми уровнями способностей ранних систем), предотвращающую конец света при исполнении.
- Как минимум одна такая стратегия должна быть известна и принята ведущей организацией.
- Каким-то образом как минимум одна ведущая организация должна решить СИИ, решить согласуемый СИИ, действительно создать и согласовать свою систему и провести её развёртывание, чтобы она им помогла.
  - Это скорее всего означает, что либо должна быть всего одна организация, способная на создание СИИ в течении нескольких лет, либо все способные на создание СИИ организации должны быть очень осторожными, дружелюбными и намеренно избегать оказания друг на друга слишком большого давления.
- Должно быть так, что никакая локальная и глобальная управляющая сила не вмешивается (либо до СИИ, либо во время развёртывания СИИ) так, что это предотвращает спасение мира (частной или общественной) группой с помощью СИИ.
Техническое согласование должно быть решено до того состояния, в котором хорошие люди смогут провести развёртывание СИИ, чтобы сделать всё хорошо. Не исчерпывающий список того, что для этого должно произойти:
- Должны быть люди, считающие себя работающими над техническим согласованием, чья работа интегрирована в разработку СИИ и является центральным определяющим фактором того, как СИИ разрабатывается и развёртывается.
- Они должны быть способны воспринять все до единой смертоносные проблемы достаточно заранее, чтобы у них было время их решить.
- Им надо продуктивно работать над проблемами.
- Проблемы (и вся используемая для их решения парадигма) должны быть такими, что над ними может работать много людей, или такими, что они не требуют много последовательных усилий.
- Должно быть сделано достаточно много работы до появления настоящего СИИ, на котором можно обучаться; или же мир должен быть способен избегать развёртывания несогласованного СИИ достаточно долго, чтобы исследования завершились.
Внутренние закономерности относящихся к делу организаций должны быть такими, что эти организации будут проводить развёртывание СИИ, чтобы сделать всё хорошо. Не исчерпывающий список того, что для этого должно произойти:
- Команда, которая первая получит доступ к СИИ, должна быть правильным образом озабочена согласованием СИИ.
  - Например, они не могут быть чудиками в стиле «надо просто вырастить СИИ с добротой; любая попытка навязать ему наши ценности, просто заставит его нас ненавидеть», или любой другой разновидностью чудиков.
- Внутренняя бюрократия должна быть способна отличать настоящие решения согласования от ненастоящих, вполне возможно, несмотря на значительные технические расхождения во мнениях.
  - Эта способность скорее всего должна быть устойчива при мощном социальном и временном давлении.
- Люди в организации должны быть способны детектировать предупреждающие об опасности знаки.
- Эти люди должны обладать очень большим запасом социального капитала в организации.
- Во время разработки СИИ команда должны избежать разделения или раскола, который приведёт к распространению технологии СИИ в других, старых или новых, организациях.
- Команда должна и в прочем избежать (намеренной или случайной) утечки технологии СИИ остальному миру во время процесса разработки.
- Команда также должна избежать утечки озарений во внешний мир и до СИИ, чтобы накапливающиеся удерживаемые внутри озарения позволяли группе удерживать мощное технологическое превосходство, и чтобы это превосходство позволяло иметь на решение согласования после достижения СИИ, скажем, три года, а не шесть месяцев.

(Я также мог бы добавить список возможных бедствий из-за злонамеренного использования, при условии того, что мы успешно одолели все указанные выше задачи. Но при условии того, что мы справились с этими препятствиями, я довольно оптимистичен по поводу благоразумности имеющих значение игроков, поэтому остающиеся риски кажутся для меня куда более умеренными и посильными. Так что я оставляю риски злонамеренного использования за пределами модели в этом посте; и вероятность «>90% при нашей жизни» – только про риск несогласованности.)

Игрушечность этой модели заключается в частности в том, что она допускает, что у нас действительно есть поставленная перед нами задача согласования с некоторым давлением по времени. Альтернативы включают в себя вещи вроде получения (быстрой, высоконадёжной) полной эмуляции мозга до СИИ (она, для ясности, несёт кучу своих рисков). Вероятность того, что мы каким-то образом сможем обойти задачу согласования ставит предел тому, насколько низкую вероятность успеха можно получить из модели такого рода (впрочем, я достаточно пессимистичен по поводу известных мне стратегиях без СИИ, что моя p(погибели) всё равно >90%).

Некоторые из пунктов балансируют друг друга: достаточно хорошее техническое решение может снизить нужду в хорошем устройстве команд разработки СИИ или хорошей глобальной координации, и так далее. Так что эти факторы не полностью разделены. Но надеюсь, этот список даёт представление о том, что для меня это выглядит так, что много отдельных вещей должны одновременно пройти правильно, чтобы мы выжили. Спасение мира требует прохождения игольного ушка; уничтожение мира – вариант по умолчанию.

Корреляции и общая компетенция

Вы можете возразить: «Но Нейт, ты же знаешь про ошибку многих этапов; уж точно ты сам тут допускаешь ошибку, парную этой? Нельзя сказать, что вероятность погибели высока, потому что три штуки должны пойти как надо, и умножить вероятности того, что каждая из них пойдёт как надо по отдельности, потому что скорее всего они коррелируют.»

Да, они коррелируют. Они особенно коррелируют через тот факт, что мир безумен.

Это мир, в котором ответом федерального правительства США на COVID был запрет частного тестирования на COVID testing, конфискация закупленных штатами СИЗ и совет жителям их не использовать. Это мир, в котором на согласовании СИИ сосредоточено в основном наше локальное сообщество, составляющее крохотную долю области, и большая его часть, кажется мне, не пытается справиться с проблемами, выглядящими для меня смертоносными, даже по собственным оценкам.

Некоторые люди любят говорить себе, что мы уж точно получим предупредительный выстрел по поводу ИИ, и он разбудит людей; но это для меня звучит как принятие желаемого за действительное, будто из мира, который адекватно ответил на предупредительный выстрел пандемии, который у нас только что был.

Так что да, эти пункты коррелируют. Способность решить одну из этих проблем – свидетельство способности решить остальные, и хорошие новости, что никакое перечисление дополнительных проблем не может уронить мою вероятность ниже, чем вероятность того, что я попросту неправ по поводу (будущей) компетентности человечества. Наша вероятность выживания выше, чем произведение вероятностей преодоления каждого отдельного препятствия.

Плохие новости – что мы, кажется, довольно глубоко в яме компетенции. Мы вовсе не в шаге от всеобщего одобрения наших разумных-и-кажущихся-очевидными взглядов. Потряси мир, и он перейдёт в какое-то ещё более странное состояние, не в предпочитаемое.

(После президентских выборов в США 2012 года, мне казалось, что электорат явно испытывает давление, которое надо высвободить, и был осторожно оптимистичен, что может быть это давление загонит левых в какую-нибудь атеистическую партию мы-несём-факел-просвещения, а правых в какую-нибудь либертарианскую партию права-личности. Я, эм-м, не ошибался по поводу того, что давление есть, но выборы 2016 года были не совсем тем, на что я надеялся. Но я отвлёкся.)

В любом случае, есть более общий смысл, в котором правильно должно пойти много чего, чтобы мы выжили, откуда и берётся вся обречённость. И, если вам интересно, какая единая коррелирующая уже-известная-мне переменная могла бы разрушить все мои аргументы и мою уверенность, это то, сможет ли человечество быстро стать куда компетентнее в области СИИ, чем его кажущийся уровень компетенции во всём остальном.

(Мне кажется, что многие люди представляют, что так произойдёт со всеми частями паззла СИИ, кроме той, с которой они лучше всего знакомы, что-то вроде обобщённой амнезии Гелл-Манна: технари знают, что в технических областях раздрай, но представляют, что у политиков всё схвачено, и наоборот со стороны политиков. Но неважно.)

Так что вот где остаток нашей массы вероятности, насколько я могу сказать: есть некоторый шанс, что я ошибаюсь касательно общей компетенции человечества (в ближайшем будущем); есть некоторый шанс, что вся модель по какой-то причине совсем неприменима; и есть крохотный шанс, что у нас получится пройтись по этому конкретному канату, перелезть все эти препятствия и пролезть в игольное ушко.

И опять же, я снова напоминаю, что всё это – игрушечная модель, а не полное представление моих убеждений по этой проблеме. Однако, моя реальная модель тоже говорит, что куча вещей должны пойти правильно, чтобы мы могли преуспеть.

***

Это мрачно контрастирует с многими людьми, с которыми я в последнее время говорил, которые думали, что я утверждаю, что шанс погибели мал, но ожидаемый урон настолько велик, что об этом стоит беспокоиться. Нет.

Упрощённая модель Нейта

Корреляции и общая компетенция

Поделиться ссылкой:

Похожее

Оставьте комментарий Отменить ответ