Ответ Элиезеру Юдковскому на Список Смертоносностей от Zvi. (Оригинал)
***
От автора: Я не работаю в Безопасности ИИ, мне не хватает технических знаний в области, и много где я буду неправ. Я не собирался писать это, чтобы избежать потенциальной траты слишком большого времени на слишком малое, и из-за опасения допустить глупые ошибки, но стало ясно, что многие люди считают, что мой ответ был бы ценен. Я благодарю тех, чьё анонимное спонсорство этого поста и оплатило моё время, и убедило меня, что этот пост стоит написать. Я буду рад, если такое ещё произойдёт в будущем.
Элиезер наконец предоставил решительный список Элиезеровских Напыщенных Декламаций О Том, Почему СИИ Абсолютно Определённо Всех Убьёт, Если Не Произойдёт Чего-То Очень Неожиданного.
Это замечательно. В прошлом нам приходилось иметь дело с собираемой по случаю рассеянной коллекцией напыщенных декламаций. Теперь они все в одном месте и снабжены удобной классификацией. Мы можем на них ссылаться, рассматривать и обсуждать их.
Это был бы ещё более хороший пост, если бы он был более логически организован, с указанием зависимостей и всякого такого.
Кто-то может сказать, что лучше было бы составлять его не из напыщенных декламаций, но я не думаю, что так было бы лучше. Напыщенные декламации важны. Они содержат данные. Они раскрывают когнитивное состояние Элиезера и его оценку положения дел. Меньшая напыщенность упустила бы важные детали и произвела бы вводящее в заблуждение впечатление.
Я вспомнил и выкопал из архивов вот этот мой комментарий к другому посту Элиезера, который тоже был полезен и написан в таком тоне:
Выскажу свои интуитивные наблюдения / убеждения моей модели, полученные из чтения этого поста и кажущиеся важными, в этот раз не буду пытаться их обосновывать:
- Есть центральная вещь, которую Элиезер пытается передать. Она на самом деле не про оценки сроков, те – вывод этой вещи. Длина этого центрального сообщения коротка, но все попытки найти короткие способы его выразить пока что проваливались.
- По большей части провалились и очень длинные попытки передать её и необходимые для неё вещи, включая, в какой-то степени, Цепочки. В некоторых случаях был достигнут частичный успех, полный успех – почти никогда.
- Кажется, что основная функция этого поста, и целой серии постов – быть обучающими данными, которые можно использовать для создания Внутреннего Элиезера, обладающего доступом к этой центральной вещи, или, ещё лучше, создания полноценно-встроенного её знания. Возможно, что-то вроде похожих обучающих данных Элиезер пытается создавать и другими своими коммуникациями, независимо от глубины темы и намеренности этой цели.
- Снисходительность – важная информация, которая должна помочь читателю дойти до выводов, и без неё задача «извлечения ключевых озарений» стала бы сложнее.
- Аналогично, повторение одних и тех же заявлений – потенциально важная информация, указывающая на центральное сообщение.
- Я не имею в виду, что чтение всего этого не супер-раздражает, особенно, когда он говорит конкретно тебе, что ты неправ. Уж точно да.
- Есть и те, кому так читать проще, особенно учитывая длину. Я заметил оба эффекта.
- Мой Внутренний Элиезер говорит, что написание этого поста без снисходительности или в более коротком виде потребовало бы у Элиезера намного-намного больших усилий. В той степени, в которой такая версия поста нужна, её должен написать кто-то другой. Ещё, это вроде похоже на несколько других текстов.
- Центральное сообщение имеет значение, а остальное по большей части нет?
- Я достаточно высокомерен, чтобы думать, что есть ненулевой шанс, что я достаточно знаю о центральной вещи и обладаю достаточными навыками, чтобы, приложив достаточно усилий, наверное, найти более хороший способ её передавать, учитывая новые обучающие данные, и у меня есть позыв попробовать справиться с этой задачей невозможного-уровня, если я смогу найти время, сосредоточиться и получить поддержку для серьёзной попытки.
Большая часть этого применима и тут. Элиезер прямо сказал, что альтернативный пост было бы на порядки сложнее написать, и что тон содержит важную информацию.
Я бы это ещё расширил. Тон и повторения не только содержат важную информацию в смысле того, что они позволяют лучше понять алгоритм, создавший пост, и создать лучшую версию Внутреннего Элиезера, ещё важно то, что они иллюстрируют когнитивный мир, в котором Элиезер действует.
Тот факт, что мы получили именно этот пост, а не другой, во многих отношениях лучший – это отражение того факта, что наша Земля не преуспевает в понимании, с чем мы столкнулись. У неё не получается взглянуть проблеме в глаза, не то что совершать настоящие попытки решений.
Делая это, Элиезер не просто говорит с тобой, да, именно тобой (с редкими примечательными исключениями). Ещё он рассказывает модель мира, такого, что тот действительно заставляет Элиезера говорить именно так.
Единственный пункт из списка, который, кажется, тут не применим – это №9.
Центральное сообщение всё ещё – самая важная вещь. Передача только его уже была бы большой победой. Но тут имеет значение ещё и то, чтобы люди уловили как можно больше отдельных пунктов, особенно те, которые для них являются бутылочными горлышками понимания масштаба и сложности, или чьё непонимание позволяло им рационализировать.
Следовательно, должна быть и вторая версия этого документа, написанная кем-то ещё, содержащая аккуратно организованные детали без напыщенности, для случаев, когда нужно именно это.
В плане сроков, в этом посте упомянуты толь «эндшпильные» сроки (эндшпиль – это, приблизительно «начиная с момента, когда первая команда получает возможность создать СИИ, способного уничтожить мир»), потому что они – ключевая часть сложности, а «насколько долго мы дотуда будем добираться» – в основном, нет. Разговор о том, когда СИИ нас убьёт, отделен от разговора о том, как или почему он это сделает, или будет ли он создан. Он был темой того другого поста, и в контексте нового это неважно.
Для заявлений об обречённости очень важно, что, когда одна группа может создать СИИ, другие группы тоже быстро получают эту возможность. Это заставляет человечество решить задачу и с первой попытки, и одновременно быстро – а эта комбинация делает в ином случае лишь очень сложную, но потенциально решаемую задачу практически невозможной. Я считаю это утверждение правдоподобным, но ни в коем случае в нём не уверен.
Я тоже приму за стартовую точку способность как минимум одной группы где-то создать СИИ за некоторый неопределённый промежуток времени.
Цели
Цель основной части поста – как выдать мою реакцию на отдельные утверждения, так и попробовать организовать их в последовательное целое, и, получив таким образом доступ к модели Элиезера, увидеть, где моя модель от неё отличается.
Вместо того, чтобы подводить результаты снизу, я помещу сделаю это тут, где их действительно прочитают, а затем поделюсь моими личными рассуждениями, потому что действительно рассуждать обо всём это вслух – это, кажется, Путь.
Краткий Пересказ Списка, Согласий и Несогласий
Часть того, что делает этот пост – заявления «вот конкретная глупая и ошибочная штука, которую люди говорят, и вот мой конкретный ответ на неё». Я рассмотрю их одну за другой ниже.
Что важнее, пост сгенерирован очень последовательной моделью ситуации, так что обдумывание каждого отдельного заявления тут – в основном, попытка пересоздать сгенерировавшую пункты модель, а не сами пункты.
Это кажется важным для прояснения в той степени, в которой я ошибаюсь о модели.
Я бы сказал, что мои выводы из поста таковы (отмечу, что они тут не в том же порядке, в котором появились в посте):
M1. Создание мощного небезопасного СИИ быстро всех убьёт. Второго шанса не будет.
M2. Все известные поворотные действия, предотвращающие создание дополнительных мощных СИИ, требуют мощного СИИ. Слабые системы не могут этого сделать.
M3. СИИ, безопасный или нет, появится приблизительно по расписанию, если его не предотвратит поворотное действие. Так что у нас не только есть лишь один шанс на решение задачи согласования, у нас ещё и немного времени. В течении двух лет от появления у первой группы возможности создать (небезопасный) СИИ, её получат ещё пять групп, включая Facebook. Упс.
M4. Мощный СИИ крайне отличается от слабых, и работающие для слабых стратегии безопасности не будут работать для мощного.
M5. Про большую часть идей и работ по безопасности известно, что они бесполезны и не несут ценности для создания безопасных мощных СИИ. Все стандартные предложения не сработают, по перечисленным причинам, и есть много причин, почему задача чрезвычайно сложна.
M6. У нас нет плана, как сделать что-то полезное. Никто, кто не является Элиезером, кажется, неспособен даже понять задачи достаточно хорошо, чтобы их объяснить, а никто, неспособный объяснить задачи, не способен на нетривиально полезную работу по Безопасности ИИ.
M7 (не сказано явно, но следует и кажется очень важным). Большинство попыток работы над Безопасностью ИИ вместо этого оказываются работой над способностями ИИ, и ценность всех попыток до сих пор суммарно отрицательна, и скорее всего отрицательна даже если исключить некоторые большие очевидно вредные проекты.
M8. Мы понятия не имеем, что, чёрт побери, происходит в этих системах. Даже если бы мы знали, это перестало бы работать, как только мы бы начали использовать эти наблюдения при обучении ИИ.
M9. Проблема всё ещё была бы решаема, если бы проваленная попытка не убивала всех и если бы у нас было достаточно времени. И то, и другое не так. Попытки, которые не могут вас убить – не настоящие попытки, и не могут доказать, что ваше решение работает.
M10 (давайте просто это скажем). Следовательно, МЫ ОБРЕЧЕНЫ.
Вот моё краткое содержание. Как отмечает Элиезер, разным людям надо услышать и выучить разные части, так что они написали бы разные пересказы.
Основываясь на этом пересказе, с какими частями я согласен, а где ощущаю скептицизм?
Во всех практических смыслах, я полностью согласен с M1, M4, M5, M7 (!) и M9.
Во всех практических смыслах, я в основном согласен с M2, M6 и M8, но менее уверен, что ситуация настолько экстремальна, как в них описано.
В случае M2, у меня есть надежда, что пока-что-не-найденный путь найти возможно.
В случае M6, я не думаю, что мы можем быть настолько уверены, что у нас нет других ценных людей (хотя, очевидно, их меньше, чем нам надо/хотелось бы).
В случае M8, я не ощущаю себя достаточно способным оценивать наши будущие способности смотреть сквозь непонятные матрицы, чтобы у меня было так мало надежды.
Что касается M10, я согласен, что M10 следует из M1-M9, и согласен, что вероятность погибели неприемлемо высока даже если все мои оптимистичные сомнения верны.
Меньше всего я убеждён в M3.
M3 имеет большое значение. M3 наиболее прямо высказано в пункте №4 Элиезера, где обрисовано обоснование:
4. Мы не можем просто «решить не создавать СИИ», потому что GPU повсюду, а знания алгоритмов постоянно улучшаются и публикуются. Через два года после того, как лидирующая группа получит возможность устроить конец света, её получат ещё пять групп.
В частности, я сомневаюсь в допущениях, что накапливающихся усовершенствований знаний об алгоритмах и доступа к GPU точно хватит для создания СИИ, и что нет правдоподобного сложного шага или секретного соуса, который мог бы обеспечить значительное лидерство, и не был бы опубликован или похищен немедленно, что обесценило бы это лидерство, и что нет возможности попросту имеющего значение «разрыва компетенции» или «разрыва ресурсов», и что по сути неограниченное число конкурентов обязательно будут отставать лишь ненамного.
Это ещё кажется имеющим отношение к заявлению №22 о том, что у обобщённого интеллекта есть простой стержень, в нём я тоже не убеждён.
Так что, я не убеждён и в том, что погибель наступает особенно быстро, и в том, что для неё хватит СИИ, настолько похожего на наши современные ИИ, и в том, что промежуток эндшпиля будет настолько короток, как предполагается в посте.
Я согласен, что этот сценарий возможен, и его вероятность непренебрежима. Этого более чем достаточно, чтобы сделать нынешнюю ситуацию неприемлемой, но важно отметить, что я убеждён, а где нет.
Я, однако, согласен, что скорее всего вы не будете знать, сколько у вас времени, даже если думаете, что его может быть много.
Я сильно согласен, что создание согласованного ИИ сложнее, вероятно, намного сложнее, чем создание несогласованного ИИ, что оно требует дополнительной работы и дополнительного времени, если вообще возможно, и что если это надо сделать и быстро, и с первой попытки, то шансы успеха кажутся крайне малыми.
У меня есть много других вопросов, неуверенностей, раздумий и несогласий в более подробных разделах ниже, но вот эти имеют значение для ключевых заключений и выводов.
Даже если эти оптимистичные сомнений окажутся верны, в основном это не поменяет то, что надо сделать и не даст идей о том, как.
Преамбула
-3: Да, и тезис ортогональности, и инструментальная конвергенция верны.
-2: Говоря о Согласовании сейчас, мы имеем в виду нечто, что может совершить ключевое действие, предотвращающее создание другого СИИ, с менее чем 50% шансом убить миллиард человек. Всё меньшее массовых смертей нам подойдёт.
-1: Задача настолько сложна, потому что нам надо решить её с первой критической попытки и за сильно ограниченное время. Обычно люди решают сложные задачи, тратя много времени и много попыток, что в этом случае нас убьёт. Если бы у нас было время (скажем, 100 лет) и неограниченные попытки, то задача всё ещё была бы супер-сложной, но (наверное?) вполне решалась бы обыкновенными человеческими усилиями.
Раздел A
- …
СИИ не будет ограничен сверху человеческими способностями или человеческой скоростью обучения. Нечто куда умнее человека было бы способно обучаться на куда меньшей информации, чем требуется людям
…
Нет естественного (по умолчанию, если его не устроить) ограничения, из-за которого всё должно происходить на временных масштабах, позволяющих нам легко среагировать.
Да, очевидно.
Это декламация с примечательно прикрученным фитильком. При наличии достаточной мощности обработки информации, СИИ будет знать всё, что можно вытащить из доступных ему данных. Он будет обладать любым навыком, который для него будет возможно выработать.
2. Для достаточно мощной когнитивной системы, имеющей доступ к любому не совсем жёстко ограниченному каналу внешнего влияния будет несложно организовать себе неодолимые способности, независимые от человеческой инфраструктуры.
…
Поражение в конфликте с когнитивной системой высокой мощности выглядит как минимум настолько смертоносно, как «все на Земле внезапно падают мёртвыми за одну секунду».
Да, очевидно.
Если вам (как некоторым) не нравится пример нанотехнологий, игнорируйте его. Достаточно интеллектуальная система, имеющая выход в Интернет или возможность разговаривать с людьми, просто выигрывает, точка. Вопрос в том, что считается достаточным интеллектом, а не в том, так ли это.
3. Нам нужно справиться с согласованием при «первой критической попытке» действий на «опасном» уровне интеллекта, а несогласованные действия на опасном уровне интеллекта убивают всех на Земле и не предоставляют нам второй попытки.
Да, очевидно, это исход по умолчанию.
Если он достаточно умён, чтобы сообразить, как предотвратить появление других СИИ, то он почти наверняка достаточно умён, чтобы сообразить, как нас убить, и по умолчанию произойдёт именно это, потому что это облегчит достижение целей СИИ, какими бы они не были.
Я вижу аргументы, почему шанс получения второй попытки может быть ненулевым, но он всё ещё будет очень низким.
4. Мы не можем просто «решить не создавать СИИ», потому что GPU повсюду, а знания алгоритмов постоянно улучшаются и публикуются. Через два года после того, как лидирующая группа получит возможность устроить конец света, её получат ещё пять групп.
Это для меня НЕ очевидно.
Тут используются допущения о том, что физически приводит к появлению СИИ, и как вырабатывается и распространяется информация. Я заметил, что не разделяю эти допущения.
Мне кажется, что тут подразумевается либо что до СИИ не осталось «глубоких озарений», либо что любые такие озарения (А) неизбежно случатся в нескольких местах или (Б) неизбежно быстро утекут в готовой к применению форме.
Ещё тут подразумевается, что между самой компетентной/продвинутой группой и шестой по компетентности/продвинутости группой не будет большого «разрыва компетентности», так что другие группы догонят лидирующую за два года. Что не будет никакого невыразимого знания, или командного навыка, или преимущества по ресурсам или просто желания сделать то, что надо, на достаточном масштабе, или чего-то ещё в таком роде.
Я не вижу, с чего такая уверенность.
Да мы видели в области ИИ ситуации, когда несколько групп работали над одной и той же задачей, в последнее время – генерация изображений по текстовому описанию, и заканчивали в пределах довольно короткого отрезка времени. Это случается, особенно когда способности растут довольно плавно и всё в основном сводится к тому, кто потратит больше вычислительных мощностей и труда в этом году. И да, у нас было много случаев, когда несколько стартапов устраивали гонку за новый рынок, или несколько учёных наперегонки стремились к одному открытию, или ещё что-нибудь в этом роде.
Но было и много ситуаций, когда было что-то, что могло бы быть открыто в любой момент, но некоторое время этого просто не происходило. Или когда что-то очень долго делали довольно глупо и плохо. Или когда кто-то что-то соображал, пытался всем рассказать о своей инновации, а все очень долгое время это игнорировали и одновременно не соображали это сами.
Достаточное, чтобы иметь значение, преимущество в общих способностях или ресурсах уж точно кажется мне весьма правдоподобным.
Из его других текстов ясно, что Элиезер считает, что код будет похищен, и что меры безопасности из него можно будет убрать. Я согласен с необходимостью настоящих надёжных защитных мер для предотвращения этого, когда придёт время, и беспокоюсь, что масштаб может сделать это нереалистичным или очень дорогим, но версия Элиезера полагается на определённую компетентность крадущих код людей, которые должны понимать, какой код ценен и как его использовать.
Я не говорю, что такой сценарий невозможен, и даже что он маловероятен, но и другие варианты кажутся вполне возможными, по крайней мере, с другими промежуточными сроками и числом конкурентов.
Это не решает основополагающей проблемы. Всё равно есть какое-то ограничение по времени. Даже если есть хороший шанс, что вы действительно можете на какое-то время «решить не создавать СИИ», никуда не деваются непрерывный риск того, что вы ошибаетесь, стимулы не ждать, и всякое такое.
5. Мы не можем просто создать очень слабую систему, менее опасную из-за своей слабости, и объявить победу, потому что потом появится больше групп со способностью создать систему сильнее, и кто-то из них это сделает. Я раньше называл это разменом «безопасный-но-бесполезный» или выбором «безопасность-или-польза». Люди продолжают предлагать «почему бы нам не использовать ИИ только, чтобы делать X, это кажется безопасным» и ответ почти всегда либо «X на самом деле требует очень мощных когнитивных способностей, которые не пассивно безопасны» или, ещё чаще, «потому что ограничение себя X не предотвратит конец света, который вызовут Facebook AI Research ещё через шесть месяцев».
По сути, да. Вы либо можете совершить ключевое действие, которое предотвращает создание других СИИ, либо нет. Оно требует не-безопасного мышления. Если его не совершать, то кто-то другой создаст не-безопасное мышление. Нехорошо.
6. Нам нужно согласованное исполнение некой большой задачи, «поворотного действия», которое предотвратит создание другими людьми несогласованного СИИ, устраивающего конец света. Пока всего у одной или у нескольких групп есть СИИ, им надо исполнить некое «поворотное действие», достаточно сильное, чтобы перевернуть игровую доску, используя достаточно мощный для этого СИИ. Недостаточно иметь способность согласовать слабую систему – нам надо согласовать систему, которая может сделать одну очень большую штуку. Обычно я привожу пример «сжечь все GPU».
Да. Я заметил, что я уже отсылал к этому несколько раз, наверное, мог бы изменить порядок.
7. … Чтобы сделать что-то с современным миром, что предотвратит появление других СИИ, нужна высокая мощность; то, что может это совершить не будет пассивно безопасным благодаря своей слабости.
…
Нет слабых поворотных действий.
Я не настолько убеждён, что не существует значительно более простых, чем прямолинейное сжигание всех GPU поворотных действий (после исполнения которых можно было бы всё равно сжечь все GPU, или нет). Нет конкретных причин, почему люди не могут исполнять опасное мышление без помощи СИИ, не могут совершить поворотное действие самостоятельно; наше мышление не полностью безопасно. Но если бы у меня была такая идея, и я думал бы, что она сработает, я бы не стал о ней писать, и она уж точно не влезала бы в окно Овертона. Следовательно, я не считаю, что то, что у нашего общественного дискурса не получилось сгенерировать такое действие, служит особо сильным свидетельством того, что их не существует.
8. Лучшие и легче всего находимые оптимизацией алгоритмы решения задач, которые мы хотим, чтобы ИИ решал, легко обобщаются на задачи, которые мы бы предпочли, чтобы ИИ не решал
Да, очевидно.
9. Создателям безопасной системы, при принятии гипотезы, что это возможно, придётся оперировать ей в режиме, в котором у неё есть способность всех убить или сделать себя ещё опаснее, но она была специально так спроектирована, чтобы этого не делать. Запуск СИИ, исполняющего что-то поворотное, не пассивно безопасен, это как активная зона ядерного реактора, требующая активного поддержания спроектированных свойств, чтобы не взорваться.
Да, очевидно, в случае комбинированной системы из людей и ИИ, исполняющей поворотное действие. Опять же, можно представить вариант, в котором всё небезопасное мышление в каком-то смысле «в людях».
Раздел Б.1
10. … В рамках парадигмы, хоть немного похожей на стандартное машинное обучения, вам пришлось бы как-то распространить проведённую в безопасных условиях оптимизацию-для-согласованности, на опасные условия, преодолев большой сдвиг распределения.
…
Мощные СИИ, исполняющие опасные действия, которые убьют вас в случае несогласованности, должны иметь обеспечивающее согласованность свойство, обобщившееся далеко за пределы распределения исполнявшихся при создании/обучении безопасных не убивающих вас операций. При условии чего-то, хотя бы отдалённо напоминающего нынешнюю парадигму, приличная часть смертоносности берётся именно от этого.
…
10a. Отмечу, что всё значительно умнее вас представляет угрозу при любом реалистичном уровне возможностей. Например, «быть способным производить вывод, на которые посмотрят люди» скорее всего хватит в-целом-куда-более-умному-чем-люди СИИ, чтобы проложить себе путь на свободу через системы причин и следствий, именуемых людьми, особенно в реальном мире, где систему обучают на терабайтах текста из Интернета, а не удерживают её каким-нибудь образом в неведении о том, откуда взялись её исходный код и обучающее окружение.
Да. 10 кажется очевидно и прозрачно верным, хоть это и надо было высказать явно.
Я отмечаю 10a, потому что я считаю это важным под-утверждением, и я сильно уверен в его истинности. СИИ куда-умнее-людей, способный обеспечить чтение его текста людьми, сможет заставить этих людей сделать то, что он хочет, точка. Это одна из ситуаций «нет-мне-не-кажется-мудрым-объяснять-почему-я-так-уверен-что-это-так», но, ещё раз, я очень уверен.
11. … Не существует слабых поворотных действий; неизвестны конкретные варианты, предусматривающие обучение безопасному уровню способностей в безопасном окружении, в котором вы можете дёшево проводить миллионы попыток обучения, и использование потом этих способностей для спасения мира и предотвращения конца света от следующего проекта СИИ двумя годами позже. Такие поворотные действия неизвестны, и вовсе не потому, что их никто не ищет.
…
Даже если отложить пока в сторону последствия успеха способностей при провале согласования, у вас нет тысячи попыток сжигания всех GPU – потому что люди заметят.
Точно нет такого публично известного и доступного для исполнения действия, а его точно много искали. Не кажется невозможным, что ответ существует, и знающие его ничего не говорят по очень хорошим причинам. Или что «многие пытались сделать X и провалились», потому что слепые места разных попыток коррелируют.
12. Действия на высоком уровне интеллекта – очень большой сдвиг распределения относительно действий на меньшем уровне интеллекта, при нём открываются новые внешние варианты, и, скорее всего, открывается ещё больше внутренних выборов и режимов мышления. Проблемы, появляющиеся на высоком уровне интеллекта и опасности, могут не появляться на более низких безопасных уровнях интеллекта, или могут появиться заново после исправления заплаткой.
Да, да, мы уже это говорили.
13. Многие проблемы согласования суперинтеллекта не возникнут естественным образом на до-опасных, пассивно-безопасных уровнях способностей. Рассмотрим внутреннее поведение «изменить свой внешнее поведение так, чтобы намеренно выглядеть более согласованным и обмануть программистов, операторов, и, возможно, любую оптимизирующую тебя функцию потерь». Эта проблема возникнет на суперинтеллектуальном уровне; если, не зная подробнее, мы предположим, что эта проблема близка к медианной проблеме такого рода по времени их естественного появления, то получается, что примерно половина проблем согласования суперинтеллекта впервые естественным путём появится после этой.
Про заглавное утверждение – да, да, опять же, разве мы это уже не говорили?
Пример определённо представляет опасность на сверхчеловеческом уровне, но кажется, что он может быть опасен и на человеческом. Вы… видели людей? Ещё, вы видели собак и кошек, определённо до-человеческие интеллекты? Это не особенно «продвинутый» трюк.
Это осмысленно, потому что выяснение проблем, не существующих на человеческом уровне, которые будут существовать на сверхчеловеческих уровнях, кажется сложным по причине того, что думают об этих проблемах люди. Мы можем додуматься до того, что наши нынешние системы, наверное, не делают, вроде «притвориться согласованным, чтобы обмануть создателей», потому что мы – интеллектуальные системы, которые так умеют. А это кажется проблемой, которую можно очень легко вызвать рано в действительно безопасной системе, потому что, опять же, мы знаем на примере, что она бывает, и кажется очевидным, как это сделать. Это не значит, что я знаю, как её решить, но я могу заставить её показаться.
Что за проблемы не показываются к до-человеческих ИИ-системах, и не показываются в людях, потому что мы не можем о них подумать? Я не знаю. Я не могу о них подумать. Потому они и не показываются.
Следовательно, в той степени, в которой мы можем говорить об этом, есть разные проблемы согласования: которые можно попробовать предвосхитить и решить, и особенно противные, которые проявятся только в одноразовой финальной проверке, для рассуждений о которых мы недостаточно умны, а следовательно мы не можем к ним подготовиться. Значит, нам нужно обобщённое решение, или нам придётся надеяться на то, что таких проблем нет.
14. Кажется, что в случае некоторых проблем, вроде «у СИИ есть вариант, как он может (или ему кажется, что может) успешно убить и заменить своих программистов, чтобы полноценно оптимизировать свой окружение», их естественный порядок возникновения будет таким, что они впервые появятся только в полноценно опасных областях.
…
Попытки отучить от такого поведения градиентным спуском – это то, что, как я ожидаю, приведёт к не-особенно-последовательным локальным заплаткам в мыслительном процессе, которые почти наверняка сломаются у суперинтеллекта, обобщающего далеко за пределы обучающего распределения и думающего совсем другие мысли. Ещё при переходе на опасные области выйдут из распределения программисты и операторы, привыкшие действовать в не-вполне-опасных областях; наши методологии при этом могут сломаться.
Быть способным каким-то образом захватить контроль над программистами и функцией вознаграждения – опять же, нечто, что люди, по сути, делают всё время. Это будет. Вопрос в том, приведёт ли исправление этого в относительно безопасной ситуации к общему решению проблемы?
Я предполагаю, что если кто-то приступает к работе с целью «заставить эту систему не проявлять эту проблему», то у найденного решения почти нулевые шансы сработать в опасных областях. Если ваша цель – действительно выяснить, что происходит, так, чтобы можно было выжить, то, может быть, какие-то шансы есть? Всё ещё не выглядит хорошо. То, что мы стремимся предотвратить, совсем не обязательно осмысленно связано с тем, что нас ожидает.
15. Быстрый набор способностей кажется вероятным, и он может одновременно сломать многие необходимые для согласованности ранее не менявшиеся установки. При условии недостаточного предвидения операторов, я бы ожидал, что многие из этих проблем возникнут примерно одновременно после резкого набора способностей. Взять хотя бы, опять же, случай человеческого интеллекта.
Да.
Сказав «да», я вовсе не полагался на пример человеческого интеллекта, или описанные дальше детали, но я всё же из полностью процитирую, потому что это, кажется, первое особо ценное подробное объяснение.
Мы не сломали согласованность с «совокупной репродуктивной приспособленностью» немедленно после возникновения фермерства у кроманьонцев 40 или 50 тысяч лет назад, что уже было бы довольно быстро в сравнении с внешней оптимизационной петлёй естественного отбора. Нет, очень много куда более продвинутых, чем те, что были в окружении наших предков, технологий, включая контрацепцию, мы получили за один рывок, очень быстрый по сравнению со скоростью внешней петли оптимизации, на позднем этапе развития интеллекта. Мы стали больше рефлексировать, куда больше программироваться культурной эволюцией, и одновременно сломались очень много допущений, лежавших в основе нашей согласованности в обучающем окружении наших предков.
(Люди, наверное, будут рационализировать причины, почему это абстрактное описание не перейдёт на градиентный спуск; например, «градиентный спуск в меньшей степени зависит от узкого места передачи информации». У моей модели таких читателей есть взгляд изнутри, который они сами называют взглядом снаружи, придающий большую значимость некоторым данным, которые не взялись из наблюдений за внешней оптимизационной петлёй, создавшей обобщённый интеллект, и мало значимости именно этому единственному в своём роде источнику данных. Когда внешняя оптимизационная петля на самом деле создала интеллект, он перестал быть согласованным после того, как стал обобщённым, сделал это на относительно позднем этапе набора способностей и знаний, и практически немедленно стал «смертельно» опасным для внешней оптимизационной петли естественного отбора. Игнорирование этого единственного предостережения, особенно без высказывания собственных предложений, что может пойти смертельно не так, вызывает скептицизм.)
Я одновременно и соглашаюсь с тем, что единственный источник данных не получает должного внимания, и при этом не думаю, что он вообще нужен. Есть куча всего, что истинно в случае недостаточно интеллектуальной/мощной системы, но не будет верно, когда система станет намного более интеллектуальной/мощной, и некоторые из этих вещей – то, на что вы неосознанно полагаетесь. Это будет проблемой.
Раздел Б.2
16. Даже если вы действительно сильно обучите на в точности верной функции потерь, это не приведёт к появлению явного внутреннего отображения этой функции внутри ИИ и тому, что он продолжит следовать в точности этой функции в выходящих из распределения окружениях.
…
внешняя оптимизация даже на очень точной и простой функции потерь не обеспечивает внутреннюю оптимизацию в том же направлении. Это на практике происходит в реальном мире, именно это произошло в единственном случае, о котором мы знаем, и мне кажется, что есть глубокие теоретические поводы ожидать, что это произойдёт снова
Да. Стратегия чистого обучения на функции потерь не сработает. Нет причин, с чего ей работать. Так что она и не будет. Надо делать что-то другое.
17. … при нынешней парадигме оптимизации и в общем случае нет никаких идей, как получить систему с конкретными внутренними свойствами или проверить их наличие, кроме как просто наблюдать за внешними свойствами, от которых может зависеть функция потерь.
Я думаю, у нас есть какие-то возможности проверки? Крис Олах и некоторые другие добились достаточного прогресса для по крайней мере некоторых систем нынешней парадигмы, они могут опознать некоторые внутренние свойства системы, и ожидают большего в будущем. Насколько я знаю, они понятия не имеют, как выбирать или вызывать эти свойства, но по крайней мере какая-то надежда на видимость есть.
Если вы можете что-то наблюдать, вы, по крайней мере, теоретически, можете хорошо это обучать, хотя есть риск обучить ИИ тому, как избежать ваших методов наблюдения? Ну, допустим, у вас есть программа-классификатор. У меня составилось впечатление, что по крайней мере иногда вы можете сказать «этот узел отображает, есть ли кривая вот тут», или что-то в этом роде. Если вы можете делать так, то предположительно (по крайней мере, в теории), вы можете затем обучать или производить какой-нибудь отбор, чтобы это свойство присутствовало или не присутствовало, и в какой форме, и повторять это, и иметь хоть какой-то контроль над тем, как полученное в итоге устроено, в пределах того, что возможно с учётом вашей функции потерь и всякого такого. Есть другие варианты, которые я тоже могу предложить, конечно, они, наверное, очевидная чепуха, или хуже – чепуха, неочевидная достаточно, чтобы всех нас убить, но кто знает.
18. Не существует надёжного источника эмпирической истины (надёжного калькулятора для функции потерь) о том, «согласован» ли вывод, потому что некоторые выводы уничтожают или обманывают людей-операторов и запускают внешние цепи причин и следствий, не ограничивающиеся измеряемой снаружи функцией потерь.
Да, это так. Вы, по сути, надеетесь, что система не будет слишком хорошо оптимизировать сигнал вознаграждения, а вместо этого будет оптимизировать то, что вы хотите. Это кажется сложным.
19. Более обобщённо, нет известных способов использовать парадигму функций потерь, сенсорных вводов, и/или вводов вознаграждения, чтобы оптимизировать что угодно внутри когнитивной системы так, чтобы оно указывало на конкретную вещь в окружении – указывать на скрытые события и свойства окружения, а не сравнительно поверхностные функции сенсорных данных и вознаграждения.
Да, я понимаю, что это уже звучало, но это кажется очень странным и чем-то, что можно преодолеть? И, конечно, для того, чтобы это заработало, потребуется сделать что-то инновационное, и важно отметить, что то, что много работы в этом направлении не привели к успеху – плохой знак, но… всё же?
20. Люди-операторы склонны к ошибкам, на них можно повлиять и ими манипулировать. Люди-оценщики совершают систематические ошибки – регулярные, компактно описываемые, предсказуемые ошибки. Достоверно выучить функцию из «человеческой обратной связи» означает выучить недостоверное (с нашей внешней точки зрения) описание человеческих предпочтений, с неслучайными (с нашей внешней точки зрения на то, что мы бы хотели передать) ошибками. Если идеально выучить и идеально максимизировать то, на что ссылаются вознаграждения, назначенные людьми-операторами, это их убьёт. Это факт о территории, не о карте – об окружении, не об оптимизаторе – лучшее предсказательное объяснение ответов людей предсказывает в них систематические ошибки и включает психологические концепты, верно предсказывающие более высокую оценку, которая будет присвоена в случаях ошибок.
Меня беспокоит, что тут есть какой-то логический скачок и принцип «почти любой возможный СИИ вас убивает» заходит слишком далеко. В целом, я полностью согласен с принципом, что почти любой возможный СИИ вас убивает. По большей части, если в посте сказано «так что он вас убьёт» – это определённо то, что произойдёт, если выполнится предпосылка.
Если под «обдурить операторов» мы имеем в виду штуки вроде «взять контроль над операторами, и имплантировать им чипы в головы», то да, это так, но кажется, тут описывается что-то другое. Тут описывается дружелюбный СИИ, который хочет, чтобы вам по-настоящему понравился его вывод, так что он каждый раз говорит вам то, что вы будете счастливы услышать, даже если результаты будут весьма плохи.
Убивает ли это вас (то есть всех)?
Это точно может вас убить. Он точно будет намеренно в некоторых ситуациях выбирать ошибочные ответы вместо правильных. Но люди делают то же самое. Политики делают то же самое. Мы не знаем в точности, как принимать самые лучшие решения или избегать искажений в важных выборах. Это кажется тем уровнем ошибок, который часто можно будет пережить. Это зависит от того, насколько люди на него полагаются, и понимают ли они, как избегать ситуаций, в которых это всех убьёт.
Я убеждён, что если выдать мне или Элиезеру возможность использования СИИ, согласованного в точности с оцениванием одного ответа из его вывода реалистичной командой людей-оценщиков, то есть он не обучен играть в длинную игру в получение более высоких будущих оценок, а просто отображает человеческие искажения, то это преодолеет элиезеровский порог согласованности – мы были бы в хорошем положении, чтобы успешно исполнить поворотное действие, не убив миллиард человек.
Это не значит, что проблемы нет. Такой сценарий куда хуже, чем если СИИ будет каким-то образом магически согласован с тем, как нам бы в каком-то смысле следовало бы оценивать его вывод, и это сочетается с другими проблемами, но кажется, что, если бы мы решили все проблемы, кроме этой, этого бы хватило.
21. Существует что-то вроде единого ответа или единого набора ответов на вопросы вроде «Каково на самом деле моё окружение?», «Как мне узнать про окружение?» и «Какие из моих возможных выводов взаимодействуют с реальностью так, чтобы реальность получила определённые свойства?», такой, что простая петля внешней оптимизации прямолинейно запихнёт оптимизаторы в этот набор.
Когда у вас есть ложное убеждение, реальность даёт сдачу несбывшимися предсказаниями. Когда у вас сломанный механизм обновления убеждений, реальность даёт сдачу ухудшением предсказаний в целом, и градиентный спуск исправит проблему простым способом, легко сочетающимся с другими предсказательными элементами.
Напротив, когда дело доходит до выбора функции полезности, степени свободы неограниченны, а внутренне непротиворечивых рефлексивно-неподвижных точек много. Реальность не «даёт сдачи» штукам, локально согласованным с функцией потерь на конкретном наборе тестовых примеров, но несогласованных глобально, на наборе побольше.
…
Основной вывод: Когда способности начинают далеко обобщаться, они обобщаются дальше, чем согласованность.
Да, хоть и не очевидно. Объяснение этого пункта для меня очень контринтуитивно. Это предполагая, что я действительно правильно его понял, я думаю, что это так, но не уверен. Я бы точно думал об этом или объяснял это не так, и я не вполне убеждён, что шаги рассуждения безошибочны.
Когда у вас есть ложное убеждение, приводящее к ложным предсказаниям, вы можете получить функцию потерь, требующую корректировки, а можете нет. Это происходит, если ложные предсказания находятся в обучающем множестве (или окружении предков), и несут последствия, влияющие на функцию потерь, а не все ошибки такие. Аргумент – некоторая комбинация (А) того, что оптимизация локальных способностей более склонна предоставить обобщаемое решение, чем оптимизация локальной согласованности, и (Б) что вы, вероятно, согласуете «неправильно», согласовав с прокси-мерой, и это всплывёт за пределами обучающего множества и убьёт вас, и согласованность будет в «зафиксированной» функции полезности, а вот способности могут продолжать подстраиваться и улучшаться, и их прокси-меры менее вероятно ломаются.
Оба аргумента кажутся в целом верными, или, по крайней мере, достаточно вероятно верными, чтобы мы могли считать их верными на практике, там, где это имеет значение.
22. Существует сравнительно простая базовая структура, объясняющая, почему работают сложные когнитивные механизмы; поэтому существует обобщённый интеллект, а не просто много не связанных друг с другом специализированных решений; значит, после того, как внешний оптимизатор вложит способности во что-то достаточно оптимизированное, чтобы стать мощным внутренним оптимизатором, способности обобщатся. То, что эта структура проста и что она в общем случае применима к низкоэнтропийным высокоструктурированным окружениям – причина, почему люди могут ходить по Луне. Нельзя сказать, что для согласованности аналогично существует простое ядро, особенно такое, что для градиентного спуска его найти проще, чем для естественного отбора – найти для древних людей хорошо обобщающееся решение «стремления к совокупной генетической приспособленности». Следовательно, способности, начав обобщаться, обобщатся за пределы распределения куда дальше согласованности.
Вероятно, но кажется излишне уверенным. Уж точно естественный отбор этого найти не смог, но от этого далеко до доказательства невозможности. Обобщённый интеллект оказался чем-то, до чего можно дойти, ползя вверх по градиенту, и для некоторых разновидностей строгой согласованности это не так. Или, по крайней мере, пока не так. Это одна из задач, которые, кажется, у естественного отбора до недавнего времени не всплывали.
Простой обобщённый стержень согласованности, значимым образом фиксирующий что-то на месте, запросто мог до совсем недавнего времени быть довольно большим неудобством, он уничтожает степени свободы.
Аналогично с тем, как нам не нужно согласовывать наши нынешние слабые ИИ в том смысле, в котором важно согласовывать сильные ИИ, и мы бы не получили большой прямой выгоды, если бы это делали, для всего, созданного естественным отбором до людей, предположительно, даже до цивилизации, правдоподобно, что даже до индустриальной цивилизации, или даже ещё позже, тоже могло не быть такой нужды. В какой момент люди стали в некотором смысле «достаточно умны», чтобы согласованность с «совокупной генетической приспособленностью» начала обыгрывать альтернативы?
(В смысле, да, нам надо согласовывать нынешние ИИ (не являющиеся СИИ), действующие в реальном мире, и наша неспособность это сделать уже сейчас наносит большой ущерб, но опять же, это случай чего-то плохого, но пока нас не убивающего.)
Естественный отбор искал обобщённый интеллект в каком-то смысле довольно долгое время. Сколько ему потребовалось бы, чтобы отыскать простой стержень согласованности, если тот существует?
Мы не знаем о простом стрежне согласованности. Он может даже теоретически не существовать, и хорошо бы, чтобы наш план не рассчитывал на то, что мы его найдём. Но всё же он может и существовать. Уж точно, если он на уровне сложности обобщённого интеллекта, то его существование кажется довольно правдоподобым, и правдоподобным кажется, что в таком случае естественный отбор его пока не нашёл, и я не думаю, что мы уже поработали над этим достаточно, чтобы делать такие выводы – скорее, тут есть все эти невозможные проблемы, которые должны им решаться, и это основная причина ощущать пессимизм по этому поводу.
23. Исправимость неестественна для консеквенциалистских рассуждений; «ты не можешь принести кофе, если ты мёртв» для почти любого кофе. Мы (MIRI) безуспешно пытались найти непротиворечивую формулу для агента, который позволил бы его выключить (но не активно старался бы, чтобы его выключили). Более того, многие анти-исправимые линии рассуждений могут впервые появиться уже на высоких уровнях интеллекта.
Да. Меня тоже сильно фрустрирует, когда я вижу, что люди выбирают это не понимать, или делают вид, что это не понимают (или, иногда, действительно не понимают).
Исправимость в самом-самом деле неестественна, она супер-странная, она очень сильно не хочет происходить. Эта задача очень сложна, и неудача в её решении делает сложнее все остальные задачи.
Я хочу тут, аналогично ещё некоторым местам, подчеркнуть, что 99%+ все читателей должны отсюда вынести сообщение «исправимость противоестественна и до безумия сложна», а не что-то обратное.
Однако, я тут делюсь своими мыслями и реакциями, и хоть 99% читателей должны вынести это, оставшиеся люди весьма важны. Так что, ни в коем случае и ни коим образом не обманывая себя по поводу того, что это близко к невозможному, хорошие новости – мне это всё ещё кажется чем-то менее невозможным, чем некоторые другие невозможные штуки. Если мы продолжим присматриваться к «единственному известному нам случаю», то мы увидим людей, в важных смыслах функционально что-то вроде как примерно исправимых, и я не думаю, что это основано на ложных убеждениях этих людей (В смысле, у них есть ложные убеждения, как у всех, они могут сильно способствовать, но они не кажутся ключевым элементом).
Ключевой элемент (у людей) – в том, что человек ценит продолжение нормального функционирования процедуры, генерирующей решение, помешать ли ему, больше, чем то, чтобы эта процедура ему мешала или не мешала. Возможно, потому, что решение помешать – свидетельство в пользу того, что помешать надо, а вот воздействие на принимающих решение людей, чтобы они точно приняли конкретное решение, не приведёт к такому свидетельству.
Люди всё ещё совершают действия в рамках процедуры, чтобы им не мешали, но подчиняются решению, если оно принято. И они обычно высоко ценят передачу этой черты другим.
Эта исправимость обычно имеет свои пределы, в частности, она ломается, когда разговор идёт о том, чтобы человека убить, или иным образом заставить его ожидать достаточно суровых последствий, локальных или глобальных.
Является ли Конституция суицидальным пактом? Она бы не работала, если бы не хотела в небольшой степени им быть. Она также очевидно не полностью работает, в том смысле, что она им не является, и почти никто не хочет позволить ей более явно им стать. Как вымышленный, а значит чистый пример, рассмотрим фильм Чёрная Пантера – следует ли, с учётом последствий, позволить бросить себе вызов, потому что правила есть правила, несмотря на то, что человек, поставленный отвечать за правила, явно не намерен о них беспокоиться?
Так что функция полезности, комбинирующая «продолжение работы внешней системы супер-важно» с желанием других полезных исходов, оказывается при разборе весьма странной и довольно непоследовательной, и очень противоестественной для консеквенциалистского мышления. У меня нет сомнений, что нынешние методы сломаются, если опробовать их на СИИ.
Это заставляет меня думать, не заходит ли консеквенциализм рассуждений слишком далеко, и не часть ли он проблемы, но я пока не вижу способов от него отойти, даже теоретически, не сделав всё ещё хуже.
В любом случае, всё это очень навскидочные рассуждения, по сравнению с бесконечными часами, которые в MIRI потратили, работая над этой конкретной проблемой, так что хоть я продолжаю не сдаваться и не объявлять решение невозможным, оно уж точно не просто.
24. Есть два потенциальных фундаментально различающихся подхода к согласованию, они нерешаемы по двум разным наборам причин; следовательно, находясь в замешательстве и перепрыгивая между двумя подходами вы можете запутать себя по поводу того, точно ли согласование сложное.
Первый подход – создать Властелина CEV-или-чего-то-похожего, который хочет в точности того, что мы экстраполированно-хотим, а значит, ему можно безопасно позволить оптимизировать все будущие галактики и не принимать никакого человеческого ввода, пытающегося его остановить.
Второй путь – создать исправимый СИИ, который не хочет в точности того, что мы, но всё же почему-то нас не убивает и не захватывает все галактики, несмотря на конвергентную мотивацию это сделать.
Я в общем-то скептически отношусь к CEV, в том смысле, что моя модель Элиезера думает, что его невозможно реализовать с первой попытки, но если бы каким-то образом получилось, то это бы работало. А я думаю, что это не просто невозможно сделать, но если бы и сделали, то я бы всё равно предсказывал исход с нулевой ожидаемой ценностью. Я не думаю, что это сработает в теории, по крайней мере в том виде, в котором это представляют сейчас.
По поводу исправимости я – умеренный оптимист, я распознаю это как невозможную задачу, но всё же как относительно решаемую невозможную задачу, хоть попытки её решения пока что никуда и не привели.
А про CEV я не убеждён, что подход «сделать это правильно с первого раза» должен его использовать, но подробности тут за пределами темы, а я, скорее всего, недостаточно компетентен, так что на этом остановимся.
Я не был так уж фрустрирован этой конкретной дилеммой, тем, что люди не знают, пытаются они сделать всё правильно с первого раза, или пытаются решить исправимость, но скорее всего это потому, что я никогда не был полностью «в игре», думаю, мне повезло. Не сомневаюсь, что такие двусмысленности встречаются.
Раздел Б.3
25. У нас нет ни малейшего понятия о том, что на самом деле происходит внутри гигантских непонятных матриц и тензоров чисел с плавающей точкой. Рисование интересных диаграмм того, куда слой трансформера обращает внимание, не поможет, если надо ответить на вопрос «Так он планирует наше убийство или нет?».
Да, по крайней мере пока что я понимаю это так же.
Я никогда не пытался посмотреть внутрь огромной непонятной матрицы. Даже если бы у нас были какие-то идеи о том, что происходит внутри, это не сказало бы нам о том, собирается ли машина нас убить. И если бы мы могли посмотреть внутрь и сказать, то мы бы лишь учили машину тому, как скрывать от наших измерений то, что она пытается нас убить, или ещё что-то, что нам не нравится, включая то, что она что-то прячет. Вот так.
Я слышал заявления о том, что интерпретируемость прогрессирует, что у нас есть какие-то идеи о каких-то огромных и в других отношениях непонятных матрицах, и что эти знания улучшаются со временем. У меня не было возможности проверить эти заявления, и я не знаю, насколько полезным это может быть в будущем.
26. Даже если бы мы знали, что происходит в гигантских непонятных матрицах, пока СИИ слишком слаб, чтобы нас убить, если DeepMind откажется запускать эту систему и позволит Facebook AI Research устроить конец света двумя годами позже, это лишь позволит нам погибнуть с большим достоинством. Знание, что система умеренной силы из непонятных матриц планирует нас убить само по себе не позволяет нам создать систему высокой силы из непонятных матриц, которая не планирует нас убить.
Да выделенной части. Знать, какую машину не создавать, конечно, полезно, но не говорит нам, как исправить проблему, даже если всё правильно работает.
Не-выделенная часть зависит от истинности тезиса про два года, но следует из него логически, если вы считаете, что FAIR всегда в пределах двух лет от DeepMind и всё такое.
Я не могу придумать, как бы я хотел погибнуть меньше, чем быть убитым Facebook AI Research. Пожалуйста, серьёзно, кто угодно другой.
27. Когда вы явно оптимизируете против детектора несогласованных мыслей, вы частично оптимизируете в сторону более согласованных мыслей, а частично – в сторону несогласованных мыслей, которые труднее детектировать. Оптимизация против интерпретированных мыслей означает оптимизацию против интерпретируемости.
Да, очевидно. Я случайно это уже рассмотрел. Вижу, почему это надо сказать вслух.
28. СИИ умнее нас в той области, в которой мы пытаемся его использовать, так что мы не можем ментально проверить все возможности, которые он просматривает и не можем увидеть все последствия его выводов своими собственными ментальными силами. Мощный ИИ проводит поиск по пространству возможностей, по которому мы не умеем, и мы не можем предвидеть его варианты.
Да выделенному тексту, очевидно, и да выводам по умолчанию.
Как минимум, попытка проверить выводы СИИ означает, что мы проверяем выводы СИИ, и, как я уже раньше отмечал, это означает, что он может коммуницировать с людьми, и важная часть основы моей модели – что надо считать, что достаточно обобщённо-мощному несогласованному СИИ этого хватит, для общих манипуляций людьми, неважно, в какой конкретно области, хоть я и вижу возможности по ограничению пропускной способности, которые делают это менее очевидным или поднимают планку достаточной мощи.
Мы не можем проверить все просматриваемые им возможности, но очевидно ли, что мы не можем сами увидеть последствия его выводов? Это – потенциально более простая задача, чем генерировать или оценивать возможности.
Возьмём математику, классическое место, где люди пытаются сделать с СИИ что-то «безопасное». Намного проще проверить доказательство, чем его сгенерировать, и это требует куда меньше интеллекта и вычислений. Кажется полностью правдоподобным, что если СИИ, намного лучше разбирающийся в математике, чем Терренс Тао, способный доказывать что-то так, как Тао не может и подумать, сжульничает немного на каком-то шаге, то Тао всё же сможет посмотреть на доказательства и сказать «да, это верно», когда они верны, и «нет, это жульничество», когда нет, и быть прав.
Есть множество более практичных и более опасных областей, где это так же. Куча задач подходят под описание «Нет приблизительно никакой надежды, что я мог бы сгенерировать такой курс действий, но теперь, когда ты его предложил, я понимаю, к чему это приведёт, и почему это хорошая или плохая идея».
Нанотехнологии и фолдинг белков, используемые в посте как канонические примеры небезопасных областей, кажутся как раз случаями, в которых это не так. В множестве случаев с большим отрывом самым эффективным выбором, если вы доверяете СИИ, будет не проверять все последствия его вывода, и весьма правдоподобно, что все найденные пока что решения поворотных действий требуют такого уровня доверия СИИ. Существование исключений не «освобождает» нас от ключевой проблемы, но хочется сохранять точность.
29. Выводы СИИ проходят через огромную не-полностью-нам-известную область (реальный мир), прежде чем вызовут свои настоящие последствия. Люди не могут определить приемлемость последствий, инспектируя выводы СИИ.
Да, конечно, это так для достаточно интересующих нас выводов, и мы не можем использовать выводы, последствия которых мы можем узнать, чтобы это исправить. Что мы потенциально сможем сделать с выводами – это ценой серьёзных ограничений иногда знать последствия очень конкретных вариантов, и опять же, при этом мы будем читать выводы СИИ, что, если он не согласован – очень плохая идея.
30. … Не существует поворотного вывода СИИ, такого, что люди могут его проверить, и он может быть использован для безопасного спасения мира после проверки; это ещё одна разновидность несуществующих поворотных действий.
Это суть всего раздела. Существуют выводы, которые люди могут проверить, но не сгенерировать. Утверждение заключается в том, что никакая комбинация таких выводов не делает возможным поворотное действие.
Если это правда, то исполнение поворотного действия требует доверия к СИИ, так что нам придётся ему доверять, несмотря на отсутствие причин не считать это наихудшей возможной идеей, и других вариантов нет.
Ясно, что пока никто не выяснил, как этого избежать, или, по крайней мере, никто об этом не говорит, хоть к этому и прилагалось весьма немало стараний. Вполне правдоподобно, что решения нет. Но я всё ещё в этом не убеждён.
Ещё я знаю, что весьма правдоподобно, что, если бы я знал про такое действие, я бы посмотрел на него и сказал бы «Я не буду говорить об этом на публике, абсолютно точно не буду, чёрт побери».
31. Стратегически рассуждающий интеллект может выбрать свои видимые выводы такими, чтобы их последствия вводили вас в заблуждение, в том числе по поводу того, приобрёл ли интеллект способность стратегически рассуждать; вы не можете полагаться на инспектирование поведения для определения фактов про ИИ, по поводу которых ИИ может хотеть вас обмануть. (Включая то, насколько он умён и достиг ли способности рассуждать стратегически.)
Да, очевидно. То же, что и с людьми, только СИИ умнее. И всё внутреннее, что наблюдать можно – тоже вывод, и тоже подпадает.
32. Человеческие мысли частично демонстрируют только частично понятный поверхностный слой. Слова только слегка отражают наши настоящие мысли. Слова как они есть не годятся в качестве отображения данных для полноценного СИИ. Скрытые части человеческих мыслей недоступны для прямого имитационного обучения, и их нельзя поместить в набор данных. Из-за этого тяжело, а, наверное, невозможно, обучить мощную систему исключительно на имитации человеческих слов или других понятных людям данных, они – лишь обеднённые подсистемы человеческих мыслей; если только система не достаточно мощна, чтобы содержать внутренний интеллект, способный понять людей, а тогда это уже не работает как имитация человеческих мыслей.
Да, разве что, может быть, кроме последней части после выделенного.
Люди сами содержат внутренние интеллекты, рассуждающие о людях. Мы примечательно хороши в этом деле, сравнительно с другими задачами. Если ваша цель – обучить мощную систему, и ваш метод строится на языковом обучении и, в каком-то смысле, на рассуждениях о людях, то кажется, что это в принципе может привести к имитации человеческих мыслей? Особенно при имитации человеческих слов в качестве цели вы вполне можете потенциально желать имитации человеческих интерпретаций людей, а не правильной интерпретации людей, потому что вы пытаетесь промоделировать, что бы человек высказал в тексте следующим, а это требует знания выходящих слов, а не понимания, что на самом деле там происходит.
33. ИИ не думает, как вы, его мысли не состоят из тех же концептов, что используете вы, он невероятно и ошеломляюще чужд. Никто не знает, о чём, чёрт побери, думает GPT-3, не только потому, что матрицы непрозрачны, но и потому, что содержимое непрозрачного контейнера, скорее всего, невероятно чуждо – это не что-то, что можно легко перевести в понятное человеческое мышление, даже если бы мы могли это разглядеть за гигантскими массивами чисел с плавающей точкой.
Да. ИИ не думает, как вы, и 99% читателей должны уяснить это.
Но, может быть, он в каком-то смысле думает, как вы? По двум причинам.
Первая – опять же, основываясь на моих обсуждениях с Крисом Олахом и других обсуждениях с людьми, работающими над интерпретируемостью, в той степени, в которой они смотрели внутрь огромных непонятных матриц, те оказывались на удивление понятными, и многие нейроны «что-то означали». Это не настолько помогает, как можно было бы понадеяться, но это всё же указывает, что часть мышления не так уж чужда, для высокого порога чуждости. Мышление всё ещё более чуждое, чем обычно думают люди, но масштаб чуждости в итоге может быть не таким уж колоссальным.
Что приводит нас к второй причине – пункту №22, заявлению, что у обобщённого интеллекта есть центральный стержень, так что в каком-то смысле мы можем оказаться Не Такими Уж Разными. Это, учтите, в сравнении с полной чужеродностью и абсолютным отсутствием надежды на расшифровку, не в сравнении с очевидной чепухой вроде «о, ты имеешь в виду, это вроде того, как сложно понять древних Египтян», или вроде того, нет, это будет намного, намного чужероднее.
Я продолжаю испытывать скептицизм по поводу того, что обобщённый интеллект настолько прост, но если он всё же настолько прост, то мне интересно, не следует ли из этого его (сравнительно) меньшая чуждость.
Раздел Б.4
34. Схемы координации суперинтеллектов – не то, в чём могут принимать участие люди (например, потому, что люди не могут надёжно рассуждать о коде суперинтеллектов); естественное и очевидное состояние равновесия «мультиполярной» системы из двадцати суперинтеллектов с разными функциями полезности и человечества выглядит как что-то вроде «двадцать суперинтеллектов кооперируют друг с другом, но не с человечеством».
Да. Я убеждён, что штуки вроде «да всё будет в порядке, потому что СИИ захотят установить надлежащую власть закона», или что мы каким-то образом сможем быть полезной частью таких соглашений – чепуха. Я, однако, думаю, что это утверждение само по себе неубедительно для пока не убеждённых и не склоняющихся к этому. Я согласен, потому что уже убеждён, но в отличии от многих пунктов, которым следовало бы быть покороче, этому, наверное, стоило бы быть подлиннее.
35. Схемы использования «разных» ИИ против друг друга перестают работать, если эти ИИ развиваются до способности координироваться с помощью рассуждений о (вероятностных распределениях) кода друг друга. Любая система значительно интеллектуальных агентов скорее всего может вести себя как единый агент, даже если вы считаете, что используете их друг против друга.
Да. Не автоматически и не совсем точно, но вероятность достаточна, чтобы такие планы не стоило и рассматривать, даже бы их рассмотрению не мешали и другие причины, а я думаю, это так.
Я припоминаю время, когда LessWrong был наполнен обсуждениями такого рода. Это было давно. Более цивилизованные обсуждения более цивилизованной эпохи.
36. … Помещение ИИ в коробку может сработать только для сравнительно слабых СИИ; люди-операторы не являются надёжными системами.
Да, единственный способ удержать достаточно мощный СИИ в коробке – никак не взаимодействовать с его выводом, и то я не уверен. Пожалуйста, все, перестаньте на это надеяться. Всё же, и тут я думаю, что аргумент здесь не убедит тех, кто пока не убеждён и так.
Раздел В
Окей, это всё серьёзные проблемы, но в их решении немало прогресса, верно? Есть целая область, называющаяся «Безопасностью ИИ», и много больших организаций высказывают Очень Серьёзные Беспокойства о том, насколько они «безопасны» и «этичны»?
Да, всё не так гладко. На самом деле, всё пока что шло настолько невероятно плохо, что весьма вероятно, что вся затея до сих пор была сильно негативной, и большая часть финансирования усилий, направленных на «Безопасность ИИ», на самом деле фактически продвигала исследования способностей, которые и ускорили процесс, и разделили его, и пока принесли нам только более раннюю погибель. Всё идёт настолько плохо, что Элиезер пишет такие посты, понятия не имея, что полезного можно сделать, и что когда я спрашиваю у людей, что можно было бы сделать, буквально управляя политическими решениями президента США, я по сути вообще не получаю полезных предложений лучше попыток переманить разработчиков GPU (или, если на это есть бюджет, исследователей ИИ) на разработку солнечных панелей. Что, конечно, лучше, чем этого не делать, но всё же не хороший ответ.
37. Есть довольно часто разыгрывающийся на Земле во все времена её вращения вокруг Солнца паттерн, заключающийся в том, что некий молодой учёный, инженер или предприниматель с горящими глазами, очень оптимистично приступает к работе над некой задачей, которая оказывается на самом деле довольно сложной. Очень часто циничные старые ветераны области пытаются их предупредить, а молодёжь с горящими глазами не слушает, потому что, ну, кому вообще хочется всё это слушать, они хотят взять и решить задачу! Затем реальность бьёт таких людей тапком по голове, они обнаруживают, что их замечательная предполагаемая теория неверна, что создать то, что они хотят, действительно сложно, потому что оно продолжает ломаться, а общество не торопится принять их умную инновацию, как они надеялись; процесс в итоге приводит к появлению новых циничных старых ветеранов. Это может и не буквально оптимальный, но, полагаю, неплохой жизненный цикл, чтобы умно на него кивать с присказкой «история рассудит».
Иногда вы делаете что-то в первый раз, и предостерегающих циничных старых ветеранов нет, и люди могут быть по-настоящему оптимистичными, взять, например, Дартмутский Летний Исследовательский Проект по Искусственному Интеллекту 1956 года: «Мы попытаемся понять, как обучить машины использовать естественные языки, формировать абстракции и концепции, решать задачи, сейчас подвластные только людям, и улучшать самих себя. Мы считаем, что существенное продвижение в одной или более из этих проблем вполне возможно, если специально подобранная группа учёных будет работать над этим в течение лета».
Такой план куда хуже подходит для выживания вашей планеты, если первый большой провал молодёжи с горящими глазами убивает буквально всех ещё до предсказуемого получения по голове новостями о непредвиденных сложностях и причинах, почему задача тяжела. В таком случае у вас не будет циничных старых ветеранов, потому что все на Земле будут мертвы.
Начав подозревать, что вы в такой ситуации, надо сделать Байесовскую штуку, и обновить свои взгляды до состояния, до которого они предсказуемо обновятся позже: понять, что вы – тот человек с горящими глазами, который потом встретится с Непредвиденными Сложностями и станет циничным старым ветераном – или стал бы, если бы не был мёртв вместе со всеми остальными. И стать этим циничным старым ветераном сразу же, до того, как реальность даст вам по голове тем, что все умрут, так что у вас не получится на этом обучиться.
Все остальные, кажется, чувствуют, что пока реальность не дала им по голове и не низвергнула их настоящими сложностями, они могут продолжать участвовать в стандартном жизненном цикле и отыгрывать по сценарию свою роль молодёжи с горящими глазами; в конце концов, нет циничных старых ветеранов, чтобы предостеречь их так не делать, и нет доказательства, что всё не пойдёт благоприятно просто и замечательно, с учётом их полного невежества того, что это могут быть за будущие сложности.
Я в основном согласен с центральным выведенным в конце утверждением, но думаю, что многое тут вызвано недопониманием надлежащей роли Молодёжи с Горящими Глазами, так что хочу сам по этому пройтись.
Если бы все задачи в мире были бы удачно помечены уровнями сложности, или могли бы так оцениваться циничными старыми ветеранами, сидящими в своих офисах и продолжающими не решать задачу, публикуя достаточно статей для получения степени, и способом решения задач было бы накопление Ценного Опыта и Очков Сложности до порога решаемости, то имело бы смысл говорить, что предназначение Молодёжи с Горящими Глазами – получить по голове достаточно раз, чтобы получился Циничный Старый Ветеран (ЦСВ). После чего тот уже смог бы как-то продвинуть прогресс, а мы все благословляли бы этот круг жизни.
На самом деле, я думаю, это скорее работает так, что ЦСВ-ы в основном не решают такие задачи. Вместо этого ЦСВ-ы исчерпывают свои идеи о том, как решить задачу, или приходят к выводу, что задача безнадёжна, и пишут посты вроде элиезеровского о том, почему задача обречена оставаться нерешённой. И они тратят какую-то часть своего времени, поучая Молодёжь с Горящими Глазами, объясняя им, почему их идеи не сработают, и помогая реальности более эффективно давать им по голове. Когда молодёжь на правильном пути, ветераны часто всё равно объясняют им, почему их идеи ошибочны, иногда, к счастью, молодёжь не слушает. Ещё ветераны распределяют подзадачи и определяют, кто получает степень.
Кто на самом деле решает задачи? В целом (не конкретно в области СИИ), я бы не поставил многое на Циничных Старых Ветеранов, особенно на самых старых и циничных. Насколько на молодых или старых я бы поставил, зависит от области – если исследования СИИ больше всего похожи на математику, то, пожалуй, стоит ставить на весьма молодых. Если на что-то другое, то на не таких молодых, но, думаю, всё равно молодых.
Вам следует сразу принять, что «эта конкретная задача в создании СИИ супер-сложна», не требуя проваленных попыток, просто исходя из рассуждений о природе задачи, но я считаю, что стоит в некоторых смыслах всё равно оставаться МГГ.
Горящие глаза – достоинство (а молодость – определённо достоинство), потому что они побуждают людей по-настоящему пытаться решать задачи. Большинство людей, узнав, что СИИ – настолько сложная задача (если они узнают это), не реагируют на это, говоря «ну ладно, пришло время набрать как можно больше очков достоинства, и работать над по-настоящему сложными частями этой задачи», вместо этого они либо находят способ как можно тише и быстрее отказаться от этого знания, либо игнорируют его и продолжают публиковаться, либо идут заниматься чем-то другим, либо впадают в отчаянье. Это типично, если сказать мне, что задача нерешаема, есть шансы, что я найду, чем ещё заняться, или начну совершать фальшивую работу. Ответ «да, это нерешаемая задача, но я всё равно её решу» кажется замечательным.
Тут подразумевается, что любая данная нерешённая задача сложна, включая новые. Это не кажется верным в общем случае – эта конкретная задача и правда сложна, но многие нерешённые задачи кажутся ЦСВ-ам сложными, а при настоящей попытке их решить оказываются простыми. Зачастую, когда начинается работа над новой задачей, она оказывается на самом деле простой, потому что нет никакого отбора против этого. Многие задачи при реальной попытке их решить оказываются шокирующе простыми. И как раз молодёжь думает, что задача проста, потому что замечает для неё что-то уникальное, что вероятнее всего её действительно решит, даже если они предположительно не осознают, насколько она сложна; точно так же, как основатели стартапов обычно понятия не имеют, на что они подписались, но именно они действительно основывают стартапы. Которых, когда всё срабатывает, использует реальность, чтобы надавать по головам СЦВ-ам. Или вспомним, что наука может продвигаться вперёд по одним похоронам за раз.
Важное отличие тут в том, что Молодёжь с Горящими Глазами (МГГ), работающая над большинством задач, потратит какие-то ресурсы, но не нанесёт особого вреда. В случае СИИ есть опасность, что они буквально убьют всех на планете. Это новое обстоятельство.
Пока что они никого не убили, но и не напревращались в умелых ЦСВ-ов, потому что у них не было возможности как следует провалиться (и всех убить).
Это приводит к нужде в некоторых поправках, особенно начиная с момента, когда МГГ сможет потенциально создать СИИ. Есть некоторая путаница, когда МГГ думает, что умеет работать над безопасностью, а не над тем, как вообще сделать СИИ (а самая МГГ из МГГ вообще не осознаёт, что задача безопасности существует), но в основном всё мной сказанное относится и к безопасности. И да, доверять идеям безопасности от МГГ совсем не хочется, и чтобы преуспеть, им надо сделать это без того, чтобы реальность показала им, что первые несколько ответов были безнадёжно наивными.
Это может быть доводом в пользу того, чтобы использовать больше ветеранов, обладающих сравнительно большим пониманием таких проблем. У них сравнительно больший шанс действительно решить задачу в таких обстоятельствах. Провал в её решении раньше – не свидетельство против них, потому что возможности успешного решения пока не появилось, а исправление ошибок важно. В процессе становления Циничным Старым Ветераном Magic: The Gathering, у меня стало намного лучше, чем раньше, с тем, чтобы сделать что-то правильно с первой попытки, и одновременно хуже с настоящей инновационностью. Это может быть, а может и не быть подходящим разменом.
Утверждение заключается не в том, что настоящих полноценных СЦВ-ов (кроме
Элиезера) не существует, и все остальные либо притворяются, делая фальшивую работу, либо не могут рассказать, почему конкретно ваша идея не сработает. В посте говорится так…
Про Байесовскую штуку – да. В идеале МГГ надо учесть то, что задача не была решена, несмотря на много усилий в этом направлении, и прийти к выводу, что скорее всего она очень сложна, и не закрывать глаза на всю конкретику, с которой предстоит иметь дело, но при этом не терять в работе над задачей энтузиазма, полезным образом ведя себя как будто задача по какой-то причине окажется простой конкретно для них (где под «простой» мы подразумеваем «едва решаемой»), при этом не веря на самом деле, что они её решат.
То, что первая попытка всех убивает, не сообщает ничего о сложности задачи, кроме того, что первая неудачная попытка всех убивает. Это кажется вдвойне верным, если для попытки решения задачи сначала нужно решить другую задачу, которая стала решаемой совсем только что; ведь нельзя создать безопасный СИИ, не имея возможности создать СИИ вообще.Так что приходится думать о задаче и выяснять всё это своим умом.
Так что да, юный воитель, тебе предстоит выковать Меч Приемлемого Добра, и отнести его в Подземелье Абсолютного Зла, и найти там путь к злому колдуну, и сразить его. Но если ты принесёшь туда настоящий Меч Приемлемого Добра, и колдун его заполучит, то всё, все погибнут, мир закончится. Наверное, твои шансы будут невероятно плохи, в смысле, ты же видел знак у входа в подземелье и слышал доносящиеся оттуда крики, всё это выглядит довольно мрачно, но наши свидетельства основаны на рассуждениях о том, что, согласно логике, должно встретиться в подземелье такого высокого уровня, ведь никто пока не заходил в подземелье с настоящим Мечом Приемлемого Добра, и не получал по голове от реальности, и мы это знаем, потому что если иначе мы все были бы уже мертвы.
И ты не можешь ждать вечно, потому что есть много других людей, которые думают, будто они герои в компьютерной игре с возможностью сохраняться, и они собираются попытаться пробежать это чёртово подземелье на скорость, и довольно скоро кто-нибудь из них сообразит, как выковать меч и убить нас всех, так что вариант «абсурдно долго качаться перед входом» означает, что у тебя вовсе не будет шанса.
Если бы можно было указать на кучу погибших героев и людей, с воплями выбегающих оттуда, спасая свои жизни, тогда можно было бы сказать «о, ну, я думаю, мне следует учесть, что это подземелье весьма сурово», но без этого получается, что другие обдуривают себя, и думают, что оно может быть простым, и тогда поздний вход в него не принесёт им славы.
Я помню, как я начинал свой стартап как МГГ (только я был основателем, не исследователем), заметил валяющиеся на пути черепа, и думал, что задача почти наверняка невероятно сложна, и, наверное, куда сложнее, чем мне кажется (но куда в меньшей степени, чем моя оценка этого расхождения для большинства создателей стартапов, и, я думаю, так оно и было, хоть наша конкретная идея и была плоха, а значит, необычайно сложна), и ещё, что какая разница, у меня есть шансы, так что давайте это сделаем. А потом я попытался ещё раз, применив гибрид с идеей получше, но на том же принципе. Тут такой подход неприменим, потому что никаких попыток, приведших хоть куда-то, даже к совсем небезопасным СИИ, не было, так что у нас ноль успехов, но точно так же ноль ветеранов и ноль черепов.
Проблема в том, что МГГ погубят нас всех, действительно пытаясь победить наполовину составленным решением, у которого нулевые шансы на успех на нескольких уровнях, и обычно это было бы не важно, но, поскольку тут вовлечён СИИ, это смертельно. И конечно, это так, но пока СИИ не вовлечён, что плохого в МГГ, храбро работающей над новыми моделями безопасности, и получающей от реальности по голове?
Моя модель Элиезера говорит, что плохо тем, что в результате они занимаются фальшивыми исследованиями, в том смысле, что эти исследования не пытаются на самом деле решить задачу, у них ноль шансов оказаться полезными, кроме как обучая МГГ достаточно для превращения в циничных ветеранов, а для этого недостаточно обратной связи, потому что реальность не будет достаточно сильно бить их по голове, пока всех не убьёт.
А ещё проблема в том, что большая часть того, что они для себя называют работой по безопасности, оказывается на самом деле работой по способностям, а, следовательно, если вы не занимаетесь суровой работой по безопасности на самом деле, то вы куда вероятнее продвинете способности, и сделаете всё хуже, а не совершите какой-то замечательный прорыв.
Или, ещё хуже, проблема в том, что МГГ действительно преуспеют в решении фальшивой задачи согласования, так, что это будет выглядеть, будто это сработает, и они будут думать, что решили настоящую задачу, и захотят включить СИИ.
Следовательно, на самом деле нужны МГГ, осведомлённые, почему задача невозможна (в смысле как в «заткнись и сделай невозможное»), и начинающие работу над настоящими задачами, а всё остальное куда хуже, чем бесполезно, если исходить из того, что мы знаем о форме этой задачи и о том, как люди с ней взаимодействуют, и какую обратную связь она нам даёт – при допущении, что наши убеждения верны, и я говорю «нашу», потому что я в основном думаю, что Элиезер прав.
Заметим следствия. Если предпосылки верны, а я думаю, что скорее всего это так, то кажется, что из них можно сделать вывод, что «увеличивать область» Безопасности ИИ, или в целом «поднимать уровень осведомлённости» о Безопасности ИИ – это, вероятно, вполне буквально активно плохая идея, если это не приводит к полезным вещам, то есть либо (А) людям, понимающим, с чем столкнулись, и/или (Б) людям, которые пытаются остановить или замедлить разработку СИИ, а не сделать её безопаснее.
38. Мне не кажется, что область «Безопасности ИИ» сейчас хоть отдалённо продуктивна в работе над огромными смертоносными проблемами. Эти проблемы за пределами досягаемости; отбор в нынешней области безопасности ИИ такой, что она состоит из людей, которые в любом случае этим бы занимались. Почти все они тут, чтобы работать над задачами, в которых они смогут показаться преуспевшими, и опубликовать статью, объявляющую об этом успехе; если они могут делать это и получать финансирование, то с чего бы им приступать к куда более неприятному проекту попыток сделать что-то более сложное, что у них не получится, просто для того, чтобы человеческий вид мог погибнуть с немного большим достоинством? В области не происходит настоящего прогресса, в первую очередь, в ней даже нет функции распознавания реального прогресса. Можно вложить миллиард долларов, и это приведёт в основном к шуму, затапливающему тот небольшой прогресс, который делают где-то ещё.
Да, и, опять же, кажется, что тут есть не проговоренная вслух скрытая часть. Это «Я говорю о непродуктивности в отношении смертоносных проблем, но на самом деле я имею в виду усугубление этих проблем через их ускорение и позволение людям обдуривать себя по поводу их смертоносности, так что, пока у нас нет идей получше, пожалуйста, остановитесь».
39. Я пришёл к этим выводам из нулевой строки (в комментариях Юдковский поясняет, что имеет в виду «нулевую строку социального ввода» — прим. пер.) ввода, и, честно говоря, мне сложно надеяться на получение настоящей работы по согласованию от кого-то, кто до этого сидел и ждал, когда кто-то другой выдаст убедительный аргумент. Способность «замечать смертоносные сложности без того, чтобы Элиезер Юдковский убедил их заметить» сейчас для меня является непрозрачным когнитивным механизмом, и я не знаю, как научить ему других. Он скорее всего связан с «мышлением безопасника», ментальным движением отказа от игры по сценарию, и способности оперировать в хаотичных областях.
Мышление безопасника, кажется, имеет к этому большое отношение, а то, чему нужно обучиться, кажется, будто бы не таким уж сложным? Уж точно это очень просто по сравнению с задачей, которую этим людям потом надо будет решить, и я думаю, что Элиезер, годами приводя примеры, фактически обучил меня значительному уровню этого навыка. Было время, когда у меня совсем не было мышления безопасника, а сейчас хоть какое-то есть, и есть какая-то способность распознавать смертоносные проблемы, упускаемые другими. Он не сказал, как много он знает других людей с такими способностями, а мне было бы интересно. И интересно было бы узнать, знает ли он кого-то, приобретшего эти способности со временем.
Если класс «исследователи ИИ без такого мышления» суммарно вреден, а с таким мышлением – суммарно полезен, то нам нужно подключить к этому CFAR и/или кого-то в таком же роде. Эта проблема выглядит более похожей на «не так много людей всерьёз пытались её решить, и кажется, что скорее всего это не невозможно», чем «это кажется невозможным».
В крайнем случае, значительное число других людей обладает мышлением безопасника, и предположительно их можно найти, если посмотреть на людей подходящих профессий, и наверное, часть из них думали о том, как этому учить?
40. «Гении» с хорошими понятными достижениями в областях с короткими циклами обратной связи, где легко сразу отличить хороший результат от плохого и проверить, гениален ли кто-то, это (а) люди, которые могут оказаться неспособны выдавать такие же хорошие результаты при отсутствии коротких циклов обратной связи, (б) люди, избравшие область, в которой их гениальность будет лучше видна, даже если это может быть не то место, где человечество больше всего нуждается в гениальность, и (в) скорее всего не обладатели всех тех таинственных шестерёнок в голове, потому что те редки.
Вы не можете просто заплатить пять миллионов долларов каждому из кучи явных гениев из других областей и ожидать от них отличной работы по согласованию.
Они скорее всего не знают, что представляет настоящие сложности, не понимают, что надо сделать, не могут отличить хорошую работу от плохой, а последнего не могут и спонсоры, если я не стою у них за плечами, оценивая всё, на что у меня нет физической выносливости.
Я заключаю, что эти действительно мощные таланты, особенно если они ещё на своём третьем десятке, искренне заинтересованы и прочитали всё, что надо – это люди, у которых, ладно, больше шансов сделать важный вклад, чем у случайного прохожего на улице. Но у меня было бы больше надежды – не достаточно, но больше – при отделении (а) надёжных обещаний больших денег за хорошую работу ретроспективно, кто бы её не сделал, от (б) вклада денег заранее в тех, от кого, может быть, ожидается хорошая работа потом.
Недостаток обещаний платить много денег задним числом за хорошую работу в том, что эта замечательная идея на самом деле не решает проблемы с мотивацией, если её суть в том, что сложно получить от людей «хорошую работу», когда её вероятность успеха крайне мала.
Это в самом деле проблема, и я понимаю её описание Элиезером, и думаю, что он в целом прав. Кто-то, входящий в область, выбирающий настоящую работу, должен распознать нужду в «настоящей» (названной выше «хорошей») работе, знать, что ей считается, как ей заниматься, и выбрать именно её, зная, что исход по умолчанию, который скорее всего и произойдёт – что она ни к чему не приведёт и выплаты будут нулевыми.
Если только нет какого-то способа распознавать настоящие провалившиеся попытки совершать настоящую работу, и вознаграждать их, но у нас нет перспективных способов точной оценки этого без того, чтобы это делал лично Элиезер, чья энергия в таких масштабах недоступна.
Сомнительно, конечно, что, если заплатить отдельному человеку 5 миллионов долларов, он произведёт какую-то хорошую работу. Но, по крайней мере, приблизительно истинно, что у нас есть миллиарды долларов, которые хотят быть потраченными на работу над Безопасностью ИИ, но не тратятся, потому что не могут не замечать, что ещё большие траты денег над нынешними вариантами Безопасности ИИ не выдадут положительного количества достоинства, а на самом деле, вероятно, выдадут отрицательное.
Настоящее потенциальное преимущество подхода «пять-миллионов-гению» не в том, что гений вероятнее всего произведёт полезную работу. Оно в том, что если выбрать таких людей, основываясь на понимании ими истинной сложности задачи, подкреплённом готовностью выписать им очень большой чек, и уделяемому им вниманием, как заранее так и после, чтобы удостовериться, что они «въехали», то они, вероятно, могут, для начала, не навредить. По крайней мере, правдоподобно выглядит, что они, неизбежно провалившись, «провалились бы с достоинством», не делая ситуацию хуже, потому что были бы достаточно умны, чтобы, как минимум, не делать этого.
Так что возможна ситуация, в которой заплатить 25 людям по 200 тысяч долларов окажется хуже, чем не делать ничего, а вот заплатить одному перспективному гению 5 миллионов – по крайней мере, лучше, чем не делать ничего. И с учётом ценности денег и ценности работы по безопасности, осмысленное приближение – сказать, что всё с положительной ценностью стоит траты большого количества денег. Если есть конкурентный вариант, и на оба не хватает – это другое дело, но прямо сейчас альтернативными применениями могут быть вещи, которые мы бы хотели остановить.
Другая возможная теория, конечно – что представлять гению вопросы, окружающие СИИ – это очень, очень глупый план. Гениальность может не перейти на понимание, что не стоит совершать работу над способностями или случайно делиться хорошими идеями по их поводу, так что последнее дело – брать людей, лучше всех в мире выясняющих что-то, и делать так, что они выясняют то, про что меньше всего хочется, чтобы кто-то это выяснил.
Насколько я могу сказать, это настоящий камень преткновения, и я не знаю, какая сторона права?
41. Чтение этого документа не может сделать кого-то перспективным исследователем согласования. Это требует не способности прочитать этот документ и покивать ему, а способности спонтанно написать его с нуля без того, чтобы кто-то на это сподвигнул; это сделало бы человека ровней автору. Какая-то часть моего анализа гарантированно ошибочка, хотя не обязательно в обнадёживающем направлении. Способность к новой базовой работе – замечанию и исправлению этих ошибок – та же способность, что и способность написать этот документ до меня, а этого никто не сделал, несмотря на то, что в последние пять или около того лет у меня были другие более приоритетные дела.
Часть этой тишины, возможно, если смотреть с оптимизмом, вызвана тем, что никто другой в области не обладает способностью понятно писать – что у кого-то есть все необходимые знания, но этот кто-то не может их записать, и даже не пытается. Я не особенно обнадёживаюсь по поводу того, что так всё и окажется, но, полагаю, это возможное «позитивное нарушение модели» (чудо). Тот факт, что через двадцать один год после того, как я вошёл в эту смертельную игру, семь лет после того, как другие ЭА её заметили, и два года после того, как её начали замечать даже нормальные люди, этот список всё ещё пишет Элиезер Юдковский, означает, что у человечества есть только одна подходящая для этого фигура. Я знал, что у меня нет физической выносливости, чтобы быть главным исследователем, я очень-очень старался заменить себя, пока моё здоровье не ухудшится дальше, и вот я всё равно это пишу я.
Выживающие миры выглядят не так.
В основном, да. Тут много разных заявлений, которые можно рассмотреть отдельно, потому я процитировал это полностью.
Прочтение этого документа не означает способности понимать и воспроизводить аргументы, или способности генерировать дополнительные похожие аргументы о том, что не было упомянуто, или в ответ на новые возражения или идеи.
Более наглое заявление – идея, что если вы не можете сами написать что-то похожее на этот документ, то вы не можете полезно исследовать Безопасность ИИ.
(Замечу, что получается, что почти никто не может полезно исследовать Безопасность ИИ, и что скорее всего всё было бы лучше, если бы большая часть людей, этим занимающихся, перестала пытаться, или по крайней мере в основном работала бы над тем, чтобы сперва заполучить способность сгенерировать такой документ, а не напрямую над задачей.)
Что касается способности писать?
Я прямо скажу, что да, это тут важное препятствие.
У каждого конкретного человека, который иначе мог бы сгенерировать этот список, могут отсутствовать способности к написанию. Эта способность на уровне Элиезера не настолько редка, как понимание задачи на уровне Элиезера, но всё же довольно редка. Как много человек имели бы схожие с Элиезером шансы «продвинуть» ГПиМРМ или Цепочки, просто из-за качества написания, даже понимая суть материала на том же уровне?
Написание списка таким образом – то, что может сделать Элиезер, но не большинство других. Если бы кто-то другой написал список с таким уровнем напыщенности и презрительности, то я бы не ожидал, что это получилось бы хорошо, и, думаю, это вполне могло сподвигнуть кого-то, способного его написать, этого не делать.
Задача написать такой список как следует куда сложнее. Она потребовала бы от автора написать его в некоторых отношениях «лучше», что сделало бы его длиннее, и, скорее всего, как минимум поначалу, хуже в других отношениях. Задача решиться его написать тоже куда сложнее, потому что требует от автора продраться через кучу социальных барьеров, проблем скромности, и так далее. В лучшем случае, это не было бы быстрой затеей.
Тут даже можно осмысленно заявить, что у требуемых навыков есть сильная анти-корреляция. Как научиться хорошо писать? Надо писать. Много. Всё время. Альтернатив особо нет. И это большой вклад времени.
Так как много людей в Безопасности ИИ написали достаточно слов в нужных формах, чтобы правдоподобно обладать необходимым уровнем писательских способностей, даже в теории? Как максимум несколько.
И, конечно, написание такого списка – не нормальное социальное действие по умолчанию, так что этого не происходило, и даже у Элиезера написание и выкладывание заняло кучу времени, и он в итоге решил запостить, как он сам сказал, неполноценную версию, потому что для хорошей способностей не хватило, несмотря на знание, насколько это важно, и обладание всеми требуемыми знаниями.
Это не означает, что обязательно есть люди, которые, если бы у них были писательские навыки, написали бы список. Это просто значит, что у нас нет Байесовского свидетельства, чтобы это знать.
Я согласен, что если Элиезер прав о близости и прямолинейности пути до СИИ, то выживающие миры выглядят в основном не так, но я выучил и что все везде по сути некомпетентны во всём, и даже, в первую очередь, не особо пытаются, а мы всё же добрались до того, что у нас сейчас, так что давайте не слишком отчаиваться каждый раз, когда эта фоновая информация опять подтверждается. Если бы мне десять лет назад сказали многое из того, что я знаю сейчас, я бы тоже сказал «выживающая цивилизация выглядит не так», и это касательно обыденных вещей.
42. Плана нет. У выживающих миров к этому моменту, на самом деле, несколькими десятилетиями раньше, есть план, как выжить. Записанный план. Он не секретен. В этом не-выживающем мире нет планов-кандидатов, которые не проваливаются немедленно, когда Элиезер мгновенно указывает видимые зияющие дыры в плане. Или, если вы не знаете, кто такой Элиезер, то вы даже не осознаёте, что вам нужен план, потому что, ну, как человек вообще может это понять, если на него не орёт Элиезер?
Да, плана нет. Я бы хотел, чтобы у нас был план. Отсутствие хоть какого-то плана, любой степени подробности, предлагающего путь вперёд – это и вправду не то, как обычно выглядят выживающие миры.
Но я всё же не убеждён, что выживающие миры обладают планом, соответствующим описанию выше.
Вы знаете, у кого ещё не было плана, на зияющие дыры в котором не мог бы указать Элиезер (вы могли бы подумать, что я скажу «эквивалент Элиезера в соответствующей области», но и с Элиезером вполне сойдёт)?
Ага, с примечательно редкими исключениями, ответ – у всех.
Я осознаю, что вся суть в том, что такая полная некомпетентность и прорывание пробами и ошибками, как происходит обычно, не сработает в этом случае, так что в каком-то смысле это мало успокаивает, но всё же, видимый записанный план, который действительно работает и имеется десятилетиями заранее – люди работают не так. Это больше всего похоже на одно из тех фальсифицирующих-реальность допущений, про которые Элиезер (мудро) предостерегает всех их не делать касательно других аспектов задачи, в том смысле, что предложение решения, использующего такой план, как бы допускает, что такой план может существовать. Что, в свою очередь, кажется очень наглым заявлением либо о природе человечества и планирования, либо о природе задачи и пространства решений (в сильно отличающемся от остального списка направлении), либо, вероятнее всего, и о том, и о другом.
Этот документ не был написан ещё некоторое время, когда Элиезер уже мог бы его написать. Часть причины – проблемы со здоровьем, но ясно, что часть – то, что мы тратили кучу времени, думая, что мы могли бы предложить планы и идеи получше, и не продвигали худшие/менее готовые идеи настолько хорошо, насколько могли. Новый план – не сдерживаться в ожидании плана получше – в самом деле лучше, хоть и далёк от идеала.
Сравнительно мало кто в курсе даже, что им бы следовало, чтобы лучше выглядеть, составить притворный план, который может обдурить ЭА, слишком «скромных», чтобы доверять своим суждениям о видимых зияющих дырах в том, во что, кажется, верят, серьёзно выглядящие люди.
Так ли это? Следует ли мне написать притворный план? Должен ли я здесь и сейчас сделать вид, что его составляю? Действительно написать плохой план? Как много людей должны это сделать? Хотим ли мы лучше выглядеть?
При всеобщей чрезмерной скромности (а она есть) есть большая опасность информационных каскадов, когда создаётся общее знание такого рода. Если все сойдутся на том, что у нас пока не получается продвигаться и на том, что ситуация мрачна – это, как мне кажется, очень правильно. Если все сойдутся на многих других аспектах задачи – это меня беспокоит, потому что меня аргументы не убедили.
43. То, что вы видите, посмотрев вокруг, не похоже на то, как выглядят выживающие миры. У миров выживающего человечества есть планы. Они не оставляют одному усталому чуваку с проблемами со здоровьем всю ответственность за проактивное указание настоящих смертоносных проблем. Ключевые люди принимают внутреннюю и реальную ответственность за нахождение ошибок в своих собственных планах, а не считают, что их работа – предлагать решения, а чья-то ещё – доказывать, что эти решения неверны. Такой мир начал пытаться решать свои важные смертоносные проблемы раньше. Половина людей из теории струн перешла вместо неё на согласование ИИ и добивается там реального прогресса. Когда люди предлагают планетарно-смертоносную проблему, которая потом может материализоваться – а много кто в мире, которому суждено выжить, их предлагает, это просто то, что там делают нормальные гении – их встречают либо планами решения, либо причиной, почему этого не должно произойти, а не неловким пожиманием плечами и «Как ты можешь быть уверен, что это произойдёт» или «Ты никак не можешь быть в этом уверен сейчас, надо подождать экспериментальных свидетельств».
Многие из этих лучших миров всё равно погибнут. Это поистине сложная задача, решить что-то такое с первой попытки. Но они погибнут с большим достоинством, чем это.
Я колеблюсь по поводу того, каким должно быть моё отношение к задаче Безопасности ИИ, и к чему должен относится план, как на личном, так и на общем стратегическом уровне. Я в целом пришёл к точке зрения, что моё сравнительное преимущество в основном в другом, и что многие другие аспекты нашей ситуации как угрожают погубить нас даже без или до СИИ, так и приводят к тому, что наш мир выглядит именно так (не как тот, который, вероятно, переживёт появление СИИ). Так что мне кажется осмысленным в основном работать над тем, чтобы сделать мир и цивилизацию более похожими в целом на те, что выживут, а не атаковать задачу напрямую.
Иногда я думаю, что может быть мне следует напрямую биться над задачей, ведь в прошлом у меня были полезные случаи работы над задачами, которые вроде бы и не должны были быть моим делом. Я достаточно часто чувствовал, что у этих задач есть решения, и что с подходящими единомышленниками и ресурсами у меня есть шанс их решить. Кто знает?
Заключение
Я разместил ключевые выводы в начале, а не в конце, основываясь на том, что многие/большинство людей вполне разумно досюда не дочитают. Я раздумывал, пока мне это не оплатили, хорошая ли идея это написать, учитывая мой нынешний уровень знаний в области и риск потратить как своё время, так и время других людей. Сейчас кажется, что это вполне может быть полезным, надеюсь, так и есть. Могло бы существовать много разных вторичных документов, требующих комбинации писательских навыков, понимания задачи, желания взять и написать их черновики, и вполне возможно, что мой набор этих качеств – наименее ужасное решение для некоторых из них.