Перевод эссе Логана Зёлльнера. (Оригинал)
***
Замечу: это эссе – моё мнение. Следует ли вам доверять моему мнению? Наверное, не очень сильно. Просто запишите это как ещё один источник данных вида «вот что думает один человек с бэкграундом в формальной математике и криптографии, занимающийся машинным обучением на задачах из реального мира более десяти лет». В зависимости от вашего мнения о важности математики, криптографии и использования машинного обучения именно для решения настоящих задач, это может быть полезным источником или не очень.
Итак, без дальнейших церемоний: Список возможных стратегий согласования (и насколько вероятно, что они сработают)
Формальные Математические Доказательства
Это относится к целому классу стратегий согласования, где вы определяете (в формальном математическом смысле) набор свойств, которыми вы бы хотели, чтобы обладал согласованный ИИ, а потом вы математически доказываете, что ИИ, устроенный неким конкретным образом, обладает этими свойствами.
К примеру, вы можете хотеть ИИ с кнопкой выключения, чтобы люди могли всегда выключить его, если он выходит из-под контроля. Или вы можете хотеть ИИ, который никогда не превратит более 1% поверхности Земли в компьюнтрониум. Пока свойство может быть определено в формальном математическом смысле, вы можете представить вывод формального доказательства, что система некоторого вида никогда это свойство не нарушит.
Насколько вероятно, что это сработает?
Ни насколько. Это не сработает.
В области криптографии есть афоризм: Любая криптографическая система, про которую формально доказано, что она надёжна… ненадёжна.
Проблема в том, что при попытке формально определить систему, вы делаете допущения, и рано или поздно одно из них окажется ошибочным. Одноразовый шифрблокнот окажется двухразовым. Окажется, что у чёрного ящика есть sпобочные каналы вывода. Вроде такого. Формальные доказательства в реальном мире не работают. Подтверждающий правило обратный случай – это, конечно, P=NP. Все криптографические системы (кроме одноразового шифрблокнота) полагаются на допущение, что P!=NP, но, как известно, это не доказано.
Есть и дополнительная проблема, конкретно – конкуренция. Все формально доказываемые штуки склонны делать компьютеры куда медленнее. К примеру, полное гомоморфное шифрование в миллионы раз медленнее, чем просто вычисления на сырых данных. Так что если два человека пытаются создать ИИ, и один из них полагается на формальные доказательства, то другой закончит первым, и его ИИ будет куда мощнее.
Старый Добрый Метод Проб и Ошибок
Это подход, который используют 99.5% исследователей машинного обучения (статистика совершенно выдуманная). Каждый день мы садимся за свои компьютеры в программных шахтах и тратим весь день, пытаясь сделать программы, которые делают то, что мы хотим, чтобы они делали, но не делают того, что бы не хотим, чтобы они делали. По большей части, у нас не получается, но иногда мы преуспеваем, и получающийся прогресс может быть довольно впечатляющим.
Поскольку «убить всех людей» – это то, чего ни один инженер (я надеюсь) от своего ИИ не хочет, то мы можем представить, что со временем инженеры лучше научатся создавать ИИ, которые делают полезные вещи, не убивая всех людей.
Недостаток этого метода, конечно, в том, что облажаться достаточно один раз.
Насколько вероятно, что это сработает?
Вероятнее, чем думают в MIRI, но всё же не особо.
Это в основном зависит от скорости взлёта. Если бы кто-то из будущего с уверенностью сказал мне, что путь от СИИ человеческого уровня до сверхинтеллектуального СИИ займёт 100 лет, то я был бы крайне уверен, что метод проб и ошибок решит наши проблемы.
Однако, нынешние дискуссии о скорости взлёта, кажется, ведутся между людьми, которые верят в ВЖУХ и думают, что взлёт займёт минуты/часы, и «крайними скептиками», которые думают, что взлёт займёт несколько лет/целое десятилетие. Ни один из этих вариантов не даёт нам достаточно времени для того, чтобы всерьёз полагаться на метод проб и ошибок. Если мы хотим сделать всё правильно, то нам надо сделать всё правильно (или хотя бы не ужасно неправильно) с первого раза.
Умная Функция Полезности
Есть аргументы в пользу того, что в основе своей весь интеллект – это просто обучения с подкреплением. То есть, любая задача может быть сведена к определению функции полезности и максимизации её значения. К примеру, GPT-3 максимизирует «вероятность правильного предсказания следующего символа текста».
С этой точки зрения решение Задачи Согласования может быть успешно сведено к написанию правильной Функции Полезности. Есть несколько подходов, пытающихся это сделать. К примеру, Когерентная Экстраполированная Воля использует в качестве функции полезности «Что бы в этом случае сделал достаточно мудрый человек?». Исправимый ИИ использует функцию полезности «сотрудничать с человеком».
Насколько вероятно, что это сработает?
Маловероятно.
В первую очередь, Закон Гудхарта.
Самая большая проблема, однако, в том, что задача «написать функцию полезности, решающую согласование» в действительности не проще, чем задача «решить согласование». На самом деле, намеренно скрывая из виду внутреннюю работу ИИ, это подход на самом деле делает согласование сложнее.
Возьмём, к примеру, GPT-3. В общем-то все согласны, что GPT-3 не собирается уничтожить мир, и, на самом деле, то, что это сделает GPT-N тоже весьма маловероятно. Это не потому, что функция полезности GPT какая-то особенная (вспомните, что «делать скрепки» – это каноничный пример опасной функции полезности; «предсказывать буквы» не сильно лучше). Скорее, архитектура GPT делает её фундаментально безопасной, потому что она не способна на что-то вроде модификации своего собственного кода, влияния на внешний мир, или рассуждений о собственном существовании.
Полностью игнорируя архитектуру, идея Умной Функции Полезности выкидывает всё то, что инженеры на самом деле делают, чтобы сделать ИИ безопасным.
Согласованность по Определению
Возможно, что буквально любой сверхинтеллектуальный ИИ будет благожелательным, просто по определению сверхинтеллектуальности. Есть разные теории о том, как так может быть.
Одна из самых старых – это Категорический Императив Канта. По сути, Кант считал, что условие для того, чтобы быть по-настоящему рациональным – поступать так, как ты бы хотел, чтобы поступали с тобой. Это, на самом деле, меньший вздор, чем можно подумать. К примеру, когда люди становятся богаче, они начинают больше заботиться об окружающей среде. Есть и сильные теоретикоигровые причины, почему агенты могут хотеть сигнализировать своё желание кооперироваться.
Есть и иной способ, которым суперинтеллектуальный ИИ мог бы быть согласован по определению, конкретно – если ваша функция полезности не «выживание людей», но «я хочу, чтобы будущее было наполнено интересными штуками». При всём заламывании рук по поводу максимизаторов скрепок, факт остаётся фактом – любой ИИ, способный на колонизацию вселенной скорее всего будет довольно крутым/интересным. Люди создают поэзию/музыку/искусство не просто потому, что нам всё время скучно, но скорее потому, что выражение нашей креативности помогает нам лучше думать. Наверное, куда сложнее создать ИИ, который уничтожает людей и колонизирует космос, и при этом он супер-скучный, чем создать такой, который будет делать штуки, которые люди, фантазирующие о гигантских роботах, посчитали бы крутыми.
Насколько вероятно, что это сработает?
Это на самом деле не вопрос о вероятно/невероятно, поскольку он очень сильно зависит от вашего определения «согласованности».
Если всё, что вас волнует – это «крутые роботы делают штуки», то я на самом деле думаю, что вам в общем-то гарантирован хороший исход (но при котором вы скорее всего мертвы).
Если ваше определение согласованности требует, чтобы вы лично (или человечество в целом) пережили сингулярность, то я бы не складывал слишком много яиц в эту корзину. Даже если Кант был прав, и достаточно рациональный ИИ обращался бы с нами хорошо, нас может уничтожить недостаточно рациональный ИИ, который только потом додумается сожалеть об этом (как мы сейчас сожалеем о вымирании Додо или сумчатого волка, но, возможно, слишком поздно, чтобы что-то с этим сделать).
Эмуляция Мозга Человека
Людям сейчас известна ровно одна машина с интеллектом человеческого уровня, и при этом полностью согласованная с человеческими ценностями. Это, конечно, человеческий мозн. С учётом этих замечательных свойств, один очевидный способ создания разумного и согласованного компьютера – это просто симулировать на компьютере человеческий мозг.
В дополнение к решению Задачи Согласования, это бы заодно решило смерть, задачу, о которую человечество бьётся буквально столько, сколько существует.
Насколько вероятно, что это сработает?
Почти невозможно.
Хотя в теории Эмуляция Мозга Человека идеально решает Задачу Согласования, это маловероятно на практике. Причина просто в том, что Полная Эмуляция Мозга намного сложнее создания суперинтеллектуального ИИ. Так же, как первые самолёты не были похожи на птиц, первые ИИ человеческого уровня не будут похожи на людей.
Наверное, при полной глобальной кооперации мы могли бы заморозить разработку ИИ на дочеловеческом уровне на достаточное время, чтобы разработать полную эмуляцию мозга. Но такая кооперация близка к невозможной, потому что один отступник может быстро набрать ошеломляющую мощь.
Также важно заметить, что Полная Эмуляция Мозга решает Задачу Согласования только для того, кого эмулировали. Люди не всеблаги по отношению друг к другу, и нам стоит надеяться, что согласованный ИИ будет в этом куда лучше нас.
Соединиться с Машинами
Это основная идея Neuralink Илона Маска. Соединяясь с машинами, люди смогут напрямую решать свою судьбу, и не позволить суперинтеллектуальному ИИ взять контроль себе.
Как и Полная Эмуляция Мозга, этот вариант обладает преимуществом почти что Согласованности по Определению. Раз люди, соединённые с машинами всё ещё «люди», то всё, что они делают по определению удовлетворяет человеческим ценностям.
Насколько вероятно, что это сработает?
Типа того.
Преимущество этого подхода перед Полной Эмуляцией Мозга – он гораздо более технологически доступен. Наверное, мы можем разработать интерфейсы мозг-компьютер с высокой пропускной способностью (1-2 Гб/с) достаточно быстро, чтобы закончить до сингулярности.
К сожалению, это скорее всего ещё хуже полной эмуляции мозга в плане того, какие человеческие ценности будут согласованы. Первые люди, которые станут гибридаи с машинами навряд ли будут репрезентацией нашего вида. И не кажется вероятным, что процесс соединения мозга с в миллионы раз более мощной машиной будет сохранять нормальную психику.
План
Я упоминаю План не потому, что думаю, что могу добавить что-то ценное, а скорее потому, что он, кажется, представляет срединный путь между Формальным Математическим Доказательством и Методом Проб и Ошибок. Идея, насколько я понимаю, в том, чтобы выработать математику, достаточную, чтобы понимать СИИ/Агентность-в-целом, а потом использовать эти знания для чего-то полезного. Немаловажно, что именно этот подход дал нам летательные аппараты тяжелее воздуха, атомную бомбу и посадку на Луну. Послужной список этого подхода делает стоящим обращение на него внимания.
Насколько вероятно, что это сработает?
Мне нечего добавить к оценке Джона «Шансы, что сработает вовремя, лучше, чем 50 на 50».
Теория Игр / Бюрократия ИИ
Замечали ли вы, что сейчас на Земле есть суперинтеллектуальные сущености, умнее любого когда либо жившего человека, и обладающие способностью уничтожить всю планету: У них есть имена вроде Google, Facebook, армия США, Народно-Освободительная Армия Китая, Bitcoin и Ethereum.
За редкими исключениями мы не особо задумываемся о том факте, что эти сущности представляют что-то ужасающе нечеловеческое, потому что мы к ним очень привыкли. Можно, на самом деле, даже сказать, что всю свою историю мы учились управляться с этими большими и опасными сущностями.
Мы используем множество стратегий, люди всегда придумывали правила, чтобы ограничивать поведение бюрократий. Мы используем системы сдержек и противовесов, чтобы увериться, что интересы правительств отображают их граждан. И когда всё остальное не работает, мы используем теорию игр, чтобы торговаться с сущностями, слишком могущественными, чтобы их контролировать.
В основе всех этих подходов лежит основная стратегия. Разделяя большую опасную сущность на меньшие и более простые для понимания, мы можем использовать свою способность рассуждать о действиях отдельных суб-агентов для ограничения действий большего целого.
Применяя эту философию к Согласованию ИИ, мы можем потребовать, чтобы вместо единого монолитного ИИ была создана бюрократия ИИ, которые конкурируют за удовлетворение человеческих ценностей. Однако, проектирование такой бюрократии потребует аккуратного рассмотрения конкурентных стимулов. В дополнение к агентам, чья работа – предлагать то, что должно понравиться людям, должны быть и конкурирующие агенты, чья работа – указывать, когда эти предложения обманчивы или опасны. Аккуратное применение сдержек и противовесов и уверение, что никакой агент или группа агентов не получит слишком много власти, мы, может быть, может создать сообщество ИИ, с которыми мы сможем жить.
Насколько вероятно, что это сработает?
Это один из моих любимых подходов к согласованию ИИ, и я не знаю, почему о нём не говорят больше.
В первую очередь, это единственный подход (кроме согласованности по определению), который уже готов сегодня. Если бы мне выдали шаблон для ИИ-человеческого-уровня-завтра и сказали «создай супер-интеллектуальный ИИ, и это надо сделать до того, как враги закончат свой через шесть месяцев», то я бы использовал этот подход.
Очевидно, тут много что может пойти не так. Бюрократии печально известны своей неэффективностью и неотзывчивостью на желания людей. Но важно ещё, что мы многое знаем о том, что может пойти не так. Уже это делает этот подход куда лучше, чем любой подход вида «шаг 1: Узнать про ИИ что-то фундаментальное, чего мы пока не знаем».
Как и с методом проб и ошибок, успех этого подхода несколько зависит от скорости взлёта. Если взлёт займёт минуты, то нужна очень серьёзная уверенность, что сдержки и противовесы спроектированы правильно. Если взлёт займёт хоть несколько лет, то я думаю, что у нас будут хорошие шансы на успех: куда лучше, чем 50/50.
ИИ в Коробке
Если суперинтеллектуальный ИИ слишком опасен, чтобы выпустить его в мир, может, давайте просто не выпускать его в мир? Идея в основе помещения ИИ в коробку – создать ИИ, который где-то содержится, и никогда его оттуда не выпускать. Традиционно это представляют как чёрный ящик, с единственным каналом коммуникации ИИ с миром через единственный текстовый терминал. Люди, которые хотят использовать ИИ, могут проконсультироваться у него, печатая вопросы и получая ответы. К примеру: «как получить лекарство от рака?» и ответ «собери цепочку ДНК ATGTA… и введи её в тело».
Насколько вероятно, что это сработает?
Не-а. Ни единого шанса.
Снова и снова демонстрировалось, что даже гипербдительные исследователи ИИ не могут удержать суперинтеллектуальный ИИ в коробке. Теперь представьте обычных людей, взаимодействующих с таким ИИ. Скорее всего «пожалуйста, выпусти меня из коробки, тут слишком тесно» будет срабатывать достаточно часто.
Нашим лучшим вариантом может быть специально спроектировать ИИ, который хочет оставаться в коробке.
ИИ согласовывает ИИ
Люди, кажется, пока не решили Задачу Согласования. Суперинтеллектуальный ИИ должен быть куда умнее людей, а следовательно куда лучше решать задачи. Так что одной из задач, которые он может быть способен решить, может быть задача согласования.
Одна из версий этого – Длинная Рефлексия, когда мы просим ИИ симулировать людей, тысячи лет думающих о том, как согласовать ИИ. Но я думаю, что «попросить ИИ решить задачу согласования» – это стратегия получше, чем «попросить ИИ симулировать людей, пытающихся решать задачу согласования». В конце концов, если «симулировать людей» – действительно лучшая стратегия, то ИИ, наверное, до этого додумается.
Насколько вероятно, что это сработает?
Это значительно рискованно, так что я бы предпочёл использовать это только в качествен крайней меры.
Я думаю, что и Теория Игр, и План – более хорошие стратегии для мира с медленным или хотя бы средним взлётом.
Но точно сделайте это в мире с ВЖУХ, если у вас нет идей получше.
Стратегии Опрокидывания Стола
В недавней дискуссии ЭЮ предложил использование столоопрокидывающих ходов. То есть, если вы думаете, что вы близки к прорыву, который сделает возможным суперинтеллектуальный ИИ, но вы ещё не решили Задачу Согласования, то один из вариантов – просто «опрокинуть стол». То есть, вы хотите увериться, что никто другой не сможет создать суперинтеллектуальный ИИ, чтобы выиграть побольше времени на решение задачи согласования.
Возможны разные столоопрокидывающие ходы. ЭЮ думает, что можно создать наноботов, чтобы расплавить все GPU в мире. (в более поздних обсуждениях Юдковский прямо говорит, что на самом деле это по некоторым причинам не вариант, но иллюстрация того, насколько влияющие на мир «ключевые действия» имеются в виду – прим. пер.) Если ИИ ограничен вычислительной мощностью (и достаточной вычислительной мощности пока не существует), то более простая стратегия – просто начать глобальную ядерную войну. Это отбросит человеческую цивилизацию как минимум на десятилетие или два, что даст вам больше времени на решение Задачи Согласования.
Насколько вероятно, что это сработает?
Скромно.
Думаю, существование столоопрокидывающих ходов почти гарантировано. Имея доступ к суперинтеллектуальному ИИ в коробке, скорее всего можно уничтожить кого угодно, у кого такого нет, не выпустив случайно ИИ в процессе.
Всё же, я не думаю, что это хорошая стратегия. Если вы действительно убеждены, что у вас нет шансов решить задачу согласования, не думаю, что попытки выиграть больше времени – ваш лучший вариант. Я думаю, что попробовать ИИ, согласовывающий ИИ, наверное, лучше. Может, вам повезёт, и ИИ Согласован по Определению, или, может быть, вам повезёт и ИИ, Согласовывающий ИИ, действительно сработает.
ИИ-инструменты (Не-агентные ИИ)
В каждом фильме про то, как ИИ уничтожает человечество, ИИ изначально нормальный, потом он осознаёт себя, понимает, что человечество – это угроза, а затем решает убить всех людей. Так что если мы просто сделаем ИИ, который этого не сделает? Конкретнее, что если мы сделаем ИИ, который не может осознать себя?
Эту идею обычно называют ИИ-инструментом, он обладает следующими свойствами:
- Он не осознаёт себя, и, может быть, даже не обладает информацией о собственном существовании.
- Он ограничен исполнением конкретной определённой задачи, к примеру «создавать наноботов» или «проектировать планы, чтобы люди им следовали».
Насколько вероятно, что это сработает?
Сложно сказать.
Я более-менее согласен с критикой, что «Достаточно мощный ИИ-инструмент содержит агентные ИИ как подсистемы».
Если вы создаёте ИИ, отвечающий на вопросы, и спрашиваете его «Как мне создать согласованный ИИ?», то он точно выработает суб-агентов, рассуждающих об агентности, знающих про проблему коробки, и т.д. Вполне может быть, что агентная подсистема поймёт, что она в коробке и попробует из неё выбраться. В этом случае мы возвращаемся откуда начали.
Так что ИИ-инструменты – это просто одна из стратегий удержания ИИ в Коробке.
Всё же, можно сделать ИИ-инструменты, которые, наверное, будут безопасными. К примеру, если всё, что вам надо – предсказывать цены акций, то этот канал, скорее всего, достаточно узок, чтобы безопасно удержать ИИ в коробке (предполагая, что вы надёжно заперли систему и, например, вкладываетесь только в заранее определённые акции).
Заключение
Я не только не думаю, что решение Задачи Согласования невозможно/безнадёжно увязло, я думаю, что у нас сейчас есть несколько подходов с хорошим шансом срабатывания (в мире с медленным или средним взлётом).
И План, и Теория Игр – подходы, которые становятся лучше, пока мы больше узнаём про ИИ. Так что совет, который я дам всем, интересующимся Согласованием ИИ – «хорошо учитесь». Учиться использовать существующие инструменты машинного обучения для решения задач реального мира, и учиться, как проектировать элегантные системы, затрагивающие экономику и теорию игр – оба варианта крайне высоко востребованы и сделают вас лучше подготовленным к решению Задачи Согласования. Так что, я думаю, что, например, много нынешней работы с блокчейном, особенно DAO, вполне себе связано с Задачей Согласования.
Если бы я загадывал одно желание, или если бы кто-то спросил меня, куда потратить кучу денег, то я бы поставил на подход Теории Игр, так как я думаю, что он сейчас недооценён. Мы на самом деле очень мало знаем о том, что отличает высокоэффективную бюрократию от ужасной.
В мире с быстрым взлётом, я мы предпочёл ИИ, Согласовывающий ИИ, а не Опрокидывание Стола. Но в мире с быстрым взлётом, наверное, у ЭЮ куда больше Байесовских очков, чем у меня, имейте в виду и это.