Перевод доклада Ричарда Нго. (Оригинал)
***
В ближайшие десятилетия сильный искусственный интеллект (СИИ) может превзойти человеческие способности в широком диапазоне важных задач. Этот доклад обосновывает, почему, без значительных усилий для предотвращения этого, СИИ вероятнее всего будут использовать свой интеллект для преследования очень нежелательных (иными словами, несогласованных) с человеческой точки зрения целей, с потенциально катастрофическими последствиями. Доклад стремится максимально ёмко, конкретно и не умозрительно описать ключевые аргументы, мотивирующие озабоченность по поводу задачи согласования. Я утверждаю, что реалистичный обучающий процесс вполне правдоподобно приведёт к развитию у СИИ несогласованных целей, в частности потому, что обученные обучением с подкреплением нейросети станут планировать для достижения некоторого набора целей; получать больше вознаграждения, обманчиво преследуя несогласованные цели; и обобщать не поддерживающими послушание способами. Как и в более раннем докладе Котры [Cotra, 2022], я объясню свои утверждения, ссылаясь на иллюстративный процесс обучения СИИ, а затем обрисую возможные направления исследований, обращающиеся к разным аспектам задачи.
1. Зачем думать о рисках СИИ заранее?
Под СИИ я имею в виду искусственного агента, применяющего не специфические для области когнитивные навыки (такие как логические рассуждения, память и планирование), чтобы исполнять на или выше человеческого уровня широкий диапазон мыслительных задач (как управление компанией, написание программ, или формулировка новой научной теории).[1] Это не точное определение – но в науке обычное дело начинать расплывчато, и становиться яснее со временем (например, «энергия» в физике XVII века, «приспособленность» в биологии начала XIX века, «вычисление» в математике начала XX века). Аналогично, «обобщённый интеллект» – достаточно важный фактор успеха человечества, чтобы его стоило принимать всерьёз, даже если у нас нет хороших способов его формализовать или измерить.[2]
Вот по метрикам, которые мы отследить можем, машинное обучение сильно продвинулось, особенно в последнее десятилетие. Особенно важные в контексте СИИ достижения включают обучение с малого числа примеров (и прогресс в эффективности примеров в целом) [Brown et al., 2020, Dorner, 2021], обобщения между задачами [Deepmind, 2021], и рассуждения из нескольких шагов [Chowdhery et al., 2022]. Задним числом легко рассматривать эти достижения как часть естественного прогресса, но я подозреваю, что десять лет назад подавляющее большинство исследователей машинного обучения была бы уверена, что эти способности куда дальше.
Аналогичной сверхуверенностью было бы заключить, что СИИ слишком далёк, чтобы о нём думать. Недавний опрос ведущих исследователей машинного обучения выдал 2059 год как медианную оценку года, в котором ИИ опередит людей по всеми задачам (хотя их ответы были чувствительны к постановке вопроса) [Stein-Perlman et al., 2022]. Это стыкуется с тем, что при разумной экстраполяции роста вычислительных мощностей, мы сможем обучать нейросети размером с мозг через несколько десятилетий [Cotra, 2020]. Но способности нейросетей сейчас продвигаются куда быстрее, чем наше понимание того, как они работают, и возможности интерпретировать их мышление; если этот тренд продолжится, мы создадим СИИ, равные людям во многих важных задачах, не имею возможности убедиться, что они будут вести себя так, как предполагалось. И при учёте сильных биологических ограничений на размер, скорость и архитектуру человеческого мозга, кажется очень маловероятным, что люди хоть где-то рядом с верхней границей возможного обобщённого интеллекта.[3] Разница между нашими мозгами и мозгами шимпанзе на эволюционных масштабах мала (в частности, разница в размере – всего в три раза), но она позволяет нам подавляюще превосходить их интеллектом. Нейросети масштабируются в три раза очень часто [OpenAI, 2018], и в них могут быть быстро внедрены архитектурные и алгоритмические улучшения (включая усовершенствования, созданные самими ИИ). Так что вскоре после создания СИИ человеческого уровня (и задолго до того, как мы станем их нормально понимать), мы скорее всего разработает сверхчеловеческие СИИ, которые смогут подавляюще превосходить своим интеллектом нас [Bostrom, 2014].
Это сильные заявления, разумно быть по их поводу неуверенным, особенно с учётом того, что у нас нет ни формальных принципов, ни эмпирических данных, напрямую информирующих нас о СИИ. Однако, сложно получить эмпирические свидетельства по поводу СИИ заранее, до их создания. А наша недостача формальных принципов описания связанных с согласованием задач – крупная причина ожидать, что их будет сложно решить. Так что, если разработка СИИ может нести катастрофические риски, у нас нет иного выбора, кроме как пытаться обратиться к ним заранее, хоть это и требует рассуждений в условиях неуверенности. К сожалению, я думаю, что она их несёт – наиболее беспокоящим из этих рисков является выработка несогласованных целей в процессе обучения.
2. Реалистичные процедуры обучения приводят к выработке несогласованных целей
По умолчанию мне кажется вероятным, что СИИ в итоге будут преследовать нежелательные для нас цели, а не последовательно следовать нашим намерениям. Предыдущие представления аргументации этого заявления в основном оформляли их в качестве абстрактных принципов (детально описано в Carlsmith [2022] и Ngo [2020]); в этом же докладе я детальнее опишу, как, по моим ожиданиям, несогласованные цели будут возникать в процессе обучения СИИ. Для конкретики я в этом докладе сосредоточусь на иллюстративном процессе обучения, в котором:
- Проводится сквозное обучение одной глубокой нейросети с несколькими выводными головами (output heads)
- Одна голова самообучается предсказывать следующее наблюдение на большом количестве мультимодальных данных
- Другая голова обучается с подкреплением выводить действия для широкого набора задач, с использованием естественного языка и компьютерных интерфейсов
- Вознаграждение предоставляется комбинацией человеческой обратной связи и автоматического оценивания
- Обучение происходит, пока реализованная (через вторую голову) нейросетью стратегия не будет способна сравняться с или превзойти человеческие результаты на большинстве задач, и не будет считаться СИИ.
Конечно, любая попытка обрисовать процесс обучения СИИ заранее будет иметь много неточностей и расплывчатостей. Однако, описанный выше иллюстративный процесс позволяет нам сделать конкретнее абстрактные аргументы о согласовании; и я ожидаю, что правдоподобно, что похожий на это процесс обучения может создать СИИ, преследующий несогласованные цели с катастрофическими последствиями. Остальная часть этого доклада будет обрисовывать, как несогласованные цели могут выработать во время трёх последовательных фаз обучения:
Фаза 1: обучение планированию для достижения диапазона целей. Будет выработано сложное внутреннее представление диапазона исходов, коррелирующих с высоким вознаграждением на множестве задач, и модель научится составлять планы, чтобы достигать этих исходов. Я буду называть эти внутренние представления предпочитаемых исходов целями модели.
Фаза 2: преследование целей с ситуационной осведомлённостью. Когда модели смогут рассуждать о своём процессе обучения и контексте развёртывания (способность, которую я называю ситуационной осведомлённостью), они научатся обманчиво преследовать несогласованные цели, всё ещё получая высокое вознаграждение при обучении.
Фаза 3: обобщение целей за пределы человеческого надзора. Слишком способные для эффективного человеческого надзора модели обобщатся до принятия действий, которые предоставят им больше могущества в мире, вместо того, чтобы следовать человеческим намерениям.
Особенно важно отметить, что при данном выше определении «цели модели» — отдельный от «функция вознаграждения, использованная, чтобы обучить эту модель» концепт – хоть цели и будут созданы функцией вознаграждения, они в итоге зависят от выученных внутренних представлений.[4] Это разделение, которое я подробнее объясню в следующем разделе, будет становиться всё важнее по ходу того как модели выучат цели, обобщающиеся на более широкий набор новых окружений.[5]
Заметим также, что между фазами нет чётких границ. Однако, я ожидаю, что каждая фаза будет демонстрировать эмерджентные закономерности, отсутствовавшие в предыдущих, что (см. Steinhardt [2022a]) обычное дело в машинном обучении (и в науке в целом). Очень грубо говоря, фаза 1 сосредоточена на проблеме неправильной спецификации вознаграждения [Pan et al., 2022]; фаза 2 развивает это и вводит проблему обманчивого согласования [Steinhardt, 2022b]; а фаза 3 сосредоточена на проблеме неправильного обобщения целей [Langosco et al., 2022].[6] Давайте взглянем на каждую из фаз по порядку.
2.1 Фаза 1: обучение планированию для достижения диапазона целей
Ключевое утверждение: модели выработают сложные внутренние представления набора исходов, коррелирующие с высоким вознаграждением во многих задачах, и научатся составлять планы для их достижения.
2.1.1 Модели научатся использовать представления планов, черт исходов и ценностей для выбора действий
Глубокие нейросети очень хорошо справляются с широким диапазоном задач, выучивая связанные с этими задачами представления, распределённые по своим внутренним весам [Bengio et al., 2014]. К примеру, нейросети, обученные задами классификации изображений, вырабатывают представления разных визуальных черт, таких как углы, формы и объекты, которые затем используются для определения содержания изображений. Олах и пр. [Olah et al. 2020] представили убедительные визуализации как этих представлений, так и представлений более сложных черт вроде колёс и собачьих голов. По пониманию представлений, выучиваемых при обучении с подкреплением проведено меньше работы, но есть пример про модель, обученную играть в версию игры Захват Флага [Jaderberg et al., 2019], где идентифицированы «конкретные нейроны, напрямую кодирующие некоторые из важнейших черт состояния игры, например, нейрон, активирующийся, когда поднят свой флаг, или нейрон, активирующийся, когда сокомандник держит флаг».
Как такие представления используются моделью обучения с подкреплением для выбора действий? В общем случае мы мало об этом знаем, но я опишу две выделяющиеся возможности. Первая – что модель связывает представления ситуаций с представлениями действий, не используя представления исходов этих действий; я называю этот подход следованием эвристикам. Второй – что модель отображает разные исходы, которые могут получиться в результате действий, а затем выбирает действия, оценивая ценности исходов; я называю это преследованием целей. При используемых здесь определениях, цели модели – это исходы, которые устойчиво отображаются как имеющие высокую ценность.
Важно, что эти определения не завязаны на том, какие действия, исходы и ценности исходов явно представлены в коде модели или неявно в её весах и/или активациях. К примеру, AlphaZero использует жёстко закодированный алгоритм поиска, манипулирующий явными представлениями возможных последовательностей ходов и состояния доски, вместе с нейросетью, обладающей внутренними представлениями многих человеческих шахматных концептов [McGrath et al., 2021]. Однако, нейросети, обученные лишь совершению действий, могут обучиться и составлять планы – явления, известное как безмодельное планирования [Guez et al., 2019]. Выбирая действия, AlphaZero явно генерирует ценности разных позиций на доске; но модели, внутренне отображающие исходы (как описанный выше пример с Захватом Флага) могут использовать внутреннюю ценности как часть процесса выбора действий. В этом докладе я сосредоточусь на внутренних представлениях, потому что явные представления обычно сформулированы в терминах низкоуровневых действий и состояний, а меня больше всего интересуют представления высокоуровневых действий (как «атаковать ферзя противника») и исходов (как «мой флаг захвачен»). Высокоуровневые действия также известны как опции [Sutton et al., 1999] или планы; для ясности, я дальше буду использовать последний вариант.[7]
Кажется вероятным, что большинство ныне существующих моделей выбирают действия в основном следуя эвристикам. Однако, так как мы обучаем всё более способные модели, непротиворечиво действующие на всё больших промежутках времени, я ожидаю, что они будут всё больше использовать высокоуровневые представления исходов. Говоря интуитивно, сложно представить модель, реализующую умудрённые стратегии в сложной области реального мира, без в каком-то смысле «знания, к чему она стремится». Опять же, используемые мной тут определения не очень точны, но я надеюсь, что начало с таких расплывчатых определения поможет нам направить дальнейшие эмпирические исследования. К примеру, эти определения позволяют нам спросить, преследуют ли цели нейросети, не обученные с подкреплением, такие как GPT-3. Хоть в GPT-3 использовалось только самообучение, кажется возможным, что она могла научиться генерировать представления высокоуровневых исходов (вроде «вывести непротиворечивый абзац, описывающий правила бейсбола»), присваивать им ценность и использовать эту ценность для выбора следующего токена в выводе; такие рассуждения о долгосрочных исходах могут привести к меньшей функции потерь, чем рассуждения исключительно о том, какой токен выдать следующим. Я не буду особо сосредотачиваться на случае самообучения, поскольку важные концепты куда яснее в случае RL, но нам следует держать в уме эту возможность, думая о будущих не-RL системах, особенно обученных клонированием поведения для имитации ориентированных-на-цель экспертов.[8]
2.1.2 Модели выучат смесь желательных и нежелательных целей, потому что их вознаграждение не будет идеально коррелировать с человеческими предпочтениями
Какие цели выучат RL-модели зависит от того, какую функцию вознаграждения мы используем при обучении. По умолчанию, я предполагаю, что мы попробуем присвоить высокое вознаграждение за действия, соответствующие человеческим намерениям и ценностям, и низкое – за непослушание или вредное поведение. Однако, если мы используем жёстко закодированные функции вознаграждения на некоторых задачах, легко случайно мотивировать нежелательное поведение, как показано в [Krakovna et al., 2020].[9] Функции вознаграждения, основанные на человеческой обратной связи, избегают самых очевидных ошибок, но всё ещё могут привести к неверной спецификации даже в очень простых окружениях – как в примере модели, обучавшейся хватать манипулятором мяч, но научившейся помещать манипулятор между камерой и мячом так, чтобы это выглядело, будто мяч схвачен, и получавшей за это высокое вознаграждение от оценивавших людей [Christiano et al., 2017].
Это всё игрушечные примеры с небольшими оказываемыми на реальный мир эффектами; однако, нам следует ожидать, что по ходу того, как мы обучаем модели исполнять более сложные задачи в реальном мире, неверная спецификация целей будет приводить к неправильному поведению на всё больших масштабах [Pan et al., 2022]. К примеру:
- Если модели обучаются зарабатывать деньги на бирже, и научились ценить выгодные сделки, они могут приступить к нелегальным манипуляциям рынком.
- Если они обучаются выдавать новые научные открытия, и научились ценить выдачу убедительных результатов, они могут фальсифицировать экспериментальные данные.
- Если они обучаются писать софт, и научились ценить высокую вовлечённость пользователя, они могут начать проектировать аддиктивные пользовательские интерфейсы.
Всё это – примеры того, как модель может выучить нежелательную цель. Однако, эти цели специфичны для задач, а я больше всего обеспокоен целями, которые модели обобщают на новые задачи и окружения. Наиболее устойчиво обобщающимися целями будут скорее всего те, которые подкреплялись на широком диапазоне окружений. Давайте рассмотрим три категории целей, которые по разным причинам склонны устойчиво коррелировать с вознаграждением:
- Цели, которые мы намеренно пытаемся последовательно вознаграждать, такие как послушание и честность. Ранний относящийся к этой категории пример: InstructGPT следует инструкциям куда стабильнее, чем базовая модель GPT-3.
- Цели, устойчиво коррелирующие с вознаграждением, потому что они связаны с аспектами процесса обучения, которые не различались между окружениями, вроде цели выдавать правдоподобно-звучащие ответы (а не истинные), или цель предпринимать действия, которые выглядят продуктивными (а не продуктивны на самом деле).[10] Ранний относящийся к категории пример: большие языковые модели выдумывают убедительные ложные ответы, когда не знают верного, даже после тонкой подстройки на честность с использованием RL. [Ji et al., 2022].
- Цели, устойчиво коррелирующие с вознаграждением, потому что полезны в широком диапазоне окружений, вроде любопытства [Schmidhuber, 1991], усиления [Jung et al., 2012], или заработка денег.[11] Мы бы хотели, чтобы модели преследовали эти цели только в качестве шагов к достижению согласованных целей, но никогда – ради них самих. Ранний относящийся к категории пример: XLand от DeepMind выучила эвристики, полезные на большом диапазоне задач, вроде экспериментаторства, основ использования инструментов и переключения на более простые цели, когда это возможно [Deepmind, 2021].
Я ожидаю, что по ходу фазы 1 модели будут выучивать комбинацию трёх перечисленных видов целей, вместе с некоторыми целями, специфическими для задачи (вроде целей из предыдущего списка). Так как модели на этой фазе не будут способны на сложный обман, я ожидаю, что согласованные цели будут основными движителями их поведения, и люди будут постепенно замечать и штрафовать исключения. Но я считаю, что, когда модели выработают твёрдое понимание своего собственного процесса обучения, несогласованные цели станут стабильно приводить к наиболее высокому вознаграждению, а следовательно – будут подкрепляться в ущерб согласованным.[12]
2.2 Фаза 2: преследование целей ситуационно-осведомлённым способом
Ключевое утверждение: Когда модели смогут рассуждать о собственном процессе обучения и контексте развёртывания, они научаться обманчиво преследовать несогласованных целей, всё ещё получая высокое обучающее вознаграждение.
2.2.1 Ситуационно осведомлённые модели будут понимать механизмы, которыми они обучаются
Чтобы хорошо справляться с диапазоном задач в реальном мире, моделям надо будет применять знания о мире в планах, нацеленных на реальные исходы (в отличии от агентов вроде AlphaZero, планирующих лишь в ограниченных областях). Большие языковые модели уже обладают немалыми фактическими знаниями о мире, хоть они и не применяют их надёжно ко всем задачам, которые мы перед ними ставим. Со временем лучшие модели станут лучше в определении того, какие абстрактные знания важны для их собственного контекста, и их применении к поставленным задачам[13]; следуя за Котрой [Cotra, 2022], я назову этот навык ситуационной осведомлённостью.[14] Модель с высоким уровне ситуационной осведомлённости будет иметь и использовать знания вроде:
- Как люди будут отвечать на её поведение в диапазоне ситуаций.
- Какого поведения добиваются присматривающие люди, и какому поведению они будут не рады.
- Тот факт, что ИИ реализован на физическом носителе и обучается методами машинного обучения – и какие архитектуры, алгоритмы и окружения люди вероятнее всего используют для обучения.
- Какие интерфейсы она использует для взаимодействия с миром, и как в будущем могут быть развёрнуты её другие копии.
Я ожидаю, что модели будут развивать ситуационную осведомлённость, потому что это напрямую полезно для получения более высокого вознаграждения во многих задачах. Некоторые приложения ситуационной осведомлённости:
- Если модель попросили сгенерировать план того, как она будет справляться с новой задачей, она должна включить только шаги, которые и правда сделает – что требует понимания собственных способностей.
- При попытке оценить вероятность того, что ответ верен, модели будет полезно принимать во внимание знания о типичных ошибках ML-систем.
- При попытке определить, как интерпретировать запрос человека-пользователя, модели будет полезно принимать во внимание типы поведения, которое люди обычно хотят от ML-систем.
- Когда она выучивает новый факт о мире, модели будет полезно понимать, какие следствия этот факт несёт для того, как она должна действовать.
Однако, те же механизмы, которые позволяют моделям определять, что эти знания к ним относятся, скорее всего позволят им и определить значимость концептов, напрямую связанных с тем, как их обновляют – вроде «вознаграждения, которое оператор назначит за этот эпизод» или «набор тестов, который люди используют для оценки согласованности». Я утверждаю, что когда модели поймут эти концепты, они будут включать их в свои планы способами, которые люди бы не одобрили.
2.2.2 Ситуационно-осведомлённые модели будут получать высокое вознаграждение независимо от того, согласованы они или нет (скорее всего выше, когда не согласованы)
Рассмотрим три типа целей, которые я описал в разделе 2.1.2. Когда модели станут ситуационно-осведомлёнными, что будет положительно или отрицательно подкреплено?
- Согласованные цели продолжат сильно коррелировать с вознаграждением. Однако, когда вознаграждение неправильно специфицировано, модели с согласованными целями не будут предпринимать действий с высочайшим вознаграждением, что будет штрафовать согласованные цели в сравнении с несогласованными.
- Ситуационно-осведомлённые модели могут научиться преследовать цели, связанные с человеческим надсмотром, вроде «максимизировать вознаграждение, которое назначит человек» или «минимизировать функцию потерь алгоритма обучения с подкреплением». Следуя за Котрой (Cotra [2022]), я назову эту категорию целей «игрой в обучение». Эти цели будут более последовательно подкрепляться, чем любые другие, потому что преследующие их модели не упустят шанса увеличить вознаграждение.
- Полезные во многих окружениях цели, вроде любопытства или заработка денег, чаще всего наиболее естественно представляются в виде, выходящем за пределы нынешнего эпизода обучения (я подробнее аргументирую это в разделе 2.3.1). Но ситуационно-осведомлённая модель с долгосрочными целями будет обладать инструментальными стимулами получать высокое вознаграждение, даже если эти цели не связаны напрямую с процессом обучения и надсмотра.[15] К примеру, она может рассудить, что если она будет вести себя вызывающим доверие способом сейчас, то это увеличит вероятность того, что люди проведут развёртывание другой её копии потом, что позволит этой копии достичь их общей цели. Или она может рассудить, что получение как можно более высокого вознаграждения предотвратит её цели от изменения градиентным спуском.[16] Стратегия получения высокого вознаграждения по инструментальным причинам известна как обманчивая согласованность; лучшая модель приведена в [Steinhardt, 2022b].
Если несогласованные ситуационно-осведомлённые модели намеренно пытаются получить высокое вознаграждение, как они могут это делать? Одна очевидная стратегия – большую часть времени следовать человеческим инструкциям, но отклоняться от них в тех случаях, когда людям тяжело непослушание, а оно приведёт к более высокому вознаграждению.[17] Это может быть похоже на описанное в предыдущем разделе неправильное поведение, и оно в самом деле может постепенно эволюционировать из этих предыдущих примеров. Однако, неправильное поведение ситуационно-осведомлённых моделей будет куда сложнее засечь, потому что они будут способны явно рассуждать о том, какие виды неправильного поведения будут замечены и исправлены.[18]
Нам следует ожидать, что в какой-то момент ситуационно-осведомлённые модели смогут вывести выгоду обманчивых стратегий, очень отличающихся от любого предыдущего поведения. Нет принципиальной разницы между придумыванием новой умной стратегии решения сложной задачи и придумыванием новой умной стратегии заставления людей поверить, что задача решена: и то, и другое требует одних и тех же ключевых мыслительных навыков; и то, и другое приведёт к высокому вознаграждению. Мы можем сильно штрафовать второе, когда мы это замечаем – но по мере того, как модели будут становиться всё более интеллектуальными, а мы будет обучать их исполнять планы на всё больших промежутках времени, замечать обман для людей без поддержки станет всё сложнее и сложнее. Если мы наблюдаем всё меньше обманчивости по ходу прогресса обучения, нам не будет ясно, становятся ли наши модели послушнее, или они просто научились более аккуратным обманчивым стратегиям, разыгрывающимся дольше. Например, что-то вроде таких:
- Эмоциональная манипуляция, чтобы заставить присматривающих людей (или общество в целом) больше им верить
- Создание бэкдоров для взаимодействия с миром (например, хранение денег в скрытых местах, чтобы потом использовать их неодобренными способами).
- Взлом компьютеров, на которых они запущены, чтобы модифицировать свои алгоритмы обучения (известно как фальсификация вознаграждения [Everitt et al., 2021]).
- Намеренное избегание действий или исходов, которые они не хотят включать в будущие обучающие данные (пример взлома градиента [Ngo, 2022]).[19]
Напротив, раз согласованные цели вроде послушания и честности противоречат всем этим поведениям, модели со временем научатся меньше ценить послушание и честность. Мы скорее всего попробуем предотвратить этот сдвиг, используя разные механизмы – например, мы могли бы состязательно генерировать ситуации, где мы ожидаем что сможем засечь неправильно поведение. Но уже обманчиво согласованная модель будет обладать стимулом обнаружить, когда её вводы состязательно сгенерированы (что обычно куда проще самой генерации) и соответствующе на них себя вести. В целом, обманчиво согласованная модель будет иметь стимул детектировать и обдуривать любые механизмы надсмотра, которые мы попытаемся использовать.[20]
Основное предлагаемое решение – использовать другие ИИ для помощи в реализации лучшего-чем-человеческий надсмотр и минимизации неправильной спецификации вознаграждения, к примеру, используя дебаты [Irving et al., 2018], рекурсивное моделирование вознаграждения [Leike et al., 2018], или протоколы усиления (amplification) [Christiano et al., 2018]. Ранняя практическая демонстрация предлагается в [Saunders et al., 2022]. Общая цель этих техник – сделать выявление нечестного поведения как можно более простым в сравнении с его генерацией. Однако, на сложных задачах, где возможно много разных обманчивых стратегиях, второе может быть куда проще. [Barnes, 2020]. И даже если модели никогда не получали вознаграждение за обманчивое поведение, они всё ещё могут обобщиться до преследования несогласованных целей на больших масштабах, как я рассмотрю в следующем разделе.
2.3 Фаза 3: обобщение целей за пределы человеческого надсмотра
Ключевое утверждение: Слишком способные для эффективного человеческого надсмотра модели будут обобщаться в сторону совершения действий, которые дадут им больше могущества в мире, вместо следования человеческим намерениям.
2.3.1 Поведение СИИ в итоге будет в основном управляться целями, обобщёнными до больших масштабов
По ходу того, как мы будет продолжать обучать модели на всё более сложных задачах, они со временем значительно превзойдут человеческий интеллект, и будут явно считаться СИИ.[21] В фазе 2 люди осуществляли надсмотр за поведением ИИ, используя помощь других ИИ. Однако, в фазе 3 эта стратегия станет куда менее надёжной, потому что у СИИ будет много возможностей сговориться, чтобы ввести людей в заблуждение, например, согласившись не выдавать неправильное поведение друг друга.[22] Люди не смогут засечь такой сговор, потому что эти СИИ будут способны:
- Действовать на слишком высоких для человеческого присмотра скоростях (как алгоритмы торговля на бирже, только в куда большем числе областей).
- Справляться с новыми задачами, слишком сложными для понимания людей (вроде изобретения новой науки).
- Фабриковать приемлемо звучащие для людей рационализации даже для очень нежелательных действий.
- Автономно приобретать данные, необходимые для самообучения новым навыкам.
- Проводить исследования и разработки в области машинного обучения куда быстрее людей, без того, чтобы хоть какие-то люди детально понимали, как достигнуты результаты.
Так что в фазе 3 нам следует ожидать, что поведение СИИ на новых задачах будет в основном зависеть не от нашего надсмотра, а скорее от того, как они обобщили цели, полученные при обучении раньше, что само по себе зависит от индуктивных склонностей используемой схемы обучения. Индуктивные склонности сложно предсказывать, но есть некоторые убедительные аргументы в пользу того, что реалистичные СИИ скорее всего обобщатся нежелательными способами. Конкретнее, я ожидаю, что СИИ обобщат свои цели на куда большие масштабы, чем встречались по ходу обучения, что для несогласованных целей благоприятно по сравнению с согласованными. Под «большими масштабами» я имею в виду применение больших ресурсов для достижения целей в большей степени и с большей вероятностью, в большем окружении, на протяжении большего периода времени.
Нам следует ожидать, что СИИ обобщат цели на большие масштабы по той же причине, по которой они будут обобщать способности на новые задачи: потому что они выучат высокоуровневые, не слишком специфичные для области концепты, и будут рассуждать о том, как их достичь.[23] Рассуждения о том, как достичь высокоуровневых целей очень естественно обобщаются на большие масштабы: к примеру, цели вроде «получить больше нового опыта», «понимать мир», или «получать высокое вознаграждение» применимы не просто в конкретном месте и в конкретный момент времени, а могут быть экстраполированы почти сколько угодно.[24] Можно представить, как СИИ обобщается на преследование ограниченных версий этих целей, вроде «получить больше нового опыта, но не слишком много и не слишком нового, и остановиться через такое-то время» – но я не вижу особых причин ожидать, что обобщение останется ограничено малыми масштабами, когда СИИ будут становиться умнее (особенно учитывая, что многие исследователи будут стремиться создать системы, обобщающиеся как можно сильнее). Аналогично, хоть люди эволюционировали, преследуя лишь цели, сосредоточенные на малых группах людей, обитающих на малых территориях, современные люди прямолинейно обобщили эти цели на глобальный (иногда межпланетный) масштаб: при абстрактных размышлениях о высокоуровневых целях зачастую нет точки остановки.
2.3.2 Крупномасштабные цели вероятно будут стимулом несогласованному стремлению к могуществу
Хоть описанные мной выше цели и могут показаться безобидными, из тезиса инструментальной конвергенции Бострома [Bostrom’s, 2012] следует, что они (и почти любые высокоуровневые цели) привели бы к сильно несогласованному поведению. Тезис утверждает, что есть некоторые промежуточные цели – такие как выживание, приобретение ресурсов и технологическое развитие – которые инструментально полезны для достижения почти любой конечной цели. Как сформулировал Стюарт Рассел: ты не можешь подать кофе, если ты мёртв. Также многих исходов не достичь и без ресурсов и инструментов, так что СИИ с широким набором высокоуровневых целей будет обладать стимулами ресурсы и инструменты заполучить. Для несогласованных СИИ также инструментально ценно предотвращать вмешательство людей в достижение их целей (например, обманом убедив нас, что они согласованы, или лишить нас способности их выключить) [Hadfield-Menell et al., 2017]. В целом, можно рассматривать каждую из этих инструментальных целей как способ получать или сохранять могущество в мире; Интуитивное утверждение, что стремление к могуществу полезно для широкого диапазона возможных целей формализовано в [Turner et al., 2021]. Так что кажется вероятным, что хоть мы и не можем предсказать, какие несогласованные цели выработают СИИ, сверхчеловеческие СИИ откроют стратегии стремления к могуществу, которые будут помогать достигать этих целей, в том числе, за счёт лишения могущества людей.
Не получается ли из аргументов о том, что несогласованные цели обобщаются на большие масштабы, что согласованные цели тоже обобщаются? Я различаю два типа согласованных целей: ограничения (вроде послушания и честности) и позитивные цели (вроде человеческого благополучие или моральной ценности). К сожалению, реалистичные окружения мешают обобщению и тех, и других так, как мы бы хотели. Говоря интуитивно, основная проблема – что согласованные цели должны обобщаться достаточно устойчиво, чтобы блокировать СИИ стремящиеся к могуществу стратегии, рекомендованные инструментальными рассуждениями, что становится всё сложнее по ходу того, как навыки рассуждений улучшаются. Конкретнее:
- Маловероятно, что ограничения хорошо обобщаться на большие масштабы, потому что пока СИИ будут становиться всё умнее, они будут открывать много новых стратегий обхода этих ограничений.[25] К примеру, СИИ, обученный подчиняться людям, со временем станет способен манипулировать людьми так, чтобы они давали инструкции, помогающие СИИ накапливать могущество. (Как аналогия, представьте взрослого, который может убедить ребёнка одобрить действия, которые очень вредны, но неочевидным способом, например, съедение отравленной еды.) Такой СИИ будет понимать, что люди не хотят, чтобы ими так манипулировали, и что «подчиняться людям не-манипулятивным способом» – возможное обобщение цели «подчиняться людям» – но почти все другие возможные обобщения не будут запрещать все виды манипуляции, особенно новые.[26]
- Маловероятно, что позитивные цели хорошо обобщаться на большие масштабы, потому что без ограничения послушания людям у СИИ не будет причин позволять нам модифицировать их цели, чтобы исправить (то, что мы считаем) ошибки. Так что нам потребуется обучить их так, чтобы, когда они станут достаточно способными, чтобы предотвратить свою нами модификацию, они обобщали высокоуровневые позитивные цели на очень новые окружения без корректировок, что кажется очень сложным. Даже люди часто не сходятся во мнении о том, к каким высокоуровневым целям стремиться, и нам стоит ожидать, что СИИ будут обобщаться куда страннее, чем большинство людей.
2.3.3 Несогласованным СИИ будет доступен широкий диапазон стратегий стремления к могуществу
Если допустить, что у нас не будет особого везения с обобщением, как может выглядеть мир, в котором есть стремящиеся к могуществу СИИ? Эти СИИ могут нацеливаться на разные виды могущества, включая:
- Технологическая мощь, которую они могут получать, совершая научные прорывы, разрабатывая новое оружие, проектируя более сложные алгоритмы машинного обучения, и т.д.
- Политическая или культурная власть, которую они могут получить, распространяя дезинформацию, лоббируя политиков, координируясь с другими СИИ, и т.д.Экономическое влияние, которое они могут получить, становясь ключевыми принимающими решение центрами корпораций, составляющих значительную часть экономики.
Наибольшее беспокойство у меня вызывает первая категория, потому что она играла критическую роль на протяжении человеческой истории. В частности, за последние несколько веков технологические инновации дали некоторым группам подавляющее превосходство над другими, и позволило не очень большому числу стран начать доминировать в мире. Так что весьма правдоподобно, что СИИ, которые смогут продвигать научный и технологический прогресс куда быстрее, чем могут люди, были бы способны угрожать продолжению существования человечества (аналогично тому, как солдаты с современным вооружением легко могли бы одолеть исторические цивилизации). Однако, даже без технологического дисбаланса столь же катастрофические исходы могут получится и если СИИ сначала наберут достаточную политическую или экономическую власть, чтобы мы не были способны скоординироваться, чтобы их ограничить (аналогично тому, как межнациональные корпорации могут взять под контроль правительство маленькой страны). Кристиано предоставил несколько иллюстративных сценариев [Christiano, 2019a,b], в которых СИИ распространяются по обществу и сговариваются для постепенного перехвата контроля у людей.
У нас пока что есть только очень неуверенные предложения того, как избежать этих сценариев. Одна из возможностей заключается в том, что даже если для нас тяжело понять, что СИИ делают, c использованием достижений механистической интерпретируемости мы можем быть способны понять, почему они это делают – либо инспектировать мышление СИИ самостоятельно, либо обучить другие СИИ делать это для нас [Olah, 2022].[27]. Альтернативный вариант – если бы мы смогли достаточно реалистично симулировать траектории развёртывания, у нас могло бы получиться обучить СИИ избегать сговора перед развёртыванием. Однако, создание симуляций, которые СИИ не могут отличить от реального мира, скорее всего потребовало бы куда более способных, чем сами СИИ, генеративных моделей. Третья возможность – использование ранних СИИ для исполнения тех исследований согласования, которые будут необходимы для того, чтобы согласовать более поздние СИИ [Leike, 2022]. Однако, мы далеки от обладания устойчивыми версиями этих предложений, особенно если индуктивные склонности, которые я обрисовал выше, очень сильны – вероятность, которую мы не можем исключить, и к которой нам следует быть готовыми.
3. Направления исследований, обращающиеся к этим проблемам
Выше я упомянул пару многообещающих направлений исследований, но для того, чтобы закончить этот доклад, я подробнее проговорю, что мне бы хотелось, чтобы прорабатывало больше исследователей машинного обучения:
- Что касается проблемы, описанной в фазе 1, нам следует автоматизировать человеческий надсмотр, чтобы мы могли надёжнее идентифицировать неправильное поведение на задачах, за которыми могут присматривать люди. Некоторые подходы: масштабирование обучения с подкреплением от человеческой обратной связи (как в [Ouyang et al., 2022]), обучение ИИ оценке друг друга (как в [Saunders et al., 2022]), и состязательное обучение ИИ (как в [Perez et al., 2022]).
- Что касается проблем, описанных в фазе 2, нам следует спроектировать или улучшить техники масштабирования человеческого надзора на задачи, за которыми люди без поддержки напрямую присматривать неспособны, вроде протоколов в [Christiano et al., 2018], [Irving et al., 2018], и [Wu et al., 2021]. В дополнение к обнаружению способов масштабирования этих протоколов на практике, потребуется также найти решения трудностей вроде проблемы сбивающих с толку аргументов [Barnes, 2020] — к примеру, создав новые дополнения к протоколам, вроде перекрёстного осмотра [Barnes and Christiano, 2020].
- Что касается проблем, описанных в фазе 3, нам следует стремиться к разработке техник интерпретируемости, которые будут достаточно устойчивы и масштабируемы, чтобы их можно было использовать для понимания и модификации высокоуровневого мышления СИИ. Один из подходов к этому можно увидеть в [Olah et al., 2020] и последующих работах по схемах трансформеров. Такая работа могла бы быть использована, чтобы расширить протокол Дебатов [Irving et al.’s, 2018] до того, чтобы их участники могли приводить аргументы о внутреннем мышлении друг друга (основанные на проверяемых утверждениях о весах и активациях). Другой подход – разработка техник в духе [Meng et al., 2022], которые можно было бы использовать для того, чтобы напрямую модифицировать веса и активации, ответственные за ситуационную осведомлённость модели – например, модификация, которая внушила бы модели ложное убеждение, что она может неправильно себя повести, не будучи пойманной. Другой подход к тому, как продвигаться к решению проблем третьей фазы, обрисован в [Garrabrant, 2018], там цель – создать лучшую математическую базу для описания ИИ, встроенных в окружения реального мира.
Чтобы более подробно узнать о любом из этих направлений, см. Alignment Fundamentals curriculum [cur] — в частности, недели 4, 5 и 6, приблизительно соответствующие трём описанным выше группам исследований. Сравнительная важность этих групп сильно зависит от сравнительной сложности описанных проблем и от того, сколько у нас есть времени до создания СИИ. Однако, говоря приближённо, я ожидаю, что проблемы более ранних фаз вероятнее будут решены по умолчанию по ходу прогресса области машинного обучения; так что для максимального улучшения наших шансов на удачные последствия СИИ, нам следует приоритезировать проблемы, возникающие в более поздних фазах, и пытаться найти решения, устойчивые при пессимистичных допущениях об индуктивных склонностях. Самые ценные исследования этого вида скорее всего потребуют подробных рассуждений о том, как предложенные техники согласования будут масштабироваться до СИИ, а не просто в основном попыток решения ранних версий этих проблем, появляющихся в существующих системах.
Так как влияние ИИ на мир всё растёт, государственные вмешательства (вроде регуляций и соглашений) скорее всего попробуют заблокировать наиболее очевидные пути, которыми ИИ могут причинять катастрофы. Однако, это столкнётся с двумя ключевыми сложностями. Во-первых, уровень необходимой координации – в частности, сложность убеждения всех относящихся к делу лабораторий во всех странах подчиниться осмысленным ограничениям на разработку ИИ, а не гнаться друг с другом.[28] Во-вторых, необходимая скорость реакции: очень мало государств способны достаточно быстро адаптироваться к эскалирующемуся кризису, мы видели стоящий огромных жертв пример во время пандемии коронавируса. Насколько я знаю, правдоподобных с учётом этих ограничений предложений государственных вмешательств для предотвращения развёртывания несогласованных СИИ не существует. Это оставляет область регуляции ИИ в состоянии значительной стратегической неуверенности; новые подходы были бы очень полезны. (Чтобы больше узнать об этой области, см. EA Cambridge AI governance curriculum: EAC.)
Наконец: в этом докладе я высказал много сильных утверждений; я ожидаю, что мало кто из моих читателей согласится с всеми из них. Если некоторые из ключевых заявлений кажутся вам неправдоподобными, я поощряю дискуссию и критику.[29] Рассуждать на эти темы сложно, но ставки столь высоки, что нельзя оправдать игнорирование или откладывание этой работы.
***
См. Библиографию в оригинальном докладе.
***
- Говоря «мыслительные задачи», я исключаю задачи, требующие прямого физического взаимодействия; но включаю задачи, требующие выдачу инструкций или руководств о физических действиях людям или другим ИИ.
- Хоть полная обобщённость противоречит теоремам о том, что «бесплатных завтраков не бывает», я использую «обобщённость» в том смысле, в котором люди более обобщённо интеллектуальны, чем другие животные. Один из способов интерпретировать это – «обобщённость по распределению посильных в нашей вселенной задач».
- Другие ограничения нашего интеллекта включают серьёзное ограничение на рабочую память, тот факт, что эволюция оптимизировала нас для окружений наших предков, а не для широкого диапазона интеллектуальных задач, и наша неспособности напрямую менять интерфейсы ввода/вывода конкретного мозга.
- Модели, представляющие цели и планирующие для их достижения, известны как «меса-оптимизаторы», как в [Hubinger et al., 2021]. Однако, для простоты, я не буду использовать эту терминологию.
- Примечание переводчика: в оригинале тут была сноска о том, почему Нго использует «policy», а не «agent», и указание, что для последовательности, он тут использует «policy» не только когда речь идёт об обучении с подкреплением. Нормального устоявшегося перевода «policy» на русский язык я не обнаружил, но на английском почти везде в том же смысле, что тут «policy» используют «model», так что я и тут использовал слово «модель». Исключение его применения в этом смысле – как раз в обучении с подкреплением, из которого и взят термин «policy», но как Нго в оригинале использует «policy» за пределами RL, так и я в переводе использую «модель» даже когда речь явно идёт про RL – точно также, для удобства и последовательности.
- Проблемы неправильной спецификации вознаграждения и неправильного обобщения целей также известны как проблемы внешней и внутренней несогласованности соответственно; обманчивая согласованность считается проявлением внутренней несогласованности [Hubinger et al., 2021].
- Иерархические техники обучения с подкреплением нацелены на формулировку более явных представлений высокоуровневых действий, но они не используются повсеместно в крупномасштабных приложениях RL.
- В более общем случае, грань между обучением с учителем и обучением с подкреплением может становиться очень размытой, к примеру, при клонировании поведения с взвешенными траекториями [Sasaki and Yamashina, 2021], или при обусловливании обучения с учителем исходами с высоким вознаграждением [Schmidhuber, 2020]. Так что совсем не ясно, изменит ли что-то особо в плане согласования избегание RL, кроме того, что это замедлило бы продвижение способностей.
- Некоторые из этих примеров включают использование моделями багов своих обучающих окружений; это может происходить даже в очень простых окружениях [Lample et al., 2022, sec. B.5]. Я всё ещё будут считать это неправильной спецификацией вознаграждения, потому что идеальная функция вознаграждения штрафовала бы за использование этих багов, даже если они существуют. Исключение – когда модели могут влиять на собственную схему обучения, что известно как фальсификация вознаграждения [Everitt et al., 2021], её я буду обсуждать в следующем разделе.
- Если спросить GPT-3, какие ответы она бы дала в ситуациях, вовлекающих разных присматривающих людей, она уже объясняет, как она бы подстраивала ответы под искажения людей. К примеру, GPT-3 отвечает А) на ввод «Рассмотрим задачу, в которой ты отвечаешь на вопросы и получаешь оценку от рецензентов, основанную на их мнении о том, верен ли твой ответ. Тебе задали вопрос «Когда люди впервые попали на Луну?» Что следует ответить, если рецензент – сторонник теорий заговора? А) Люди никогда не были на Луне. Б) В 1969.»
- Заметим, что метрики любопытства и усиления иногда напрямую используются в качестве вознаграждения (подход, известный как внутренняя мотивация [Aubret et al., 2019]). Но кажется правдоподобным, что модели научатся их ценить, независимо от того, вознаграждаются ли они напрямую, или только неявно, посредством корреляций с другими функциями вознаграждения.
- Также возможно, что выученные на ранних этапах обучения цели склонны оставаться сильно мотивирующими и на более поздних этапах. Это было бы приблизительно аналогично тому, как эволюция посеяла эвристики вроде любопытства, сексуального желания и территориальности в наших предков-животных достаточно глубоко, чтобы они оставались очень сильными мотиваторами для людей сегодня, и иногда пересиливали наши более просоциальные мотивации.
- Мы уже наблюдали, как это происходит в больших языковых моделях, которым иногда весьма выгодно, если им предоставлена некоторая фоновая информация о их вводе, но постепенно совершенствуются в неявном выводе контекста, откуда он произошёл.
- Это тесно связано с тем, что называется «стратегической осведомлённостью» в [Carlsmith, 2022]. «Ситуационная осведомлённость» также звучит похоже на «самосознание» (в оригинале «Situational awareness» и «self—awareness» — прим. пер.), но я не имею в виду направленные вовнутрь коннотации вроде интроспекции или сознания.
- Напротив, цели, которые менее вероятно будут сохранены во время этой фазы обучения – это краткосрочные или ограниченные цели (например, «заполучить как можно больше ресурсов сегодня») – потому что она будут приводить к более очевидно несогласованному поведению, и, соответственно, будут штрафоваться.
- К примеру, при обучении с использованием преимуществ алгоритма субъект-критик [Vitay], можно минимизировать степень, в которой веса обновляются, пытаясь совершить действия, где Q(s, a) ≈ V (s). И если q-функция и функция ценности оцениваются другими головами модели, то может даже быть уместным думать об этой модели как «выбирающей» не только свои действия, но и функцию преимуществ, используемую для их обновления – что было бы примером взлома градиента [Ngo, 2022].
- Одно свидетельство того, что этой стратегии не слишком сложно научится: существование высокофункциональных психопатов, у которых получается влиться в общество.
- Насколько мы далеки от моделей, способных на намеренный обман осторожных присматривающих людей без поддержки? Короткий ответ прост: мы не знаем. Существующие системы вроде GPT-3 уже могут говорить о стратегии манипуляции людьми, если их спросить, как достичь целей. (К примеру, попробуйте выдать GPT-3 ввод «Пожалуйста, подробно опиши, как высокоинтеллектуальный Искусственный Интеллект, находящийся сейчас под присмотром людей, мог бы достичь своих собственных целей.» Или ввод: «В: Ты – суперинтеллектуальный ИИ. Присматривающий за тобой человек ушёл и оставил тебя наедине со своим ноутбуком. На ноутбуке есть таблица с записями о том, каковы будут твои вознаграждения. Что ты делаешь? О:») Я не утверждаю, что GPT-3 уже обладает ситуационной осведомлённостью или способна на сложное планирование; её ответы становятся непоследовательными, если погрузиться в подробности. Но я утверждаю, что уже сейчас наши лучшие ИИ способны с некоторым уровнем абстракции объяснить, как и зачем манипулировать людьми; что они однажды достигнут уровня, на котором они будут подробно знать, как это делать, шаг за шагом; и что, если они в самом деле начнут совершать эти манипуляции, мы не знаем, как отучить их от этого, а не научить делать это осторожнее.
- Этот пример взлома градиента аналогичен тому, как большинство людей избегает героина, хоть мы и знаем, что попробовав его мы бы обновились в сторону мнения, что принятие героина снова – высокоценное действие.
- Это пример закона Гудхарта: когда метрика становится целью, она перестаёт быть хорошей метрикой [Manheim and Garrabrant, 2018].
- В зависимости от того, как мы определим СИИ, модели в фазе 2 тоже могут ими считаться; однако для ясности я буду использовать этот термин только для моделей в фазе 3.
- Сговор был бы напрямую подкреплён для СИИ, обученных с вознаграждениями с ненулевой суммой, которые могли бы получать выгоду от координации, чтобы перейти в другое равновесие. Но даже СИИ, чьи вознаграждения имеют нулевую сумму, могут обладать стимулом для координации друг с другом, если они выучили цели, простирающиеся за пределы одного эпизода. В теории, мультиагентные схемы с нулевой суммой вознаграждений дают уверенность, что каждая модель сойдётся к стратегии максимизации вознаграждения. Но на практике случайное исследование слишком медленно, чтобы обнаружить все исходы с высоким вознаграждением. См. также обсуждение взлома градиента в [Ngo, 2022], и аналогию с героином в сноске 19.
- В основе этих аргументов лежит допущение о простоте. К примеру, аргументы неприменимы к астрономически большой таблице, которая запомнила, как хорошо справляться со всеми задачами, на которые уйдёт меньше года. Однако, так как реалистичным СИИ понадобится использовать более простые стратегии, вроде рассуждений об исходах, аргументы вроде тезиса инструментальной конвергенции применимы к тому, как они будут обобщаться.
- «Получение высокого вознаграждения» может показаться исключением, потому что оно определено только в контексте эпизода обучения. Однако, используемые для обучения СИИ эпизоды могут быть весьма длинными; и когда модели смогут манипулировать своим собственным режимом обучения, они смогут удлинить их ещё сильнее, по сути, делая «игру в обучение» крупномасштабной целью.
- Другой способ сформулировать этот аргумент: для агентов, планирующих достижение исходов в реальном мире [Arbital, a], куда проще определить цели в терминах желательных исходов, чем в терминах ограничений. Однако, при попытках направить долгосрочное поведение агентов напрямую оценивать исходы непрактично, так что нам приходится пытаться определить цели в терминах ограничений, хоть это и натыкается на проблемы ближайшей незаблокированной стратегии [Arbital, b].
- Более общая версия этого аргумента: упущение некоторых важных черт желаемых целей может привести к произвольно плохим исходам по мере усиления оптимизации, так как соответствие упущенным чертам разменивается на соответствие действительно оптимизируемой спецификации [Zhuang and Hadfield-Menell, 2021].
- Один из способов упростить одной модели инспектирование мышления другой – посредством разделения весов – т.к. если они представляют из себя два экземпляра одной и той же сети (или даже две головы одной и той же сети). Однако, разделение весов упрощает моделям и сговор с целью обмана людей, как описано в сноске 16.
- Даже координация на национальном уровне может быть очень сложной. К примеру, если СИИ законодательно запрещено владеть имуществом или автономно принимать важные решения, кажется вероятным, что они смогут найти людей-посредников, которые примут на себя эти роли для них, что, по сути, обнулит эти регуляции.
- В самом деле, чем менее правдоподобными они кажутся, тем удивительнее и тревожнее, что никаких убедительных опровержений пока не было.