Вознаграждение — не цель оптимизации

Перевод поста TurnTrout, в котором он развеивает популярное заблуждение, поддерживаемое многими вводными материалами по обучению с подкреплением. (Оригинал)

***

Это озарение стало возможным благодаря разговорам с Квинтином Поупом, в которых он критиковал мои неявные допущения о согласовании. Я не уверен, кто именно высказал эту конкретную идею.

В этом эссе я называю агента «оптимизатором вознаграждения», если он не только получает много вознаграждения, но стабильно предпочитает варианты в духе «вознаграждение, но без исполнения задачи» (например, получение вознаграждения без поедания пиццы) при выборе с вариантами в духе «исполнение задачи, но без вознаграждения» (например, поедание пиццы, но без получения вознаграждения). При этом определении, агент может быть оптимизатором вознаграждения, даже если у него нет явного внутреннего отображения вознаграждения, и он не исполняет процесс поиска вознаграждения.

Обучение с подкреплением – это обучение тому, что делать: как отобразить ситуации в действия, чтобы максимизировать числовой сигнал вознаграждения

Обучение с подкреплением: Введение 

Многие[1], кажется, ожидают, что вознаграждение будет целью оптимизации по-настоящему умных выученных стратегий – что они будут оптимизаторами вознаграждения. Я сильно не согласен. Как я объясню в этом эссе, вознаграждение в общем случае не является тем-что-оптимизируют агенты обучения с подкреплением[2].

Отдельно, насколько я могу сказать, большинство[3] практиков обычно рассматривают вознаграждение как будто оно кодирует сравнительную полезность состояний и действий (т.е. что убрать мусор – это вот настолько хорошо), а не задаёт план подкрепления, выстраивающий определённые вычислительные конструкции внутри модели (т.е. вознаграждение за уборку мусора → подкрепить подпрограммы распознавания мусора, поиска мусора и убирания мусора). Я думаю, что первый взгляд почти всегда неуместен, потому что вознаграждение – это подкрепление-предшествующего-вычисления. Вознаграждение подкрепляет те вычисления, которые к нему привели.

Следовательно, вознаграждение не является целью оптимизации в двух смыслах:

  1. Агенты глубокого обучения с подкреплением не придут к тому, чтобы внутренне в первую очередь ценить свой сигнал вознаграждения; вознаграждение – не цель оптимизации обученного агента.
  2. Функции полезности выражают сравнительную хорошесть исходов. Вознаграждение не лучше всего понимать как разновидность функции полезности. Вознаграждение оказывает механистический эффект подкрепление приведших к нему вычислений. Следовательно, правильно понимать, что вознаграждение не выражает сравнительную хорошесть и вовсе не является целью оптимизации.

Вознаграждение скорее всего не будет основной целью оптимизации агента глубокого обучения с подкреплением

После работы вы со своими друзьями едите пиццу. Вы откусываете кусочек. Вкус приводит к вознаграждению в вашем мозгу, что активирует присвоение ценности. Присвоение ценности определяет, какие мысли и действия были ответственны за получение этого вознаграждения, и делает так, чтобы в аналогичных ситуациях в будущем более вероятно принимались такие же решения. Возможно, вы думаете мысли вроде

  • «Будет здорово потусоваться с друзьями» и
  • «Пиццерия недалеко» и
  • «Раз я только что заказал еду на кассе, исполнить моторную-подпрограмму-№51241, чтобы достать кошелёк» и 
  • «Если передо мной пицца, она моя, и я голоден, поднести кусок ко рту» и 
  • «Если кусок пиццы находится рядом с моим ртом, и я ещё не жую, откусить».

Многие из этих мыслей будут оценены присвоением ценности как ответственные, а следовательно, будут более вероятны в будущем. В этом, в общем-то, и суть обучения с подкреплением – вознаграждение подкрепляет то, что ему предшествовало. Вознаграждение подкрепляет / локально улучшает[4] / обобщает прошлые вычисления, которые присвоение ценности посчитало относящимися к делу.

Немаловажно, что вознаграждение не вызывает и не подкрепляет автоматически мысли о вознаграждении! Только то, что бытовое значение слова «вознаграждение» обладает убедительными приятными коннотациями, не значит, что RL-агент будет присваивать вознаграждению терминальную ценность

Как люди (или другие агенты) могут стать оптимизаторами вознаграждения, начать терминально ценить вознаграждение (и мало что ещё)? Пересмотрим ситуацию с пиццей, но теперь предположим, что вы думали мысли наподобие «эта пицца будет такой вознаграждающей» и «в этой ситуации поедание пиццы активирует мою схему вознаграждения». 

Вы едите пиццу, активируется вознаграждение, присвоение ценности верно определяет, что именно эти сосредоточенные на вознаграждении мысли вложились в получение вознаграждения. Следовательно, в будущем, вы будете чаще выбирать действия, про которые вы думаете, что они приведут к вознаграждению, так что станете больше похожи на человека, которого внутренне волнует вознаграждение. Это путь[5] к оптимизации вознаграждения и вайрхедингу.

RL-агенты, которые не думают о вознаграждении до его получения, не станут оптимизаторами вознаграждения, потому что присвоение ценностей не будет подкреплять никаких ориентированных-на-вознаграждение вычислений. 

Подобная сиренам убедительность слова «вознаграждение»

Давайте избавимся от убедительного слова «вознаграждение», заменив его сутью: подкрепителем-предшествующих-вычислений. 

Предположим, человек обучает RL-агента, нажимая кнопку подкрепителя-предшествующих-вычислений, когда агент выбрасывает мусор в урну. В процессе выноса мусора ИИ скорее всего «думает о» настоящем мире, с которым он взаимодействует, так что подкрепитель-предшествующих-вычислений подкрепляет эвристики, которые привели его к выносу мусора (например, «если классификатор-мусора активируется вблизи центра-поля-зрения, то взять мусор, при помощи моторной-подпрограммы-№642»). 

Затем предположим, что этот ИИ моделирует истинный факт, что нажатие кнопки приводит к подкрепителю-предшествующих-вычислений. Предположим, что этот ИИ, у которого ранее подкреплялись мысли, связанные с выносом мусора, рассматривает план по нажатию этой кнопки. «Если я нажму на кнопку, это вызовет присвоение ценности, что подкрепит моё решение нажать на кнопку, так что в будущем я буду нажимать на кнопку ещё больше».

С чего бы конкретно ИИ захватывать контроль[6] над кнопкой? Чтобы подкрепить конкретную часть своего пространства стратегий? У ИИ в прошлом не были подкреплены никакие мысли-связанные-с-подкрепителем-предшествующих-вычислений, так что его нынешнее решение не будет сделано с целью заполучить подкрепитель-предшествующих-вычислений!

RL, в общем случае, не обучает оптимизаторов подкрепителя-предшествующих-вычислений. 

Когда вознаграждение является целью оптимизации агента?

Если вознаграждение гарантировано станет вашей целью оптимизации, то ваш алгоритм обучения может заставить вас стать наркоманом. Позвольте объяснить. 

Теоремы о сходимости предоставляют условия, при которых алгоритм обучения с подкреплением гарантировано сойдётся в оптимальной стратегии для функции вознаграждения. К примеру, итерирование ценностей поддерживает таблицу прикидок ценности для каждого состояния s, и итеративно распространяет информацию об этой ценности по соседям s. Если далёкое состояние f обладает огромным вознаграждением, то оно «пускает волны» через закономерности окружения посредством операции «backup». Непосредственные предки получают ценность, а через много операций высокое вознаграждение f приводит к обретению ценности и далёкими предками.

В итоге «волны ценности» успокаиваются. Агент выбирает (оптимальную) стратегию, действуя для максимизации прикидки ценности своего состояния после действия.

Предположим, принимать наркотики было бы очень вознаграждающе, но эти наркотики находятся в другой части света. Итерирование ценностей распространяет эту высокую ценность до вашей нынешней позиции в пространстве-времени, так что ваша стратегия обязана получить как минимум столько вознаграждения. Выхода нет: после достаточного числа шагов распространения вы путешествуете на другой конец мира, чтобы принять кокаин.

Но очевидно, что эти условия в реальном мире не выполняются. Ваш алгоритм обучения не заставляет вас принимать наркотики. Любой ИИ, который, например, пробовал бы каждое действие как минимум один раз, быстро убил бы себя, так что в реальном мире обобщённые RL-агенты так не делают, это было бы глупо. Так что алгоритм RL-агента не заставит его, скажем, исследовать вайрхединг, и теоремы о сходимости нисколечко не применимы – даже по духу.

Предвосхищённые вопросы

  1. Почему агенты на ранней стадии не будут думать мысли вроде «Если вынос мусора приведёт к вознаграждению, исполнить моторную-подпрограмму-#642», и благодаря этому рано получить подкрепление мышления, сосредоточенного на вознаграждении?
    1. Предположим, агент выносит мусор в комнате с синими стенами. Почему агенты на ранней стадии не будут думать мысли вроде «Если вынос мусора приведёт в тому, что стена синяя, исполнить моторную-подпрограмму-#642», и рано получить подкрепление мышления, сосредоточенного на синих стенах? С чего вообще рассматривать любой из этих сценариев?
  2. Но разве при обучении мы не отбираем в явном виде агентов с высоким итоговым вознаграждением?
    1. Ага. Но сам по себе этот аргумент вовсе не может приводить к выводу, что отобранные агенты вероятнее всего будут оптимизаторами вознаграждения. Такой аргумент доказывал бы слишком много. Эволюция отбирала по совокупной генетической приспособленности, но не получила оптимизаторов СГП.
      1. «Мы отбираем агентов по вознаграждению → мы получаем агентов, оптимизирующих вознаграждение» локально неверно. «Мы отбираем агентов по X → мы получаем агентов, оптимизирующих X» неверно в случае эволюции и в целом.
      2. Следовательно, аргумент необязательно верен и в случае отбора ИИ по вознаграждению. Даже если бы оказалось,что RL обучает оптимизаторов вознаграждения, и пост оказался бы ошибочным, аргумент отбора для этого вывода слишком слаб.
    2. Вот более конкретный ответ: отбор идёт не только агентов, получающих много вознаграждения.
      1. Для простоты рассмотрим случай, когда на обучающем распределении агент получает вознаграждение если и только если достигает целевого состояния. Тогда любой отбор по вознаграждению является также отбором по цели. И если цель – единственный красный объект, то отбор по вознаграждению становится ещё и отбором по поиску красных объектов. 
      2. В целом, отбор по вознаграждению производит столь же сильный отбор по необходимым и достаточным условиям вознаграждения. Кажется, что в общем случае таких должно быть много. Следовательно, раз отбор происходит не только по вознаграждению, но и по всему, что идёт вместе с ним (например, достижению цели), отбор не предоставляет оптимизаторам вознаграждения преимущества перед агентами, быстро достигающими цели / выносящими много мусора / [выполняющими задачу].  
    3. Другая причина не ожидать, что аргумент отбора сработает – что для большинства внутренних ценностей агента инструментально конвергентно не становиться вайрхедерами, не пытаться ткнуть по кнопке вознаграждения.
      1. Я думаю, что до того, как агент сможет попасть в конкретный аттрактор оптимизации вознаграждения, он попадёт в аттрактор, в котором будет оптимизировать некий аспект или исторический коррелят вознаграждения.
        1. Мы обучаем агентов, которые интеллектуально оптимизируют, скажем, вынос мусора, и это подкрепляет вычисления, связанные с выносом мусора, которые активируются в широком диапазоне ситуаций, направляя агентов в будущее, где мусор вынесен. Интеллектуальный агент смоделирует тот факт, что если он подкрепит себе заботу о подкрепителе-предшествующих-вычислений, то он больше не будет продвигаться к будущему, где мусор вынесен. Следовательно, он решит не нажимать кнопку вознаграждения.
        2. Это рассуждение работает для большинства внутренних целей, благодаря инструментальной конвергенции.
      2. По моей лучшей нынешней модели, это та причина, по которой люди обычно не вайрхедятся. Они выучивают свои собственные ценности посредством глубокого RL, и эти ценности против человека, который получится после вайрхединга.
  3. Не заботит ли вознаграждение некоторых людей терминально?
    1. Думаю, да! Я думаю, что обобщённо интеллектуальные RL-агенты будут обладать вторичными, сравнительно более слабыми ценностями, связанными с вознаграждением, но это не будет основным мотиватором. При моей (неуверенной) модели, ИИ начнёт подкреплять вычисления о вознаграждении только после других вычислений (например, о выносе мусора). Больше об этом в следующих эссе.
  4. Но что, если ИИ тыкнет по кнопке вознаграждения на ранних этапах обучения, при исследовании? Тогда присвоение ценностей сделает вероятнее, что ИИ снова на неё нажмёт.
    1. Тогда держите кнопку подальше от ИИ, пока он не сможет смоделировать эффекты нажатия кнопки подкрепителя-предшествующих-вычислений.[7]
    2. По причинам, приведённым в разделе «сирен», достаточно рефлексивный ИИ скорее всего сам не будет искать кнопку вознаграждения.
  5. AIXI—
    1. В любом случае убьёт вас и завайрхедится навсегда, если не дать ему что-то вроде константной функции вознаграждения.
    2. И, по моему мнению, этот факт не особо связан с согласованием. AIXI в явном виде является максимизатором вознаграждения. Насколько я знаю, AIXI – не предельная форма любого реального интеллекта, обученного обучением с подкреплением.
  6. Имеет ли значение выбор алгоритма RL?
    1. Для первого пункта (вознаграждение – не цель оптимизации обученного агента).
      1. Я начал с анализа безмодельных подходов, но рассмотрел и несколько основанных на модели схем. Я думаю, что ключевые идеи применимы и в общем случае, но схема будет значительно влиять на то, какие ценности будут склонны появляться.
        1. Если агент обучается много чему, то основанное на вознаграждении мышление может быть подкреплено пересечением задач (прохождение лабиринтов, написание сонетов), тогда как каждая специфическая для задачи когнитивная структура подкрепляется лишь контекстуально.
        2. Предобучение языковой модели и помещение её в RL-схему тоже меняет вычисления так, как я пока не пытался анализировать.
      2. Возможно, что есть такой вид алгоритмов RL, который обучает агентов, стремящихся в пределе к оптимизации вознаграждения (и, конечно, «решает» внутреннее согласование в буквальной форме «найти стратегию, оптимизирующую сумму внешнего целевого сигнала, со скидкой на время»). 
    2. Что касается второго пункта (вознаграждение предоставляет локальные обновления мышления агента посредством присвоения ценностей; вознаграждения не лучше всего понимать, как определяющие наши предпочтения), выбор алгоритма RL не должен иметь значения, пока он использует вознаграждение для вычисления локальных обновлений.
      1. Аналогичный вывод применим и к обновлениям, берущимся из сигналов потерь. Они переводят мышление агента в новую форму.
  7. TurnTrout, ты говорил о процессе обучения ИИ с использованием человеческого языка, но градиенты ML могут не укладываться аккуратно в наши концепты. Откуда нам знать, уместно ли будет их так описывать?
    1. Я не уверен, что моя модель верна, но уж точно она кажется более верной, чем (моё впечатление об этом) то, как люди обычно думают об RL (т.е. в терминах максимизации вознаграждения и вознаграждения-как-цели-оптимизации, а не как сигнала обратной связи, строящего когнитивные структуры).
    2. У меня есть доступ только к моим собственным концептам и словам, так что я всё равно рассуждаю предварительно, держа в голове потенциальные подвохи перевода обновлений градиентов на человеческий язык (например, «вероятнее есть пиццу в схожих ситуациях»).

Отбрасываем старую гипотезу

Сейчас я не вижу сильных поводов сосредотачиваться на гипотезе «оптимизатора вознаграждения». Идея, что ИИ, став действительно умными, будут в первую очередь оптимизировать некий сигнал вознаграждения… Я не знаю никаких чётких механистических историй для этого. Был бы рад узнать, если они есть.

Насколько я осведомлён, сильнейшее оставшееся свидетельство в пользу агентов, внутренне ценящих подкрепитель-предшествующих-вычислений – это то,  что некоторые люди сильно (но не исключительно) ценят подкрепитель-предшествующих-вычислений[8], а многие люди ценят его хотя бы слабо, а люди скорее всего в подходящем смысле являются RL-агентами. Так что мы точно не можем исключить возможность агентов, сильно ценящих подкрепитель-предшествующих-вычислений. Но это не предопределённый исход по умолчанию. Больше об этом – в будущих эссе.

Это правда, что вознаграждение может быть целью оптимизации агента, но что вознаграждение на самом деле делает – это подкрепление приведших к нему вычислений. Конкретное предложение о согласовании может допускать, что функция вознаграждения приводит агента в состояние, в котором он внутренне ценит подкрепление, и что цель подкрепителя-предшествующих-вычислений – согласованная с людьми цель оптимизации, но это лишь один конкретный подход к использованию подкрепителя-предшествующих-вычислений для получения внутри агента желаемого мышления. Даже так основной механистической функцией вознаграждения остаётся подкрепление, а не цель оптимизации.

Следствия

Вот некоторые крупные изменения моих мнений в результате этого:

  1. Любое рассуждение, выведенное из предпосылки оптимизации вознаграждения теперь подозрительно, если не поддержано иным путём.
  2. Вайрхединг никогда не был особо вероятной проблемой обученных RL-агентов, при отсутствии конкретной причины, почему мысли о получении-подкрепителя-предшествующих-вычислений будут подкрепляться до статуса основного фактора принятия решений.
  3. Перестаньте волноваться о нахождении «внешних целей», которые безопасно максимизировать.[9] Я думаю, что максимизатор-внешней-цели (т.е. агент, максимизирующий конкретную явно определённую функцию вознаграждения) всё равно не получится.
    1. Вместо этого сосредоточьтесь на построении хорошего мышления внутри агента.
    2. В моей онтологии есть только задача внутреннего согласования: Как нам вырастить хорошее мышление внутри обучающегося агента?
  4. Следует механистически моделировать RL-агентов как исполняющих поведение, которое привело к прошлым подкреплениям (например, выносящих мусор), в дополнение к мыслям о стратегиях, отбираемых по высокому вознаграждению в обучающем распределении (например, нажатие на кнопку).
    1. Второй вид рассуждений пропускает механистическую суть обучения с подкреплением: Подкрепление вычислений, ответственных за получение подкрепителя-предшествующих-вычислений. Я всё равно думаю, что полезно учитывать отбор, но в основном для описания вариантов неудач, механистическую правдоподобоность которых можно оценить.
    2. По моему мнению, подобающая вознаграждению роль – не кодирование цели, а план подкрепления, обеспечивающий подкрепление правильных видов вычислений в разуме ИИ.

Приложение: Область RL считает, что вознаграждение = цель оптимизации

Давайте немного пройдёмся по верхним результатам в Google Scholar по запросу «обучение с подкреплением», выделения добавлены:

Работа агента – найти стратегию… максимизирующую некую долгосрочную меру вознаграждения.

Обучение с подкреплением: Обзор

При оперантном обусловливании животные обучаются выбирать действия, чтобы приобрести вознаграждения и избежать наказаний, или, более обобщённо, чтобы достигать целей. Возможны разные цели, такие как оптимизация средней скорости приобретения итогового вознаграждения (т.е. вознаграждения минус наказания), или некая прокси для этого, вроде ожидаемой суммы будущих вознаграждений.

Обучение с подкреплением: Хорошее, Плохое, Злое 

Мы высказываем гипотезу, что интеллект и ассоциированные с ним способности можно понимать, как служащие максимизации вознаграждения.

Вознаграждения Достаточно

Стив Бирнс, на самом деле, мельком указывал на часть ошибки «вознаграждение – цель оптимизации»:

Я отмечу, что даже эксперты иногда неаккуратно говорят, будто RL-агенты составляют планы к цели максимизации будущего вознаграждения…

Основанное на модели RL, Желания, Мозги, Вайрхединг

Я не думаю, что это просто неаккуратные слова, я думаю, что во многих случаях это неверное убеждение. В смысле, я защитил докторскую по теории RL, всё ещё веря в него. Многие авторитеты и учебники с уверенностью заявляют – почти не предоставляя свидетельств – что вознаграждение является целью оптимизации (т.е. тем, что стратегия действительно пытается оптимизировать, или тем, что она на самом деле оптимизирует). Проверяйте, что на самом деле говорит математика

***

  1. Включая авторов процитированного вводного текста, Обучение с подкреплением, Введениеe. Я, впрочем, встречал нескольких исследователей согласование, которые уже усвоили, что вознаграждение – не цель оптимизации, хоть и не столь многословно.
  2. Полезность ≠ Вознаграждение указывает на то, что обученный обучением с подкреплением агент оптимизирован вознаграждением, но не обязательно оптимизирует ради изначального вознаграждения. Это эссе кое-где идёт дальше, включая заявление, что вознаграждение и полезность различаются по типу – что вознаграждение вовсе не следует рассматривать как кодирование цели, а следует – как план подкрепления. И я не только не ожидаю, что обученные агенты не максимизируют изначальный «внешний» сигнал вознаграждения, я думаю, что они скорее всего не будут пытаться сильно оптимизировать никакой сигнал вознаграждения.
  3. Оформление вознаграждения кажется самым выдающимся контрпримером к рассуждениям «вознаграждение отображает терминальные предпочтения пар состояние-действие».
  4. Конечно, присвоение ценности не только перемешивает существующие мысли. К примеру, СГС выращивает классификаторы изображений из шума случайно инициализированных параметров. Но его операции локальны в пространстве параметров, и зависят от уже существующих весов.
  5. Но ещё при взаимодействии с реальностью вы всё же скорее всего думаете о ней («раз, я у входа в магазин, где я хочу купить себе еды, зайти внутрь»), и присвоение ценности отметит часть этих мыслей как относящиеся к делу, так что вы не будете подкреплять исключительно сосредоточенные на вознаграждении вычисления.
  6. Квинтин Поуп отметил: «ИИ, наверное, захочет получить контроль над кнопкой, пусть и только чтобы увериться, что его ценности не будут обновлены неодобряемым им способом. Но это пример конвергентного стремления к власти, не к вознаграждению.»
  7. По причинам, механистически схожим с теми, по которым стоит держать кокаин подальше от детской кроватки, пока ребёнок не может смоделировать последствия зависимости.
  8. Я сейчас не знаю связи удовольствия с вознаграждением ошибки предсказания в мозгу. Не думаю, что это одно и то же.
    Однако, я думаю, люди обычно слабо-мотивированы гедонизмом/опытом. Представим человека, который собирается съесть пиццу. Если вы дадите ему выбор между «пицца, но без удовольствия от её поедания» и «удовольствие, но без пиццы», я думаю, что большинство людей выберет второе (если они только не сильно голодны и нуждаются в калориях). Если бы люди просто стремились к будущему, где они съели пиццу, это не было бы правдой. 
  9. Из переписки с другим исследователем: Могут существовать интересные связанные-с-согласованием головоломки вида «Найти оптимизационный процесс, чей максимум дружественен», но лично эти интуитивные соображения не разделяю.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s

%d такие блоггеры, как: