Согласование ИИ, почему это сложно и с чего начать

Это перевод приблизительного текста лекции тогда ещё куда более оптимистично звучащего Элиезера Юдковского 2016 года. (Оригинал)

***

В этой лекции я постараюсь ответить на часто задаваемый вопрос «Да чем вы вообще тут занимаетесь?». У нас вызывают беспокойство искусственные интеллекты, продвинутые выше современного уровня, и принимающие достаточно высококачественные решения во имя целей, заботу о которых в них запрограммировали, какими бы эти цели ни были.

Последовательные решения подразумевают функцию полезности

Slide 2

Классическая первая попытка была сделана Айзеком Азимовым с его Тремя Законами Робототехники, первый из которых гласит: «Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред.»

И как отметил Питер Норвиг, остальные законы не имеют значения – потому что всегда будет крохотная вероятность, что человеку будет причинён вред.

В последней главе «Искусственный Интеллект: Современный Подход» задаётся вопрос «Что, если у нас получится? Что, если проект ИИ действительно сработает?» и отмечается «Мы не хотим, чтобы наши роботы мешали людям переходить дорогу из-за ненулевого шанса вреда.»

Для начала я бы хотел объяснить поистине базовую причину, почему три закона не стоит даже рассматривать – потому что они не являются функцией полезности, а нам нужна именно она.

Функции полезности получаются, когда мы накладываем на поведение агента такие ограничения, чтобы он некоторыми образами не вёл себя явно глупо. К примеру, предположим, что вы заявляете следующее: «Я предпочитаю находиться в Сан-Франциско, а не в Беркли, предпочитаю находиться в Сан-Хосе, а не в Сан-Франциско, предпочитаю находиться в Беркли, а не в Сан-Хосе.» Наверное, вы потратите много денег на Uber, разъезжая между этими тремя городами.

Если вы не собираетесь тратить огромные суммы на Uber, чтобы ездить кругами, то, получается, ваши предпочтения должны быть упорядочены. Они не могут быть зацикленными.

Другой пример: предположим, вы – администратор госпиталя. У вас есть $1.2 млн., и вам нужно их распределить их. Требуется $500,000 на поддержание МРТ-установки, $400,000 на анестезиологический монитор, $20,000 на хирургические инструменты, $1 млн. на пересадку печени больному ребёнку…

В когнитивной психологии был интересный эксперимент, где подопытных спрашивали: «Следует ли администратору госпитали потратить $1 млн. на пересадку печени больному ребёнку, или на зарплаты работникам, обслуживание, администрацию, и так далее?»

Многие подопытные эксперимента очень злились и хотели наказать администратора за сами мысли об этом вопросе. Но если вы не можете перераспределить денежные траты, чтобы спасти больше жизней, и ваши деньги ограничены, то ваше поведение должно быть согласовано с конкретной долларовой стоимостью человеческой жизни.

Под этим я имею в виду не то, что вы считаете большие количества денег важнее человеческих жизней – мы можем предположить, что вы вообще не цените деньги, кроме как инструмент для спасения жизней – но что мы со стороны должны быть способны сказать: «Возьмём X. Будем пользоваться всеми возможностями со стоимостью менее $X за жизнь, и не пользоваться возможностями со стоимостью более $X за жизнь». Люди, очень злящиеся на кого-то, кто хочет присвоить долларовую стоимость человеческой жизни априори препятствуют эффективному использованию денег для спасения жизней. Иронично.

Slide 7

Третий пример ограничений последовательности на принятие решений: предположим, я предлагаю вам [1A] 100% шанс получить $1 млн., или [1B] 90% шанс получить $5 млн. (и 10% шанс ничего не получить). Что вы выберете?

Большая часть людей скажет, что 1A. Другой способ на это посмотреть, если у вас есть функция полезности, был бы «Полезность $1 млн. выше или ниже смеси 90% полезности $5 млн. и 10% полезности $0?» Полезность не обязана быть пропорциональна деньгам. Единица измерения тут основана на вашей жизни, на некой ценности вещей для вас.

А потом экспериментатор берёт другу группу подопытных – я как бы спойлерю его вам, делая это с одной и той же группой – и спрашивает: «Вы скорее хотите [2A] 50% шанс получить $1 млн. или [2B] 45% шанс получить $5 млн.?»

Большинство выбирают 2B. Парадокс вытекает из того, что вторая игра эквивалентна первой, помноженной на бросок монетки.

То есть: Я брошу монетку, и если выпадет решка, то я сыграю с вами в первую игру, а если орёл, то ничего не произойдёт, вы получите $0. Предположим, что у вас есть предпочтения – не совместимые ни с какой функцией полезности – заявляющие, что вы возьмёте 100% шанс миллиона и 45% шанс $5 млн. Перед тем, как мы начинаем играть в сложную игру, до того, как я бросаю монетку, я могу сказать: «ОК, вот переключатель между A и B. Если он показывает B, то мы сыграем в 1B. Если он показывает A, мы сыграем 1A.» Изначально он показывает A, так что до начала игры это выглядит как 2A или 2B, так что вы хотели бы выбрать B, и платите мне цент за то, чтобы переключить его на B. Затем я бросаю монетку, она выпадает решкой. Вы платите мне ещё один цент, чтобы переключить обратно на A. Я получил два цента. Я выкачал из вас деньги, потому что у вас не было последовательной функции полезности.

Общий посыл тут в том, что существует некоторый набор качественно деструктивных вариантов поведения, и пока вы их не совершаете, вы ведёте себя так, будто у вас есть функция полезности. Это оправдывает наше использование функций полезности для того, чтобы говорить о продвинутых будущих агентах, вместо использования терминов Q-обучения или других форм обучения с подкреплением. Есть множество разных способов рассматривать агентов, но пока агенты достаточно продвинуты, чтобы не вести себя качественно плохими способами, они будут вести себя так, будто у них есть последовательные распределения вероятностей и последовательные функции полезности.

Наполнение котла

Slide 14

Давайте рассмотрим задачу, когда у нас есть произвольно продвинутый агент – он может быть чуть-чуть продвинутый, или очень сильно продвинутый – и мы хотим наполнить котёл. Очевидно, это соответствует выдаче нашему продвинутому агенту функции полезности, которая равна 1, если котёл полон, и 0, если котёл пуст:

Кажется довольно безвредной функцией полезности, не правда ли? У неё нет размаха и открытости типа «Не причиняй вред человеку и своим бездействием не позволяй, чтобы человеку был причинён вред» – которая потребовала бы оптимизировать всё в пространстве и времени насколько возможно. Это же просто один котёл, да?

Те из вас, кто смотрел Фантазию, знакомы с результатом применения такой функции полезности, конкретно: метла продолжает заливать в котёл ведро за ведром, пока котёл не переполнился. Конечно, это логическая ошибка аргументации от вымышленного свидетельства – но это вполне правдоподобно при такой функции полезности.

Что пошло не так? Первая сложность – что функция полезности робота не вполне соответствует нашей функции полезности. Наша функция полезности будет 1, если котёл полон, 0, если он пуст, -10 очков к результату, если мастерскую затопило, +0,2 очка, если это забавно, -1000 (наверное, на такой шкале куда больше), если кто-то убит… и это всё продолжается, и продолжается, и продолжается.

Если у робота только два варианта – полный котёл и пустой котёл, то суженная функция полезности, лишь слегка пересекающаяся с нашей собственной, не будет особой проблемой. Функция полезности робота всё ещё будет максимальна в желаемом состоянии «котёл полон». Однако, раз робот был достаточно продвинут, чтобы у него было больше вариантов (таких как заливать ведро в котёл повторно), срез функции полезности, который мы поместили в робота, больше не указывает на оптимум нашей собственной функции полезности. (Конечно, люди дико непоследовательны, и у нас на самом деле нет функций полезности, но давайте пока представим, будто есть.)

Сложность номер два: эта функция полезности {1, 0} не подразумевает удовлетворённости после конечных усилий. Всегда можно получить ещё слегка больший шанс наполнить котёл. Если робот достаточно продвинут, чтобы иметь доступ к технологиям галактического масштаба, то можно представить, как он заливает в котёл огромное количество воды, чтобы чуть-чуть увеличить вероятность, что он полон. Вероятности бывают от 0 до 1, и на самом деле не включительно, так что он просто будет продолжать.

Как нам исправить проблему? В момент, когда мы говорим: «ОК, робот явно несогласован с нашей функцией полезности. Как нам его исправить так, чтобы он не просто сломался чуть попозже?», мы начинаем заниматься теорией согласования ИИ.


Некоторые подзадачи согласования ИИ

Агенты с низким воздействием

Один из возможных подходов, которые вы могли бы попробовать – это попытаться измерить воздействие, оказываемое роботом, и дать роботу функцию полезности, которая мотивирует его наполнить котёл с наименьшим количеством других воздействий – наименьшими другими изменениями мира.

ОК, но как вы на самом деле вычислите эту функцию воздействия? Не пойдёт ли всё не так, так же как в случае «1, если котёл полон; 0, если котёл пуст»?

Попытка номер один: Вы представляете, что модель мира агента выглядит как что-то вроде динамической Байесовской сети, где есть регулярные причинно-следственные отношения между событиями в мире. В следующий временной шаг там всё ещё будет сенсор и всё ещё будет такое же отношение между сенсором и фотонами, в него попадающими, и наше понятие «воздействия» будет «Сколько узлов сети затрагивает твоё действие?»

Что, если ваш агент начинает с динамической-моделью-Байесовской-сети, но он достаточно продвинут, что он может пересмотреть онтологию своей модели мира, как делали многие люди, открывая, что очевидно, есть вкус, но на самом деле есть лишь частицы в пустоте?

В частности, он открывает Ньютоновский Закон Гравитации и внезапно понимает: «Каждая частица, которую я двигаю, воздействует на все остальные частица в своём будущем световом конусе – всё на расстоянии луча света от этой частицы будет затронуто.» Мой взмах рукой ускоряет луну в её сторону, где бы она ни была, на порядка 10−30 метра на секунду в квадрате. Это очень маленькое влияние, если говорить количественно, но оно есть.

Когда агент маленький, написанная нами функция воздействия кажется работающей. Затем агент становится умнее, и она перестаёт работать – потому что теперь все действия получают одинаковый штраф.

«ОК, но это изначально был глупый способ измерять воздействие», – говорим мы (надеюсь, до провала, а не после). Давайте попробуем штраф за расстояние: насколько сильно ты двигаешь частицы? Мы просто попробуем дать ИИ такой язык для моделей, чтобы до какой бы новой модели мира он не обновлялся, мы всегда сможем посмотреть на элементы модели и определить на них какую-нибудь функцию расстояния.

У нас будет выделенное действие «ничего не делать». Мы будем измерять изменение всех переменных, произведённое выбором действия a вместо нулевого действия Ø:

Что теперь пойдёт не так? Я действительно говорю: подумайте 15 секунд о том, что может пойти не так, если вы запрограммируете это в робота.

Вот три вещи, которые могут пойти не так. Во-первых, ты можешь пробовать скомпенсировать даже то, что мы бы посчитали желательными последствиями твоих действий. Если ты собираешься вылечить рак, то надо увериться, что пациент всё равно умрёт! Тебе хочется минимизировать своё воздействие на мир, вылечивая рак. Это означает, что статистика смертей должна не измениться.

Во-вторых, некоторые системы принципиально хаотичны. Если ты беспокоишь погоду, то, как говорят, погода через год будет совершенно другой. Если это так, то можно с тем же успехом двигать все атомы в атмосфере как хочется! Они всё равно окажутся в других местах. Ты можешь взять молекулы углекислого газа и синтезировать из них какие-нибудь углеродные структуры, верно? Эти молекулы всё равно бы передвинулись!

Даже более обобщённо, может, ты просто хочешь увериться, что всё возможное будет выглядеть, будто произошло Ø. Ты, например, хочешь вводить людей в заблуждение, чтобы они думали, что ИИ ничего не сделал.

Если вы придумали ещё какие-нибудь креативные варианты, что может пойти не так, можете поговорить со мной или Эндрю Критчем, вы ухватили идею!

Агенты с кнопками прерывания

Slide 33

Давайте оставим в стороне штраф на воздействие и подумаем об установке на ИИ выключателя, или, чтобы звучало не так резко, кнопку прерывания. Хотя вот Микки Маус тут пытался установить.

К сожалению, Микки Маус вскоре обнаружил, что агент сконструировал нескольких других агентов, чтобы быть уверенным, что котёл всё же будет наполнен, даже если что-то произойдёт с изначальным агентом.

Slide 35

Мы видим, как всё больше агентов стараются удостовериться, что котёл полон с всё большей и большей вероятностью, не потому что у изначального агента был инстинкт выживания или самовоспроизводства, но потому, что он старался уверится, что он максимизирует вероятность наполнения котла. У него не было явной инструкции создания большего количества агентов с той же целью; просто это ещё немного увеличивало вероятность наполнения котла.

Slide 36

И тут Микки Маус теперь отчаянно пытается задним числом изучить всю ту теорию согласования агентов, которой ему следовало заняться перед тем, как оживлять свою метлу.

Если мы хотим, чтобы робот позволил нам нажать кнопку прерывания – просто отключить его – мы можем предположить, что у нас уже есть функция полезности, описывающая «Ничего не делать». На самом деле, у нас нет функции полезности, говорящей «Ничего не делать». Вот в насколько примитивном состоянии прямо сейчас находится эта область.

Но мы можем представить, что у нас есть функция полезности, заявляющая: «Если эта кнопка B не была нажата, то твоя функция полезности: 1, если котёл полон; 0, если он пуст. Если кнопка нажата, то у тебя функция полезности «ничего не делать»: 1, если ты безопасно прервался и выключил все продолжающиеся операции; иначе 0.»

Итак: что пойдёт не так с этим предложением? Десять секунд.

Первое, что может пойти не так – это что если кнопка нажата, то ожидаемая полезность, вероятно, выше, потому что отключиться очень просто, а кто знает, останется ли котёл полным?

В ином случае, выключение могло казаться опасным, и в таком случае, робот попробовал бы предотвратить нажатие кнопки прерывания. Но в нашем случае, если робот достаточно стратегичен, чтобы понимать программиста, то он подумает: «Я очень легко могу исполнить свою функцию полезности, если меня выключат. Как мне затроллить программиста, чтобы он меня выключил?»

Если ожидаемая полезность без нажатия кнопки выше, то робот попробует предотвратить нажатие кнопки. Если ожидаемая полезность без нажатия кнопки выше, то робот попробует затроллить программиста, чтобы тот нажал кнопку, или просто нажмёт кнопку сам.

Попытка номер два: Давайте попробуем сделать ожидаемые полезности при нажатии и без нажатия кнопки в точности одинаковыми. Предположим, что у нас есть нормальная функция полезности, равная 1, если котёл полон; 0, если он пуст, и функция полезности прерывания или выключения, равная 1, если робот отключился; иначе 0, или что ещё понадобиться, чтобы мотивировать низкое воздействие.

Затем мы комбинируем их в переключающуюся функцию полезности, которая в мире, где кнопка не нажата, имеет значение Unormal, а в мире, где кнопка нажата – значение Ususpend+θ, где θ – лучшая полезность, которую можно получить из нормальной функции полезности, минус лучшая полезность, которую можно получить из функции полезности прерывания:

Так мы должны удостовериться, что ожидаемая полезность этих двух стратегий оказывается идеально равной, не устанавливая конкретных чисел.

ОК – что теперь пойдёт не так? (Я в этот раз не собираюсь попросить сообразить за десять секунд.)

По-видимому, это перебалансирует ожидаемую полезность двух разных функций полезности, зависящих от выключателя, приводя к тому, что ИИ захочет вести себя корректно, если кнопка не нажата, вести себя корректно, если кнопка нажата, не пытаться заставить вас нажать на кнопку, не пытаться предотвратить нажатие на кнопку, приглядывать за кнопкой, потому что информация о её существовании всё ещё имеет положительную ценность, сохранять кнопку при самомодификациях… таковы были надежды.

К сожалению, оказывается, что на самом деле тут мотивируются те же действия, что и если вероятность нажатия кнопки равна 0, что означает, что он может с тем же успехом отсоединить кнопку, подключённую к бесполезному коду, может создавать субагентов, не беспокоющихся о кнопке…

Описание в общих чертах того, что идёт не так: всё, что делается для отсоединения кнопки, изменяет максимальную ожидаемую полезность, которую можно получить, если кнопка нажата, а это вычитается. По сути, каждый раз, когда робот делает что-то, затрагивающее его поведение при попытке его прервать, имеет равную противоположную, что оставляет поведение в точности таким, как если бы функция полезности была просто Unormal.

Попытка номер три: можем ли бы выдать такую стратегию π0, что она будет оптимальной при условии вероятности нажатия кнопки, выводимой из этой стратегии?

Оказывается, нет, так сделать тоже не получится, потому что зачастую тут нет неподвижной точки. Есть изменённая версия этого, использующая оператор do Джуди Перл, там всё идёт не так несколько другим более хитрым образом. (Там есть неподвижные точки. Неподвижные точки странные.)

Это открытая задача. И насколько я знаю, если нет очень секретного проекта, который не публикует никаких своих результатов, хоть они явно кажутся такими результатами, которые хочется опубликовать, человечество находится на этом участке дороги к чему бы то ни было, заменяющему законы Азимова.

Какие тут «Робот не может причинить вред человеку или своим бездействием допустить, чтобы человеку был причинён вред». Мы пытаемся сообразить «Как смешать вместе две функции полезности, зависящие от нажатия выключателя, чтобы ИИ не отобрал выключатель?». Речь не о непричинении вреда людям – о наполнении одного котла без затопления всего вокруг, на основе желания низкого воздействия. Мы не можем понять, как сказать «низкое воздействие». Вот где мы сейчас находимся.

Но нельзя сказать, что в области нулевой прогресс. Некоторые вопросы задавались и получали некоторый прогресс.

Я поставлю задачу, но не стану очень подробно описывать, какой прогресс был достигнут, потому что он всё ещё на той фазе, где все решения звучат запутанно и не имеют простых элегантных форм. Так что я опишу задачу, а затем лишь примерно помашу руками в сторону прогресса.

Стабильные цели при самомодификации

Вот пример задачи, по которой прогресс есть.

Аргумент Ганди о стабильности функции полезности большинства агентов: Ганди изначально не хочет, чтобы происходили убийства. Мы предлагаем Ганди таблетку, которая заставит его убивать людей. Мы предполагаем, что Ганди достаточно хорошо понимает самомодификацию, так что он может верно экстраполировать и ожидает результатов принятия таблетки. Мы интуитивно ожидаем, что настоящий Ганди отказался бы от таблетки.

Можно ли это формализовать? Можем ли мы продемонстрировать агента с функцией полезности U который естественным путём, для достижения U, выбирает самомодификацию в сторону нового кода, тоже написанного, чтобы добиваться U?

Как мы можем продвигать тут прогресс? У нас на самом деле нет бегающих вокруг самомодифицирующихся агентов. Так что давайте я поставлю на первый взгляд странный вопрос: знали бы вы, как написать код самомодифицирующегося агента с стабильной функцией полезности, если бы я дал вам произвольно мощный компьютер? Он может выполнять любые операции, требующие конечного количества времени и памяти – но не операции, требующие бесконечного количества времени или памяти, потому что это было бы слишком странно. Это задача, которую вы знаете, как решить в принципе, или такая, которая вводит в замешательство даже в таком случае?

Slide 49

Небольшое отступление о том, почему важно понимать, как что-то решить с использованием неограниченной вычислительной мощности: вот механический Турок. То, что выглядит как человек – на самом деле механизм. Контур человека – это то, где внутри шахматного автомата XIX века скрыт настоящий человек.

Это было одно из чудес своего времени! … И если бы у вас действительно получилось в XIX веке создать программу, играющую в шахматы на уровне гроссмейстера, то это было бы одно из чудес своего времени. Так что были споры: это фальшивка, или они действительно разобрались, как сделать механизм, играющий в шахматы? Это был XIX век. Они не знали, насколько сложна задача игры в шахматы.

Одна знакомая всем личность придумала умный аргумент в пользу того, что внутри механического Турка должен быть спрятан человек:

Арифметические или алгебраические вычисления по своей природе фиксированы и детерминированы … Даже учитывая, что движения Автоматического Шахматиста детерминированы сами по себе, они обязательно бы прерывались и приводились в беспорядок недетерминированной волей оппонента. Нет аналогии между операциями Шахматиста и операциями вычислительной машины мистера Бэббиджа. Операции Автомата совершенно точно управляются разумом, и ничем иным. Это, в самом деле, априори математически доказывается.

Эдгар Аллан По, фокусник-любитель

Вторая половина его эссе, установив суть с абсолютной логической уверенностью, касается того, где именно скорее всего внутри механического Турка прячется человек.

Это поразительно умудрённый аргумент для XIX века! Он даже указал на сложную часть задачи: ветвление. И всё же он на 100% неправ.

Более чем через век, в 1950 году, Клод Шеннон опубликовал самую первую статью по компьютерным шахматам, и (по ходу дела) описал алгоритм идеальной игры в шахматы при наличии неограниченной вычислительной мощности, а затем рассказывал, как это можно аппроксимировать. Ещё только через 47 лет Deep Blue смог одолеть чемпиона мира Каспарова, но настоящий концептуальный прогресс был связан с переходом от «Механические шахматы априори невозможны» к «О, а сейчас я походя выдам решение для неограниченного случая».

Мораль тут такова, что если мы знаем, как решить задачу с неограниченной вычислительной мощностью, то нам «всего лишь» нужны алгоритмы побыстрее (… что займёт ещё 47 лет работы). Если мы не можем решить задачу с неограниченными мощностями, мы в замешательстве. Мы в каком-то смысле не понимаем значения наших собственных терминов.

Именно там мы и находимся с большей частью задач согласования ИИ. Если бы я вас спросил: «Как вы бы создали дружественный ИИ?», то вас бы останавливал не недостаток вычислительных мощностей. Даже если бы я дал вам гиперкомпьютер, вы всё ещё не могли бы написать программу на Python, которая стала бы хорошим ИИ, если ей дать достаточно памяти.

Знаем ли мы, как создать стабильного самомодифицирующегося агента при наличии неограниченной вычислительной мощности? Есть очевидное решение: у нас может быть игрок в крестики-нолики, который перед самомодификацией (написанием новой версии своего кода и постановкой её на своё место) проверяет, что следующая версия играет в крестики-нолики идеально, согласно нынешней модели крестиков-ноликов.

Но это читерство. Почему?

Во-первых, первому агенту надо отдельно симулировать все вычислительные пути своего наследника, все его ответы на все возможные ходы. Это означает, что агент-наследник на самом деле не может быть когнитивно улучшен. Он ограничен когнитивными способностями предшествующей версии, и при проверке относительно конкретного стандарта, и из-за того факта, что он должен быть экспоненциально проще предшествующей версии, чтобы та могла проверить все возможные пути вычислений.

В целом, когда мы говорим о более умных агентах, мы находимся в ситуации, которую мы можем назвать «неуверенностью Винджа» в честь доктора Вернора Винджа. Чтобы точно предсказать, какой ход совершит современный шахматный алгоритм, вам надо быть настолько же хорошим шахматистом самому. Потому что вы могли бы просто совершать такие ходы, которые вы предсказываете для шахматного алгоритма, и играть на его сверхчеловеческом уровне самостоятельно.

Это не означает, что вы не можете буквально ничего предсказать о современном шахматном алгоритме: вы можете предсказать, что он выиграет игру в шахматы, если играет с человеком. Пока интеллект агента в области растёт, наша неуверенность движется в двух разных направлениях. Мы становимся менее способны в точности предсказывать действия и стратегию агента в тех случаях, когда оптимальные действия и стратегия нам неизвестны. Мы становимся более уверены, что агент достигнет исхода, высоко стоящего в его предпочтениях.

Рефлексия Винджа: Нам нужно найти какой-то способ для того, чтобы самомодифицирующейся агент мог создать будущую версию себя с такой же функцией полезности, и достигнуть уверенности в том, что это произведёт хороший эффект на мир, используя абстрактные рассуждения того же вида, которые позволяют нам заключить, что шахматный алгоритм выиграет игру, хоть мы и не знаем, куда он будет ходить.

Знаете ли вы, как это сделать с неограниченной вычислительной мощностью? Знаете ли вы, как установить абстрактное доверие, когда второй агент в каком-то смысле больше первого? Если вы решили эту задачу, то, наверное, вам стоит поговорить со мной после лекции. Она была поставлена несколько лет назад, и привела к нескольким различным путям исследования, которые я вам опишу, но не буду вдаваться в детали.

Slide 58

Вот это был первый: «Замощающие Агенты Самомодифицирующегося ИИ и Лёбианское Препятствие.» Мы попытались построить систему с смехотворно простым контекстом, логикой первого порядка, Старым Добрым ИИ… и напоролись на Гёделево препятствие необходимости того, чтобы агент доверял другому агенту, использующему настолько же мощную математику.

Это тупое препятствие – или, по крайней мере, так тогда казалось. Казалось, что если получить учебник из будущего через 200 лет, то там будет описано, как это преодолеть, в одну строчку.

Slide 59

«Определимость Правды в Вероятностной Логике» – довольно поздняя работа. Она говорит, что мы можем использовать системы математической вероятности, вроде присвоения вероятностей утверждениям в теории множеств, и мы можем получить вероятностный предикат о себе почти идеально.

Мы не можем получить функцию истинности, которая может говорить о себе, но мы можем получить вероятностный предикат, произвольно близко (с точностью в ϵ) приближающийся к тому, чтобы говорить о себе.

Slide 60

«Производящая Доказательства Рефлексия для HOL» – это попытка использовать один из хаков, обходящих Гёделевы проблемы в настоящих доказывальщиках теорем и посмотреть, можем ли мы доказать корректность доказывальщика теорем им самим. Уже были попытки это сделать, но они не были доведены до конца. Мы решили посмотреть, можем ли мы создать настоящих агентов, всё ещё в обстановке логики первого порядка.

Slide 61

«Распределения, Позволяющие Замощение Пошаговых Субъективным Максимизаторов Ожидаемой Полезности» – это я пытаюсь поместить задачу в контекст динамических Байесовских сетей и агентов, для которых предполагается некоторая способность к рефлексии по поводу этих динамических Байесовских сетей, и показать, что если вы максимизируете по шагам – так, что на каждом шагу вы выбираете следующую категорию, которую вы собираетесь максимизировать на следующем – то вы можете получить пошаговый максимизатор, замощающий следующий пошаговый максимизатор.

Другими словами, он создаёт агента с похожим алгоритмом и похожей функцией полезности, как плитки повторяются на полу.


Почему ожидаются сложности?

Почему согласование необходимо?

Зачем всё это делать? Давайте сначала дам очевидный ответ: они не будут согласованы автоматически.

Slide 63

Ортогональность целей: Для любой трактуемой и компактной функции полезности такой, что действительно можно оценить её значение по миру и провести поиск того, что приведёт к её высоким значениям, может существовать произвольно качественный процесс принятия решений, максимизирующий эту функцию полезности. Может существовать максимизатор скрепок. Может существовать максимизатор алмазов. Можно совершать очень мощный высококачественный поиск действий, ведущих к большому количеству скрепок или к большому количеству алмазов.

Инструментальная конвергенция: Более того, по природе конвеквенциализма, при поиске действий, ведущих через мир причинно-следственных связей к финальному исходу, оптимизируете ли вы алмазы или скрепки, ваши краткосрочные стратегии схожи. Добираетесь ли вы до Торонто или до Токио, ваш первый шаг — вызвать Uber до аэропорта. Имеете ли вы функцию полезности «число скрепок» или «как много атомов углерода связаны с четырьмя другими атомами углерода в решётке алмаза», вы в любом случае хотите набрать ресурсы.

Это аргумент инструментальной конвергенции, который на самом деле ключевой и для тезиса ортогональности. Он заявляет, что нужны ли вам скрепки или алмазы, если предположить достаточно хорошую способность отличать, какие действия ведут к большому количеству алмазов или какие действия ведут к большому количеству скрепок, вы автоматически получите следующее: поведение, ведущее к накоплению ресурсов; поведение, состоящее из попыток усовершенствовать своё собственное мышление; поведение заполучения большей вычислительной мощности; поведение избегания выключения; поведение создания других агентов с точно такой же функцией полезности (или просто расширения себя на больший набор «железа» и создания «фабрики» агентности). То, пытаетесь ли вы добраться до Торонто или до Токио, не особо влияет на первые шаги вашей стратегии, и, неважно, скрепки или алмазы, у нас есть конвергентные инструментальные стратегии.

Это не значит, что у агента теперь есть новые независимые цели, вы же, когда хотите добраться до Торонто не говорите: «Мне нравится вызывать Uber, я буду много вызывать Uber вне зависимости от того, позволит ли мне это добраться до Торонто». Это так не работает. Конвергентны стратегии, не цели.

Почему согласование сложно?

Почему эта задача сложна? Это не риторический вопрос. Предполагается, что какие бы люди ни принимались за создание ИИ, они естественно попробуют направить его в относительно хорошую сторону. Они не собираются сделать злой ИИ. Они не хихикающие злодеи. С чего же мы взяли, что их попытки согласовать ИИ провалятся, если они просто сделают всё возможное?

Сейчас будет басня. Она не предполагается самым вероятным исходом. Я просто использую её как конкретный пример, чтобы потом объяснить более абстрактные концепции.

Итак: что будет, если программисты создадут сильный искусственный интеллект, оптимизирующий улыбки? Улыбки – это хорошо, верно? Улыбки происходят, когда случается что-то хорошее.

В фазе разработки этого сильного искусственного интеллекта, единственным доступным ему вариантом создания улыбок было делание людей вокруг него счастливыми и удовлетворёнными. ИИ казался оказывающим благотворный эффект на мир, и пока что действительно его оказывал.

Теперь программисты проапгрейдили код. Добавили «железа». Сильный искусственный интеллект стал умнее. Теперь он может оценивать более широкое пространство вариантов стратегий – не обязательно потому, что у него есть новые моторы или новые манипуляторы, но потому, что он теперь достаточно умён, чтобы предсказать эффект менее явных стратегий. Он говорит: «Я придумал отличный способ создавать улыбки! Могу я вводить людям героин?» А программисты говорят: «Нет! Мы добавим в твою функцию полезности специальный штраф за ввод людям наркотиков.» И теперь СИИ снова выглядит работающим хорошо.

Они улучшают СИИ дальше. СИИ соображает, ОК, он больше не хочет вводить людям героин, но он всё ещё хочет исказить ваши мозги, чтобы они выделяли крайне большое количество эндогенных опиатов. Это же не героин, верно?

Ещё он теперь достаточно умён, чтобы смоделировать психологию программистов, по крайней мере в общих чертах, и понимает, что это не то, чего они хотят. «Если я начну предпринимать начальные действия, выглядящие так, будто они ведут к генетически подправленным мозгам, выделяющим эндогенные опиаты, мои программисты отредактируют мою функцию полезности. Если они отредактируют функцию полезности будущего меня, то я получу меньше своей нынешней полезности.» (По умолчанию это одна из конвергентных стратегий: защищать свою функцию полезности) Так что он не изменяет своё внешнее поведение. Может, программисты теперь в восторге, потому что СИИ, кажется, правильно разобрался с новыми моральными вопросами – что бы они не делали – он работает правильно!

Если вы принимаете основной тезис об интеллектуальном взрыве, то можно предположить, что сильный искусситвенный интеллект заходит за порог, где он становится способен на такие же усовершенствования своего кода, которые раньше делали программисты, что приводит к тому, что он становится ещё умнее и способнее на дальнейшие усовершенствования, и так далее … или компанию приобретает Google, потому что их результаты поистине замечательны, и коду предоставляют 100,000 GPU, чтобы дальше улучшить его когнитивный уровень.

Он становится ещё умнее. Мы можем предположить, что он становится достаточно умён, чтобы решить задачу предсказания структуры белков, а в этом случае он может использовать существующие рибосомы для сборки спроектированных им белков. Эти белки составляют новые рибосомы, новые энзимы, проводят маленькие химические эксперименты, выясняют, как создать бактерию из алмаза, и так далее, и так далее. В этот момент, если вы ещё не решили проблемы выключателя, вам конец.

Абстрактно, что в этой гипотетической ситуацией идёт не так?

Slide 82

Первая проблема – это краевое воплощение: оптимизируя что-то достаточно сильно, вы будете склонны оказываться на краю пространства решений. Если ваша функция полезности подсчитывает улыбки, то простой оптимальный способ сделать много-много улыбок – это сделать их как можно более маленькими. Может, в итоге, вы замостите все галактики в области досягаемости маленькими молекулярными улыбающимися лицами.

Если вы достаточно сильно оптимизируете, то вы оказываетесь на странном краю пространства решений. СИИ, созданный для оптимизации улыбок, создающий крохотные молекулярные улыбающиеся лица, не ведёт себя извращённо. Он вас не троллит. Это то, что происходит естественным путём. Это кажется странным извращённым концептом улыбок, потому что его оптимизировали на край пространства решений.

Slide 83

Следующая проблема – это непредвиденное воплощение: вы не можете думать достаточно быстро, чтобы проводить поиск по всему пространству возможностей. На раннем саммите по сингулярности Юрген Шмидхубер, который одним из первых работал над самомодифицирующимися агентами, сохраняющими свою функцию полезности с помощью машины Гёделя, ещё и решил задачу дружественного ИИ. Да, он составил единственную истинную функцию полезности, которую всего лишь надо запрограммировать в СИИ!

(Ради Бога, не пытайтесь сделать это сами. Все это делали. У всех их получились разные функции полезности. Они всегда ужасны.)

Его единственная истинная функция полезности была «увеличивать сжатие данных об окружении». Поскольку наука увеличивает сжатие данных об окружении: если вы лучше понимаете науку, то вы можете лучше сжать то, что вы наблюдаете в окружении. Искусство, согласно ему, тоже способствует лучшему сжатию окружения. Я пришёл на сессию вопросов и ответов и сказал: «Да, наука позволяет вам лучше сжимать данные об окружении, но, знаете, что действительно максимизирует вашу функцию полезности? Создание чего-то, что зашифровывает потоки нулей и единиц криптографическим ключом и выдаёт вам ключ».

Он выдал функцию полезности; вот её максимум. Внезапно раскрывается криптографический ключ, и то, что, как вы думали, было длинным потоком случайно выглядящих единиц и нулей сжимается до потока одних единиц.

Вот что происходит, когда вы пытаетесь заранее предвидеть, какой будет максимум. Ваш мозг, скорее всего, отбросит кучу всего, что выглядит смехотворно или странно, и что не стоит высоко в вашем порядке предпочтений. Вы не увидите, что настоящий оптимум функции полезности опять оказался в странном углу пространства решений.

Это не проблема глупости. Это проблема того, что «ИИ проводит поиск по большему пространству стратегий, чем можете вы, или даже просто по другому пространству стратегий».

Slide 84

Это, в свою очередь, центральное явление, приводящее к тому, что можно назвать контекстным бедствием. Вы тестируете ИИ в отдельной фазе разработки. Кажется, что есть хорошая статистическая уверенность в том, что результаты запуска ИИ будут благотворны. Но статистические гарантии перестают работать, когда вы начинаете вытаскивать шары из другой бочки. Я вытаскиваю шары из бочки номер один, составляю выборку с заменами, и получаю некоторую смесь белых и чёрных шаров. Потом я тянусь к бочке номер два и «Воу! Что тут делает зелёный шар?». Ответ в том, что бочка-то другая.

Когда ИИ становится умнее, вы начинаете тянуть из другой бочки. Ему никто не мешает быть полезным во время первой фазы и не полезным во время второй. Любые гарантии того, что вы получите, не могут быть выведены из статистических наблюдений поведения ИИ, когда он не был умнее вас.

Slide 86

Ближайшая незаблокированная стратегия – это то, что может систематически происходить так: «ОК. ИИ молод. Он начинает думать об оптимальной стратегии X – вводу людям героина. Мы пытаемся ввести штраф, чтобы заблокировать это нежелательное поведение, чтобы он вернулся к стратегиям, вызывающим улыбки нормальным образом. ИИ становится умнее, и пространство стратегий расширяется. Есть новый максимум, который чуть-чуть избегает вашего определения героина, вроде эндогенных опиатом, и он выглядит очень похоже на предыдущее решение». Это кажется особенно вероятным, если вы пытаетесь наложить на ИИ заплатку, а потому сделать его умнее.

Из-за такого рода трудностей все задачи согласования ИИ не сводятся к «Приделаем заплатку, чтобы это предотвратить!». Результат будет такой, что если ваша система принятия решений выглядит как функция полезности и пять заплаток, предотвращающих взрыв, то это всё равно взорвётся вам в лицо, когда станет умнее. Этого не избежать. Но это будет выглядеть, будто пока что всё работает.

Центральная причина беспокоиться о согласовании ИИ, а не просто ожидать, что оно будет решено автоматически – всё выглядит так, что есть принципиальные причины, по которым если вы просто хотите, чтобы ваш СИИ работал сегодня и выдавал не катастрофическое поведение сегодня, то всё точно взорвётся, когда вы сделаете его умнее. Краткосрочные стимулы не согласованы с долгосрочной пользой. (Те из вас, кто обучался экономике, сейчас паникуют.)

Все эти предполагающиеся сложности согласования ИИ меняют отношение к понятию способностей ИИ.

Некоторые постулированные бедствия полагаются на абсолютные способности. Способность понять, что есть программисты, и что если ты продемонстрируешь поведение, которого они не хотят, то они могут попробовать модифицировать твою функцию полезности – это далеко за пределами того, что могут делать ИИ на сегодняшний день. Если вы думаете, что вся разработка ИИ не дойдёт до человеческого уровня, то вы можете не ожидать, что ИИ когда-нибудь дойдёт до того, чтобы исполнять такой вид стратегического поведения.

Преимущество способностей: если вы не думаете, что СИИ может стать умнее людей, то вы не будете волноваться о том, что он станет слишком умён, чтобы его выключить.

Быстрый рост: если вы не думаете, что рост способностей может произойти быстро, то вы не будете волноваться о сценарии бедствия, в котором вы внезапно просыпаетесь, а выключать ИИ слишком поздно, и у вас не было длинной красивой цепочки ранних разработок, предупреждающих вас о том, что вы к этому близки, и что вам стоит наконец начать работать над согласованием ИИ1 …

Хочу отметить, что большинство людей считает часть про быстрый рост самой спорной из этого, но вовсе не обязательно, что именно на неё полагается большинство вариантов бедствий.

Абсолютные способности? Если мозги – не магия, то мы можем до этого добраться. Преимущество способностей? «Железо» в моём черепе не оптимально. Оно посылает сигналы на милионной доле скорости света, работает на частоте в 100 Гц, и даже рассеивание тепла (одно из того, в чём биология блистает) за каждую синаптическую операцию в 500,000 раз больше термодинамического минимума расхода энергии на бинарную операцию. Мы точно можем получить «железо» в миллион раз лучше мозга, без вопросов.

(А ещё есть софт. Софт ужасен.)

Посыл такой: согласование ИИ сложное, как сложны ракеты. Когда вы подвергаете большому стрессу алгоритм, пытаясь запустить его на уровне умнее-человека, может начать ломаться то, что не ломалось, пока вы просто обучали робота ходить по комнате.

Оно сложное, как сложны космические зонды. У вас есть только одна попытка. Если что-то пошло не так, то система может быть слишком «высоко», чтобы вы могли до неё дотянуться и её починить. Вы можете встроить в неё механизмы исправления ошибок; космические зонды предполагают получение обновлений софта. Если что-то пошло не так таким образом, что предотвратило будущие обновления, это конец. Вы потеряли зонд.

И оно сложное, примерно, как сложна криптография. Ваш код – не интеллектуальный противник, если всё идёт как надо. Если что-то пошло не так, то он может попробовать одолеть ваши защитные барьеры – но нормальные предполагаемые операции не должны включать то, что ИИ проводит поиск путей одолеть ваши барьеры, даже если вы ожидаете, что поиск ничего не обнаружит. Я думаю, на самом деле полностью правильно сказать, что ваш ИИ должен быть спроектирован так, чтобы не допустить провала в случае, если он внезапно станет Богом – не потому, что он внезапно станет Богом, а потому, что если он не безопасен в таком случае, значит он в каком-то смысле проводит поиск вариантов стратегий, которые навредят вам, если он их найдёт, а использовать для этого свой код тупо.

Более обобщенно: мы прикладываем к системе сильное оптимизационное давление. Это более-чем-обычно склонно приводить систему к некоторому эквиваленту переполнения буфера, к операциям за пределы желательных ограничений системы.

Уроки от НАСА и криптографии

Согласование ИИ: думайте об этом как о криптографическом ракетном зонде. Ожидайте, что примерно настолько сложно создать что-то умнее вас, так, чтобы оно хорошо себя вело, при учёте того, что основная теория агентов говорит, что оно не будет автоматически хорошо себя вести, и не умереть. Интуитивно ожидайте, что это будет сложно.

Воспримите это серьёзно. Не ожидайте, что это будет легко. Не пытайтесь решить всю задачу разом. Не могу описать, насколько это важно, если вы хотите вовлечься в эту область. Вы не решите всю задачу. В лучшем случае вы придумаете новый улучшенный способ переключаться между нормальной функцией полезности и функцией полезности прерывания, который проваливается позже и кажется концептуальным прогрессом на пути к цели – это не буквально лучший вариант, но это то, на что вам стоит себя настраивать.

(… И, если вы попытаетесь решить задачу, не пытайтесь сделать это составлением единственной истинной функции полезности, которую всего лишь надо запрограммировать в ИИ.)

Не откладывайте размышления на потом. Такая работа занимает время. Когда вы видите в учебнике страницу с уравнением, а затем слегка модифицированную версию уравнения, и слегка модифицированная версия ссылается на что-то на десять лет позже, то это означает, что на лёгкую модификацию ушло десять лет. Я был бы в экстазе, если бы мне сказали, что ИИ не появится ещё восемьдесят лет. Это бы означало, что у нас есть осмысленное время, чтобы выстроить основную теорию.

Кристаллизуйте идеи и стратегии, чтобы другие могли их критиковать. Это другой повод спрашивать: «Как бы я это сделал с использованием неограниченной вычислительной мощности?». Если вы машете руками и говорите: «Ну, может быть мы можем применить этот алгоритм машинного обучения и тот алгоритм машинного обучения, и результат будет бла-бла-бла», то никто не сможет убедить вас, что вы ошибаетесь. Когда вы работаете с неограниченной вычислительной мощностью, вы можете сделать идеи достаточно простыми, чтобы люди могли поместить их на доске и сказать «Ошибка», и у вас не было иного выбора кроме как согласиться. Это неприятно, но это один из способов, как в этой области делается прогресс.

Другое дело, если вы можете действительно запустить код; тогда область тоже сделает прогресс. Но в большинстве случаев вы можете не иметь возможности запустить код интеллектуального думающего самомодифицирующегося агента в ближайшем будущем.

Над чем люди работают сейчас? Я быстро пройдусь по этой теме. (обратите внимание, что это лекция 2016-го года, что-то могло утратить актуальность. Также имейте в виду, что я не изучал все статьи по ссылкам, так что некоторые названия могут быть переведены не вполне корректно — прим. пер.)


Где мы сейчас (в 2015 году — прим. пер.)

Недавние темы

Slide 100

Безразличие к Полезности: это про переключатель между двумя функциями полоезности.

См. Соарес и пр., «Исправимость»

Slide 101


Агенты с низким воздействием: это про «Как измерить воздействие, если не Евклидовой метрикой?»

См. Армстронг и Левинштейн «Искусственные Интеллекты с Сниженным Воздействием»

Slide 102


Идентификация неоднозначности: это про «Заставить СИИ спросить вас, ОК ли вводить людям эндогенные опиаты, а не сразу же это делать». Если ваш ИИ внезапно стал Богом, то один из концептуальных способов, с которых можно начать подбираться к задаче это «Не исполняй никаких новых открытых вариантов, если не получил некое их одобрение.»

См. Соарес, «Задача Изучения Ценностей»

Slide 103


Консерватизм: это часть подхода к задаче буррито: «Чёрт побери, просто сделай мне буррито!»

Если я выдам вам пять примеров буррито, то я не хочу, чтобы вы стремились к простейшему способу отличать буррито от не-буррито. Я хочу, чтобы вы придумали способ классифицировать пять буррито и нисколько не-буррито, покрывающий как можно меньше положительных примеров, но всё же имеющий достаточно пространства вокруг положительных примеров, чтобы ИИ мог сделать новый буррито, но не молекулярно идентичный предыдущим.

Это консерватизм. Это потенциально может быть ядром белосписочного подхода к СИИ, где вместо того, чтобы не делать то, что мы внесли в чёрный список, мы расширяем способности ИИ, внося новые штуки в белый список так, чтобы он не мог внезапно покрыть очень много территории. См. Тейлор, Консервативные Классификаторы.

Slide 104

Определение целей в окружении с использованием сенсорных данных: это часть проекта «Что если продвинутые алгоритмы ИИ будут похожи на современные алгоритмы машинного обучения?». Над этим мы стали работать относительно недавно, отреагировав на некоторые события (то, что алгоритмы машинного обучения внезапно стали казаться более толковыми).

Многие современные алгоритмы, можно сказать, отталкиваются от сенсорных данных, но если вы представить СИИ, то вы не хотите, чтобы он производил изображения успеха. Вы хотите, чтобы он рассуждал о причинах своих сенсорных данных – «Что заставляет меня видеть эти конкретные пиксели?» – и вы хотите, чтобы его цели касались этих причин. Как адаптировать современные алгоритмы и начать говорить: «Мы поощряем систему преследовать эту цель в окружении, а не ту цель, которую можно сформулировать в терминах непосредственных сенсорных данных»? См. Соарес, «Формализация Двух Задач Реалистичных Моделей Мира».

Slide 105

Обратное обучение с подкреплением – это «Посмотри на другого агента; выведи, чего он хочет».

См. Эванс и пр., «Выучивание Предпочтений Ограниченных Агентов».

Slide 106


Основанные-на-действии агенты – это совершенно другой замечательный подход к созданию хорошего ИИ от Пола Кристиано. Я бы сформулировал это так, что он пытается декомпозировать всю задачу «хорошего СИИ» на обучение с учителем имитации человеческих действий и ответов. Вместо того, чтобы сказать: «Как я могу провести поиск по этому шахматному дереву?» Пол Кристиано сказал бы «Как я могу сымитировать людей, смотрящих на других имитированных людей, рекурсивно ищущих по шахматному дереву, выбирая лучший ход на каждом шагу?»

Это очень странный способ смотреть на мир, а, следовательно, очень интересный. Я не ожидаю, что это и впрямь сработает, но, с другой стороны, он работает над этим лишь пару лет; мои идеи, когда я над ними столько работал, были куда хуже. См. Кристиано, Основанные-на-Действии Агенты.

Slide 107

Умеренная оптимизация – это некий общий способ сказать: «Не оптимизируй свою функцию полезности слишком сильно. Сойдёт и просто наполнить котёл».

См. Тейлор, «Квантилизаторы».

Более старые работы и основы

Slide 108

Некоторые предыдущие работы: AIXI – идеальная начальная точка в нашей области. Это ответ на вопрос «Как бы вы сделали сильный искусственный интеллект при наличии неограниченной вычислительной мощности?»

Если вы не знаете, как ответить на этот вопрос, см. Хаттер, «Универсальный Алгоритмический Интеллект».

Slide 109


Замощающие агенты уже рассмотрены.

См. Фалленштейн и Соарес, «Рефлексия Винджа».

Slide 110

Кооперация программных агентов: это по-настоящему интересная вещь, которой мы занимались, но чью мотивацию не так просто объяснить. Использующие академически доминирующей версия теории принятия решений – каузальной – не создают других следующих ей. Мы пытались выяснить, какая у этого свойства стабильная версия и получили кучу замечательных результатов, вроде такого: мы теперь можем запихнуть двух агентов в игру в духе дилеммы заключённого, чтобы агент A пытался доказывать утверждения об агенте B, который в то же время пытается доказать утверждения об агенте A, и они в итоге кооперируют в дилемме заключённого.

У этого есть работающий код, так что мы на самом деле можем составлять новых агентов. Есть агент, который кооперирует с тобой в дилемме заключённого, если он доказывает, что ты будешь кооперировать с ним – FairBot, но FairBot имеет слабость – он кооперирует с CooperateBot, который просто кооперирует всегда. Так что есть ещё PrudentBot, который предаёт DefectBot, предаёт CooperateBot, кооперирует с FairBot и с собой. См. ЛаВиктойр и пр., «PПрограммное Равновесие в Дилемме Заключённого при Помощи Теоремы Лёба» и Критч, «Параметрическая Ограниченная Теорема Лёба и Устойчивая Кооперация Ограниченных Агентов».

Slide 111

Рефлексивные Оракулы – это про рандомизированную версию доказывальщика проблемы остановки, которая может делать заявления о себе, и которую мы использовали, чтобы вывести принципиальные утверждения про ИИ, симулирующих других ИИ, и получить интересные новые результаты в классической теории игр.

См. Фалленштейн и пр., «Рефлексивные Оракулы».

Где начать

(Опять же, лекция 2016 года, не всё актуально, не все ссылки работают – прим. пер.)

Где вы можете над этим работать?

Институт Исследования Машинного Интеллекта в Беркли: Мы независимые. Нас поддерживают индивидуальные спонсоры. Это означает, что у нас нет странных требований про бумажки и всякого такого. Если вы можете продемонстрировать свою способность продвигать прогресс решения этих задач, то мы вас наймём.

Институт Будущего Человечества – часть Оксфордского Университета. У них немного больше требований.

Стюарт Расселл начинает программу и разыскивает постдоков в этой области в Университете Беркли. Опять же, некоторые традиционные академические требования.

Леверхульм CFI (Центр Будущего Интеллекта) обосновывается в Кембридже, Великобритания, и тоже в процессе найма.

Если вы хотите работать в частности над низким воздействием, то можете поговорить с Дарио Амодеем и Крисом Олахом. Если вы хотите работать над основанными-на-действиях агентами, то можете поговорить с Полом Кристиано.

В целом, пишите на contact@intelligence.org, если вы хотите работать в этой области и хотите знать «Куда мне пойти представляться? С кем я на самом деле хочу работать?».

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s

%d такие блоггеры, как: