HCH и состязательные вопросы

Перевод текста Дэвида Уделла. (Оригинал)

***

Я написал эту статью во время своей докторантуры, в попытках больше узнать об исследовании согласования и приблизится к нему. Основная цель тут – выстроить и очистить своё понимание IDA.

Особые благодарности Даниэлю Кокотайло за его менторство, и Михаэлю Браунштейну, Эрику Швицгебелю, Эвану Нубинжеру, Марку Ксу, Вильяму Сондерсу и Аарону Гертлеру за обратную связь!

Введение

Повторяемые Развитие и Дистилляция (Iterated Amplification and Distillation, IDA) (Кристиано, Шлегерис и Амодей, 2018) – это исследовательская программа в теории технического согласования ИИ (Бостром 2003, 2014; Юдковский 2008; Рассел 2019; Нго 2020). Это предложение того, как создать алгоритм машинного обучения, преследующий человеческие цели, чтобы мы могли рассчитывать на то, что очень мощные ИИ-системы ближайшего будущего будут преследовать те цели, какие мы хотим, став намного способнее нас.

IDA делает это с помощью создания эпистемически идеализированной модели конкретного человека-исследователя. Для этого оно должно ответить на вопрос о том, что в точности означает «эпистемическая идеализация». Ответ IDA заключается в том, что эпистемически идеализированная версия кого-либо – это произвольно большое количество копий этого кого-то, рассуждающих в определённом исследовательском духе, каждая копия рассуждает довольно небольшое время, и все они работают вместе для исчерпывающего исследования заданного вопроса. В иерархии исследовательских моделей заданные вопросы разделяются на все имеющие значения под-вопросы, а полученные на под-вопросы моделями ответы собираются в итоговый ответ. В конце концов, модель способна увидеть, каковы были бы все относящиеся к делу мысли при ответе на любой вопрос, если бы мы посвятили время на их продумывание. Эпистемическая идеализация означает способность взглянуть на все линии рассуждений, которые были бы подуманы, если бы на это было время.

Беспокойство по поводу IDA – что могут существовать такие под-вопросы, что встреча модели из иерархии с ними приведёт к (радикальному) пересмотру целей этой модели. Если не все модели иерархии разделяют общий набор целей, то нет гарантии, что выводы иерархии – продукт только согласованных с этими целями рассуждений. Придётся беспокоиться о том, что части иерархии попробуют манипулировать исходом, выборочно модифицируя свои ответы. (Как пример, можно рассмотреть вопрос, содержащий убедительное доказательство того, что рассматривающий его исследователь подвергнется вечным мукам, если не ответит на него какое-то конкретное X.) Риск встречи с этими вопросами возникает, потому что иерархия стремится просмотреть огромный диапазон относящихся к делу под-вопросов, и потому что она может запустить под-процессы, которые будут скармливать ей манипулятивные вопросы. Я считаю, что это реальная проблема, но надлежащие архитектурные изменения могут её исправить.

Я обосную это, сначала объяснив IDA, и интуитивно, и более технически. Затем я рассмотрю класс состязательных вопросов, которые могут нарушить согласованность целей в иерархии моделей IDA. Наконец, я объясню архитектурные модификации, разрешающие проблему состязательных вопросов.

Бесконечная Исследовательская Иерархия

В контексте IDA эту потенциально бесконечную иерархию исследовательских моделей называют «HCH» (рекурсивная аббревиатура для «Humans Consulting HCH»/«Люди, Консультирующиеся с HCH») (Кристиано 2016, 2018). Имеет смысл начать с интуитивной иллюстрацией HCH, и лишь потом перейти к деталям из машинного обучения. Мы сделает это, представив сверхъестественную структуру, реализующую HCH безо всякого машинного обучения.

Представьте аномальную конструкцию, снаружи выглядящую обычным одноэтажным университетским зданием. У входа расположен вестибюль, у задней стены – исследовательская область; эти две зоны полностью разделены за исключением одного самозапирающегося коридора. Исследовательская область содержит несколько отделённых ниш для чтения и работы, наполненную книгами библиотеку, мощный компьютер с необходимым для исследований софтом (но без доступа к Интернету), небольшую офисную кладовую и туалеты. Ещё через здание проходят старые, но в хорошем состоянии, трубы пневмопочты. Одна пара труб (на отправку и на получение) заканчивается в вестибюле здания, а ещё две пары – в маленькой почтовой комнате в исследовательской области. Остальная система уходит куда-то за потолок и стены.

Когда один исследователь проходит в исследовательское крыло, дверь за ним закрывается и запирается, и он получает вопрос снаружи с помощью пневмопочты, проявляются аномальные свойства здания. С точки зрения вошедшего человека, когда дверь коридора запирается, она остаётся запертой на несколько часов, прежде, чем разблокироваться снова. Включается пневмопочта, и из почтовой комнаты становится возможно отправлять вопросы. После отправки вопроса по пневмопочте сразу же приходит ответ, написанный почерком самого исследователя. Каким-то образом при соблюдении указанных выше условий здание создаёт много копий исследователя и исследовательской области, по копии на каждый отправленный вопрос. Каждая копия испытывает невероятно ускоренное субъективное время по сравнению с местом, откуда её послали вопрос, так что кажется, что ответ приходит сразу же. И все эти копии сами способны создавать копии, посылая им вопросы с помощью пневмопочты. По прошествии нескольких субъективных часов исследователь верхнего уровня отправляет по пневмопочте свой ответ в вестибюль и выходит из исследовательской области. Для него прошли часы, но с точки зрения вестибюля исследователь вернулся сразу же после того, как зашёл.

Некая организация, обладающая значительными ресурсами, приобрела это здание и открыла его аномальные свойства. Осознав его потенциал как исследовательского инструмента, они аккуратно выбрали из своих рядов исследователя, чтобы послать его в эту структуру. Таким образом организация обеспечивает существование потенциально бесконечно глубокой иерархии копий этого исследователя. Исходный исследователь составляет самый высокий уровень иерархии, он вызывает существование некоторого количества узлов второго уровня, и так далее. Организация передаёт интересующий её исследовательский вопрос исследователю верхнего уровня с помощью пневмопочты. Затем этот исследователь отвечает на вопрос так хорошо, как может, по необходимости делегируя исследовательскую работу низлежащим узлам. В свою очередь, эти узлы могут посылать вопросы узлам более низких уровней, и так далее. Сложные исследовательские вопросы, которые могли бы потребовать многих карьер исследовательской работы, могут получить немедленный ответ, если послать их этой иерархии; более сложные вопросы попросту декомпозируются на большее количество под-вопросов, каждым из которых занимается отдельная копия исследователя. С точки зрения исследователя верхнего уровня, он получил вопрос, разбил его на важные под-вопросы. Он послал эти под-вопросы исследователям второго уровня, и немедленно получил в ответ именно то, к чему он бы пришёл, рассматривая эти вопросы настолько долго, насколько ему бы потребовалось, чтобы на них ответить. Он читает полученные ответы и использует их для ответа на свой вопрос. Используя эту структуру и аккуратно выбирая исследователя внешняя организация немедленно получает ответ на произвольный переданный вопрос.

Для внешней организации, независимо от её целей, доступ к этому аномальному зданию крайне ценен. Она способна немедленно получать ответы на произвольные интересующие вопросы, включая слишком сложные, чтобы получить ответ на них, затратив на этой целую карьеру, или вопросы, на которые пока что никто не отвечал. С точки зрения организации внутреннее устройство этой исследовательской иерархии сравнительно неважно. Её можно воспринимать как идеализированную, параллельно и последовательно повторённую, версию человека-исследователя, туда посланного. Если бы этот исследователь мог думать произвольно быстро и мог бы вести произвольно много линий исследований, то он бы сам вернул тот же ответ, что и бесконечная иерархия его копий. Доступ к идеализированному мыслителю в форме такой структуры выдал бы ответы на любой интересующий научный, математический или философский вопрос и позволил бы спроектировать любую возможную технологию. Даже конечный вариант такой иерархии, с ограничением на количество создаваемых копий, всё равно мог бы ответить на много важных вопросов и спроектировать много полезных технологий.

Повторяемые Развитие и Дистилляция – схема создания (конечной) версии такой исследовательской иерархии с использованием машинного обучения. В контексте IDA такая иерархия называется «HCH». Чтобы понять реализацию HCH с помощью машинного обучения, мы сперва взглянем на относящиеся к делу тему в согласовании целей в машинном обучении. Затем мы пройдёмся по процессу, с помощью которого можно использовать мощные модели машинного обучения для построения HCH, и взглянем на его свойства, важные для согласования.

Внешнее и Внутреннее Согласование в Машинном Обучении

Машинное Обучение – двухэтапный процесс. Сначала команда разработчиков настраивает обучающую процедуру, с помощью которой они будут получать модели. Затем, они заявляют эту (вычислительно затратную) обучающую процедуру, и оценивают сгенерированные модели. Обучающая процедура – лишь средство для получения финальной модели; это модель представляет из себя полезный для решения поставленной задачи софт.

Поэтому мы можем разделить задачу согласования целей модели в машинном обучении на две части. Система внешне согласована, если команда разработчиков успешно спроектировала обучающую процедуру, отражающую их цели касательно модели, формализованные в целевой функции, согласно которой оцениваются модели в процессе обучения (Хубинжер и пр., 2019). Система внутренне согласована, если получившаяся модель успешно усвоила целевую функцию, использовавшуюся при обучении. (Хубинжер и пр., 2019). Мощная модель будет преследовать цели своей команды разработчиков, если она согласована и внутренне и внешне.

К сожалению, многие из вещей, которые нам хочется от моделей, крайне сложно формализовать в качестве целевых функций (Бостром, 2014). Есть задачи, удобно преподносимые машинному обучению. Клики-на-рекламные-объявления – уже довольно хорошо формально описанная цель, так что максимизация кликов была бы «простой» задачей для встраивания в обучающую процедуру модели, генерирующей объявления. Но предположим, что мы хотим, чтобы мощная модель помогала нам в преследовании целей нашей группы с учётом всех обстоятельств, в максимизации нашего процветания с нашей собственной точки зрения. В таком случае есть хорошие теоретические поводы считать, что никакой целевой функции мы не найдём (Юдковский, 2007). Внешнее согласование – задача разработки обучающей процедуры, отражающей наши цели касательно модели, даже когда эти цели очень сложны.

Внутреннее согласование же касается связи между обучающим алгоритмом и моделью, которую он создаёт. Даже по прошествии достаточного времени обучения и поиска по пространству моделей, чтобы сгенерировать явно успешную модель, нет уверенности, что она преследует именно ту целевую функцию, которая использовалась при обучении. Вместо этого модель может преследовать целевую функцию, схожую с нужной при обучении, но расходящуюся с ней за пределами обучающего распределения. К примеру, предположим, мы обучили мощную модель, генерирующую рекламные объявления, схожие с теми, примеры которых мы ей показали. Она создаёт рекламу, напоминающую ту, что была в её обучающих данных. Но уловила ли она притягивающие взгляд характеристики этих объявлений, причину, по которой мы обучили её на этих примерах? Вполне возможно, что модель прошла обучение хорошо, но вынесла неверный урок. Модель может вести себя вроде художника, уловив некую (коммерчески неважную) эстетическую черту, которую разделяли все примеры. После развёртывания этой модели станет ясно, что она не обобщила так, как нам хотелось – не распространила нужную функцию с обучающих данных на все случаи. Задача внутреннего согласования – удостовериться, что наша обучающая процедура правильно подействовала на созданные ей модели, что модели, прошедшие обучение, правильно переняли его целевую функцию.

IDA и HCH

(Название «HCH» – рекурсивная аббревиатура, обозначающая «Люди, Консультирующиеся с HCH». Если продолжить заменять «HCH» на «Люди, Консультирующиеся с HCH», то в пределе получится бесконечно длинное выражение «Люди, Консультирующиеся с (Люди, Консультирующиеся с (Люди, Консультирующиеся с (Люди, Консультирующиеся с…» Как мы увидим, структура HCH соответствует названию.)

IDA – в первую очередь и в основном – решение внешнего согласования; это процедура обучения, содержащая наши цели для модели, формализованные как функцию цели, какими бы эти цели ни были. HCH – модель, которую производит процедура IDA (если всё идёт по плану). Более конкретно, HCH – это модель машинного обучения, отвечающая на произвольно сложные вопросы так, как ответил бы эпистемически идеализированный человек. Когда он разделяет наши цели, их разделяет и HCH, что приводит к согласованности с программистами. Чтобы понять, как выглядит HCH в машинном обучении, полезно пройтись по процессу развития и дистилляции, создающем HCH.

Предположим, в какой-то момент в ближайшем будущем, у нас появится доступ к мощным инструментам машинного обучения, и мы захотим создать с их помощью «бесконечную иерархию исследователей». Как нам это сделать? Представьте, как человек в комфортном для исследований окружении работает над произвольным исследовательским вопросом, который мы ему выдали. Ввод для этого человека – вопросы, а вывод – ответы, которые он в итоге создаёт. Мы можем собрать пары вопросов и ответов. Этот набор пар – наши обучающие данные. Они подразумевают функцию из множества всех возможных вопросов Q в множество всех возможных ответов A.

f0: Q→A

Это функция из вопросов в ответы, которую наш исследователь исполняет при своей работе. Теперь мы обучаем на этих данных модель, задача обучения – восстановить f0 по данным. Заметим, что наш исследователь реализует f0 с помощью одного когнитивного алгоритма, тогда как наша модель практически наверняка использует другой алгоритм. IDA фиксирует функцию из вопросов в ответы, но просматривает пространство многих алгоритмов, которые могут её реализовывать. Пользуясь доступом к мощным инструментам машинного обучения, мы теперь клонировали функцию, которую реализует наш исследователь. Раз эта функция у конкретного человека включает весь его когнитивный стиль, значит она включает и ответы на вопросы о ценности. Если мы можем быть уверены, что эта функция встроилась в нашу модель, то модель может быть для нас весьма полезной.

Затем ИДР использует вторую разновидность шагов, дистилляцию, чтобы удостовериться, что модель выучила правильную функцию (т.е. оставалась внутренне согласованной). В машинном обучении дистилляцией называется процесс, в котором берётся большая модель и создаётся её урезанная версия, сохраняющая как можно больше её структуры. Эта урезанная модель в общем случае будет менее способна, чем её предок, но её запуск будет вычислительно дешевле. IDA дистиллирует исследовательскую модель в меньшую, более глупую исследовательскую модель. Затем, она просит человека осмотреть этого маленького более глупого клона себя. Он скармливает дистиллированной модели примеры вопросов и использует различные инструменты интерпретируемости, чтобы заглянуть внутрь модели. Сейчас существует, например, визуализация машинного обучения, относительно слабый инструмент. В будущем потребуются инструменты куда более мощные. Если человек подтверждает, что дистиллированная модель правильно уяснила его функцию, то ей копии загружаются на его компьютер и становятся доступны ему как исследовательские инструменты. Шаг дистилляции нужен для того, чтобы исследователь был способен интеллектуально доминировать над моделью, будучи строго более умной её версией, поэтому модель не должна быть способна его перехитрить. Так что дистиллированная исследовательская модель будет внутренне согласована, если этот шаг дистилляции и оценивания прошёл успешно.[1]

Теперь повторим весь процесс. Мы подключаем всю систему к более мощным компьютерам (хоть дистиллированные модели и глупее, мы можем скомпенсировать это, запуская их быстрее и на более долгое время). Мы опять просим человека, теперь обладающего способностью запускать модели-ассистенты, отвечать на вопросы. Так генерируется новый набор обучающих данных. Но в этот раз человек больше не обязан справляться с исследованием самостоятельно; он может декомпозировать каждый вопрос на важные под-вопросы и передать их моделям-ассистентам. Так как они – модели исследователя из первой итерации, они способны ответить на них напрямую и передать ответы обратно. С этими ответами на руках, исследователь теперь может отвечать на большие, более сложные вопросы, ранее потребовавшие бы двухуровневой команды исследователей. Он получает вопросы и создаёт новый набор обучающих данных. Функция, задаваемая этим набором теперь не f0; это функция из вопросов в ответы, которые человек-исследователь сгенерировал бы, если бы имел доступ к помощи команды исследователей-ассистентов, похожих на него. IDA на этом шаге обучает модель функции

f1:Q→A

f1 – сверхчеловечески-сложная функция из вопросов в ответы. Реализующая её исследовательская модель может отвечать на вопросы, на которые не может ответить один человек-исследователь. И f1 остаётся согласована с нашими целями.

Основная идея в том, что, повторяя весь этот процесс, мы можем обучать модели реализовывать всё-более-сверхчеловеческие согласованные функции из вопросов в ответы. Обозначим их как fn, из Q в A, где n обозначает число шагов развития и дистилляции, которые прошла нынешняя система. HCH – гипотетическая модель, к которой мы бы пришли в пределе, продолжая повторять этот процесс. Формально, HCH – модель машинного обучения, реализующая функцию

limn→∞fn

Такова бесконечная исследовательская иерархия, реализованная машинным обучением. Можно представить её как дерево исследовательских моделей, берущее начало в одном узле и многократно разветвляющееся передачей вопросов узлам-потомкам, которые, в свою очередь, разделяют эти вопросы на важные под-вопросы и передают их уже своим узлам-потомкам. Конечные узлы отвечают уже напрямую; до них доходят уже достаточно простые для этого исследовательские вопросы. Затем ответы передаются по дереву обратно и собираются в ответы на вопросы более высоких уровней, что в итоге приводит к получению ответа на изначальный вопрос. Мы получаем из модели ответ, который дала бы эпистемически-идеализированная версия её человека-образца.

Реализуя всё более глубокие версии дерева HCH, мы можем продуктивно преобразовывать сколь угодно много доступных вычислительных мощностей в соответственно большие согласованные исследовательские модели.

Согласованность HCH

HCH обладает выдающимися свойствами, связанными с согласованностью. Во-первых, HCH по сути отвечает на вопросы как человек. Наш исследователь-образец может доверять ответам HCH как своим собственным, если бы он был способен продумать все относящиеся к делу линии рассуждений. Он может и доверять, что HCH разделяет его интересы. Пока мы аккуратно выбираем человека-образца, мы можем быть уверены, что HCH будет разделять его и наши цели, и если наш человек-образец не стал бы вводить нас в заблуждение или манипулировать нами, то это не станет делать и моделирующая его HCH. Во-вторых, HCH избегает проблем классических алгоритмов максимизации целевой функции (Бостром 2014, см. Ланц, 2017 за красочными иллюстрациями). HCH не пытается оптимизировать данную целевую функцию ценой чего угодно, в ней не учтённого. Вместо этого оно делает то, что сделала бы большая компетентная иерархия людей. Оно совершает честную работу, предпринимает серьёзные усилия по обдумыванию поставленной задачи… а затем возвращает ответ и останавливается (Бензинджер, 2021), ведь оно эмулирует поведенческую функцию человека, который тоже хорошо бы поработал и остановился. Мы можем доверять ему отвечать на сверхчеловечески-сложные вопросы так, как могли бы ответить мы, и мы можем доверять ему, что оно прекратит работать, хорошенько их обдумав. Эти две причины делают HCH достойным доверия ИИ-инструментом, способным масштабироваться до произвольно высоких вычислительных мощностей.

Наиболее амбициозный способ применения HCH для исследователей согласования – делегировать ему то, что остаётся от задачи согласования ИИ. HCH – согласованный эпистемически-идеализированный исследователь, обладающий теми вычислительными мощностями, которые нам доступны. Оно уже является по крайней мере частичным решением задачи согласования, ведь это сверхчеловечески-способный согласованный агент. С его помощью уже можно ответить на многие могущие нас заинтересовать вопросы в математике, науке, философии и инженерии – на самом деле, на любой вопрос, на который кто-то могу бы ответить «из кресла», имея доступ к мощному компьютеру, обширной библиотеке и произвольному числу в равной степени компетентных и надёжных ассистентов. Если мы хотим разработать другие согласованные архитектуры ИИ, мы сможем просто попросить об этом HCH, а не мучиться с этой задачей самостоятельно.

Состязательные Примеры и Вопросы

Проблема изложенной выше истории – Состязательные вопросы (Бензинжер, 2021). Они приводят к тому, что реализация описанного выше «наивного процесса IDA» не выдаст согласованную модель. Существование состязательных вопросов означает, что получившаяся модель не обязательно будет достойна доверия, и потенциально может оказаться опасно обманчивой и манипулятивной.

По ходу исследования HCH может встретить вопросы, которые приведут к тому, что части его дерева значительно пересмотрят свои цели. Теперь несогласованные, «Мятежные» части дерева HCH в свою очередь могут попробовать обмануть или как-то ещё проманипулировать узлами выше их, с помощью ответов, которые они передают назад. Чтобы это объяснить, мы сначала представим концепцию состязательных примеров в машинном обучении. Затем мы используем это, чтобы рассуждать о том, как HCH может встретить состязательные вопросы либо естественным путём, «в естественной среде обитания», либо искусственно, потому что какой-то из подпроцессов HCH стал подрывать согласованность дерева.

Когда модель машинного обучения выводит функцию, лежащую в основе набора пар ввода и вывода, выданного ей в качествен обучающих данных, она, по сути, пытается эмулировать структуру, сгенерировавшую эти пары. Эти обучающие данные отражают простой факт о мире – что не все наблюдение равновероятны, некоторые обыденны, а другие редки. Так что существует как-то нетривиально структурированное распределение вероятностей наблюдений, сгенерированное тем или иным механизмом. Пока это распределение при развёртывании моделей остаётся тем же, что и при обучении, модель будет оставаться столь же компетентной. Распределение вероятностей во время обучения и после него остаётся неизменным, если наблюдения порождал один и тот же механизм. Однако, если при развёртывании механизм сменится на какой-то другой, то больше нельзя будет гарантировать неизменность компетентности модели. Модель может испытать сдвиг распределения, она продолжит делать выводы на основе обучающих данных, хотя это больше не подходит к новым наблюдениям.

К примеру, модель могла быть обучена распознавать малозаметные опухоли в костях на рентгеновских снимках. Она выведет, чего от неё хотят, по своим обучающим данным. Если все снимки, которые у неё просили оценить, пришли из одного и того же источника, то достаточное обучение приведёт к тому, что она точно выведет, чем на рентгеновском снимке отличаются здоровые и больные кости. Модель найдёт на предоставленных ей снимках что-то, что разделяет их на «больные» и «здоровые». Однако, нет никакой гарантии, что модель будет использовать те же визуальные признаки, которые для распознания опухолей в костях используют люди. Предположим, что все обучающие данные были сделаны рентгеновским аппаратом исследовательского госпиталя, и у них был один и тот же цвет фона. При развёртывании модель стали применять в другом госпитале с другим рентгеновским аппаратом. Если модель в старом наборе снимков использовала для принятия решений тонкие различия цвета, то новая цветовая схема нового аппарата может ей помешать, и она станет отмечать все снимки как отрицательный (или положительный) результат. Она обнаружила некую корреляцию с опухолями костей для старого набора снимков, но, когда эта конкретная корреляция исчезла, модель осталась беспомощна.

Хуже того, риск сдвига распределения создаёт злонамеренным агентам возможность намеренно испортить работу модели. Злонамеренный субъект, которому известно всё это, мог бы выборочно и незаметно манипулировать цветами на рентгеновском снимке, чтобы направить диагнозы в нужную сторону. Состязательные примеры – это примеры, вводящие модель в заблуждение, потому что они вытащены из нового распределения, в котором старые корреляции не остались в точности такими же. Они могут возникать редко и случайно или надёжно, из-за манипуляций враждебных субъектов.

Аналогия состязательным вопросам HCH – вопросы, которые встречали люди прежде брались из ограниченного распределения. У людей есть ограниченное время на копание в исходном вопросе. А вот у эпистемически-идеализированного мыслителя как раз есть куда больше времени на размышления, и он может обдумывать вопросы из сильно расширенного диапазона. Мы хотим быть уверены, что, когда мы выводим людей из обычного окружения и помещаем в структуру вроде HCH, не создаётся множество возможностей для вмешательств и активной манипуляции путём злоупотребления нашей старой функцией из вопросов в ответы.

Состязательные Вопросы для Людей

HCH эмулирует функцию fn из вопросов в ответы, которую реализовывал бы эпистемически-идеализированный человек-исследователь. В случаях, когда человек-исследователь встретил бы вопрос, приводящий к значительному пересмотру его целей, и заставляющий его работать против HCH, fn повторяет и это поведение. Следовательно, состязательные вопросы – это такие вопросы, которые заставили бы данного исследователя значительно изменить своё мнение о своих целях, достаточно, чтобы он прекратил добросовестно отвечать на вопросы. Если по ходу своей исследовательской работы HCH встретится с такими вопросами, то мы больше не сможем доверять тому, что то, что говорит нам HCH – это то же самое, что сказала бы нам идеализированная версия человека-образца, разделяющая наши цели. Нам бы пришлось беспокоиться о том, что часть того, что говорит нам HCH – результат действий обращённого исследователя, пытающегося обмануть нас или нами манипулировать.

Есть некоторая вероятность, что HCH может встретиться с состязательными вопросами сама по себе, безо всякого враждебного процесса, активно их ей подсовывающего, чтобы направить ответы в какую-то сторону. Хоть они и сравнительно редки, мощные идеи и аргументы подобного рода (приводящие к переоценке целей) существуют «в дикой природе», встречаются в пространстве идей. В дополнение к этому, состязательные вопросы могут прийти из враждебных подпроцессов внутри HCH, пытающихся их сгенерировать. Этот источник куда более беспокоит. Подумайте о разнице между идеологическим обращением из-за чего-то, встреченного при чтении случайных книг из библиотеки, и из-за книг, активно рекомендованным вам враждебным субъектом. При равном количестве книг второй вариант намного вероятнее преуспеет.

Можно представить, что на проводимый HCH поиск по пространству вопросов действуют две «силы». С одной стороны, существуют «пути запросов», приводящие к состязательным вопросам. Некоторые пути запросов более нагружены состязательными вопросами или более вероятно склоняют исследователя к запуску потенциально враждебных подпроцессов, чем другие. Разные области пространства вопросов в разной степени враждебны для согласованных людей-исследователей; некоторые темы более меметически опасны (в этом контексте), чем другие. Анти-согласующая вычислительная «сила» – это степень того, в которой исследование участка пространства вопросов оптимизирует рассогласование человека-исследователя. Как мы увидим, возможны различные модификации наивной арихитектуры HCH, которые могут позволить ему реализовывать более безопасную, более достойную доверия функцию, чем fn. Противостоящая согласующая «сила» – это сумма контрмер, которые мы встроили в архитектуру HCH, чтобы справиться с проблемой состязательных вопросов. Победу какой из этих сил следует ожидать на разных уровнях масштаба HCH (разных значениях n)? Я так понимаю, что Кристиано (2019) интуитивно полагает, что наши направленные усилия должны пересиливать присутствующие в окружении противостоящие оптимизационные силы всё лучше и лучше по ходу масштабирования HCH. Его идя в том, что спроектированные с явной целью модификации HCH будут эффективнее использовать её вычислительную мощность, чем «случайно встреченные» силы окружения. Я думаю, это хороший аргумент, и его хорошо держать в голове думая о (1) том, насколько вероятно, что HCH встретит состязательные вопросы разных видов, и (2) насколько, по вашему, эффективны те или иные контрмеры к этой проблеме.

Сначала мы поговорим о трёх классах состязательных вопросов, на которые может наткнуться HCH, и оценим их серьёзность. Затем мы обсудим необходимые модификации HCH, снижающие риск.

Убедительные Идеологические Аргументы

Поэты – непризнанные законодатели мира.

Перси Биши Шелли

Помимо религиозных, класс идей, имевших непомерное влияние на мировую историю – это класс убедительных идеологических аргументов. (Заметим, что «убедительные» не означает «логичные и надёжные».) Самые влиятельные идеологии последнего века и их аргументы напрямую поощряли своих носителей их распространять и сдерживать распространение конкурирующих идей. Большие агентные организации вроде политических партий, армий и государств сформировывались по идеологическим причинам и боролись за них. Для нас важно то, что это представляет из себя доказательство существования текстовых и речевых вводов (убедительных идеологических аргументов) для людей, которые убедят некоторых из них совершенно отвергнуть их предыдущие цели и принять новые цели, требующие от них совсем иных действий.

Какова минимальная длина текстового ввода, могущего содержать убедительный идеологический аргумент для кого-то? Вы точно слышали о нескольких текстах длинной в манифест, обладающих этим свойством для многих людей. Существуют ли возможные твиты, содержащие убедительные для многих идеологические аргументы? В 280-и символах куда сложнее привести убедительные доводы в пользу какого-либо мировоззрения, чем в книге. Я, однако, не уверен, что не может существовать твита с таким свойством для кого-то конкретного. Если передаваемые узлам HCH вопросы в целом длиной в твит, то нет гарантии, что некоторые из них не будут содержать убедительные идеологические аргументы. С другой стороны, если убедительные идеологические аргументы всегда имеют длину в манифест, то исследуемые HCH вопросы никогда не будут их содержать.

Хоть идеологические вводы сильно на многих повлияли, я думаю, вряд ли они представляют непреодолимое препятствие к согласованию HCH. Наше дерево HCH построено вокруг тщательно отобранного человека-образца. Нам следует выбрать человека, мало подверженного искажённым, чересчур идеологическим аргументам. Хоть почти все мы и подвержены идеологическим порывам к поддержке плохих аргументов в некоторых состояниях разума, что все мы всегда такие – куда более сильное заявление. Пока у нас получается организовать, чтобы наш человек-образец работал в «режиме исследователя», HCH сможет научиться именно этому стилю серьёзных рассуждений, но не более эмоционально искажённым стилям мышления, всплывающим в не-профессиональной обстановке. Я думаю, что особенно вместе с советами особенно настораживаться касательно аргументов, пытающихся сместить ценности, аккуратный выбор образца должен сильно снизить риск встречи с убедительными для него идеологическими аргументами.

Убедительные Угрозы из Теории Принятия Решений

Проявлением наибольшего милосердия в нашем мире является, на мой взгляд, неспособность человеческого разума связать воедино все, что этот мир в себя включает. Мы живем на тихом островке невежества посреди темного моря бесконечности, и нам вовсе не следует плавать на далекие расстояния. Науки, каждая из которых тянет в своем направлении, до сих пор причиняли нам мало вреда; однако настанет день и объединение разрозненных доселе обрывков знания откроет перед нами такие ужасающие виды реальной действительности, что…

Говард Филипс Лавкрафт

В большей степени беспокоит множество вопросов, содержащих убедительные угрозы рассматривающему их исследователю (или другим, о ком он заботится). Предположим, узел HCH исследует некий вопрос, и в процессе этого запускает мощный алгоритм поиска для помощи себе. К примеру, он может запустить мощную систему автоматического доказывания теорем, чтобы посмотреть, не повлекут ли какие-нибудь непредвиденные негативные последствия его рабочие формальные модели мира. Предположим, эта система выдала доказательство того, что если он не поведёт себя определённым образом, то много его копий будут симулированы вплоть до этого момента жизни, а затем будут вечно мучатся. Исследователь может тщательно просмотреть доказательство, пытаясь найти ошибку в рассуждениях или допущениях, которая сделала бы угрозу неубедительной. Но если он не сможет это сделать, то это приведёт к тому, что он поступит так, как предлагает доказательство, против своих изначальных целей (предполагая, что он не особенно безумно храбр перед лицом такой угрозы).

Никто пока не встречал убедительного аргумента такого рода. Получается, существуют они или нет, они не часты в уже облазанном регионе пространства идей. Но для согласования HCH важен вопрос существования: Бывают такие аргументы в пространстве возможных вопросов или нет? Априори ответ вполне может быть «да», требование существования удовлетворить очень просто – достаточно одного возможного случая. И в отличии от случая идеологических аргументов выше, такие гипотетические угрозы могут подействовать и на умного, рефлексивного, уравновешенного и настороженного исследователя. Следовательно, какая-то часть функции fn, реализованной наивной моделью HCH, будет им подвержена.

Неограниченный Вычислительный Поиск

Мы можем обобщить эти два довольно конкретных примера состязательных вопросов. Рассмотрим множество всех текстовых вводов, которые в принципе могут встретиться узлу HCH. Это множество определено архитектурой HCH – вводы узлов могут быть ограничены, например, 280 символами английского языка, что приведёт к соответствующему множеству всех таких строк. Идеологические аргументы и идеи из теории принятия решений выражены маленьким подмножеством этих строк. Но каждая идея, выраженная 280 символами английского алфавита будет возможным вводом узла HCH. Это множество строк невероятно огромно, так что большая часть идей, им выраженных, будет совершенно чужда людям – подавляющее большинство идей в этом пространстве будут идеями, которые ни один человек никогда себе не представлял. Большая часть строк множества, конечно, вообще не будет выражать никаких идей – почти все строки будут полной тарабарщиной.

Абстрагируясь от идей, которые люди встречали за историю нашего вида, какая доля возможных вводов HCH сразу же обратит его узел? Абстрагируясь от понятия «идеи», какая доля строк из 280 символов английского алфавита рассогласует узел HCH? Не думайте о связных идеях: есть ли короткие строки (на первый взгляд бессмысленных символов, вроде несодержательного мигающего экрана, вызывающего эпилепсию), которые могут надёжно переписать цели человека?

Правдоподобно звучит, что многие такие вводы могли бы рассогласовать человека. Я склонен поддерживать это заявление, потому что люди не были спроектированы как доказываемо надёжные системы. Человеческий мозг – последствие «грязного процесса естественного отбора организмов Земли. Было бы удивительно, если бы люди за историю своего вида уже встретили все наиболее действенные текстовые вводы. Намного вероятнее кажется, что человеческий мозг исследовал только крохотный уголок пространства идей, а где-то за его пределами, где-то в глубинах пространства идей, водятся чудовища. Дело не в том, что такие идеи особо просто найти, это не так. Почти все короткие строки английских символов – тарабарщина, не выражает никакой последовательной идеи, и не оказывает на встретившего её человека никакого значительного эффекта. Но перед нами стоит вопрос существования – «Существуют ли такие состязательные для людей идеи?». Я думаю, что да. И крайне вычислительно мощная система, как та, что тут рассматривается, вполне правдоподобно может с ними столкнуться.

Плата Конкурентоспособностью за Поддержание Согласованности

Чтобы сберечь согласованность HCH от проблемы состязательных вопросов, нам придётся изменить его архитектуру. Способы это сделать есть, но у них есть цена. Предложенные ниже модификации делают HCH ещё более вычислительно затратным алгоритмом. Вероятно, увеличится и согласованность алгоритма, но эта цена в конкурентоспособности может плохо сказаться на успешности IDA и на возможности делегировать HCH задачу согласования. Если найдутся более быстрые и менее сложные способные алгоритмы, то проект, работающий над ними, получит преимущество относительно проекта, работающего над HCH. Если согласование полагается на то, что команда, им обеспокоенная, удерживает лидерство над конкурирующими ИИ-проектами, то эти модификации приведут и к цене в согласованности.

Однако, отставив эти беспокойства в сторону, моя позиция по поводу состязательных вопросов – что хоть мы и предвидим эту проблему для HCH, мы можем предвидеть и её хорошие масштабируемые решения. Состязательные вопросы – проблема, но к ней можно подобраться.

Ограничивающие Правила

Один из классов решений – использование при IDA ограничивающих правил. Идея в том, чтобы обучать HCH не просто на человеке, декомпозирующем вопросы и проводящем базовые исследования, но на человеке, делающем всё это, находясь под дополнительными данными заранее ограничениями. Образцу HCH, например, будет выдано правило никогда не запускать неограниченный поиск по вычислениям для ответа на вопрос, потому что это крайне опасный процесс, который может привести к появлению несогласованного субагента. Ещё может быть правило по возвращению ответа «невозможно безопасно ответить на этот вопрос» при получении политических вопросов или вопросов, эксплуатирующих теорию принятия решений. Если образец придерживается правил при обучении, то обученная на этом поведении модель выведет, что её следует придерживаться их и в других случаях.

Возникает такое беспокойство: не передаёт ли это решение с правилами проблему назад во времени вместо её решения? Не получается ли, что нам надо заранее увидеть все проблемы, с которыми может встретиться HCH и заранее заблокировать эти опасности нашими руководствами? Я склонен думать, что нет – разрабатывая правила мы может блокировать довольно большие куски пространства идей, чтобы оставить только безопасное. Тут важно увериться, что HCH согласовано внешне; мы готовы заплатить за это конкурентоспособностью. Если мы подойдём к этому с достаточным размахом, мы сможем предотвратить все потенциально опасные вводы.

Тут есть допущение, что для человеческого мышления встречи с состязательными вопросами маловероятны, тогда как чуждые виды вычислений, вроде поиска по всем строкам, меметически опаснее. Люди могут обдумывать некоторые диапазон мыслей / самостоятельно исполнять только некоторые виды вычислений, но есть вычисления, которые человеческий мозг исполнить попросту не может из-за своей архитектуры. Пространство всех вычислений куда больше пространства человеческих вычислений. Из истории мы можем вывести, что человеческое мышление довольно малоэффективно в преобразовании ресурсов в состязательные текстовые вводы, ведь люди не создали много состязательных текстовых вводов. Но про процессы поиска в целом нельзя сделать такого вывода. Мы можем избегать состязательных вопросов в HCH, оставаясь на мелководье человеческого мышления, избегая чуждых нам процессов поиска вроде, к примеру, неограниченного поиска по параметрам для модели мира.

Ограничение Пропускной Способности Между Узлами

Другое решение проблемы состязательных вопросов – ограничение пропускной способности между узлами HCH (Сондерс, 2018). Если количество информации, которое может быть передано между узлами иерархии жёстко ограничено, а состязательные вопросы в целом информационно сложны, то ограничение пропускной способности предотвратит передачу таких вводов между узлами. Даже если один узел их встретит, и станет от этого несогласованным, он не сможет передать этот ввод своему родительскому узлу. Тогда состязательные вопросы будут лишь тем, что узел может встретить по ходу своего исследования «внутри узла», а не чем-то, получения чего от узлов сверху или снизу приходится бояться. Можно считать, что предел пропускной способности отбирает часть вычислений HCH у узлов, разделяя их на меньшие кусочки, распределённые по большему числу узлов, каждый из которых видит меньшую часть общей картины.

Насколько жёстким должно быть ограничение, чтобы увериться, что узлы не смогут передавать друг другу состязательные вводы? Кристиано считает, что длина гарантированно безопасного ввода мала: что-то около предложения из шести распространённых слов. Я склонен согласиться с этой оценкой: текстовый ввод длиной в манифест может содержать очень убедительные аргументы, но очень сложно представить, как предложение из шести слов может рассогласовать умного и рассудительного человека-исследователя. Задумайтесь: какова была длина последнего аргумента, который заставил вас передумать по поводу чего-то нормативного? Какова была длина самого короткого такого аргумента? Так можно сделать некоторые выводы о вероятности получения таких вводов.

Инспектирование Мыслей

Состязательные вопросы – это наблюдения, которые узлы дерева HCH могут совершить по ходу своих исследовательских вычислений. Узлы не ищут состязательные вопросы намеренно; они просто то и дело возникают, потому что они существуют в пространстве вводов, а HCH – мощный процесс поиска, исследующий это пространство.

Если состязательные вопросы – «побочный продукт» поисков в HCH, то можно внедрить в HCH намеренно противостоящий им механизм, замечающий и сдерживающий состязательные вопросы при их появлении. Надежда на то, что пока HCH будет масштабироваться на большую и большую вычислительную мощность, этот намеренный механизм тоже будет становиться достаточно мощным, чтобы совладать с этими масштабами и подавить встречающиеся дереву на них состязательные вопросы.

Один из возможных таких механизмов – использование одних узлов HCH для просмотра истории исследований и записи действий других узлов, в поисках признаков несогласованности (Кристиано, 2019). При обнаружении несогласованных узлов, они будут отделяться от дерева, что должно обеспечить согласованность всего поиска. (Это, конечно, удвоило бы вычислительные затраты на запуск HCH для каждого вопроса.) Уильям Сондерс предлагал ещё использование Дебатов – ИИ-ассистенты предлагали бы аргументы человеку-судье, и это было бы настроено так, чтобы из теории игр следовало, что первый ИИ-ассистент в свой ход выиграет, рассказав правду о том, о чём его спрашивают – не слишком ли вопросы, передаваемые узлам HCH манипулятивны, чтобы их дозволять.

Сборное решение Проблемы Состязательных Вопросов

Есть надежда, что при использовании некой комбинации этих методов или всех их сразу, есть надежда, что HCH будет устойчив к состязательным вопросам, и продолжит таковым быть при масштабировании на более высокие уровни вычислительной мощности. Согласованность может остаться ненарушенной, несмотря на то, что некоторые части пространства идей не могут быть безопасно исследованы HCH. Пока HCH делает поправку в сторону осторожности и выводит «Я не могу безопасно исследовать этот вопрос» при риске входа в опасную часть пространства вводов, согласованность может поддерживаться.

Формально можно думать об этом как об изменении функции, которую выучивает HCH от своего образца. Вместо «наивной» функции fn HCH выучит функцию образца, сильно ограниченного правилами. При совмещении этого с архитектурными модификациями (ограничение пропускной способности и инспекция мыслей), HCH реализует более ограниченную функцию

f’n:Q→A*

Где A* – множество ответов дополненное кодом ошибки «Я не могу исследовать этот вопрос, надёжно оставаясь согласованным». f’n отображает многие вопросы, на которые fn пыталась бы ответить в этот код ошибки. Следовательно, f’n менее способна, но более надёжно согласована, чем fn. Пока мы делаем поправку в сторону безопасности и избавляемся от всех потенциально опасных областей пространства вопросов, модифицированное HCH, реализующее предельную функцию

limn → ∞f’n

должно действовать как сверхчеловечески-способный исследователь, чьи цели надёжно с нами согласованы.

Заключение

В итоге, состязательные вопросы – решаемая проблема HCH. Должно быть возможно произвести надлежащие архитектурные модификации, которые будут работать при масштабировании HCH на большую вычислительную мощность.

Цена этих решений в общем случае – расширение дерева HCH, так что каждый поиск будет затратнее, чем у немодифицированного HCH. Вдобавок, будут вводы, на которых HCH вовсе не сможет работать, выдавая для них ответ «невозможно исследовать». Так что модифицированное HCH будет значительно менее конкурентноспособно, чем системы машинного обучения, существующие параллельно с ним, так что нам не стоит ожидать, что его будут использовать вместо этих систем, цена за это слишком велика.

Библиография

(Не вижу ценности в переводе библиографии, это всё равно ссылки на в основном непереведённые материалы – прим.пер.)

***

  1. Тут важно заметить, что тут опускается вся задача внутреннего согласования, и подходы IDA к ней. Как замечает Юдковский (2018), весьма вероятно, что внутреннее согласование тут настолько значительно, что составляет большую часть всей задачи согласования. Тут важно точно проговорить, что значит «инструменты интерпретируемости»; вся схема IDA основана на том, что они достаточно мощны, чтобы можно было удостовериться, что исследовательская модель по обучающим данным усвоила именно ту функцию, которую нам надо.
    Замечу, что даже на первом шагу мы уже имеем дело с моделями почти-человеческого-уровня. Так что мы уже играем с огнём – если вы не можете доверять своим инструментам прозрачности достаточно, чтобы они могли гарантировать согласованность СИИ приблизительно человеческого уровня, то их недостаточно, и вся схема разваливается.

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s

%d такие блоггеры, как: