Перевод поста Пола Кристиано. (Оригинал)
***
(Частично – ответ на AGI Ruin: A list of Lethalities.Написано в таком же стиле напыщенных декламаций. Не исчерпывающе.)
Согласен
- Мощные ИИ-системы могут с немаленькой вероятностью намеренно и необратимо обессилить человечество. Это куда проще достижимый провал, чем всеобщая гибель от разрушительных физических технологий.
- Вполне правдоподобно, что оказывающие катастрофические риски ИИ-системы, будут существовать уже скоро, и, скорее всего, об этом не будет сильного консенсуса, пока они не станут оказывать непренебрежимый экзистенциальный риск за год. Вовсе не обязательно есть «пожарная тревога».
- Даже если бы консенсус о риске мощных ИИ-систем был, есть немаленький шанс, что мир ответил бы на это совершенно непродуктивно. Взглянуть на все возможные сценарии погибели и сказать «мы не позволим этому случиться» – принятие желаемого за действительное; человечество вполне способно облажаться даже с довольно простыми вызовами, особенно если они новые.
- Я думаю, что многие проекты, намеревающиеся помочь с согласованием ИИ, не продвигают прогресс решения ключевых сложностей и не добиваются значительного снижения риска катастрофических исходов. Это связано с тем, что люди стремятся к более понятным направлениям исследования и не слишком придирчивы по поводу того, решению каких задач они помогают. В целом, сравнительно мало исследователей эффективно сосредоточены на технических задачах, наиболее связанных с экзистенциальными рисками от провала согласованности.
- Есть сильное социальное и политическое давление, побуждающее больше обсуждать то, как ИИ повлияет на существующие конфликты и баланс сил. Это давление уже ощутимо, и не кажется, что ситуация с ним улучшится. Я думаю, элиезеровское «the last derail» – преувеличение, но суть передаёт.
- Даже думая о рисках происшествий, люди, кажется, склонны выбирать те, которые считают «более реалистичными, а не как будто из фантастики», которые куда с меньшей вероятностью являются экзистенциальными рисками (а иногда, думаю, они ещё и куда менее правдоподобны). Вполне вероятно, что эта закономерность не изменится и после появления ИИ-систем, оказывающих экзистенциальные риски.
- Очень вероятно, что ИИ-катастрофа будет выглядеть как резкий «переворот», в ходе которого ИИ-системы перманентно лишат людей власти, не оставляя заметной возможности для сопротивления. Кажется, люди склонны всё время представлять вместо этого более скучные истории, лучше вписывающиеся в их представление о мировом нарративе. Вполне возможно, что ИИ-переворот будет ускорен тем, что люди позволят ИИ-системам контролировать роботов-убийц, но разница сроков между «везде роботы-убийцы, ИИ контролирует всё» и «ИИ вовлечён только в исследования и разработки» запросто может быть меньше года.
- Интеллектуальный мир в целом, кажется, очень сильно преувеличивает, сколько времени у ИИ-систем займёт переход от «большого воздействия на мир» к «миру, преобразованному до неузнаваемости». Это скорее годы, чем десятилетия, а с некоторыми шансами даже месяцы. Это усложняет согласование и не похоже на что-то, к чему мы коллективно подготовлены.
- Человечество обычно решает технические задачи повторными попытками и исправлением ошибок; часто мы очень медленно разрешаем тяжёлые методологические разногласия, смотря, что действительно работает, и позволяя нашим провалам влететь нам в лицо. Но скорее всего будет возможно создать ценные ИИ-продукты, не решая согласование, так что реальность не «заставит» нас это сделать, пока не станет слишком поздно. Кажется, в решении некоторых высокоуровневых вопросов нам придётся в необычайной степени полагаться на осторожные рассуждения, а не эмпирические петли обратной связи.
- ИИ-системы в итоге будут намного превосходить людей, и скорее всего прямо возле человеческого уровня не будет каких-то особых технологических задержек. Экстраполяция скорости существующего прогресса в ИИ позволяет предположить, что между слабыми и очень сильными ИИ-системами не пройдёт особо много времени, и вклад ИИ в интеллектуальную работу может очень легко перейти от крохотного меньшинства до подавляющего большинства за несколько лет.
- Если где-то на серверной ферме запущены невероятно мощные ИИ-системы, очень маловероятно, что человечество сохранит осмысленный контроль над своим будущим.
- «Не создавать мощные ИИ-системы» кажется сложной политической задачей, требующей геополитической координации того рода, который часто проваливался даже при вполне однозначных ставках и меньших стимулах к тому, чтобы от координации отказаться.
- Я бы не ожидал, что человечество обязательно «поднимется встречать вызов» новой задачи с высокими ставками. Я оценивал шансы в 50 на 50 в 2019 году, но опыт пандемии ещё сильнее понизил мою уверенность.
- Скорее всего нет никакой физически реализуемой функции вознаграждения, которую можно оптимизировать стохастическим градиентным спуском, и которую можно было бы с радостью позволить сколь угодно сильно оптимизировать произвольно умному ИИ. (Я больше всего оптимистичен по поводу подходов, где обучение с подкреплением исполняется на функции вознаграждения, которая становится умнее по ходу обучения агента.)
- Обучение ИИ максимизации данной функции вознаграждения в общем случае не приводит к ИИ, внутренне «мотивированному» максимизировать вознаграждение. Более того, на некотором уровне способностей очень широкий диапазон мотиваций ИИ приводит к поведению минимизации функции потерь на обучающем распределении, потому что это важная стратегия для ИИ, желающего сохранить своё влияние на мир.
- Для ИИ-системы более устойчиво выучивание хорошей модели окружения и того, какие будут последствия у его действий, чем поведения вроде «быть добрым» или «пытаться помочь людям». Даже если ИИ имитировал данные, состоящие из «что бы я сделал, пытаясь быть добрым», от всё равно с большей вероятностью в конце концов научился бы имитировать настоящий физический процесс, создающий эти данные, а не впитал бы общую привычку доброты. И на практике созданные нами данные будут неидеальны, так что «предсказывать физический процесс, генерирующий функцию потерь» будет позитивно отбираться СГС.
- Не следует говорить что-то вроде «ну, я с тем же успехом могу допустить, что надежда есть», а потом жить в конкретном маловероятном мире, где по той или иной причине согласование нереалистично просто. Даже если согласование окажется простым, вы скорее всего предскажете не тот способ, которым оно окажется простым. Если положение вещей кажется вам обречённым, на практике лучше всего пытаться максимизировать логарифмические шансы успеха при помощи более обобщённой и устойчивой стратегии использования преимуществ удачных прорывов в хаотичном и сложном для предсказаний мире.
- Ни у каких нынешних планов согласования ИИ нет особенно высокой вероятности сработать без большого количества попыток и корректировок. Нынешнее положение дел – приблизительно «если согласование окажется реальной проблемой, мы многому о нём научимся и итеративно улучшим наш подход». Если проблема тяжела и возникает быстро, то было бы лучше, если бы у нас был ясный план задолго до её появления – нам всё равно пришлось бы адаптироваться и учиться, но начало с чего-то, что на бумаге выглядит, будто может сработать, было бы куда лучшей ситуацией.
- Многие исследовательские задачи в других областях отбираются за понятность и то, что они лишь слегка за пределами уже доступного. Мы выбираем метрики, по которым можем прогрессировать, или работаем над теоретическими задачами, которые кажутся хорошо поставленными и осиливаемыми с использованием существующих техник. Согласование не такое: оно отобрано за важность, и никто не гарантирует, что игра «честна», и что задача решаема или понятна.
Не согласен
(В основном без аргументации.)
- Элиезер часто перескакивает между «надо справиться с согласованием с первой критической попытки» и «о согласовании нельзя ничего узнать из экспериментов и неудач до критической попытки». Различие очень важно, и я согласен с первым, но не согласен со вторым. Решение научной задачи без возможности многое узнать из экспериментов и неудач невероятно трудно. Но у нас будет возможность многое узнать о согласовании из экспериментов и проб и ошибок; я думаю, что мы можем получить много обратной связи о том, что работает и использовать более традиционную методологию исследований и разработок. У нас есть игрушечные модели провалов согласованности, у нас есть стандарты интерпретируемости, которым мы пока не можем соответствовать, и у нас есть теоретические вопросы, на которые мы пока что не можем ответить… Разница в том, что реальность не заставляет нас успешно решить задачу, и не говорит нам явно, какие аналогии верны, так что для нас вполне возможно продвинуться вперёд и создать СИИ, не решая согласование. В целом кажется, что это делает институционную задачу намного сложнее, но не оказывает большого эффекта на задачу научную.
- Элиезер часто говорит о ИИ-системах, способных легко создать нанотехнологии и подавляюще пересилить людей, и описывает картину быстро разворачивающейся погибели от одного провала. Это то, что произошло бы, если бы магически появился экстраординарно мощный ИИ, который не получилось бы согласовать, но я думаю, что крайне маловероятно, что такое случится на самом деле. К тому моменту, как у нас будут ИИ-системы, которые могут подавляюще пересилить людей с помощью нанотехнологий, у нас уже некоторое время будут другие ИИ-системы, которые либо убьют всех людей более скучными способами, либо радикально продвинут человеческие исследования и разработки. Более обобщённо, элиезеровская кинематографическая вселенная историй погибели не кажется мне правдоподобной, и я не могу сказать, есть ли под её поверхностью более реалистичная картина развития ИИ.
- Важным фактором кажется то, что Элиезер часто представляет сценарии, в которых ИИ-системы не совершают большого технологического вклада и не раскрывают всех своих способностей, потому что обманывают нас, выжидая, чтобы атаковать позже. Но если мы постоянно обучаем ИИ-системы, что они делали что-то впечатляюще выглядящее, то СГС будет агрессивно отсеивать ИИ-системы, которые ничего впечатляющего не делают. Так что к тому моменту, как у нас будут ИИ-системы, способные на разработку молекулярных нанотехнологий, у нас уже определённо будут системы, совершившие что-то выглядящее-немного-менее-впечатляюще.
- Улучшение ИИ себя скорее всего будет выглядеть как то, что ИИ-системы будут заниматься исследованиями и разработкой примерно так же, как люди. «ИИ, достаточно умный, чтобы улучшить себя» – не резкий порог. ИИ-системы будут постепенно становиться лучше в самоулучшении. Элиезер, видимо, ожидает, что ИИ-системы совершат крайне быстрое рекурсивное самоулучшение до того, как станут способны совершать сверхчеловеческий вклад в другие области (включая исследование согласования), но я не думаю, что это мнение обосновано. Если Элиезер так не считает, что его аргументы про то, что задача согласования должна быть решена людьми, кажутся ошибочными.
- Понятие позволяемого ИИ «поворотного действия» кажется вводящим в заблуждение. Согласованные ИИ-системы могут снизить период риска несогласованных ИИ, продвигая исследования согласования, убедительно демонстрируя риски несогласованных ИИ, и поглощая «свободную энергию», которую несогласованный ИИ мог бы использовать для экспоненциального роста. Никакому конкретному действию необязательно быть поворотным, чтобы сильно снизить риски несогласованных ИИ, и поиск отдельных поворотных действий ведёт к нереалистичным историям будущего и нереалистичным картинам того, что должны делать ИИ-лаборатории.
- Многие из обсуждаемых Элиезером «ключевых действий» вовлекают достижение ИИ-лабораторией «решающего стратегического преимущества» (т.е. подавляющей жёсткой силы), которую она использует, чтобы реализовать сравнительно ограниченную политику, например, ограничить доступность мощных компьютеров. Но та же жёсткая сила также позволит лаборатории произвольно диктовать новый мировой порядок, и будет верно воспринята существующими государствами как экзистенциальная угроза. Судя по всему Элиезер считает, что решающее стратегической превосходство – самый реалистичный способ достижения этих политических целей, несмотря на факт того, что создание остаточно мощных ИИ-систем ведёт к огромному риску конца света из-за несогласованности. Я думаю, что для того, чтобы предпочитать этот путь более традиционному политическому влиянию, нужна крайняя уверенность в подробностях политической ситуации; эта уверенность может быть оправданной у кого-то, кто куда больше знает об этом, чем я, но Элиезера это, кажется, не включает. Хоть я и согласен, что политическое изменение такого рода было бы необычайным успехом по историческим меркам, его вероятность всё ещё кажется выше чем элиезеровской общей оценки вероятности выживания. И наоборот, я думаю, Элиезер сильно недооценивает, насколько сложно будет разработчику ИИ скрытно захватить мир, насколько сильно и эффективно государства отреагируют на эту возможность, и насколько планы такого рода токсичны.
- Я думаю, Элиезер скорее всего ошибается по поводу того, насколько полезными станут ИИ-системы, включая полезность для задач вроде согласования ИИ, до того, как они станут катастрофически опасными. Я убеждён, что мы сравнительно быстро приближаемся к ИИ-системам, которые могут осмысленно ускорить прогресс, генерируя идем, распознавая у идей проблемы, предлагая модификации к уже имеющимся предложениям, и т.д., и что всё это станет в какой-то мере возможным задолго до того, как ИИ-системы смогут удвоить темп исследований ИИ. К этому моменту, мне кажется, они уже смогут сильно ускорить темп исследований согласования. Элиезер прав по поводу того, что это не заставит проблему исчезнуть (если люди не решат согласование, с чего нам думать, что его решит ИИ?), но я думаю, это означает, что аргументы о том, что рекурсивное самоулучшение быстро приводит в смертельный режим неверны (поскольку ИИ ускорит как способности, так и согласование).
- Я думаю, что Элиезер обычно довольно небрежен, когда говорит об обобщениях за пределы обучающего распределения. Я думаю, многие аргументы в общих чертах верны, но слишком расплывчаты, чтобы привести к осмысленным заключениям после нескольких шагов вывода. Я был бы рад увидеть настоящие обсуждения этих аргументов, и в каком-то смысле мне кажется, что Элиезер – подходящий человек, чтобы продвигать это обсуждение вперёд. Прямо сейчас я думаю, что осмысленные вопросы об обобщениях в машинном обучении на самом деле довольно малозаметны; мы можем много узнать о них заранее, но прямо сейчас в основном просто не знаем. Аналогично, я думаю, рассуждения Элиезера о конвергентных стимулах и глбинной природе консеквенциализма слишком небрежны, чтобы можно было прийти к верным выводам, так что получающиеся заключения сильно сверхуверенны.
- В частности, существующим стратегиям обучения ИИ не надо справляться с «радикальным» сдвигом распределения с низких уровней интеллекта на высокие. В прогнозируемых способах создания ИИ нет ничего, приводящего к такому большому переходу вместо непрерывного обучения по мере постепенного роста интеллекта. Кажется, Элиезер в какой-то мере довольно уверенно заявляет, что природа ИИ сильно изменится, я думаю, что это скорее всего неверно, и уж точно уверенность чрезмерна. Если бы он в последние 10 лет делал по этому поводу конкретные предсказания, я думаю, что он много бы проигрывал людям, больше похожим на меня.
- Элиезер сильно ожидает резкого набора способностей, основываясь на комбинации аргументов, которые мне не кажутся осмысленными, и на аналогии с эволюцией приматов, которая мне кажется плохо применимой. Мы уже об этом говорили, и я всё ещё думаю, что позиция Элиезера, вероятно, неверна, и явно сверхуверенна. Я считаю, что более подробные заявления Элиезера, например, про жёсткие пороги, куда более неправдоподобными, чем его (тоже скорее всего количественно неверные) заявления о скорости взлёта.
- Кажется, уверенность Элиезера в сложности согласования основана в основном на его собственном опыте работы над задачей. Но на самом деле общество в целом потратило на неё очень мало усилий, а в MIRI скорее всего не смогли бы исключительно своими силами решить или даже добиться значительного прогресса в работе над задачами, которые существующие исследовательские области повседневно решают. Так что я думаю, что сейчас мы скорее не знаем, насколько задача тяжела (но она ещё как может быть очень тяжела, и даже если она проста, мы вполне можем не суметь её решить). К примеру, тот факт, что в MIRI безуспешно пытались найти «непротиворечивую формулу для исправимости» не сильно свидетельствует о том, что исправимость «непосильна».
- Элиезер говорит много конкретного о том, как работают исследования, и какие ожидания от прогресса нереалистичны (например, сказанное в списке смертоносностей об оптимистах с горящими глазами). Но я не думаю, что это основано на понимании истории науки, знакомстве с закономерностями современных функциональных академических дисциплин, или опыте исследований. Наиболее знакомые мне и наиболее связанные с тем, «как работают научные дисциплины» предсказания Элиезера неверно предсказывали, что физики ошибутся по поводу существования бозона Хиггса (регистрация ставки на LW), и выражали мнение, что настоящий ИИ скорее возникнет у маленькой группы, а не большой индустрии (стр 436, но выражалось много где).
- Я думаю, Элиезер много обобщает пессимизм по поводу простого решения задач на пессимизм по поводу решения задач вообще; или факт того, что конкретная техника не решает задачу немедленно на пессимизм по поводу полезности исследований этой техники. Я не согласен с Элиезером по поводу того, как совершается исследовательский прогресс, и не думаю, что он как-то особенно в этом разбирается. Элиезер часто делает возражения по поводу конкретных реализаций проектов (вроде использования инструментов интерпретируемости для обучения). Но для того, чтобы действительно говорить о том, вероятен ли успех исследовательского проекта, в самом-самом деле нужно учитывать будущих исследователей, которые будут выбирать детали реализации так, чтобы всё сработало. Как минимум надо сталкивать себя с самыми сильными существующими версиями этих предложений, а не сделав этого (Элиезер не делает) надо пользоваться другими подходами. Но даже если вы одолели самые лучшие существующие предложения, всё равно надо аккуратно думать о том, кажутся ли ваши возражения такими, которые выяснившим больше подробностей людям будущего будет сложно преодолеть. Можно смотреть на это так, что Элиезер как положено учитывает, что и будущие ИИ-системы будут лучше рассуждать о том, как причинить проблемы, но кажется, что он относится к этим процессам как к качественно, а не количественно разным (и, как я много раз указываю в этом списке, я думаю, что он переоценивает количественную разницу).
- Как пример, я думаю, Элиезер необоснованно пессимистичен по поводу интерпретируемости, находясь при этом в основном в невежестве по поводу нынешнего состояния этой области. Это так и для потенциально достижимого интерпретируемостью уровня понимания, и для возможных применений этого понимания. Я согласен с Элиезером, что это кажется тяжёлой задачей, и многие люди необоснованно оптимистичны, так что я бы выражал сочувствие, если бы заявления Элиезера совершались бы со средней, а не высокой уверенностью. Насколько я могу судить, большая часть позиции Элиезера исходит из общей интуиции, а не аргументов, и я думаю, что она куда менее убедительна без знакомства с областью.
- Ранние трансформативные ИИ-системы скорее всего выполнят впечатляющие технологические проекты, будучи обучены на меньших задачах с короткими петлями обратной связи, и затем соединив эти способности в контексте больших совместных проектов (изначально с участием многих людей, но потом всё с большей автоматизацией). Когда Элезер отвергает возможность того, что ИИ-системы исполнят более безопасные задачи миллионы раз в время обучения, а затем безопасно перейдут к «созданию нанотехнологий» (пункт 11 списка смертоностностей), он не учитывает те системы, которые, вероятно будут созданы, и те надежды, на которые люди рассчитывают.
- В пункте 13 Списка смертоносностей приводится конкретный аргумент о том, почему мы не видим заранее многие связанные с ИИ проблемы; мне кажется, что Элиезер часто излашает мысли такого рода, но они кажутся мне неверными или вводящими в заблуждение. В частности, кажется возможным изучение заранее проблемы «ИИ может намеренно изменить своё внешнее поведение, чтобы выглядеть более согласованным и обмануть программистов, операторов, и, возможно, любую функцию потерь, его оптимизирующую». И хоть и правда, что если эту проблему решить не получилось, то тогда другие проблемы не будут замечены, это не особо влияет на вероятность решения согласования: если вы не решили эту проблему, вы погибнете, а если решить, то сможете изучать другие проблемы.
- Я не думаю, что список смертоносностей осмысленно отвечает самым серьёзным надеждам на то, как решить задачу согласования. Я не думаю, что это точно было целью списка, но это очень важно, если хочется оценить вероятность погибели или осмысленно вложиться в решение задачи (или возразить другим людям, составляющим аналогичные списки).
- Я думаю, что естественный отбор – сравнительно слабая аналогия машинного обучения. Самое важное расхождение – что мы можем намеренно оформлять машинное обучение. Селекция животных была бы лучшей аналогией, и она предлагает другой и куда менее уверенный вывод. К примеру, если бы людей активно разводили для исправимости и дружественности, мне кажется, что они вполне вероятно были бы исправимы и дружелюбны, просто исходя из нынешнего распределения человеческого поведения. Если бы этот процесс отбора непрерывно и осторожно проводился умнейшими из ныне живущих людей, кажется, что он вполне мог бы не сломаться до достижения уровня способностей, намного превосходящих нынешние человеческие.
- Элиезер, кажется, заявляет, что люди не способны проверить поворотные действия, предложенные ИИ-системами (например, вклад в исследования согласования), и что это дополнительно усложняет безопасное совершение поворотных действий. Вдобавок к тому, что мне не нравится его концепт поворотных действий, я думаю, что это заявление скорее всего неверно и точно сверхуверенно. Я думаю, оно не соответствует практическому опыту исследований и разработок в практически любой области, где проверка намного, намного проще генерации, а это так почти всюду.
- Элиезер сравнительно уверен, что вы не можете обучить мощные системы путём имитации человеческих мыслей, потому что слишком большая часть человеческих мыслей происходит скрыто. Я думаю, что это вполне правдоподобно, но далеко от очевидного, и что есть много промежуточных техник между «копировать отдельные шаги рассуждения» и «оптимизировать конечные результаты». Я думаю, что последние пять лет прогресса языковых моделей предоставили значительное свидетельство, что обучение ИИ имитации человеческих мыслей к появлению трансформативного ИИ может стать экономически конкурентоспособным, что потенциально даёт нам шансы в районе 50 на 50. Я не могу сказать точно, потерял бы Элиезер тут Байесовские очки, но подозреваю, что да, и если он хочет, чтобы мы учитывали его предсказания, я бы хотел, чтобы он делал какие-то предсказания и о будущем.
- Последние два пункта (и большинство других пунктов списка) не являются моими основными надеждами или планами на согласование. Надежды на согласование, как и беспокойства, могут идти параллельно. В некотором смысле, даже более, чем беспокойства, потому что существование людей, пытающихся решить согласованность, значительно устойчивее, чем существование ИИ-систем, пытающихся причинить проблемы (такие ИИ существуют только если люди уже потерпели неудачу в значительных частях согласования). Хоть мои исследования и сосредоточены на случаях, где почти все факторы против нас, я думаю, из более простых миров можно получить немало вероятности выживания.
- Элиезер, кажется, довольно уверен, что ИИ системы будут очень чуждыми, и будут понимать многие вещи о мире, которые люди не понимают, а не понимать примерно тот же набор вещей (но чуть лучше), или понимать хуже, но обладать другими преимуществами, вроде куда большей последовательной скорости. Я думаю, что это далеко от ясности, и Элиезер намного увереннее, чем следует. Кажется правдоподобным, что ИИ-системы научатся многому в предсказании людей, даже если человеческий язык – бесполезно-поверхностная тень человеческих мыслей, благодаря крайне коротким петлям обратной связи. Ещё кажется вполне возможным, что большая часть научных знаний ИИ будет построена на явном процессе научных рассуждений и выводов, вполне постижимых учёными-людьми, хоть их разум и устроен совсем по-другому. Что самое важное, ИИ-системы, наверное, будут обладать огромными структурными преимуществами (вроде их высокой скорости и низкой стоимости), поэтому они, возможно, начнут оказывать трансформативное влияние на мир (и привести к устареванию человеческого вклада в согласование) задолго до того, как им понадобится выработать сверхчеловеческое понимание больших частей мира или хитростей самого мышления, так что они смогут в важных отношениях отставать от людей, даже имея при этом совершенно отличающийся от человеческого набор способностей.
- ИИ-системы, рассуждающие о коде других ИИ-систем, скорее всего не будут важным фактором ранней кооперации ИИ. Ранние ИИ-системы скорее всего будут очень запутанными, и единственный способ, которым они смогут рассуждать о своём собственном коде и коде других ИИ – это наблюдение за поведением и использование тех же видов инструментов и стратегий рассуждения, что и люди. Элиезер постоянно указывает на долгосрочные соображения, а потом просто допускает, что они будут важны и в краткосрочной перспективе безо всяких свидетельств или аргументов. Я думаю, Элиезер считает, что такие предсказания пока не конфликтовали с свидетельствами, потому что они касаются более поздних моментов времени (но всё же достаточно ранних, чтобы иметь значение), но это мешает отслеживать успешность его предсказаний, так что я думаю, что он её сильно преувеличивает.
- Мне не кажется верной модель Элиезера ИИ-систем, кооперирующих друг с другом для обрушивания системы «сдержек и противовесов», потому что она сосредоточена на кооперации и стимулах ИИ-систем. Реалистичным предложениям в основном не надо полагаться на стимулы ИИ-систем, они вместо этого могут полагаться на отбор градиентным спуском систем, играющих в игры конкурентно, например, например, отыскивающий ИИ, приводящие убедительные возражения предложениям других ИИ-систем. (Отмечу: я могу неправильно понимать, что он имеет в виду в местах вроде пункта №35 списка смертоносностей; это может быть ответом случайным людям в интернете, а не возражение реально на практике исследованным стратегиям согласования. Но даже в первом случае, я думаю, что он отвечает сравнительно слабым версиям этих аргументов.) Элиезер перепрыгивает от «ИИ-системы будут кооперировать друг с другом» и «Проверяемые действия, для отбора которых можно использовать градиентный спуск, не смогут функционировать в качестве сдержек и противовесов». Но позиция Элиезера зависит и от того, и от другого, и проваливается при провале одного из этих утверждений, а перепрыгивание между ними, мне кажется, затрудняет понимание настоящей структуры аргумента.
- Элиезер, кажется, ожидает, что к тому времени, как ИИ-системы смогут совершать поворотные действия, они смогут очень хорошо манипулировать людьми – настолько, что, к примеру, бесполезно пытаться заставить их спорить друг с другом, или пытаться играть с ними в состязательные игры. Но если мы представим себе разумы с человеческим набором способностей, кажется, что они станут сверхчеловеческими в исследованиях и разработках примерно тогда же, когда и в убеждении, и это может произойти в любом порядке. Более того, есть множество причин, по которым кажется, что ИИ намного вероятнее сначала станет сверхчеловеческим в исследованиях, если мы того хотим: он будет в основном для этого обучен, его инструменты и структура будут для этого спроектированы, исследования и разработки будут продвигаться ИИ в сотрудничестве, а манипуляция – только отдельными, пытающимися выиграть спор. Вдобавок к всему этому, я немного ожидаю, что сравнительные преимущества ИИ-систем – это исследования и разработки, а не манипуляция (потому что они находятся сильно за пределами обучающего распределения для людей).
- Я не думаю, что у выживающих миров есть план в том смысле, в котором хочется Элиезеру. Мне не кажется, что у него есть ясная и точная картина того, как успешные «планы» выглядят на самом деле. Я не вижу особых причин сейчас склоняться к его мнению.
- Элиезер заявляет, что его список смертоностностей – такой документ, который другие люди не могли бы написать, а значит совершение ими значимого вклада маловероятно (пункт 41). Я думаю, что это не так. Я думаю, документ Элиезера в основном направлен на риторику и педагогику, а не на особенно полезный вклад в область, который скорее стоит приоритетом у других; я думаю, что то, какие идеи «важны» – в основном следствие элиезеровского субъективного интеллектуального фокуса, а не объективный факт; суть поста – сбор того, что уже упоминалось в прошлом и лучше подходит Элиезеру-как-писателю и написание об этом напыщенных декламаций; и, наверное, самое важное, я думаю, что более аккуратные аргументы по поводу важнейших сложностей приводятся в других местах. К примеру, в докладе ARC по ELK описывается по меньшей мере 10 сложностей того же типа и серьёзности, что и ~20 технических сложностей, упомянутых в списке Элиезера. Примерно половина из них есть и в списке, а другая половина, думаю, ещё важнее, потому что больше связана с ключевыми задачами реальных стратегий согласования.[1]
Моё мнение о мнении Элиезера
- Элиезер указывает на много хороших соображений, подкреплённых весьма ясными аргументами, но делает допущения с куда большей уверенностью, чем следует из аргументов.
- Пост Элиезера (как и большая часть его текстов) не выдаёт новых свидетельств; в основном он состоит из априорных рассуждений и спорных выводов из бесспорных свидетельств. Я думаю, для это нужен не такой подход, которым пользуется и пользовался Элиезер (если цель – продуктивно разрешить разногласия).
- Мне кажется, что эти аргументы в основном не были выписаны публично, доступно для аккуратной оценки и критики. Неясно, есть ли у Элиезера на это энергия, но, думаю, людям, считающим, что позиция Элиезера важна, надо попробовать достаточно хорошо понять эти аргументы, чтобы то сделать.
- Я думаю, что люди с взглядами Элиезера недостаточно продуктивно спорили с несогласными с ними людьми (и часто усложняли такие продуктивные споры). Я думаю, что если по-настоящему погрузиться в один из ключевых пунктов, то вы быстро дойдёте до подробностей, в которых Элиезер уже не сможет легко защищать свою точку зрения от умной беспристрастной аудитории. И я не думаю, что Элиезер может пройти идеологический тест Тьюринга за несогласных людей.
- Я думаю, если у вас очень важные и непопулярные даже в вашем собственном странном уголке мира взгляды, чья поддержка почти полностью завязана на рассуждения и аргументацию, то указанные мной действия весьма ценны.
- Судя по всему, большая часть поста основана на интуитивных заключениях и способах мышления, которые Элиезер считает эмпирически поддержанными (а не на аргументах, которые можно явно выложить). Но я не ощущаю, что получал достаточно тому свидетельств, так что для меня всё в итоге сводится к аргументам.
- Я думаю, Элиезер бы сказал, что последний 20 лет выдали много свидетельств его интуитивным выводам объектного уровня и общему стилю мышления о мире. Если это так, я думаю, что нам надо очень сильно ожидать, что он сможет выдавать прогнозы о будущем, которые будут систематически лучше, чем прогнозы тех людей, которые не разделяют его интуитивные заключения и стратегии рассуждений. Я с радостью сделаю прогнозы по поводу любых вопросов, которые, по его мнению, предоставят такие свидетельства, или по набору случайных вопросов, которые мне хотелось бы спрогнозировать (в таком случае, думаю, он справится немного хуже меня). Если предсказаний будущего, где эти методологии справляются лучше, нет, я думаю, следует очень скептически относиться к тому, что они получили много свидетельств за последние 20 лет (а это как минимум требует обоснования).
- Я думаю, Элиезер мог выработать хорошую интуицию по этим темам, подкреплённую предсказыванием результатов более сложных аргументированных дискуссий с использованием более широко принятых принципов рассуждений, аналогично тому, как у математика может быть отличная интуиция по поводу истинности теорем, появившаяся исключительно из обратной связи от существующих доказательств, ане от эмпирических данных. Но если интуиция двух математиков по поводу одной теоремы расходится, то я думаю, они должны разрешить это несогласие с использованием нормальных логических законов доказательства. Это возвращает нас к предыдущему пункту, я думаю, Элиезеру следует уделять больше внимания настоящим аргументам и спорам с закономерными возражениями.
- Я не думаю, что у Элиезера есть какая-нибудь история демонстрации понимания другими способами (например, достижением технологических целей, или исполнение других проектов, требующих сталкиваться с подробностями мира или совершать хорошие повседневные предсказания). Я думаю, это ОК, но это означает, что подтверждений интуитивных заключений либо предсказаниями, либо более аккуратными аргументами хочется ещё сильнее.
***
- Десять примеров навскидку, я думаю, что примерно половина из них повторяет список смертоносностей, и что обсуждения в документе ELK более продуманны, чем в списке:
- Определённые в терминах сенсорных данных цели доступны манипуляции со сторону ИИ, который может скомпроментировать сенсоры, и это серьёзное препятствие к использованию машинного обучения для оптимизации волнующих нас вещей.
- ИИ может манипулировать сенсорами, используя факты о мире или разновидности эвристических рассуждений, с которыми люди совершенно незнакомы, так что люди могут не распознать такие манипуляции, даже если очень долго проверяют предложенные действия.
- Процесс человеческого научного понимания, даже автоматизированный, может стать значительно менее эффективен, чем использование градиентного спуска для нахождения непрозрачных моделей мира. В таком случае, может быть неизбежно понимание ИИ-системами чего-то о мире, чего мы не понимаем, даже если они пытаются помогать нам с наукой.
- Если ИИ обучен предсказывать человеческие суждения или оптимизировать человеческие оценки, то вероятно, что люди будут совершать ошибки. ИИ-система в итоге выучит эти ошибки, а не предполагающееся поведение. Даже если эти ошибки неважны сами по себе, они предсказуемо распространятся и за пределы распределения, что приведёт к катастрофическим исходам.
- Даже если в обучающем наборе люди не совершат ошибок, у понимающего мир ИИ уже есть модель людей, которую легко можно использовать для совершения хороших предсказаний о человеческих суждениях, а значит он будет склонен это и сделать. И распространить человеческие ошибки за пределы распределения.
- Даже если у ИИ нет модели людей, в пределе модель ИИ очень сложна и чужеродна, и для него быстрее и проще научиться с чистого листа моделировать «что бы сказал человек», а не предполагаемой онтологии. Так что на СГС полагаться нельзя.
- Есть много стратегий обучения для того, как обучить ИИ отвечать на вопросы даже в случаях, когда люди неспособны ответить верно. Однако, многие из известных сейчас подходов, включая исследуемые на практике, кажется, ограничены «вопросами, на которые люди могли бы ответить, если бы у них было больше вычислительной мощности», а этого, кажется, не всегда достаточно.
- Можно представить умудрённые игры, где простейшая для ИИ стратегия – это честность, а затем начать учитывать время вычислений, чтобы научить стратегии честности, но это потребовало бы у нас аккуратного конструирования обучающих данных, чтобы удостовериться, что задача достаточно сложна, и подходящих предложений пока нет. Очень сложно даже составить игру, в которой никакая стратегия не может одолеть честность.
- Если оптимизировать, основываясь на надёжных наблюдениях из реального мира, есть много плохих действий, у которых многие годы нет заметных людям последствий. К тому моменту, как они проявятся, мир может быть слишком сложен, чтобы люди могли оценить, хороши они или плохи. Если мы не создаём ИИ, понимающий наши предпочтения о таком скрытом плохом поведении, то конкурентный мир приведёт нам к плохому исходу.
- Если простейшая стратегия, для того, чтобы преуспеть в задаче – выучившийся оптимизатор, а мы пытаемся выставить ИИ требование, например, быстро отвечать на вопросы, то его лучшей стратегией может быть внутренний поиск медленно отвечающей стратегии (потому что её найти быстрее, а поиск затрачивает больше времени, чем месастратегия). Из-за этого сложно полагаться на регуляризацию для мотивирования честности.