Перевод поста Zvi, в котором он комментирует это письмо и реакцию Интернета на него. (Оригинал)
***
FLI выложили открытое письмо, призывающее к шестимесячной паузе обучения моделей, более мощных, чем GPT-4, и дополнительных мерах предосторожности после неё.
Потом Элиезер Юдковский написал своё письмо в Time, в котором явно высказался, что не считает, что то письмо зашло достаточно далеко. Элиезер, в свою очередь, предлагает международный запрет на большие процессы обучения ИИ, который должен ограничить будущие продвижения способностей. Он выражает наш выбор, как он его видит, сурово: либо сделать всё необходимое, чтобы предотвратить большие процессы обучения, либо встретить погибель.
Произошло много хороших обсуждений. Ситуацию заметили многие, кто иначе бы не заметил, вплоть до вопроса, заданного на пресс-конференции в Белом Доме. Кроме этого, благодаря некоторой комбинации того, что интернет – это интернет, сути вопроса и того, как были изложены некоторые подробности, многие обсуждения предсказуемо быстро свернули куда-то не туда.
Если вы ещё не читали письмо Элиезера, я призываю вас прочитать его целиком, сейчас, перед тем, как продолжать. Я резюмирую своё прочтение в следующем разделе, а потом обсужу реакции.
Мы рассмотрим:
- Что на самом деле говорится в письме. Проверьте, совпадает ли ваша интерпретация.
- Интернет в основном обошёл важные вопросы стороной. Многие не восприняли это хорошо.
- Что есть призыв к насилию? Политическая власть исходит из стволов ружей.
- Наши слова поддержаны ядерным вооружением. Элиезер не предлагал использовать атомные бомбы.
- Ответы на гипотетические вопросы. Если он не будет этого делать, то потеряет все свои магические силы.
- Что я думаю о модели риска ИИ Юдковского? Я не настолько уверен.
- Что я думаю о предложении Элиезера? Зависит от убеждений по поводу риска.
- Что я думаю об ответах Элиезера и его стратегии коммуникаций? Хороший вопрос.
Что на самом деле говорится в письме?
Я вижу это письмо как ясное, прямое, хорошо написанное объяснение того, что, как на самом деле считает Элиезер Юдковский, произойдёт. Конкретно, что ИИ буквально убьёт всех на Земле, и никто из наших детей не вырастет – если не будут предприняты активные действия, чтобы это предотвратить.
Элиезер также считает, что единственный известный способ сделать так, чтобы наши дети выросли – это скоординироваться и коллективно обеспечить, чтобы достаточно большие и мощные процессы обучения ИИ не происходили.
Либо вы готовы сделать всё необходимое, чтобы их предотвратить, либо нет.
Единственный известный путь – если государства ограничат и будут отслеживать GPU и кластеры GPU, включая ограничения на производство и экспорт GPU, потому что GPU в больших количествах необходимы для обучения.
Это требует международного соглашения по ограничению и отслеживанию GPU и кластеров GPU. Без исключений. Как и в случае любого соглашения, это потребует готовности обеспечивать его соблюдение, включая, при необходимости, использование силы, чтобы физически предотвратить существование неприемлемо больших кластеров GPU.
Нам надо нацелиться на обучение, а не развёртывание, потому что у развёртывания нет никаких узких мест, которые мы можем использовать.
Элиезер не видит шансов на то, что у нас будет достаточно времени, чтобы понять, как сделать так, чтобы ИИ нас не убил, если мы позволим продолжаться корпоративной модели разработки и обучения ИИ продолжиться. Решить эту задачу возможно, но на то, чтобы найти решение понадобятся десятилетия. Нынешняя непринуждённая готовность корпораций поставить на кон все наши жизни как можно быстрее делает усилия по нахождению действительно работающих решений практически безнадёжными.
Если мы продолжим двигаться вперёд без решения, мы всё умрём.
Как именно? Приведённый пример – использование рекомбинантной ДНК, чтобы разогнаться до пост-биологической молекулярной сборки. Подробности не столь важны.
Это драконовские меры с очень высокой ценой. Мы принесём в жертву высокоценные технологические способности и рискнём смертоносными конфликтами. Такие шаги не даются легко.
Это, однако, шаги, которые предпринимаешь, если действительно веришь, что альтернатива – вымирание человечества, даже если не настолько уверен, как Элиезер.
Я убеждён, что вымирание человечества – экзистенциально плохо, и надо быть готовым заплатить очень высокую цену, чтобы его предотвратить, или сильно снизить его вероятность.
Письмо также указывает на возможность того, что потенциальная GPT-5 может обрести сознание и стать объектом морали, что, Элиезер посчитал морально обязательным упомянуть.
Интернет в основном обошёл важные вопросы стороной.
Многие люди ответили на статью в Time признанием экзистенциального риска ИИ, восприняв аргументы и предложения.
Они, как обычно и происходит, не были самыми громкими голосами.
Самыми громкими были в основном люди, заявляющие, что это призыв к насилию, или атакующие всякого, кто говорит, что это по сути не ‘призыв к насилию’, не отличающие готовность совершить авиаудар как последнее средство обеспечения выполнения международного соглашения от призыва к совершению авиаудара прямо сейчас, зачастую, пытающиеся проассоциировать любого, кто ассоциируется с Элиезером, с терроризмом, убийствами, первыми атомными ударами, и полным безумием.
Да, куча народу сразу перескакивает от «готовности рискнуть обменом ядерными ударами» к «ты хочешь разбомбить людей атомными бомбами», а потом ведёт себя так, будто любой, кто не перескочил с ними нечестен и неразумен.
Или без контекста отсылает к фразам вроде ‘стать пророком культа судного дня.’
Такие ответы всегда подразумевают «раз Элиезер сказал эту Просто Ужасную вещь, больше никому не позволено приводить аргументы из физического мира об экзистенциальных рисках суперинтеллектуального ИИ, такие аргументы следует игнорировать, а всех, кто их высказывает, надо за это атаковать или хотя бы пристыживать».
Многие другие ответили стандартными Плохими Подходами к НеУбиваниюВсех-изму ИИ, как будто это разящие наповал аргументы, включая классику на все времена «ИИ-системы пока что не были опасны, что доказывает, что будущие тоже не будут опасны, и ты не прав, как ты такое объяснишь?», хоть никто вовлечённый не предсказывал, что что-то подобное нынешним системам будет аналогично опасным.
Интересное заявление от Тайлера Ковена – то, что Элиезер попытался высказать всё это открыто и напрямую, это знак того, что Элиезер не такой уж умный. В результате, говорит Тайлер Ковен, нам стоит заново обдумать, что такое интеллект и для чего он хорош. Учитывая, насколько это показывает разногласия и непонимание того, что такое интеллект, я соглашусь, что это и правда стоит сделать. Ему, правда, раздумывая о том, что может сделать высокоинтеллектуальный ИИ, стоит рассмотреть следствия из того, что, как он говорит, высокий интеллект подразумевает скрывание своих истинных убеждений.
Для всех, независимо от взглядов на экзистенциальные риски ИИ, жизненно важно давать отпор призывам к замалчиванию, и говорить об относящихся к делу аргументах и том, какие действия имеют или не имеют смысл.
Я бы хотел сказать, что я разочарован в тех, кто так реагирует. Но это не так. Мир так и работает. Люди так и реагируют на прямые заявления, которые им не нравятся, и которые им хочется атаковать.
Я разочарован только в некоторых конкретных людях, от которых я ожидал лучшего.
Один хороший ответ был от Roon.
Искренне признателен за интеллектуальную честность. Смотрю свысока на людей, у которых безумно высокое ожидание погибели, но которые не говорят чего-то такого напрямую.
Что есть призыв к насилию?
Я продолжаю напоминать всем не выбирать насилие, в том смысле, что не надо лично идти совершать акты насилия в качестве попытки предотвратить какие-то действия, связанные с риском ИИ и не надо убеждать других людей это делать. Я сильно уверен, что Элиезер с этим согласился бы.
Я приветствовал бы по крайней мере некоторые формы законов и регуляций, направленных на снижение связанных с ИИ экзистенциальных рисков, или на многие другие цели, выполнение которых обеспечивалось бы Правительством Соединённых Штатов, чья способность обеспечивать выполнение законов исходит из ствола пистолета. Я бы также приветствовал, если бы другие страны принимали такие законы и обеспечивали их выполнение, тоже из ствола пистолета, или если бы они заключали международные соглашения.
Я думаю, что и вы, и я, не хотели бы жить в мире, где государства никогда не готовы использовать насилие для навязывания своих правил.
И я думаю, что для могущественных государств было бы весьма осмысленно установить набор международных правил для защиты человечества, для обеспечения выполнения которых у них есть сила, и, при необходимости, навязывать их выполнение, даже при угрозе ответных разрушительных действий. Это не значит, что какое-то конкретное навязывание было бы мудрым. Это тактический вопрос. Даже если бы в конце было, вся вовлечённые могли бы согласиться, что это совершенно крайняя мера.
Я думаю, что, если кто-то называет такие рассуждения призывом к насилию, это, по сути, вводит в заблуждение. Эти слова на практике означают не это. В общественном понимании, по крайней мере, до сих пор, «призыв к насилию» означает призыв к незаконным актам насилия, не санкционированным государством, или к началу войны или иного по своей сути обязательно насильственного акта. Когда кто-то говорит, что не призывает к насилию, имеется в виду это.
В ином случае, как, по-вашему, обеспечивается выполнение законов? Как, по-вашему, работают международные соглашения и правила? Как вообще что-то работает?
Алисса Вэнс, Ричард Нго и Джо Циммерман, в числе прочих, напомнили нам, что это разделение важно, и что его размытие уничтожило бы нашу способность осмысленно протестовать против индивидуального насилия. Это то же явление, как и когда люди распространяют понятие насилия на другие ненасильственные штуки, которые им не нравятся, например, когда говорят что-то вроде «промолчать – это насилие».
Вы, конечно, можете решить быть абсолютным пацифистом и либертарианцем, и верить, что насилие не оправдано ни при каких обстоятельствах. Почти все остальные считают, что надо использовать людей с оружием для обеспечения выполнения законов и сбора налогов, и что надо быть готовыми защищаться от угроз, как внешних, так и внутренних.
Всё в мире, что защищено или запрещено, в конце концов защищено или запрещено угрозой насилия. Законы и соглашения работают так. Собственность работает так. Всё так работает. Политическая власть исходит из дула пистолета.
Как выразился Оруэлл, вы крепко спите, потому что есть люди с оружием, которые это обеспечивают.
Суть того, чтобы быть готовым разбомбить датацентр не в том, что вам хочется разбомбить датацентр. Суть в том, чтобы предотвратить его создание. Аналогично, суть готовности застрелить грабителей в том, чтобы остановить людей до того, как они попробуют ограбить банк.
Многие годы люди делают аргументы такого вида:
- Вы говорите, что если произойдёт X, все умрут.
За чем следует одно из:
- Но вы не призываете к насилию, чтобы остановить X. Странно!
- Но вы не призываете к нацеленным убийствам, чтобы остановить X. Странно!
- Ваши слова воспримут как призыв к насилию, и кого-то убьют!
Вот тут Майк Солана одновременно заявляет, что люди из безопасности ИИ доведут до того, что кого-то убьют, и что они не верят в то, во что говорят, потому что если бы он верил, то хотел бы много кого поубивать. Он потом развил это до полноценного поста. Я признателен за выкладывание обеих сторон дилеммы сразу – если бы вы верили в X, вы бы призывали к ужасной штуке Y, и если вы убедите других в X, они сделают ужасную вещь Y, но Y не происходит, так что я обвиню вас в том, что вы всё равно вызовете Y в будущем, вы на самом деле не верите в X, X ложно, и ещё я сильно убеждён в том, что Y на самом деле плохо.
Так что периодически надо говорить что-то в этом роде (Элиезер 10 февраля):
Пожалуйста, имейте в виду: Кажется, проходит кампания по продвижению ЛОЖНОЙ истории о том, что теоретики согласования ИИ призывают к насилию. Помните: *МЫ* такого никогда не говорит, это *ОНИ*, те, кто находят полезным заявлять, будто мы так делаем – они наполняют пространство разговорами о насилии, ради своей собственной политической выгоды.
Пусть для всех, кто ещё стоит на защите Земли, будет совершенно ясно, кому выгодно говорить о насилии, кому ещё более выгодно настоящее насилие, кто говорит о насилии почти буквально пуская слюни в надежде, что кто-то клюнет.
Это не мы.
За чем следует прояснение для всех, капсом отвечающих «ПОПАЛСЯ!»:
Судя по всему, необходимое прояснение: Под «насилием» я имею в виду применение силы, инициированное индивидуумом. Я думаю, что для людей нормально защищать свои дома; но всё равно хочу, чтобы существовали полицейские, хоть и хотелось бы, чтобы у нас были другие законы и процедуры (и я довольно много об этом писал);
Я раньше высказывался за международный запрет исследований по усилению патогенов, это означает, что я, в принципе, одобряю использование полицеской или даже военной силы для закрытия лабораторий, работающих над суперпатогенами; и если бы было международное соглашение, запрещающее большие процессы обучения ИИ, я бы всем сердцем его поддержал, потому что иначе все погибнут.
Или, как это высказал Стефан Шуберт:
«Был тред, в котором кто-то упомянул, будто были обсуждения террористического насилия против лабораторий ИИ. Я категорически осуждаю эту идею!»
«А, так ты, должно быть, против любых амбициозных регуляций ИИ? Ведь они должны в конечном счёте подкрепляться насилием!»
Наши слова поддержаны ядерным вооружением
Стоит отдельно упомянуть ядерное оружие.
Элиезер совершенно точно, ни в какой момент, не призывал к первому, или какому-либо ещё, использованию ядерного оружия.
Любой, кто говорит иначе, либо неправильно понял пост, намеренно преувеличивает, напрямую врёт, или же жертва испорченного телефона.
Легко понятно, как дошло от «пойти на некоторый риск обмена ядерными ударами» и « уничтожить мятежный датацентр авиаударом» до «первое использование ядерного оружия». Только вот нет. Никто этого не говорил. Даже касательно гипотетических ситуаций. Прекратите.
Что Элиезер говорил – это что надо быть готовыми рискнуть возможностью обмена ядерными ударами, то есть, что если кто-то говорит «я создаю СИИ, который, как вы считаете, убьёт всех людей, а ещё у меня есть атомные бомбы», вы не отвечаете «ну, раз у тебя есть атомные бомбы, полагаем, мы тут ничего сделать не можем» и на этом всё.
Тут Элиезер детально проясняет, и я считаю, что он прав, что если вы готовы в достаточно суровых обстоятельствах разбомбить датацентр другой страны, и можете конкретизировать, что вызовет такую реакцию, то для вас куда безопаснее очень явно эти условия высказывать. Всё ещё нет причин использовать для этого ядерное оружие.
Ответы на гипотетические вопросы
Хоть в одном отношении стоит посочувствовать разработчикам ИИ-систем. Когда вы создаёте что-то вроде ChatGPT, ваши пользователи не просто укажут на все худшие выводы вашей системы и усилят их. Они насквозь прощупают вашу систему, выискивая все способы, как можно заставить её выглядеть максимально плохо, выдирая вещи из контекста, неверно их истолковывая, находя трюки, позволяющие получить плохо звучащие ответы, требуя цензуры и отсутствия цензуры, требуя «баланса», который склоняется в их сторону по каждому вопросу, и так далее.
При таком стандарте никакой человек не будет выглядеть хорошо. Представьте, что интернет сделал копии вас, и весь интернет промптил эти копии всеми способами, до которых смог бы додуматься, и вам надо было бы отвечать каждый раз, не уклоняясь от вопроса, и у них было бы неограниченное число попыток. Это бы не закончилось хорошо.
Или вы можете быть Элиезером Юдковским и чувствовать обязанность отвечать на каждый гипотетический вопрос, независимо от того, насколько все ваши инстинкты говорят, что, конечно, это очевидная ловушка.
И обладать убеждениями, их которых логически следует, что в некоторых гипотетических обстоятельствах надо совершить некоторые довольно неприглядные действия, потому что в этих гипотетических обстоятельствах альтернатива куда хуже, экзистенциально хуже. Это не очень приятно, и если «редтимить» такого человека, чтобы генерировать цитаты, это будет так себе выглядеть.
Yosarian2: «Убеждённый рационалист всегда отвечает на вопросы» против «люди, которым нравится задавать гипотетические вопросы, предназначенные, чтобы подловить, а потом делают вид, что ШОКИРОВАНЫ ответом». Это будет всё более раздражающим, не так ли?
…
Элиезер: Совершенно уверен, что если я когда-нибудь не смогу дать честный ответ на абсурдный гипотетический вопрос, я немедленно потеряю все свои магические способности.
Так что цикл продолжится, пока мы все не умрём, или не улучшится общий настрой.
Я намеренно не цитирую основные примеры. Если вам захочется их найти, это несложно. Если вы перейдёте по всем ссылкам в этом посте, вы найдёте самые важные.
Что я думаю о модели риска ИИ Юдковского?
Согласен ли я с моделью риска ИИ Элиезера Юдковского?
Я разделяю большую часть его беспокойства по поводу экзистенциального риска ИИ. У наших моделей много общего. Большая часть его отдельных аргументов о физическом мире, я думаю, верна.
Я думаю, что есть значительная вероятность вымирания человечества и вселенной, лишённой ценности. Я не разделяю его уверенности. В некоторых деталях у меня больше надежды, что всё может повернуться по-другому.
Большая часть моих надежд – в том, что до этих сценариев просто не дойдёт, потому что системы необходимого уровня способностей создать сложнее, чем нам кажется, так что в скором времени этого не произойдёт. И я не настолько обеспокоен тем, что мы в какой-то момент пересечём этот порог способностей. С учётом неуверенности, я очень предпочёл бы, чтобы большие датацентры и процессы обучения закрыли в ближайшем будущем, но у того, чем я готов ради этого пожертвовать, больше ограничений.
В сценариях, когда действительно скоро будут созданы достаточно способные системы, мне сложно представить, как всё может хорошо закончится для моих ценностей или для человечества, по причинам, выходящим за границы темы этого поста.
Я продолжаю считать (хотя и с меньшей уверенностью, чем у Элиезера), что по умолчанию, и даже в многих сравнительно хороших сценариях, где мы решаем, казалось бы, нерешаемые задачи, если создан ИСИ (Искусственный Суперинтеллект, любая достаточно обобщённо способная ИИ-система), вся ценность во вселенной, исходящая от Земли будет стёрта, и человечество долго не протянет.
Что я думаю о предложении Элиезера?
Я думаю, что при условии убеждённости в том, во что, как я думаю, убеждён Элиезер о физическом мире и экзистенциальных рисках ИИ в результате дальнейших больших обучающих процессов, предложение Элиезера – единственное не-безумное предложение, которое только можно сделать.
Если вместо этого условиться на том, в чём убеждён я, как я и делаю, я сильно одобряю работу над замедлением и остановкой будущих очень больших процессов обучения, введение глобальных ограничений на размер процессов обучения, и многие другие предосторожности во имя безопасности. Я хочу, чтобы это распространилось как можно дальше и шире, посредством международных соглашений, кооперации и обеспечения соблюдения.
Ключевая разница – что я не считаю такие ограничения единственным возможным путём с хоть какими-то значимыми шансами позволить людям выжить. Так что для меня неочевидно, на чём сосредоточить усилия.
Пауза обучения больших моделей до тех пор, пока у нас не будет более хороших обоснований, чтобы думать, что продолжать безопасно – всё ещё очевидная, продиктованная здравым смыслом идея, которую не-безумная цивилизация нашла бы способ реализовать, если бы считала, что есть значительный шанс, что без паузы все на Земле погибнут.
Я потенциально вижу надежду реализации такой паузы и эффективного обеспечения выполнения таких международных соглашений без большой вероятности действительно что-то бомбить. Ещё я убеждён, что это можно сделать, не превращая ни мир, ни Америку в «кошмарную дистопию».
Ещё замечу, что я куда оптимистичнее многих отношусь к перспективам убедить Китай согласиться на соглашение, потому что это было бы очень сильно в его национальных интересах и в интересах КПК. Если бы Америка была готова первой вступиться за Команду Человечества, кажется странным считать, что Китай обязательно отказался бы кооперировать и всё испортил.
Вам, конечно, следует уславливаться на том, в чём вы убеждены и одобрять тот уровень ограничений и предосторожностей, который в такой ситуации уместен. Это включает вашу практическую модель того, что достижимо, а что нет.
Большей части людей не следует поддерживать предложение в таком виде, в котором оно сформулировано, потому что многие, если не большинство, не верят, что СИИ появится скоро, или не обеспокоены этим, или не видят, как такое предложение поможет, а следовательно – не согласны с лежащей в его основе логикой.
Однако, согласно недавнему опросу 46% Американцев, включая 60% взрослых моложе 30 в какой-то степени или очень обеспокоены, что ИИ положит конец людям на Земле. Здравый смысл предполагает, что если вы «в какой-то степени обеспокоены», что какая-то деятельность положит конец людям на Земле, то вы можете хотеть снизить масштаб этой деятельности, чтобы исправить эту обеспокоенность, даже если у неё есть значительные экономические и стратегические преимущества.
Что я думаю об ответах Элиезера и его стратегии коммуникаций?
Написал бы я такой же текст, как Элиезер, если бы полностью разделял его модель рисков ИИ? Нет.
Я бы попробовал избежать нежелательных реакций, и обошёлся бы без двух самых часто цитируемых предложений, хоть и ценой меньшей суровости и откровенности. У меня всё ещё был бы тот же основной запрос, международное соглашение, запрещающее слишком большие процессы обучения.
Это не означает, что при условии его убеждений решение Элиезера неправильное. Только что у меня было бы не такое. Должен заметить, что добродетели наглости и радикальной честности могут окупаться. О статье спросили на пресс-брифинге в Белом Доме, хоть и получили ответ прямиком из Не Смотри Вверх (текст в меме по ссылке – буквальная цитата).
Сложно понять, особенно заранее, насколько и где именно наглость и радикальная честность сработают, какие наглые и радикально честные заявления рискуют навредить, не сработав, а какие рискуют навредить, но это того стоит, потому что они ещё и работают.
Согласен ли я на все его ответы на все гипотетические вопросы, даже при условии его модели риска ИИ? Нет. Я припоминаю как минимум два его ответа, которые были и в важном отношении неверными и в важном отношении не мудрыми для высказывания. Некоторые другие ответы были верными, но высказывание их в Интернете или подробности того, как он их высказал – это было не мудро.
Я вижу, как он дошёл до всех этих ответов.
Думаю ли я, что это «отвечать на все гипотетические вопросы» было мудро, или полезно для планеты? Тоже нет. Некоторые гипотетические вопросы специально спроектированы и в первую очередь служат для того, чтобы создать поверхность атаки, не продвигая на самом деле продуктивную дискуссию.
Я признателен за честность и, по сути, открытие алгоритма и исполнение произвольных запросов. Как в эссе, так и в дальнейших ответах.
Мир был бы лучшим местом, если бы больше людей так делали, особенно в окрестностях нынешнего положения вещей, хоть мы и получили урок на тему того, почему больше людей так не делает.
Ещё я признаю, что пришло время, когда нам надо говорить, что мы думаем, а не молчать дальше. Всё не идёт хорошо. Придётся идти на риторические риски. Хоть мне и не понравилось исполнение, лучше делать так хорошо, как получается, а не оставаться на обочине. Надо выложить и объяснить настоящий масштаб проблемы и поместить настоящие решения в потенциальное будущее Окно Овертона.
Если бы кто-то задал мне многие из тех гипотетических вопросов, то я бы (зачастую, молча) отказался отвечать. Интернет полон вопросов. Никто не должен отвечать на все. На другие я бы выдал весьма отличающиеся ответы, а если бы мои настоящие ответы были такие как у Элиезера, я бы проигнорировал вопрос. Отвечая на ещё многие другие, я бы сместил акценты. Я стремлюсь к высокому уровню честности, чести и открытости, но есть пределы, и часть из них была бы достигнута.
Меня тревожит, что могут быть намеренные усилия по слиянию любых попыток напрямую говорить о том, что надо сделать правильно, чтобы все не погибли, с «так ты один из тех плохих людей, которым хочется что-то разбомбить, это плохо» — как часть попытки заткнуть такие обсуждения, иногда даже отсылая к атомным бомбам. Не позволяйте такому произойти. Я надеюсь, мы можем игнорировать такие недобросовестные атаки, и качественно обсуждать эти сложные вопросы, заново донося подробные объяснения и контр-контр-аргументы для тех, кто встретился с этой темой впервые. Нам нужно найти лучшие способы делать это щедро и напрямую.