***
Внутри команды DeepMind по согласованию мы обсуждали Аргументы о смертоносности СИИ, чтобы для самих себя прояснить, какие из этих аргументов беспокоят нас больше всего, и какие следствия это несёт для нашей работы. Этот пост собирает мнения подмножества команды согласования по поводу этих аргументов. Дисклеймер: это наши личные мнения, они не представляют взгляды DeepMind в целом или всех его исследователей безопасности.
Этот документ показывает мнения и комментарии от 9 человек из команды по согласованию (без привязки к конкретным людям). Для каждого раздела списка мы покажем таблицу с согласиями/несогласиями с аргументами в этом разделе (таблицы можно посмотреть здесь). Каждая строка отсортирована от «Согласен» к «Не согласен», так что столбцы не соответствуют людям. Мы также приведём комментарии и прояснения по каждому аргументы от членов команды.
Для каждого аргумента мы включили короткое описание из нескольких слов для простоты упоминаний, и краткий пересказ из одного-двух предложений (обычно скопированных из выделенных частей изначального аргумента). Мы приносим свои извинения за неизбежные неточности представления оригинальных аргументов в этих пересказах. Отметим, что, давая свои ответы, некоторые отвечающие смотрели на оригинальные аргументы, а другие – на пересказы (хоть все они читали исходный список перед предоставлением своего мнения).
Общая проблема с оценкой аргументов была в том, что люди часто соглашались с аргументом как он высказан, но не соглашались с серьёзностью его следствий касательно рисков СИИ. Многие такие случаи приводили к оценкам «в основном согласен / неясно / в основном не согласен». Может, лучше было бы давать две отдельные оценки (согласие с утверждением и согласие с следствиями для риска).
Общий взгляд на согласия, несогласия и следствия
Наиболее согласны:
- Раздел A («стратегические вызовы»): #1 (человеческий мозг – не что-то особое), #2 (несогласованный суперинтеллект может легко захватить власть), #8 (способности обобщаются за пределы желаемой области)
- Раздел Б1 (скачок распределения): #14 (некоторые проблемы появляются только в опасных областях)
- Раздел B2 (внешнее/внутреннее согласование): #16 (внутренняя несогласованность), #18 (нет эмпирической истины), #23 (исправимость неестественна)
- Раздел Б3 (интерпретируемость): #28 (большое пространство возможностей)
- Раздел Б4 (разное): #36 (человеческие слабости делают содержание сложным)
Наименее согласны:
- #6 (поворотное действие необходимо). Мы думаем, что необходимо закончить период острого риска, но не согласны с формулировкой «поворотного действия», подразумевающей, что он будет окончен посредством отдельного одностороннего действия малого числа действующих лиц.
- #24 (властелин или исправимость). Мы думаем, что двусмысленность такого рода на самом деле нечасто происходит в сообществе согласования. Наша работа сосредоточена на создании исправимых систем (а не властелинов), и мы ожидаем, что сложности этого подхода будут преодолимыми, особенно, если мы сможем выяснить, как избежать создания произвольно-консеквенциалистских систем.
- #39 (нельзя обучить людей мышлению безопасника). Многие из нас не считают, что сгенерировать все аргументы самостоятельно необходимо, чтобы добиваться прогресса в работе над задачами.
- #42 (плана нет). Такие планы, как, по нашему мнению, имеет в виду Элиезер, не кажутся необходимыми для выживания мира.
Наиболее противоречивые среди команды:
- Раздел A («стратегические вызовы»): #4 (нельзя скооперироваться, чтобы избежать СИИ), #5 (узкого ИИ недостаточно), #7 (слабых поворотных действий недостаточно), #9 (поворотное действие – опасный режим)
- Раздел Б1 («скачок распределения»): #13 и 15 (проблемы за порогом интеллекта и коррелированный набор способностей)
- Раздел Б2 («внешнее/внутреннее согласование»): #17 (внутренние свойства), #21 (способности идут дальше), #22 (простое ядро согласования)
- Раздел Б3 («интерпретируемость»): #30 (мощная или понятная), #32 (языка недостаточно), #33 (чуждые концепты)
- Раздел Б4 («разное»): #35 (много агентов – это единый агент)
- Раздел В («цивилизационная неадекватность»): #38 (недостаток фокуса), #41 (надо написать этот список), #43 (неосведомлённость о рисках)
Камни преткновения из самых противоречивых аргументов:
- Насколько могущественной должна быть система/план, чтобы спасти мир?
- Достаточно ли сложна глобальная кооперация, что для того, чтобы заставить её работать СИИ понадобилось бы развёртывание новой мощной технологии?
- Будем ли мы знать, насколько способны наши модели?
- Будут ли способности расти постепенно?
- Приобретут ли системы способность быть полезными для согласования/ кооперации до или после способности исполнять продвинутый обман?
- Является ли консеквенциализм мощным аттрактором? Насколько тяжело будет избежать произвольно-консеквенциалистских систем?
- Насколько далеко до согласованного СИИ от несогласованного?
Возможные следствия для нашей работы:
- Работа над кооперацией для избегания несогласованного СИИ (регуляция вычислительной мощности, нормы публикации, демонстрации несогласованности, и т.д.)
- Исследование техник для ограничения несогласованного консеквенциализма, например, основанная на процессе обратная связь, ограничение ситуационной осведомлённости, ограниченные области
- Работа над улучшением мониторинга способностей и контролем
- Эмпирически исследовать, до какой степени отбор недетектируемости / против интерпретируемости на практике возникает, когда системы становятся способнее
- Продолжить и расширить нашу работу над механистической интерпретируемостью и основанной на процессе обратной связи
Раздел А («стратегические вызовы»)
Кратко

Детальные комментарии
#1. В человеческом уровне нет ничего особенного / эффективного по данным
Краткое содержание: СИИ не будет ограничен сверху человеческими способностями или человеческой скоростью обучения (аналогично AlphaGo). Что-то куда умнее человека могло бы обучаться с куда меньших свидетельств, чем необходимо людям.
- Согласен (хотя не согласен с следствием, что это будет не непрерывным)
- Согласен (сильно, и, возможно, как крупный источник несогласия с сообществом машинного обучения в целом)
#2. Несогласованный суперинтеллект мог бы легко захватить власть
Краткое содержание: Для достаточно мощной когнитивной системы при наличии любого канала внешнего воздействия средней пропускной способности не составит труда обеспечить себе превосходящие способности, не зависящие от человеческой инфраструктуры.
- Согласен (включая использование человеческих социальных институтов и инфраструктуры в своих целях)
- Согласен («достаточно мощной» тут делает большую часть работы)
- В основном согласен – это сильно зависит от того, что означает «средней пропускной способности», а ещё от того, насколько аккуратно систему мониторят (например, как мы проводит онлайновое обучение). Я думаю «исключительно текстовый канал, выдача советов людям, склонным им следовать» кажется скорее всего достаточным -> захват, если мы не будем осторожны. Но я думаю, что я скорее всего не соглашусь с механизмом захвата, который Юдковский тут имеет в виду.
#3. Нельзя итеративно пробовать в опасных областях
Краткое содержание: В некоторый момент будет «первая критическая попытка» действовать на «опасном» уровне интеллекта, и на этой «первой критической попытке» нам надо справиться с согласованием.
- (x2) В основном согласен (вводит в заблуждение, см. Несогласие Пола №1)
- В основном согласен. Неочевидно, что попытка справиться с согласованием и провал обязательно будут так же необратимы как несогласованные действия, но это кажется весьма вероятным. Если же «опасные» просто означает, что провал влечёт вымирание, то это утверждение становится тавтологией.
- В основном согласен (хоть «справиться с согласованием верно с первой критической попытки» может сильно полагаться на «тормозить способности, пока не справимся с согласованием»)
#4. Невозможно кооперировать, чтобы избежать СИИ
Краткое содержание: Мир не может просто решить не создавать СИИ.
- Неясно. Я думаю, это сильно зависит от того, что в точности произойдёт в реальном мире в следующее десятилетие или около того, и вполне возможно, что мы сможем купить побольше времени.
- Неясно. Согласен, что общемировая кооперация для избегания СИИ была бы очень сложна, но кооперация между западными ИИ-лабораториями кажется посильной, и её потенциально может хватить, чтобы закончить период острого риска или купить побольше времени (особенно при коротких сроках).
- Неясно. Согласен, что это очень сложно и маловероятно, но при достаточно экстремальных обстоятельствах в мировой политике могут произойти экстремальные штуки, и кооперация можем сильно оформить скорость и направление технологического развития.
- В основном не согласен (больше в принципе, чем вижу стабильное решение; согласен, что «просто» решить не создавать СИИ не сработает, но окружающую ИИ культуру можно сдвинуть)
#5. Узкого ИИ недостаточно
Краткое содержание: Мы не можем просто создать очень слабую систему.
- Согласен (при допущении #4)
- Согласен (это не закончит период острого риска)
- Не согласен (потенциально можно использовать узкий ИИ, чтобы помочь людям кооперироваться)
- (x2) Не согласен (больше в принципе – нам надо работать над тем, как решить x-риск с использованием более узких систем; для ясности, это задача, которую надо решить, а не что-то, что мы «просто можем сделать»)
#6. Поворотное действие необходимо
Краткое содержание: Нам необходимо согласовать исполнение некой большой задачи, «поворотного действия», которое предотвратит создание другими людьми несогласованного СИИ, уничтожающего мир.
- В основном согласен (но не согласен с коннотациями, «действие» звучит будто это единый быстрый ход, тогда как понимаемой на человеческих промежутках времени стратегии скорее всего хватит)
- Неясно (необходимо окончить период острого риска, но это может быть сделано и людьми, а не только СИИ)
- Неясно (не нравится формулировка; кажется связанным с способностью к кооперации)
- Не согласен, если поворотное действие – «отдельное, мощное, переворачивающее игровую доску действие» (а не что-то, что оканчивает период острого риска)
- Не согласен (сильно не согласен с поворотным действием. Если кратко, они кажутся плохим оформлением.
- Кажется, что «заставить людей ввести более сильные ограничения» или «объяснить риски несогласованности» или «составить лучшую регуляцию» или «диференцированно улучшить согласование» – все эти приложения СИИ лучше, чем «совершить поворотное действие».
- Формулировка поворотного действия кажется подразумевающей «будет маленькая группа людей, у которых будет ответственность за спасение мира», но в реальности, кажется, это будет больше похоже на противоположность: будет крохотная группа людей, которые хотят создать чрезвычайно амбициозный (а следовательно и опасный) СИИ и подавляюще большая часть мира, поддерживающая _не_ создание такого СИИ (а вместо этого создание более ограниченных систем, которые могут обеспечить много богатства и ценности), и какое-то множество людей будет представлять эту большую часть мира в этом вопросе. Это обобщение того, что «ИИ следует оказывать большое влияние на большие части общества» — уже сейчас, пожалуй, непопулярный взгляд.
#7. Слабых поворотных действий не существует, они требуют высокой мощности
Краткое содержание: Нужно много мощности, чтобы сделать с нынешним миром что-то, что предотвратит появление любых других СИИ; ничто, что может такое сделать, не может быть пасивно-безопасным в силу своей слабости.
- Согласен (если под поворотным действием мы подразумеваем «отдельное, мощное, переворачивающее игровую доску действие»)
- Согласен (если планка «предотвратить появление любого другого СИИ»)
- Согласен (с оговорками о кооперации)
- Не согласен. Могут существовать технические/инженерные решения, не включающие агентности общего назначения, или вовсе не требующие развёртывания узкого ИИ.
#8. Способности обобщаются за пределы желаемой области
Краткое содержание: Лучшие и проще-всего-находимые-оптимизацией алгоритмы решения задач, которые мы хотим, чтобы ИИ решал, легко обобщаются на задачи, которые мы хотели бы, чтобы ИИ не решал.
- Согласен (при условии #5)
#9. Поворотное действие – опасный режим
Краткое содержание: Создателям безопасной системы понадобится использовать её в режиме, где у неё есть способность всех убить, или сделать себя ещё опаснее, но она успешно спроектирована так, чтобы этого не делать.
- Согласен (при условии #5)
- Согласен (если под поворотным действием мы имеем в виду «отдельное, мощное, переворачивающее игровую доску действие»)
- В основном не согласен (из-за лежащей в основе формулировки поворотного действия). Но согласен, что ML-системы реалистично будут действовать в опасных режимах. Я согласен с тем, что «Запуск СИИ для чего-либо поворотного не пассивно-безопасен». Пойду дальше и скажу, что вероятно, что люди будут запускать СИИ, совершающие небезопасные поворотные действия. Однако, я не согласен с (думаю, подразумеваемым) утверждением «Нам следует запускать СИИ, исполняющие что-то поворотное» (при авторском понимании «поворотного»).
- Не согласен (человеческая кооперация или люди, которым ассистирует узкий ИИ, может покончить с периодом острого риска без того, чтобы ИИ-система имела опасные способности)
Раздел B.1: Скачок распределения
Кратко

Детальные комментарии
#10. Большой скачок сдвиг распределения к опасным областям
Краткое содержание: При чём угодно, подобном стандартной ML-парадигме, вам понадобится каким-то образом обобщить оптимизацию-для-согласования, сделанную в безопасных условиях, через большой сдвиг распределения к опасным условиям.
#11. Перейти от симуляции к реальности трудно
Краткое содержание: Нет известных способов обучить безопасный уровень способности в безопасном окружении, в котором можно делать миллионы запусков, а потом развернуть эти способности, чтобы спасти мир.
- Согласен (кажется частным случаем #7)
- Неясно. Согласен, что для многих важных задач мы не будем обучать в безопасном окружении на миллионах запусков, в частности, не в симулированных окружениях, но не согласен с лежащей в основе формулировкой поворотного действия
- В основном не согласен (дебаты вместе с интерпретируемостью могут этого достичь, если придут к успеху)
#12. Высокий уровень интеллекта – большой сдвиг
Краткое содержание: Действия на высоком уровне интеллекта – мощный сдвиг по сравнению с действиями на менее высоком уровне.
- В основном не согласен (это полагается на резкий разворот, а он не кажется мне таким уж вероятным)
#13. Некоторые проблемы возникают только за порогом интеллекта
Краткое содержание: Многие проблемы согласования суперинтеллекта не возникнут естественным путём на до-опасных, пассивно-безопасных уровнях способностей.
- В основном согласен – думаю, многие проблемы согласования возникнут раньше, а многие не возникнут (или, по крайней мере, количественные различия станут качественными)
- Не уверен (согласен, что некоторые проблемы *естественно* впервые возникнут на высоких уровнях интеллекта, но мы можем отыскивать примеры в менее интеллектуальных системах, как например, в случае вмешательства в вознаграждение и неправильного обобщения целей)
- В основном не согласен (Мы получим демо-версии проблем; Элиезер, кажется, думает, что это будет тяжело / маловероятно, что поможет, но не говорит это явно, так что я не соглашусь)
#14. Некоторые проблемы возникают только в опасных областях
Краткое содержание: Некоторые проблемы кажутся такими, что их естественный порядок возникновения предполагает, что они впервые появятся в полностью опасных областях.
- В основном согласен (верно, но вводит в заблуждение: мы можем создавать аналогичные примеры до первой критической попытки)
- В основном согласен (но это не означает, что мы не можем полезно изучать их в безопасных областях)
#15. Получение разных способностей от интеллекта коррелирует
Краткое содержание: Быстрый набор способностей кажется вероятным, и он может сломать многие предшествующие необходимые для согласования инварианты одновременно.
- Согласен (в частности, когда у нас есть ИИ ~человеческого уровня, и разработка ИИ и мир-в-целом скорее всего станут безумными очень быстро)
- В основном согласен (таковы мои догадки о природе интеллекта, но я не уверен, что прав)
- В основном согласен, если быстрое – не значит не непрерывное
- Неясно (не согласен, что быстрый набор способностей вероятен, согласен, что при условии быстрого набора способностей будут ломаться инварианты)
Раздел Б.2: Ключевые сложности внешнего и внутреннего согласования.
Кратко

Детальные комментарии
#16. Внутренняя несогласованность
Краткое содержание: Внешняя оптимизация даже на очень точной и очень простой функции потерь не приведёт к внутренней оптимизации в этом же направлении.
- Неясно – сильно согласен с более слабым утверждением, что мы не получим внутреннюю согласованность просто так, но утверждение здесь кажется скорее ложным? Уж точно внешняя оптимизация на большинстве функций потерь приведёт к _большему_ количеству внутренней оптимизации в том же направлении (эмпирически и теоретически)
#17. Нельзя контролировать внутренние свойства
Краткое содержание: При нынешней оптимизационной парадигме нет общей идеи того, как получить систему с конкретными внутренними свойствами или проверить их наличие, а не просто наблюдать внешние свойства, на которых можно запустить функцию потерь.
- Согласен (по крайней мере пока что имеющиеся возможности интерпретируемости и/или концептуальное понимание ориентирования-на-цели кажутся неадекватными)
- В основном согласен (хоть не уверен по поводу того, насколько это про оптимизационную парадигму, а насколько про интерпретируемость)
- В основном согласен (против: нынешние достижения интерпретируемости)
- (x2) В основном не согласен (интерпретируемость могла бы с этим справиться)
#18. Нет эмпирической истины (без комментариев)
Краткое содержание: Нет надёжной Картезианской сенсорной эмпирической истины (надёжного калькулятора функции потерь) о том, «согласован» ли вывод.
#19. Проблема указателей
Краткое содержание: Нет известного способа использовать парадигму функций потерь, сенсорных вводов, и/или вводов вознаграждения, чтобы оптимизировать что-то внутри когнитивной системы для указания на что-то конкретное в окружении.
- Неясно – согласен, что у нас нет принципиального способа это делать, но у нас нет и особых примеров того, чтобы это не работало, так что зависит от того, в какой степени это имеется в виду. Я не думаю, что «высокая уверенность в том, что это не сработает» оправдана.
- Согласен (с точностью до возражения от «shard theory» на строгое прочтение этого)
#20. Слабость человеческой обратной связи
Краткое содержание: Люди-оценщики совершают систематические ошибки – регулярные, компактно описываемые, предсказуемые ошибки.
- В основном согласен (вводит в заблуждение, большая надежда – что процесс надзора будет умнее модели, так что систематические ошибки будут не теми, которыми модель может легко злоупотребить)
- Неясно (согласен формально, но не ясно, сможем ли мы обеспечить достаточный уровень автокоррекции для основных частей человеческой обратной связи)
#21. Способности обгоняют
Краткое содержание: Когда способности начинают далеко обобщаться, они обобщаются дальше, чем согласованность.
- Согласен (кажется схожим с #8 и #15)
- В основном согласен (по умолчанию; но думаю, что есть надежда в наблюдении, что обобщение согласования – посильная для людей задача, так что она может оказаться посильной и для СИИ)
#22. Нет простого ядра согласования
Краткое содержание: Есть простое ядро для обобщённого интеллекта, но алагогичного простого ядра для согласования нет.
- В основном согласен (но что-то вроде «помогать этому агенту» кажется довольно простым ядром)
- Неясно (могут существовать системы, у которых согласование – аттрактор)
#23. Исправимость противоестественна
Краткое содержание: Исправимость противоестественна для консеквенциалистских рассуждений.
- В основном согласен (вводит в заблуждение, я согласен с комментарием Пола к «Посмотрим, как вы напишете об исправимости»)
- В основном согласен (Я думаю, мы можем избежать создания произвольно-консеквенциалистских систем)
- Согласен с утверждением, что исправимость противоестественна для консеквенциалистских рассуждений. Взгляд Юдковского, кажется, заключается и в том, что всё склоняется к *чистому* консеквенциализму, а с этим я не согласен.
#24. Sovereign vs corrigibility
Краткое содержание: Есть два потенциальных фундаментально различающихся подхода к согласованию [оптимизирующий CEV властелин или исправимый агент], они нерешаемы по двум разным наборам причин. Следовательно, находясь в замешательстве и перепрыгивая между двумя подходами вы можете запутать себя по поводу того, точно ли согласование сложное.
- Неясно. Согласен в принципе (но не согласен с тем, что это часто происходит)
- В основном не согласен (согласен, что есть два отдельных подхода, которые не надо путать, не согласен с тем, что люди их путают, и с тем, что они нерешаемые)
- В основном не согласен – согласен, что перепрыгивать между подходами плохо, но не уверен, к кому/чему всё это относится, и тут, кажется, подразумевается утверждение «все подходы, которые я видел, нежизнеспособны», с чем я не согласен.
Раздел Б.3: Ключевые сложности достаточно хорошей и полезной прозрачности/интерпретируемости
Кратко

Детальные комментарии
#25. Настоящая интерпретируемость за пределами досягаемости
Краткое содержание: У нас нет ни малейшего понятия о том, что на самом деле происходит внутри гигантских непонятных матриц и тензоров чисел с плавающей точкой.
- Согласен – исследования интерпретируемости продвигаются впечатляющими темпами, куда более, чем я ожидал в 2007, но они всё ещё далеки от понимания большей части того, что происходит внутри большой кучи перемножений матриц
- В основном согласен (вводит в заблуждение, правдоподобно, что в будущем мы сможем лучше)
- В основном согласен (мы мало знаем сейчас, и я не уверен, будем ли мы потом знать больше или меньше)
- Неясно (согласен, что мы мало чего понимаем прямо сейчас, но я думаю, что мы сможем выработать лучшее понимание, основная неуверенность – сможем ли мы это сделать вовремя)
#26. Интерпретируемости недостаточно
Краткое содержание: Знание, что система умеренной силы из непонятных матриц планирует нас убить само по себе не позволяет нам создать систему высокой силы из непонятных матриц, которая не планирует нас убить.
- В основном согласен (вводит в заблуждение). Крупный источник надежды – что (используя интерпретируемость для надсмотра) вы просто не получите систему умеренной силы, которая планирует вас убить.
- В основном согласен. Интерпретируемость полезна для кооперации и помогает обучить систему, которая вас не убивает, если #27 окажется неверным.
- В основном согласен – кажется верным само по себе, но тон, кажется, недооценивает то, что интерпретируемость могла бы *очень сильно* изменить наше положение. Если бы интерпретируемость убедительно вскрыла, что один из существующих прототипов пытается нас убить, это мгновенно изменило бы дискурс вокруг x-риска/согласования в {Области ML, везде, ИИ-лаборатории}.
- В основном согласен. Согласен формально, но не согласен с тем, что это не было бы очень полезно.
#27. Отбор по недетектируемости
Краткое содержание: Оптимизация против интерпретированных мыслей означает оптимизацию против интерпретируемости.
- Согласен – важный пункт, с которым надо быть осторожным
- В основном согласен (вводит в заблуждение, написано, чтобы убедить, что вы точно получите обманчивую модель, а не что неясно, получите ли выы обманчивую или согласованную модель, что верно)
- Не уверен (хорошо за этим присматривать, но не уверен, насколько это проблема на практике)
#28. Большое пространство возможностей (без комментариев)
Краткое содержание: Мощный ИИ проводит поиск по пространству возможностей, по которому мы не умеем, и мы не можем предвидеть доступные ему варианты.
#29. Реальный мир – непрозрачная область
Краткое содержание: Выводы СИИ проходят через огромную непрозрачную область, прежде чем обретают настоящие последствия, так что мы не можем оценивать последствия на основе выводов.
- Согласен (сильно) – кажется особенно важным, когда есть последствия, которые мы не можем легко наблюдать/привязать (это кажется правилом, а не исключением в многих консеквенциалистских областях)
- В основном согласен (мы не можем оценивать последствия напрямую, но можем это сделать, оценивая рассуждения)
#30. Мощное или понимаемое
Краткое содержание: Никакого доступного проверке людьми вывода недостаточно, чтобы спасти мир.
- Не согласен (верификация проще генерации)
- Не согласен (из-за подхода поворотного действия)
#31. Скрытая обманчивость
Краткое содержание: Вы не можете полагаться на инспектирование поведения для определения фактов про ИИ, по поводу которых ИИ может хотеть вас обмануть.
- Согласен (для высокоинтеллектуального ИИ)
- Согласен (но с инструментами интерпретируемости нам не обязательно ограничиваться инспектированием поведения)
- Согласен (наверное?) Например, я согласен, что у нас нет хороших путей интерпретируемости, чтобы проверить «чего ИИ хочет» или «какие подцели тут важны», что особо важно там, где ИИ может обманывать
- Неясно (зависит от уровня ситуационной осведомлённости у системы)
#32. Язык недостаточен или небезопасен
Краткое содержание: Имитация человеческого текста может быть достаточно мощна только если появляется на основе внутреннего не-имитационного интеллекта.
- В основном согласен (вводит в заблуждение, типичные планы не зависят от допущения «имитации человеческих мыслей»)
- Неясно – сильно зависит от конкретных определений
#33. Чуждые концепты
Краткое содержание: ИИ не думает, как вы, он невероятно и ошеломляюще чужд Согласен (for highly intelligent AI)
- Неясно (Зависит от подробностей ИИ)
- Неясно – не думаю, что мы много знаем о том, как работают нейросети, и то, что мы знаем противоречиво, хоть и согласен с #25 выше
- Не согласен (гипотеза естественных абстракция кажется скорее всего верной)
Раздел B.4: Разнообразные неработающие схемы
Кратко

Детальные комментарии
#34. Мультиполярный сговор
Краткое содержание: Люди не могут участвовать в координационных схемах между суперинтеллектами
- Неясно (не убеждён, что это необычайно-трудный случай исправимости для ИИ, который мы бы использовали, чтобы нам помочь)
#35. Много агентов – это единый агент
Краткое содержание: Любая система из достаточно интеллектуальных агентов скорее всего может вести себя как единый агент, даже если вы считаете, что сталкиваете их в игре друг против друга.
- Согласен (на достаточно высоком уровне интеллекта мне сложно представить, чтобы они играли в любую предполагаемую нами игру)
- Неясно (не согласен, если подразумевается, что это применимо к дебатам, см. Несогласие Пола #24)
#36. Человеческие слабости делают содержание сложным (без комментариев)
Краткое содержание: Только сравнительно слабые СИИ можно сдерживать; люди-операторы – не надёжные системы.
Раздел В («цивилизационная неадекватность»)
Кратко

Детальные комментарии
#37. Оптимизм до провала
Краткое содержание: У людей при неопределённости есть оптимистическое допущение по умолчанию, пока они не встретят жёсткие свидетельства сложности.
- В основном не согласен (человечество в целом кажется довольно избегающим рисков, см. FDA и другие органы регуляции, или родителей-вертолёты)
#38. Недостаток сосредоточенности на реальных проблемах безопасности
Краткое содержание: Область безопасности ИИ не была продуктивна в работе над смертоносными проблемами. Стимулы подталкивают работать там, где успех проще.
- (x2) Неясно / нельзя оценить (зависит от границ области)
#39. Нельзя обучить людей мышлению безопасника
Краткое содержание: Способность «замечать смертоносные сложности без того, чтобы Элиезер Юдковский убедил их заметить» сейчас для меня является непрозрачным когнитивным механизмом, и я не знаю, как научить ему других.
- Неясно (тут нет утверждения о том, обладают ли этим механизмом другие и не лучше ли они в обучении?)
- Не согласен (кажется странным представлять, что прогресс может двигаться только если кто-то придёт ко всем этим аргументам самостоятельно; это кажется очевидно противоречащим любой существующей области исследований)
#40. Нельзя просто нанять гениев, чтобы решить согласование
Краткое содержание: Нельзя просто заплатить по $5 миллионов куче признанных гениев из других областей и ожидать от них замечательной работы по согласованию.
- Не уверен (что мы пробовали?)
#41. Вы должны быть способны написать этот список
Краткое содержание: Чтение этого документа не может сделать кого-то перспективным исследователем согласования, надо быть способным его написать.
- В основном согласен (но думаю, что это может быть один из элементов, приводящих к реальному исследованию согласования)
- Не согласен (я думаю, что мог бы, а часто буквально писал те аргументы из этого списка, с которыми согласен; просто этот документ не кажется мне особенно полезным в сравнении с уже существовавшими, кроме как постольку, поскольку он подталкивает людей к действию)
#42. Плана нет
Краткое содержание: Выживающие мира скорее всего к этому моменту уже имеют план выживания.
- Неясно (неясно, насколько создание опасного СИИ предопределено)
- Не согласен (зависит от того, что подразумевается под «планом», но либо я думаю, что он у нас есть, либо я думаю, что у выживающих миров его нет)
#43. Неосведомлённость о рисках
Краткое содержание: Недостаточно людей заметили или понимают риски.
- В основном согласен, особенно про понимание
- Не согласен (по сути приходится с этим не соглашаться, если у вас меньше p(погибели), тут нет особого аргумента, чтобы на него отвечать)