Путеводитель по статьям

Безопасность СИИ с чистого листа

Доклад Ричарда Нго с обоснованиями базовых положений, из которых вытекает необходимость работы над согласованием СИИ.

  1. Введение
  2. Суперинтеллект
  3. Цели и Агентность
  4. Согласование
  5. Контроль
  6. Заключение

И другой перевод аннотации всего доклада и вступления.

Ссылка на оригинал.

***

Риски Выученной Оптимизации

Версия статьи Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения в виде цепочки. Авторы: Эван Хубингер, Крис ван Мервейк, Владимир Микулик, Йоар Скалсе и Скотт Гаррабрант. Тут рассказывается о возможности возникновения внутренней оптимизации в обучаемых градиентным спуском моделях, и о том, почему цели этой внутренней оптимизации вовсе не обязательно совпадают с целями внешней.

  1. Введение
  2. Условия Меса-Оптимизации
  3. Задача Внутреннего Согласования
  4. Обманчивая Согласованность
  5. Заключение и Связанная Работа

Ссылка на оригинал.

И ещё Внутреннее Согласование. Объяснение, как будто тебе 12 лет – перевод неофициального разъяснения основных концептов этой цепочки от Рафаэля Харта. Оригинал.

И ещё Насколько вероятна обманчивая согласованность – запись развивающей тему лекции Хубингера. Оригинал.

***

Введение в Безопасность Подобного Мозгу СИИ

Цепочка Стивена Бирнса, в которой он рассказывает о своей гипотезе того, как работают некоторые системы в мозгу, и описывает свои соображения по поводу того, какое значение это может иметь для Безопасности ИИ.

  1. В чём проблема и почему работать над ней сейчас?
  2. «Обучение с чистого листа» в мозгу
  3. Две Подсистемы: Обучающаяся и Направляющая
  4. «Краткосрочный предсказатель»
  5. «Долгосрочный предсказатель»
  6. Большая картина мотивации, принятия решений, и RL
  7. От закодированных стремлений к предусмотрительным планам: рабочий пример
  8. Отходим от нейробиологии, 1 из 2: Про разработку СИИ
  9. Отходим от нейробиологии, 2 из 2: Про мотивацию СИИ
  10. Задача согласования
  11. Согласованность ≠ безопасность (но они близки!)
  12. Два пути вперёд: «Контролируемый СИИ» и «СИИ с социальными инстинктами»
  13. Укоренение символов и человеческие социальные инстинкты
  14. Контролируемый СИИ
  15. Заключение: Открытые задачи и как помочь

Ссылка на оригинал.

***

Встроенная Агентность

Цепочка Скотта Гаррабранта и Абрама Демски о сложностях формализации понятий, связанных с агентами, существующими в реальном мире, меньшими этого самого мира и способными рассуждать о самих себе.

  1. Встроенные Агенты
  2. Теория Принятия Решений
  3. Встроенные Модели Мира
  4. Устойчивое Делегирование
  5. Согласование Подсистем
  6. Встроенные Странности (Заключение)

Ссылка на оригинал.

***

«Список смертоносностей» и комментарии к нему

  1. Список Смертоносностей СИИ – текст Элиезера Юдковского о том, почему всё плохо. Полезен для понимания модели происходящего Юдковского и похожих пессимистов. (Оригинал)
  2. По поводу «Списка Смертоносностей» – ответ от Zvi (Оригинал)
  3. Мнение команды по согласованию DeepMind об аргументах из «Списка Смертоносностей» (Оригинал)
  4. Где я согласен и не согласен с Элиезером – ответ от Пола Кристиано (Оригинал)

***

Обсуждения в MIRI 2021 года

Серия записанных разговоров Элиезера Юдковского с другими людьми через Discord, в которых он проясняет им свою (крайне пессимистичную) позицию и критикует их (в основном, менее пессимистичные)

  1. Нго и Юдковский о Сложности Согласования
  2. Нго и Юдковский о Росте Способностей ИИ
  3. Юдковский и Кристиано обсуждают «Скорости Взлёта»

Ссылка на оригинал (там их куда больше).

***

Отдельные тексты

Четыре фоновых утверждения – перевод совсем-совсем вводного текста Нейта Соареса 2015 года. Можно считать его ещё более упрощённой версией «Безопасности СИИ с чистого Листа». Оригинал.

Согласование ИИ, почему это сложно и с чего начать – перевод приблизительной расшифровки лекции Элиезера Юдковского 2016 года. Приблизительно про то же самое, но с бОльшим количеством математических подробностей того, почему это сложно. Оригинал.

Мышление Безопасника и Обыденная Паранойя, а также Мышление Безопасника и Логистическая Кривая Успеха – две части эссе-в-виде-вымышленного-диалога Элиезера Юдковского об одном, по его мнению, очень важном для работы над согласованием ИИ навыке. Оригинал.

Разные Стратегии Согласования (и насколько вероятно, что они сработают) – пост Логана Зёлльнера о его мнении именно о том, что указано в названии. Оригинал.

Обманчиво согласованные меса-оптимизаторы. Это не смешно, если приходится объяснять – пост Скотта Александера, проясняющий вынесенное в заглавие понятие в форме разбора мема. Оригинал.

Плохо нацеленные лучи смерти – текст за авторством Thane Ruthenis, в котором метафорой поддерживается интуитивное понимание того, почему мощные оптимизаторы настолько опасны. Оригинал.

Ошибка Безвредной Сверхновой – статья с Арбитала об одной из логических ошибок, часто всплывающих при обсуждении рисков СИИ. Оригинал.

Длинный список пользы интерпретируемости – пост Нила Нанды, в котором он рассказывает о потенциальных полезных для согласования применениях интерпретируемости. Оригинал.

Основания Оптимизации – текст Алекса Флинта об одном из взглядов на природу понятия оптимизации. Оригинал.

Вознаграждение — не цель оптимизации – пост TurnTrout, в котором он развеивает популярное заблуждение, поддерживаемое многими вводными материалами по обучению с подкреплением. Оригинал.

Скорости Взлёта – текст Пола Кристиано года о том, почему он считает «медленный взлёт» более вероятным, чем «быстрый». Оригинал.

Душевное Здоровье и Задача Согласования. Компиляция Ресурсов – список ссылок на материалы, которые могут пригодиться для решения задачи «не съехать с катушек, имея дело с потенциальным концом света». Оригинал.

Принципы для проектов по Согласованию/Агентности – пост Джона Вентворта. Несколько полезных советов по поводу того, как совершать полезную работу в области согласования. Оригинал.

Вероятные (и дизъюнктные) сценарии погибели от СИИ – пост Нейта Соареса. Оригинал.

HCH и состязательные вопросы – пост Дэвида Уделла. Оригинал.

Задача согласования с точки зрения глубинного обучения – доклад Ричарда Нго. Пожалуй, ещё одна точка входа, с бОльшим количеством технических деталей. Оригинал.