Безопасность СИИ с чистого листа
Доклад Ричарда Нго с обоснованиями базовых положений, из которых вытекает необходимость работы над согласованием СИИ.
И другой перевод аннотации всего доклада и вступления.
***
Риски Выученной Оптимизации
Версия статьи Риски Выученной Оптимизации в Продвинутых Системах Машинного Обучения в виде цепочки. Авторы: Эван Хубингер, Крис ван Мервейк, Владимир Микулик, Йоар Скалсе и Скотт Гаррабрант. Тут рассказывается о возможности возникновения внутренней оптимизации в обучаемых градиентным спуском моделях, и о том, почему цели этой внутренней оптимизации вовсе не обязательно совпадают с целями внешней.
- Введение
- Условия Меса-Оптимизации
- Задача Внутреннего Согласования
- Обманчивая Согласованность
- Заключение и Связанная Работа
И ещё Внутреннее Согласование. Объяснение, как будто тебе 12 лет – перевод неофициального разъяснения основных концептов этой цепочки от Рафаэля Харта. Оригинал.
И ещё Насколько вероятна обманчивая согласованность – запись развивающей тему лекции Хубингера. Оригинал.
***
Введение в Безопасность Подобного Мозгу СИИ
Цепочка Стивена Бирнса, в которой он рассказывает о своей гипотезе того, как работают некоторые системы в мозгу, и описывает свои соображения по поводу того, какое значение это может иметь для Безопасности ИИ.
- В чём проблема и почему работать над ней сейчас?
- «Обучение с чистого листа» в мозгу
- Две Подсистемы: Обучающаяся и Направляющая
- «Краткосрочный предсказатель»
- «Долгосрочный предсказатель»
- Большая картина мотивации, принятия решений, и RL
- От закодированных стремлений к предусмотрительным планам: рабочий пример
- Отходим от нейробиологии, 1 из 2: Про разработку СИИ
- Отходим от нейробиологии, 2 из 2: Про мотивацию СИИ
- Задача согласования
- Согласованность ≠ безопасность (но они близки!)
- Два пути вперёд: «Контролируемый СИИ» и «СИИ с социальными инстинктами»
- Укоренение символов и человеческие социальные инстинкты
- Контролируемый СИИ
- Заключение: Открытые задачи и как помочь
***
Встроенная Агентность
Цепочка Скотта Гаррабранта и Абрама Демски о сложностях формализации понятий, связанных с агентами, существующими в реальном мире, меньшими этого самого мира и способными рассуждать о самих себе.
- Встроенные Агенты
- Теория Принятия Решений
- Встроенные Модели Мира
- Устойчивое Делегирование
- Согласование Подсистем
- Встроенные Странности (Заключение)
***
«Список смертоносностей» и комментарии к нему
- Список Смертоносностей СИИ – текст Элиезера Юдковского о том, почему всё плохо. Полезен для понимания модели происходящего Юдковского и похожих пессимистов. (Оригинал)
- По поводу «Списка Смертоносностей» – ответ от Zvi (Оригинал)
- Мнение команды по согласованию DeepMind об аргументах из «Списка Смертоносностей» (Оригинал)
- Где я согласен и не согласен с Элиезером – ответ от Пола Кристиано (Оригинал)
***
Обсуждения в MIRI 2021 года
Серия записанных разговоров Элиезера Юдковского с другими людьми через Discord, в которых он проясняет им свою (крайне пессимистичную) позицию и критикует их (в основном, менее пессимистичные)
- Нго и Юдковский о Сложности Согласования
- Нго и Юдковский о Росте Способностей ИИ
- Юдковский и Кристиано обсуждают «Скорости Взлёта»
Ссылка на оригинал (там их куда больше).
***
Отдельные тексты
Четыре фоновых утверждения – перевод совсем-совсем вводного текста Нейта Соареса 2015 года. Можно считать его ещё более упрощённой версией «Безопасности СИИ с чистого Листа». Оригинал.
Согласование ИИ, почему это сложно и с чего начать – перевод приблизительной расшифровки лекции Элиезера Юдковского 2016 года. Приблизительно про то же самое, но с бОльшим количеством математических подробностей того, почему это сложно. Оригинал.
Мышление Безопасника и Обыденная Паранойя, а также Мышление Безопасника и Логистическая Кривая Успеха – две части эссе-в-виде-вымышленного-диалога Элиезера Юдковского об одном, по его мнению, очень важном для работы над согласованием ИИ навыке. Оригинал.
Разные Стратегии Согласования (и насколько вероятно, что они сработают) – пост Логана Зёлльнера о его мнении именно о том, что указано в названии. Оригинал.
Обманчиво согласованные меса-оптимизаторы. Это не смешно, если приходится объяснять – пост Скотта Александера, проясняющий вынесенное в заглавие понятие в форме разбора мема. Оригинал.
Плохо нацеленные лучи смерти – текст за авторством Thane Ruthenis, в котором метафорой поддерживается интуитивное понимание того, почему мощные оптимизаторы настолько опасны. Оригинал.
Ошибка Безвредной Сверхновой – статья с Арбитала об одной из логических ошибок, часто всплывающих при обсуждении рисков СИИ. Оригинал.
Длинный список пользы интерпретируемости – пост Нила Нанды, в котором он рассказывает о потенциальных полезных для согласования применениях интерпретируемости. Оригинал.
Основания Оптимизации – текст Алекса Флинта об одном из взглядов на природу понятия оптимизации. Оригинал.
Вознаграждение — не цель оптимизации – пост TurnTrout, в котором он развеивает популярное заблуждение, поддерживаемое многими вводными материалами по обучению с подкреплением. Оригинал.
Скорости Взлёта – текст Пола Кристиано года о том, почему он считает «медленный взлёт» более вероятным, чем «быстрый». Оригинал.
Душевное Здоровье и Задача Согласования. Компиляция Ресурсов – список ссылок на материалы, которые могут пригодиться для решения задачи «не съехать с катушек, имея дело с потенциальным концом света». Оригинал.
Принципы для проектов по Согласованию/Агентности – пост Джона Вентворта. Несколько полезных советов по поводу того, как совершать полезную работу в области согласования. Оригинал.
Вероятные (и дизъюнктные) сценарии погибели от СИИ – пост Нейта Соареса. Оригинал.
HCH и состязательные вопросы – пост Дэвида Уделла. Оригинал.
Задача согласования с точки зрения глубинного обучения – доклад Ричарда Нго. Пожалуй, ещё одна точка входа, с бОльшим количеством технических деталей. Оригинал.