Статьи

Задача согласования с точки зрения глубинного обучения

Перевод доклада Ричарда Нго. (Оригинал) *** В ближайшие десятилетия сильный искусственный интеллект (СИИ) может превзойти человеческие способности в широком диапазоне важных задач. Этот доклад обосновывает, почему, без значительных усилий для предотвращения этого, СИИ вероятнее всего будут использовать свой интеллект для преследования очень нежелательных (иными словами, несогласованных) с человеческой точки зрения целей, с потенциально катастрофическими последствиями.…

HCH и состязательные вопросы

Перевод текста Дэвида Уделла. (Оригинал) *** Я написал эту статью во время своей докторантуры, в попытках больше узнать об исследовании согласования и приблизится к нему. Основная цель тут – выстроить и очистить своё понимание IDA. Особые благодарности Даниэлю Кокотайло за его менторство, и Михаэлю Браунштейну, Эрику Швицгебелю, Эвану Нубинжеру, Марку Ксу, Вильяму Сондерсу и Аарону…

Вероятные (и дизъюнктные) сценарии погибели от СИИ

Перевод текста Нейта Соареса. На практике, это, скорее «Не очень вероятные (и конъюнктные) условия не-погибели», но знакомым с логикой должно быть понятно, что это эквивалентно. (Оригинал) *** Кажется, у некоторых людей сложилось впечатление, что я убеждён, что погибель от СИИ – маленькая и узкая мишень. Это не так. Я убеждён, что большая часть пространства исходов заполнена…

Принципы для Проектов по Согласованию/Агентности

Перевод поста Джона Вентворта. Несколько полезных советов по поводу того, как совершать полезную работу в области согласования. (Оригинал) *** «Джон, что ты думаешь по поводу этой идеи исследовательского проекта по согласованию?» Мне довольно регулярно задают такие вопросы. Как я на них отвечаю? Какие принципы управляют моей оценкой? Не все мои интуитивные соображения по поводу того,…

Насколько вероятна обманчивая согласованность

Это перевод записи лекции Эвана Хубинджера. Приношу извинения за то, что текст вычитан хуже, чем обычный мой перевод — это 50 страниц изначально не очень отполированного материала. Я также не стал переводить слайды, но текстовая информация на них всё равно продублирована в лекции. (Оригинал) *** Сегодня я собираюсь рассказать об обманчивой согласованности. Я ей очень…

Душевное Здоровье и Задача Согласования: Компиляция Ресурсов

Перевод поста Криса Скаммелла. Большая часть ссылок ведут на англоязычные тексты, но я подумал, что хотя бы такой путеводитель на русском может быть полезным — одним барьером меньше. Ссылки, ведущие на переведённые тексты, выделены зелёным. (Оригинал) *** Это пост о душевном здоровье и ментальном расположении в контексте задачи согласования. В нём собрано некоторое количество ресурсов,…

Где я согласен и не согласен с Элиезером

Перевод поста Пола Кристиано. (Оригинал) *** (Частично – ответ на AGI Ruin: A list of Lethalities.Написано в таком же стиле напыщенных декламаций. Не исчерпывающе.) Согласен Не согласен (В основном без аргументации.) Моё мнение о мнении Элиезера ***

Взлом градиента

Оригинал Эвана Хубинджера. *** «Взлом градиента» – это термин, который я в последнее время использую для описания явления, когда обманчиво согласованный меса-оптимизатор обладает способностью намеренно действовать так, чтобы заставить градиентный спуск обновить его определённым образом. В Рисках Выученной Оптимизации, мы указали на эту возможность в сноске: Кроме того, обманчиво согласованный меса-оптимизатор будет мотивирован создать систематическую…

Мнение команды по согласованию Deepmind об аргументах из «Списка Смертоносностей»

Оригинал *** Внутри команды DeepMind по согласованию мы обсуждали Аргументы о смертоносности СИИ, чтобы для самих себя прояснить, какие из этих аргументов беспокоят нас больше всего, и какие следствия это несёт для нашей работы. Этот пост собирает мнения подмножества команды согласования по поводу этих аргументов. Дисклеймер: это наши личные мнения, они не представляют взгляды DeepMind в…

По поводу «Списка Смертоносностей»

Ответ Элиезеру Юдковскому на Список Смертоносностей от Zvi. (Оригинал) *** От автора: Я не работаю в Безопасности ИИ, мне не хватает технических знаний в области, и много где я буду неправ. Я не собирался писать это, чтобы избежать потенциальной траты слишком большого времени на слишком малое, и из-за опасения допустить глупые ошибки, но стало ясно,…

Загрузка…

Произошла ошибка. Обновите страницу и повторите попытку.


Подписаться

Получайте уведомление о выходе новой статьи или перевода на почту