Перевод поста Нила Нанды, где он рассказывает о потенциальных полезных для согласования применениях интерпретируемости. (Оригинал)
***
Я слышал много витающих в воздухе аргументов о том, как конкретно исследования механистической интерпретируемости снизят x-риски. Для меня, как для исследователя интерпретируемости, довольно важно формирование чёткого мнения об этом! Как предварительный шаг, я скомпилировал список из 19 разных аргументов о том, почему интерпретируемость важна. Это довольно разрозненные мысли на ранней стадии обдумывания (и это моё личное мнение, а не официальная позиция Anthropic!), но я поделюсь ими в надежде, что людям это интересно.
(Замечу: я не особо много думал об этой категоризации! Некоторые пункты значительно пересекаются, но я у себя в голове ощущаю их немного по-разному. Я не оптимизировал выразительность и небольшое число категорий, и ожидаю, что приложив усилия, это можно значительно ужать.)
Выражаю благодарность Эвану Хубинджеру за замечательный пост Взгляды Криса Олаха о Безопасности ИИ, послуживший источником некоторых из этих аргументов!
- Множитель силы для исследования согласования: Мы сможем проанализировать модель и увидеть, почему она выдаёт несогласованные ответы, и что не так. Это предоставит куда больше данных для эмпирической работы над согласованием, и позволит ускорить прогресс.
- Лучшее предсказание будущих систем: Интерпретируемость может привести к лучшему механистическому пониманию принципов того, как работают системы машинного обучения, и как они изменяются при масштабировании, аналогично с научными законами. Это позволит нам лучше экстраполировать от нынешних систем на будущие.
- Например, наблюдение фазовых изменений вроде индуктивных голов показывает нам, что модели могут быстро набирать способности во время обучения.
- Аудит: Мы получаем второй шанс. После обучения системы мы сможем проверить её на несогласованность и разворачивать её только если мы уверены в её безопасности.
- Аудит обманчивости: Аналогично, мы можем получить возможность детектировать обманчивость модели.
- Это куда менее высокая планка, чем полный аудит модели, и правдоподобно, что это можно сделать и просто со способностью смотреть на случайные биты модели и идентифицировать схемы/черты – я смотрю на это больше как на запасной план «для миров, где интерпретируемость сложнее, чем я надеюсь».
- Упрощение координации/кооперации: Если разные агенты могут интерпретировать системы друг друга, то куда проще доверять другим агентам, что они будут осмысленно себя вести и хорошо кооперироваться.
- Эмпирические свидетельства за/против моделей угроз: Мы сможем отыскивать эмпирические примеры теоретических моделей будущих угроз, например, внутренней несогласованности.
- Координация работы над моделями угроз: Если мы сможем найти эмпирические примеры, скажем, внутренней несогласованности, то, кажется, будет куда проще убедить скептиков, что это проблема, и, может быть, увеличить число работающих над этим людей.
- Координация замедления: Если согласование по-настоящему сложное, то, кажется, куда проще будет скоординировать осторожность/замедление разработок при наличии эмпирических примеров, например, моделей, которые казались согласованными, а на самом деле были обманчивыми.
- Улучшение человеческой обратной связи: Вместо того, чтобы обучать модели просто делать правильные вещи, мы сможем обучать их делать правильные вещи по правильным причинам.
- Информированный присмотр: Мы сможем улучшить рекурсивные схемы согласования вроде IDA, добавив на каждый шаг проверку, что система действительно согласована.
- Замечу: этот сильно пересекается с 7. Для меня различие в том, что 7 применимо и к не рекурсивно обучаемым системам, например, современным системам обучения с подкреплением с человеческой обратной связью.
- Инструменты интерпретируемости в функции оценки: Мы можем напрямую поместить инструменты интерпретируемости в петлю обучения, чтобы удостовериться, что система всё делает согласованным способом.
- Амбициозная версия – инструмент настолько хорош, что не подвержен Закону Гудхарта
- Менее амбициозная – инструмент уязвим для Закона Гудхарта, но это дорого и сдвигает индуктивные наклонности в сторону, благоволящую согласованному мышлению.
- Установление норм: Если интерпретируемость проста, то можно выстроить ожидания, что перед развёртыванием системы компания должна интерпретировать её и проверить, что система делает то, что надо.
- Возможность регулирования: Регуляторы и политики смогут проводить более эффективное регулирование насколько ИИ-системы должны быть согласованы, если у них/у компаний будут инструменты для проверки.
- Культурный сдвиг 1: Если поле машинного обучения сдвинется в сторону лучшего понимания моделей, то это может привести к лучшему пониманию случаев провала и того, как их избежать.
- Культурный сдвиг 2: Если в поле будут ожидать лучшего понимания того, как работают модели, то ещё более очевидно станет, насколько мало мы их понимаем сейчас.
- Цитата: Крис предложил для иллюстрации такую аналогию: если раньше вы видели только строительство мостов способом беспорядочного нагромождения брёвен друг на друга, то вам может не приходить в голову, что есть о чём беспокоиться при строительстве мостов побольше. А вот если вы видели аккуратные анализы структурных свойств мостов, то отсутствие такого будет выделяться.
- Выученная эпистемическая небеспомощность: Ну не знаю, нам вообще нужна теория о воздействии? Как вообще «действительно понимать, как работает наш чёрный ящик» может не быть полезно?
- ИИ-микроскоп: Может, мы можем вовсе не развёртывать агентов, только обучать системы выполнять сложные задачи, а потом интерпретировать их и делать всё самостоятельно.
- Обучение ИИ для интерпретации других ИИ: Даже если интерпретация продвинутых систем действительно сложна/трудозатратна, если мы можем создать согласованный ИИ околочеловеческого уровня, то мы сможем выдать ему инструменты интерпретируемости и использовать его для интерпретации более мощных систем.
- Прогнозирование нарушений непрерывности: Понимая, что происходит, мы сможем предсказать, насколько вероятно, что мы увидим нарушения непрерывности согласованности/способностей, и потенциально засечь их во время обучения/до развёртывания системы.
- Вмешательство в обучение: Интерпретируя систему во время обучения, мы сможем заметить несогласованность на ранних этапах, потенциально – до того, как она разовьёт достаточно хорошие стратегии избегания нашего внимания, вроде обманчивой согласованности, взлома градиента, замутнения наших мыслей, и т.д.
- Аудит запусков обучения: Проверяя на несогласованность на ранних этапах обучения, мы сможем прекратить обучение систем, кажущихся несогласованными. Это даст нам куда больше попыток на создание согласованной системы без больших затрат, и, например, позволит нам попробовать разные схемы, начальные условия, и т.д. По сути, это сдвигает распределение систем в сторону согласованности.
- Бонусный пункт. Выявление Скрытых Знаний (ELK): Использование длины кратчайшего объяснения поведения модели как штраф при обучении для ELK – идея в том, что модели с кратчайшими объяснениями менее вероятно включают симуляции людей, и можно заметить, если всё же включают. (спасибо Tao Lin за этот пункт)
Упражнение: Я думаю, действительно полезное быстрое упражнение для выявления взгляда изнутри – пройти по этому списку и быстро оценить каждую теорию влияния по десятибалльной шкале. Я делал это со своей маленькой группой, вы можете посмотреть на результаты тут – имейте в виду, что это лишь оценки навскидку, не стоит ожидать, что эти люди потом будут серьёзно придерживаться именно их! Порядок по снижению оценок был 1, 4, 3, 6, 8, 18, 2, 7, 16, 19, 17, 10, 9, 12, 14, 13, 15, 11, 5. Интересно, что пункт 3 (аудит полностью обученной модели) получил самые противоречивые оценки.
Я сделал для вас публично доступную таблицу, чтобы вы могли добавлять свои мнения!
Самым интересным значимым несогласием, обнаруженным при обсуждении, было то, что я куда в большей степени надеялся на использование интерпретируемости для аудита обученной модели, и был скептически настроен по поводу того, что инструменты интерпретируемости можно будет напрямую использовать в процессе обучения без того, чтобы возникшее давление оптимизации заставило инструмент не работать, а другие люди считали наоборот. Моя интуиция исходила из того, что если модель не получает никакой обратной связи по поводу того, как её мысли представлены внутри неё, то даже невероятно сложную обманчивую модель, которую невозможно засечь по выводу, всё равно может быть легко засечь инструментами интерпретируемости (аналогия – если бы я знал, что инопланетяне читают мои мысли, я бы понятия не имел, как мыслить обманчиво так, чтобы их инструменты этого не поняли!). Альтернативное интуитивное соображение – что может быть не так уж сложно думать не-обманчивые мысли, если известно, что кто-то будет сканировать твой разум, например, выработав инстинкт следовать закэшированным мыслям, не думая о них, а иногда генерировать много закэшированных мыслей, которые приведут к несогласованным действиям, но всё это без обманчивого мышления в конкретно этот момент. И тогда использование этих инструментов в процессе обучения может направить градиентный спуск от обманчивых областей пространства моделей – даже если продвинутый обманщик мог бы взломать инструменты, не продвинутый не сможет, а продвинутый мы получим только после него.
Я был бы рад узнать о рейтингах других людей и их обоснованиях! И об аргументах, которые я, по вашему мнению, пропустил.