Перевод текста Стивена Бирнса (Оригинал).
***
В: Что ты имеешь в виду под «убеждён в выход LLM на плато»?
О: Для контекста, я полагаю очевидным, что в какой-то момент возникнет «трансформативный ИИ» (ТИИ), который радикально изменит мир.[1]
Меня интересует, как этот ТИИ будет выглядеть с алгоритмичской точки зрения. Давайте перечислим некоторые возможности:

«Убеждённого в выходе Больших Языковых Моделей (LLM) на плато» можно определить как кого-то, кто считает, что категории (A-B), а обычно ещё и (C) выйдут на плато способностей до достижения уровня ТИИ.[2] Я сам к таким отношусь.[3]
Я не собираюсь обсуждать, верна или ошибочна такая точка зрения – это за пределами темы этого поста, а ещё мне сложно это обсуждать из-за инфоугроз.[4] Ну, мы в любом случае довольно скоро выясним.
В сообществе ИИ как убеждённость в выходе LLM на плато, так и её противоположность кажутся довольно мейнстримными. У убеждения в выходе LLM на плато бывают разные причины. Я думаю, основные две категории такие:
- Теоретическая – из теоретических убеждений о том, что необходимо для ТИИ, и человек считает, что LLM просто не подходят для того, чтобы делать всё необходимое для ТИИ.
- Эмпирическая – из-за того, что способности нынешних LLM не особо впечатляют. Да, будущие LLM будут лучше нынешних. Но, может, такие люди экстраполируют, что на нашей планете закончатся данные или вычислительные мощности до того, как LLM дойдут до уровня ТИИ.
В: Если LLM выйдут на плато, доказывает ли это, что беспокойство о x-рисках ИИ ошибочно и глупо?
О: Нет-нет-нет, миллион раз нет, и меня раздражает, что это недопонимание сейчас так распространено в общественном дискурсе.

(Отступление для людей из безопасности ИИ: если у вас высокая уверенность в том, что ИИ всех убьёт, но только умеренная уверенность в том, что этот ИИ будет включать в себя LLM, то, задумайтесь о том, чтобы тщательнее доносить этот нюанс в своей коммуникации. Например, как мне кажется, Элиезер Юдковский в этой категории.)
Пара случайных наблюдавшихся мной примеров того, как у людей не получалось отличить «ИИ может всех убить» от «…и этот ИИ точно будет LLM»:
- Пост Вентакеша Рао «За пределы Гиперантропоморфизма» после семи тысяч слов подробной аргументации оканчивается заключением, что языковая модель, обученная на данных из интернета не будет мощным агентом, способным выполнять задачи в реальном мире, но если обучить ИИ с роботелом, то он сможет стать мощным агентом, способным выполнять задачи в реальном мире. ОК, ладно, давайте допустим, что он прав, и роботела обязательны для ТИИ.[5] Тогда люди, очевидно, рано или поздно такие ИИ и создадут, верно? Так давайте поговорим о том, представляют ли они экзистенциалный риск. Но Венкатеш так не делает. Вместо этого он, по сути, принимет «им нужны будут роботела» за триумфальное заключение, более-менее достаточное само по себе для доказательства, что обсуждать x-риски ИИ глупо.
- Пост Сары Константик, озаглавленный «Почему я не ИИ-думер», сразу начинается с того, что она соглашается: «1. Обобщённый искусственный интеллект в принципе возможен … 2. Обобщённый искусственный интеллект по умолчанию нас всех убивает … 3. Технически сложно, может даже невозможно, удостовериться, что ИИ ценит человеческую жизнь.» Она несогласна только с утверждением, что это произойдёт скоро и посредством масштабирования LLM. Мне кажется, ей стоило выбрать для своего поста другой заголовок!!
(Я видел много других примеров в Twitter, Reddit, комментариях, и т.д.)
В любом случае, если вы считаете, что LLM выйдут на плато, то вы, наверное, можете быть уверены, что мы не получим ТИИ прямо сейчас (см. ниже), но не вижу, с чего бы это увеличивало уверенность, что ТИИ приведёт к хорошим последствиям для человечества. На самом деле, если бы я считал, что систем типа (A) достаточно для ТИИ – а я не считаю – то я, при учёте всего, я бы немного меньше беспокоился о x-рисках ИИ!
X-риски ИИ стали серьёзным беспокойством задолго до LLM. Если вы хотите обсуждение x-рисков ИИ, не сосредоточенное на LLM, большая часть когда-либо написанных обсуждений x-рисков ИИ подойдут. Вот моё, или просто посмотрите на что угодно, написанное больше пары лет назад.
В: Склонны ли люди, профессионально занимающиеся x-рисками ИИ, считать что LLM выйдут на плато? Или нет?
Я не проводил опроса или чего-то подобного, но я выдам свежее общее впечатление. (По большей части основанное на чтении того, что пишут другие, и на периодических разговорах на конференциях и онлайн.)
Уж точно, мнения разнятся. Но один общий шаблон, который я в последнее время (примерно, в последний год) заметил [это точно не про вообще всех], состоит в том, что часто встречается странное расхождение, когда кто-то, если спросить напрямую, заявляет, что высоко (даже 50% или выше) оценивает вероятность случаев за пределами (C), но всё, что этот человек говорит и делает, выглядит соответствующим ожиданию исключительно (A-C), иногда даже только (A).[6]
Я думаю, щедрым объяснением этого несоответствия может быть то, что сценарий ТИИ из категорий (A-C) более срочный и более понятный, а следовательно, стоит сосредотачивать обсуждения на нём, даже признавая возможность того, что он не случится из-за выхода LLM на плато.

Не-щедрым объяснением может быть, что у некоторых людей высказываемые убеждения рассинхронизированы с реальными – и тогда им надо с этим разобраться.
В: Если LLM выйдут на плато, может ли мы быть уверены, что до ТИИ ещё десятилетия?
О: Я думаю, что я и мои товарищи по этому убеждению с довольно хорошей уверенностью могут сказать, что ТИИ не будет в 2023. Пожалуй, и в 2024 тоже не будет. Я думаю, заходя сильно дальше, надо быть всё более неуверенными.
Область ИИ сейчас кардинально отличается от себя 10 или 20 лет назад. Так что даже без ТИИ нам стоит ожидать, что через 10 или 20 лет она будет кардинально отличаться от себя сейчас. Я думаю, 10 или 29 лет – более чем достаточно времени, чтобы ныне недоработанная (или даже несуществующая) техника ИИ была изобретена, развита, много раз итерирована, отполирована и отмасштабирована.
Так что даже если вы убеждены в выходе LLM на плато, я не думаю, что вам стоит быть супер-уверенными в том, что ТИИ не произойдёт в ближайшие 10 или 20 лет. Может да, может нет. Никто не знает. предсказывать технологии очень сложно.
(Кстати: даже если бы мы знали, что до ТИИ ещё десятилетия, нам всё равно стоило бы торопливо работать над согласованием ИИ прямо сейчас, причины тут.)
(Если вы думаете, что до ТИИ точно ещё десятилетия или века, потому что человеческий мозг супер-сложный, у меня есть конкретный ответ на это здесь и здесь.)
В: Если LLM выйдут на плато, что это значит для регуляций и «паузы»?
О: Как я уже говорил, я думаю, рано или поздно возникнет очень опасный ТИИ, и мы крайне к этому не готовы, и наш прогресс к тому, чтобы быть готовыми, медленно, но двигается, и поэтому я лучше бы он возник попозже. (Пока что это не зависит от того, выйдут ли LLM на плато.) (Больше подробностей и ответов на частые контраргументы тут.)
Ближе к теме, недавно были призывы к «постановке на паузу огромных экспериментов с ИИ», возглавленные Future of Life Institute (FLI).
Моё мнение такое: «пауза» в обучении беспрецедентно больших ML-моделей скорее всего полезна, если ТИИ будет выглядеть как (A—B), возможно полезна, если как (C), и, вероятно, контрпродуктивна, если ТИИ будет за пределами (С).
Почему? Как мне кажется, самая большая проблема – прогресс алгоритмов. Если мы за пределами (C), то сейчас «критический путь к ТИИ» именно в нём. Да, масштабирование в какой-то момент может понадобиться, но не сейчас, возможно, не так уж много, а может и вообще можно обойтись без него – я думаю, есть сильные причины полагать, что масштабов GPT-4 (или меньше, или даже намного-намного меньше) хватит для ТИИ при наличии алгоритмов получше.[7]
(При приближении к (A) алгоритмический прогресс становится всё менее и менее важен, но даже в (A) он всё равно в какой-то степени значим.)
Моё предположение – что масштабирование и прогресс алгоритмов по некоторым причинам сейчас мешают друг-другу. Так что такое вмешательство против масштабирования вызовет более быстрый прогресс алгоритмов, что, с моей точки зрения, плохо.
(По совпадению, ещё как минимум один человек, не убеждённый в выходе LLM на плато, тоже против «паузы» по причинам, связанным с прогрессом алгоритмов.)
Очевидный следующий вопрос: «ОК, тогда как нам замедлить алгоритмический прогресс в сторону ТИИ?». Как мне кажется, самое важное – не выпускать важные для ТИИ алгоритмические озарения и инструменты в свободный доступ (arxiv, github, NeurIPS, и пр.). Я прошу исследователей ИИ не раскрывать свои связанные с ТИИ идеи, а их начальство – избегать основывать зарплаты, найм и повышения на открытых публикациях.[8] Исследователи в почти любой другой частной индустрии публикуются куда меньше, чем в ML/ИИ. Посмотрите, например, на SpaceX.
Ещё я продолжу тратить часть своего времени на создание хороших педагогических материалов о x-риске ИИ и участие в терпеливых добросовестных (а не «ха-ха, попались!») дискуссиях на эту тему, а также заниматься исследованиями, которые могут привести к более твёрдым и ясным аргументам в пользу того, что вероятность погибели от ИИ велика (если она действительно велика). Буду рад, если и другие тоже будут всем этим заниматься.
Для верности, я не думаю, что «замедлить прогресс алгоритмов в направлении ТИИ, пытаясь переубедить исследователей ИИ и вежливо прося изменить культуру исследований ИИ» – то, что купит нам много времени, но сколько-то времени это купить нам может, и это очевидно хорошее дело, и в любом случае у меня нет идей получше.
(Спасибо Линде Линсфорс и Сету Херду за критические комментарии к черновику)

***
- Если неочевидно, рассмотрим (как доказательство существования), то, что в какой-то момент будет возможно запускать подобные-мозгу алгоритмы на компьютерных чипах, такие же умные и прозорливые как любой человек, но думающие в 100 раз быстрее, и их будут триллионы с триллионами дистанционно управляемых роботел, и так далее. Подробнее тут.
- Вполне возможно, что есть более одного жизнеспособного пути к ТИИ, в каком случае вопрос в том, какой из них придёт к успеху первым? Я в этом посте делаю допущение, что (A-B) LLM достаточно опережают другие подходы, что либо они скоро выйдут на плато, либо «выиграют гонку». Если хотите, можно заменить фразу «LLM выйдут на плато» более слабым «LLM выйдут на плато или по крайней мере вернутся к куда более медленной скорости усовершенствования, так что преуспеет другой путь к ТИИ».
- Выражаю своё мнение без обоснования: я придаю довольно малый вес (A-B), в основном по теоретическим причинам. Я не могу спокойно сказать, что (C) не произойдёт, потому что (C) – широкая категория, включающая в себя много возможностей, о которых я никогда не задумывался. Но я всё равно присваиваю довольно малый вес и её. (В конце концов, (D) и (E) включают в себя ещё больше возможностей, о которых я никогда не задумывался!) Я приписываю (F) пренебрежимо малый вес. Кажется, я – единственный исследователь x-рисков ИИ на полную ставку, который считает (E) наиболее вероятной возможностью. Чёрт, может, я единственный исследователь x-рисков ИИ на полную ставку, который вообще считает (E) возможным. (Человеческий мозг содержит «нейросети», но они не «глубокие» и отличаются от DNN много чем ещё. Эксперты не пришли к консенсусу по поводу того, важны ли эти различия.) Но я думаю, что (E)-против-(D) – не особо важный вопрос для безопасности; мои исследовательские интересы заключаются в безопасности/согласовании основанного на модели RL-СИИ, а он может существовать и в (E), и в (D) и в (C), и, насколько я могу сказать, это не сильно что-то меняет с точки зрения безопасности.
- Объяснение для незнакомых: с моей точки зрения, разработка ТИИ в скором времени – это плохо – см. последний раздел ниже. У меня есть несколько своеобразных больших идей по поводу того, что необходимо для мощных ИИ и ограничений LLM. Может быть, эти идеи ошибочны и глупы, в каком случае не страшно, что я их не распространяю. Или, может быть, они верны, в каком случае я тоже не хочу их распространять, потому что они могут помочь появлению ТИИ чуть раньше. (У распространения идей были бы и выгодные стороны, но я думаю, что минусы перевешивают.)
- Лично мне сложно представить, что для предоставляющего x-риск ИИ необходимо буквальное роботело. Пожалуй, я открыт к возможности, что может оказаться необходимым (или хотя бы способствующим) виртуальное роботело в VR-окружении на протяжении хотя бы части обучения. И я считаю весьма вероятным, что ИИ понадобится какое-то «пространство действий» для достижения уровня ТИИ, даже если это не-телесные штуки вроде «виртуально открыть конкретный текстовый документ на конкретной странице».
- Например, мне кажется, что некоторые люди открыто скажут «масштабирование – всё, что нужно», но куда больше людей по сути допустят, что «масштабирование – всё, что нужно», выдвигая предположения о том, когда появится ТИИ, как он будет выглядеть, какие у него будут связанные с согласованием свойства, сколько вычислительных мощностей он будет использовать, и т.д. Один из аспектов этого – есть много обсуждений соглсования-(A) (симуляторы, валуиджи, мемы про шоггота, и т.д.), а мне вовсе неочевидно, что они останутся относящимися к делу в более широкой категории (C). К примеру, для меня кажется, что есть по крайней мере некоторые возможные системы типа (C), о безопасности которых скорее надо думать в духе «классических обсуждений согласования» (инструментальная конвергенция, неправильное обобщение целей, и т.д.).
- Например, вычисления человеческого мозга используют меньше FLOP в секунду, чем один хороший GPU (подробности). У мозга может быть больше памяти, чем у одного GPU, хотя сейчас я думаю, что скорее нет; в любом случае, у мозгa точно меньше рабочей памяти, чем у тысячи 1000 GPU.
- Есть случаи, когда публичное обсуждение имеет плюсы (помощь безопасности/согласованию), перевешивающие минусы (ускорение появления ТИИ). Это запутанная тема. Но, думаю, многие исследователи ИИ вовсе не видят сокращение сроков как минус, скорее как плюс.