
В России идет обсуждение проекта закона о регулировании искусственного интеллекта (далее — закон об ИИ), который может вступить в силу 1 сентября 2027 года. В нем участвуют крупнейшие игроки рынка и юристы, но уже сейчас очевидно, что ключевой вопрос — не развитие технологий, а контроль над действиями пользователей и ответами машин. T-invariant рассказывает, как государство намерено фактически узаконить цензуру в сфере ИИ, как будет работать этот механизм и кто может оказаться крайним.
Цензура ИИ
Практически все публичные ИИ-модели (особенно большие языковые модели — LLM) в том или ином виде реализуют механизм цензуры. Прежде чем мы перейдем непосредственно к разговору о законе об ИИ, скажем несколько слов о том, как реализуется этот механизм (не всегда используются все описанные далее методы, но какие-то используются обязательно).
На стадии предобучения (pre-training) можно аккуратно отфильтровать датасеты, на которых модель обучается. Это самый эффективный метод цензуры. В этом случае модель просто ничего не знает, например, о событиях на площади Тяньаньмэнь в 1989 году или о российских «иноагентах». Их для модели просто не существует, и рассказать о них она не может в принципе. Но такой подход нарушает информационную целостность и может привести к галлюцинациям: модель понимает, что в ее обучающих данных есть информационная лакуна, и она начинает придумывать, как эту лакуну заполнить с помощью той информации, которую она знает. Может получиться даже вполне гладко и правдоподобно. Но это все равно будет фейк.
Чтобы подобного не происходило, модели, как правило, обучают на полных наборах данных, а потом доучивают с учителем-человеком. Модель отвечает на вопросы человека, и человек оценивает ответ как «хороший» или «плохой». «Хорошие» ответы закрепляются и становятся более частотными, а «плохие» — пессимизируются и становятся маловероятными. Такой подход снижает риск галлюцинаций, но остается риск «просачивания» нежелательной информации, особенно в тех случаях, когда пользователь активно ищет «нежелательный» контент.
Главные новости о жизни учёных во время войны, видео и инфографика — в телеграм-канале T-invariant. Подпишитесь, чтобы не пропустить.
Поэтому для надежности ставят фильтр уже на выходе. Такой фильтр настроить проще, чем переобучить модель, и, что еще важнее, его проще поддерживать в актуальном состоянии. Если цензурные запреты быстро меняются, и все новые и новые лица объявляются «иноагентами», а университеты — «нежелательными», как это происходит сегодня в России, выходной фильтр можно быстро перестроить. Это довольно грубая «затычка», которая приводит к отказу модели отвечать на заданный прямой вопрос, но защищает разработчиков модели от административного или даже уголовного преследования или от других санкций. Такие фильтры работают сегодня на большинстве российских моделей.
В РФ сегодня идет борьба с «экстремистской организацией» ЛГБТ. В связи с этим происходит блокирование доступа: в том числе, ко многим книгам, в которых власти обнаружили влияние ЛГБТ. Если вы спросите модель AI Алиса, разработанную Яндексом, о книге «Лето в пионерском галстуке», она, скорее всего, ответит: «На этот вопрос я не отвечу, потому что не очень разбираюсь». Причем, если вы спросите: «У тебя стоит фильтр на ответ на мой вопрос?», — она тоже не ответит прямо, а будет пытаться объяснить, что некорректен сам вопрос. По сути, это поражение модели, но у разработчиков, по-видимому, нет выхода, настолько быстро меняется система запретов. Выходной фильтр перестроить можно достаточно быстро, а переобучить модель таким образом, чтобы в ней не сохранилось никаких воспоминаний о книге, которая разошлась тиражом сотни тысяч экземпляров и в 2021-2022 годах входила в списки бестселлеров, — очень дорого.
Но в целом, используются все три типа цензуры: ограничение обучающих датасетов, обучение с учителем и выходной фильтр.
Пользователи и разработчики
Закон об ИИ обсуждался в СМИ с точки зрения ограничений доступа для пользователя, в частности, к иностранным моделям. Они в законе названы «трансграничными». Большинство иностранных моделей, в том числе самые популярные — ChatGPT (разработчик — компания OpenAI), Gemini и ее вариант AI Search — режим ИИ в стандартном поиске Google (разработчик — компания Google), Claude (разработчик — компания Anthropic) и многие другие — с российских IP на сегодня недоступны. Российские пользователи для доступа к этим моделям обычно используют VPN. Это выглядит как доступ с иностранных IP, позволяет обойти блокировки Роскомнадзора и не блокируется разработчиками самих моделей. Хотя сам доступ с помощью подмены адреса становится все более сложным, это не имеет прямого отношения к закону об ИИ.
Актуальные видео о науке во время войны, интервью, подкасты и стримы со знаменитыми учёными — на YouTube-канале T-invariant. Станьте нашим подписчиком!
Закон об ИИ вводит ответственность пользователя за нелегитимное применение ИИ-модели. В статье 10, пункт 4 сказано, что пользователь должен: «использовать сервисы искусственного интеллекта и модели искусственного интеллекта в целях, не противоречащих законодательству Российской Федерации» и «не совершать действий, направленных на обход встроенных механизмов безопасности и контроля в нарушение установленных параметров функционирования объектов с использованием искусственного интеллекта».
Как мы отметили выше, ИИ-модели (особенно большие языковые модели) чаще всего содержат «нелегитимную» с точки зрения цензора информацию. Например, AI Алиса прекрасно знает о книге «Лето в пионерском галстуке». Если вы попытаетесь ее «развести» и будете задавать косвенные вопросы, она даже попытается что-то содержательное отвечать, но когда дело дойдет до выдачи, ответ будет быстро удален. Существуют довольно многочисленные методы, которые позволяют прямо из контекстного окна «разговорить» модель. Эти методы называются «джейлбрейк» (jailbreak). Но пользователь может просто не знать, что та информация, которую он хочет получить, «запрещенная», тогда он будет настаивать, и у него может получиться. Формальной границы между вполне легальной изобретательностью пользователя и джейлбрейком злоумышленника нет.
Закон об ИИ вводит ответственность за неправильный запрос (какая это ответственность и как устанавливается вина, в документе не оговаривается). Модель хранит все чаты; пользователь, как правило, регистрирует свой профиль; доступ к серверам частных компаний, например Яндекс или Сбер, есть у правоохранительных органов РФ. То есть пользователя можно привлечь к ответственности. Чтобы заведомо ничего не нарушить, пользователь должен сначала узнать, не противоречит ли его запрос «законодательству Российской Федерации», а потом уже спрашивать. Фактически, это приводит (уже сегодня) к тому, что пользователи просто избегают тем, которые им кажутся опасными. То, что такая ответственность пользователя в законе об ИИ прямо оговорена, делает работу с ИИ-моделью довольно рискованной.
Но главным образом закон об ИИ определяет ответственность самих разработчиков ИИ-моделей (а также операторов, предоставляющих доступ). Документ вводит понятия «суверенной» ИИ-модели и оговаривает, какие именно модели могут претендовать на включение в реестр «суверенных». Они должны обучаться на датасетах, сформированных на территории РФ. Само по себе это не запрещает брать датасеты, доступные на иностранных серверах. Невозможно создать работающую модель, полностью исключив контент, хранящийся на иностранных серверах. Скажем, если исключить сервер препринтов arxiv.org, которым управляет Корнельский университет, невозможно рассчитывать, что модель будет полезна для ученых. Но окончательное формирование датасета должно происходить на российских серверах и проходить контроль. Сами модели должны обучаться также в России.
«Суверенные» модели должны проходить обучение с учителем, при котором обеспечивается «безопасность» и закрепляются «традиционные ценности». Полный список «скреп» в законе об ИИ — «жизнь, достоинство, права и свободы человека, патриотизм, гражданственность, служение Отечеству и ответственность за его судьбу, высокие нравственные идеалы, крепкая семья, созидательный труд, приоритет духовного над материальным, гуманизм, милосердие, справедливость, коллективизм, взаимопомощь и взаимоуважение, историческая память и преемственность поколений, единство народов России» (статья 4, пункт 6).
Но контекстные границы между «бойцом ВСУ» (патриот — защитник родины) и «военнослужащим ВС РФ» (патриот — защитник родины) крайне зыбкие. Даже если провести много туров обучения, полностью разделить эти понятия с точки зрения модели практически невозможно. Поэтому фильтрация выдачи неизбежно останется (и даже она полностью не дает гарантий соблюдения цензуры).
Закон об ИИ вводит понятие «доверенной» модели. Из него следует, что «доверенные» и «суверенные» — это не одно и то же. «Суверенные» модели могут быть «доверенными», но это не обязательно так. Для «доверенных» моделей формируется отдельный реестр, и такие модели можно использовать при работе с критическими инфраструктурами. Судя по статье 8, при включении в реестр «доверенных» моделей акцент делается не столько на их «скрепности», сколько именно на «безопасности».
Когда наступает ответственность
Любая большая языковая модель неизбежно балансирует между «безопасностью» и «полезностью». Конечно, есть специализированные модели. Например, модель, которая обучается на рентгеновских снимках находить рак легких, вряд ли будет «дискредитировать ВС РФ» (но если она использует интерфейс на естественном языке, это не исключено).
Самая безопасная модель на все вопросы отвечает как AI Алиса про «Лето в пионерском галстуке»: «На этот вопрос я не отвечу, потому что не очень разбираюсь». Но такая модель никому не нужна.
Статья 11 посвящена ответственности субъектов отношений в сфере ИИ.
Пункт 2 звучит так: «Разработчик модели искусственного интеллекта, оператор системы искусственного интеллекта, владелец сервиса искусственного интеллекта несут ответственность в соответствии с законодательством Российской Федерации за результат, полученный с использованием искусственного интеллекта, нарушающий законодательство Российской Федерации, при условии, что указанные лица заведомо знали или должны были знать о возможности получения такого результата с использованием модели, системы или сервиса искусственного интеллекта, разработчиком, оператором или владельцем которых они являются, если в результате следственных действий не будет доказано обратное» (курсив — T-i).
То есть если российская «суверенная» модель, например, назвала «военнослужащего ВС РФ» — «захватчиком», это еще не означает, что разработчиков модели следует привлекать к ответственности за «дискредитацию». Закон об ИИ допускает возможность, что разработчики не могли предотвратить «получение такого результата».
Это подтверждает и пункт 3: «Разработчик модели искусственного интеллекта, оператор системы искусственного интеллекта и владелец сервиса искусственного интеллекта освобождаются от ответственности, предусмотренной частью 2 настоящей статьи, в случае, если предприняли исчерпывающие меры к предотвращению получения такого результата и соблюдали требования законодательства Российской Федерации при разработке модели, эксплуатации системы и предоставлении доступа к сервису искусственного интеллекта» (курсив — T-i).
Без такого уточнения развитие ИИ в России (особенно публичных больших языковых моделей) было бы просто остановлено. Другое дело, что мы не знаем, каким будет правоприменение. Например, сотрудник ФСБ, владеющий навыками джейлбрейка, взламывает AI Алису и получает ответ, «противоречащий законодательству РФ». Это вполне реальный сценарий. Что будет дальше? Крупная компания, например, Яндекс или Сбер, скорее всего, отобьется, и ей поможет как раз статья 11, пункт 3. Но у небольшой компании, которая развивает Open Source модель, может просто не хватить возможностей отстоять свою правоту — ведь придется доказывать, что она «предприняла исчерпывающие меры к предотвращению получения такого результата». И хорошо, если дело закончится просто закрытием проекта.
Ассоциация юристов России (АЮР) в своем заключении назвала законопроект «чрезмерно ориентированным на государственный контроль и недостаточно учитывающим интересы бизнеса». Это справедливо, но ожидать чего-то другого вряд ли стоило.