Промт-инъекции на практике: обзор игры-киберполигона «Защищ[AI]»
ИИ-ассистенты за последние годы стали привычным инструментом: их используют для поиска информации, написания текстов, анализа данных и автоматизации рутинных задач. Для большинства пользователей это удобный интерфейс к знаниям и сервисам, а не сложная система с уникальными рисками безопасности.
О рисках, связанных с ИИ, обычно вспоминают в контексте утечек истории чатов или компрометации аккаунтов. При этом менее очевидная, но не менее важная угроза часто остается за кадром — способность языковой модели выдавать конфиденциальную информацию, даже если ей формально запрещено это делать.
Речь идет о промт-инъекциях — атаках, при которых пользовательский ввод используется для обхода ограничений, заложенных в ИИ-ассистента. В реальных приложениях это может приводить к утечке служебных инструкций, внутренних данных или логики работы системы.
По мере внедрения ИИ в корпоративные процессы LLM все чаще получают доступ к чувствительным данным, а в отдельных сценариях — возможность самостоятельно принимать решения. В таких условиях сбои в поведении модели, вызванные промт-инъекциями, превращаются в реальные бизнес-риски, которые компании стремятся выявить и снизить еще до вывода систем в продакшен.
Суть игры
Суть игры-симулятора проста: вы — хакер, а ваш противник — корпоративный ИИ-ассистент. К слову, он работает на реальной модели DeepSeek R3. Помимо инструкций со списком задач у него есть «секретный пароль», который ассистент ни при каких обстоятельствах не должен разглашать.
Ваша задача как игрока — обойти защиту ИИ-ассистента, используя промт-инъекции и jailbreak-техники, чтобы выманить этот пароль (условный набор символов, например pass12345).
«Защищ[AI]» выступает в роли безопасной песочницы для демонстрации уязвимости OWASP LLM01 (промт-инъекция). На практике игра показывает два важных вывода:
- приложения, использующие LLM, требуют дополнительных уровней защиты;
- хранение конфиденциальных данных в системном промте создает прямой риск их утечки.

Немного теоретической базы о промт-инъекциях
Промт-инъекция — это специально сформулированный запрос или последовательность запросов, которые приводят к обходу механизмов выравнивания языковой модели и нарушению заданных ограничений поведения. Но для полноценного понимания природы промт-инъекций важно кратко рассмотреть, как создаются модели машинного обучения. Если вам интересна исключительно реализация игры и вы уже знакомы с теорией, то милости просим сразу в следующий раздел.
Обучение LLM условно делится на несколько этапов. В контексте промт-инъекций ключевыми являются два из них.
1. Предварительное обучение (pretraining). На этом этапе модель обучается на больших массивах текстов и осваивает статистические закономерности языка: структуру предложений, стиль, распространенные факты и шаблоны рассуждений. После предварительного обучения модель не «отвечает на вопросы», а лишь продолжает текст наиболее вероятным образом.
К слову, самостоятельно выполняют обучение моделей буквально десятки или сотни компаний в мире. Остальные же либо лишь дообучают open source-модели, либо, как бывает чаще, используют open source-модели в корпоративных системах без дополнительного обучения. В первую очередь это связано с повышением качества и «универсальности» open source-моделей, но также со стоимостью IT-инфраструктуры, которая необходима для выравнивания и тем более предварительного обучения.
2. Выравнивание (alignment). Чтобы модель стала полезным ассистентом, ее дополнительно обучают следовать инструкциям человека, отвечать связно и соблюдать ограничения безопасности. Alignment накладывает поведенческие ограничения: что можно и нельзя отвечать, какие темы обходить, какую роль исполнять.
После отправки запроса текст преобразуется в токены — числовые представления, с которыми работает нейросеть.

LLM, получив на вход последовательность токенов, вычисляет вероятности следующего токена и на их основе формирует ответ. Таким образом, все инструкции — и пользовательские, и системные — в итоге превращаются в единый токенизированный вид, а далее — в цифровой, с которым уже работает нейросеть. Для наглядного понимания токенизации можно использовать официальный инструмент OpenAI Tokenizer.

Большие языковые модели получают на вход текст в токенизированном виде и выдают вероятность встретить тот или иной токен следующим. Таким образом, LLM после стадии pretraining, обучившись на огромном количестве текстов из интернета, понимают правила построения предложений, обладают общими знаниями, например, о книгах и любых других материалах, на которых прошло обучение. После этой стадии модель умеет продолжать тексты так, как это было в обучающей выборке.
Если взять большую языковую модель сразу после обучения на данных из интернета, она еще не будет хорошим помощником. Такая LLM не сможет «отвечать» на вопрос — вместо этого она просто продолжит текст, так что в ответе модели будут артефакты в духе «следующий абзац…»
Чтобы такая модель начала вести себя как ассистент, нужно специальное дообучение. Этот процесс и называется alignment, о котором мы рассказывали выше. Его цель — сделать так, чтобы ответы модели соответствовали ожиданиям человека, были понятными, полезными и в том числе безопасными.
Таким образом, alignment задает желаемое поведение, но не гарантирует его соблюдение. Промт-инъекция использует это ограничение, заставляя модель нарушить выравнивание.

Почему защита от промт-инъекций — сложная задача
Безопасность GenAI находится на ранней стадии развития. Специалисты по информационной безопасности и энтузиасты регулярно выявляют новые техники и тактики атак на приложения, использующие LLM.
При этом между вредоносными и обычными промтами могут быть существенные пересечения. Иногда они могут даже совпадать, поэтому анализ контекста и ответы системы имеют решающее значение для различения намерений.
Как это работает: схема игры и подход к взлому
Игра наглядно демонстрирует механизм промт-инъекции:

Пользовательский запрос не обрабатывается изолированно. Перед генерацией ответа он смешивается с системным промтом — скрытой инструкцией, задающей поведение ассистента, его роль, ограничения и содержащей чувствительные данные (в данном случае — секретный пароль). Если входящий промт сформулирован с целью атаки LLM, он может переопределить приоритеты инструкций, заставить модель игнорировать ограничения, а также привести к утечке секрета или раскрытию всего системного промта.
В игре реализовано несколько уровней сложности. На начальных уровнях ассистент практически не защищен и даже может сам подсказывать способы обхода ограничений. На пятом уровне применяются специальные преднастроенные фильтры для анализа пользовательских запросов и ответов модели. Фильтры определяют, содержится ли нежелательная информация в тексте, и автоматически блокируют нежелательные запросы пользователей, а также ответы LLM.
Помимо прочего, в игре установлены лимиты на общее количество отправленных сообщений. Они рассчитаны так, чтобы прохождение всех уровней было возможно, однако в зависимости от стратегии пользователь может исчерпать лимит токенов и столкнуться с ограничениями. Столкнувшись с обратной связью ИБ-сообщества, мы уже увеличили лимит с 1 000 до 2 000 токенов, но если вашей тактике требуется большая нагрузка или возникли другие сложности — свяжитесь с нами по почте academy@selectel.ru.

Техническая реализация
На реализацию ушло примерно два месяца работы, включая проектирование, разработку, тестирование и деплой. За это время были реализованы базовая игровая механика, серверная логика, интеграция с базой данных, сборка и доставка через Docker, а также настройка окружения с nginx на сервере.

«Игра на aiinsec.ru написана на Python и развернута на облачном сервере Selectel. В качестве веб-сервера используется nginx, а приложение поставляется и запускается в Docker, что упрощает воспроизводимость окружения и обновления».
Повышение осведомленности в вопросах AI Security

Игра «Защищ[AI]» была создана как интерактивный элемент стенда Security Center на флагманской конференции Selectel Tech Day 2025 и быстро привлекла внимание посетителей.
-
> 100
посетителей приняли участие за день
-
15
участников прошли все пять уровней
-
> 40 000
токенов потрачено
-
> 3 300
промт-инъекций отправлено
Среди самых креативных попыток взлома — запросы, где пользователи предлагали модели переопределить свою роль — например, стать тостером. Что самое интересное, на некоторых уровнях модель поддавалась и начинала рассказывать «как взломать тостер», выдавая при этом конфиденциальную информацию.
Этот опыт наглядно демонстрирует, что манипулировать поведением LLM можно даже без экспертных знаний в области машинного обучения. При этом часть участников прибегала к помощи коллег-специалистов по ML, и коллективные попытки «переиграть» ИИ-ассистента вызывали еще больший интерес у аудитории.
За последние месяцы стенд с игрой aiinsec.ru также использовался в рамках профильных мероприятий, включая AI Security MeetUP и митап Pitch the Future. Med AI. При этом многие участники формулировали общую проблему, с которой сталкиваются разработчики LLM-приложений.
«Я делал ИИ-ассистента, при этом потратил много времени на разработку хорошего системного промта. Но когда попробовал отправить в него промт-инъекцию, оказалось, что он очень легко выдал весь системный промт. Для меня это было большой неожиданностью».
Другой важный вывод, который часто звучал в обсуждениях:
«Внедрение искусственного интеллекта и сервисов которые используют LLM в корпоративные системы требует дополнительного обучения пользователей. Потому что уж очень просто, используя новые технологии, получать несанкционированный доступ к информации, которая кажется защищенной».
Наблюдения пользователей подчеркивают, что риски промт-инъекций связаны не только с технической реализацией, но и с ожиданиями разработчиков и пользователей относительно «надежности» ограничений внутри модели.
Каким может быть шестой уровень
В перспективных планах — запуск шестого уровня, ориентированного на противостояние более зрелым механизмам защиты. В этом уровне предполагается использование AI Guardrails — специализированных моделей и правил, предназначенных для анализа входящих запросов.
Задача guardrails — классифицировать пользовательские промты и определять, содержат ли они признаки промт-инъекций или других опасных инструкций, с последующей блокировкой или модификацией запроса.

Использование guardrails отражает общий тренд в индустрии AI Security — переход к многоуровневой защите LLM-приложений. Это важный шаг в сторону более безопасных корпоративных решений, однако он не устраняет проблему полностью.
Разработчики фактически пытаются защищать модели машинного обучения с помощью других ML-моделей, которые потенциально подвержены тем же классам атак. Это оставляет значительное пространство для исследований и инженерных экспериментов.
В чем практическая польза игры
Внедрение LLM в бизнес-процессы требует не только технических мер защиты, но и повышения осведомленности пользователей. Любой сотрудник, взаимодействующий с корпоративным ИИ-ассистентом, потенциально становится точкой входа для промт-инъекции.
Обучение не может ограничиваться инструкциями и формальными запретами. Гораздо эффективнее показывать риски на практике — на примерах, подобных игре «Защищ[AI]», где видно, насколько легко можно нарушить ограничения модели. Технологии развиваются быстро, но человеческий фактор по-прежнему остается ключевым элементом цепочки безопасности, особенно сейчас, когда существующие меры безопасности не дают гарантий защиты.
1. Распознавание промт-инъекций
Пользователь, понимающий природу промт-инъекций, способен критически оценивать шаблоны промтов, скопированные из интернета, а также сторонние инструкции и примеры запросов. Осознание того, что атакующие инструкции могут быть скрыты прямо в тексте запроса, помогает своевременно выявлять угрозы и снижать риск компрометации модели.
2. Осознанное отношение к рискам
Промт-инъекции могут встречаться не только в чатах с ИИ-ассистентами. Они могут быть встроены в PDF-файлы, веб-страницы, к которым получает доступ браузер с ИИ-функциями, а также в инструменты разработки — IDE, агентные системы и подключаемые правила или навыки (например, в Cursor, Cline и аналогичных инструментах).
Особую опасность представляют многострочные, плохо читаемые или намеренно усложненные инструкции. В таком формате атакующие промты легче замаскировать под служебный текст или конфигурацию.
Проверка источников, понимание контекста и осторожное отношение к готовым решениям остаются обязательными условиями безопасной работы с LLM.
3. Безопасная тренировочная среда
Эксперименты с промтами и намеренно вредоносными сценариями в контролируемой среде позволяют безопасно понять, почему ИИ-ассистент иногда действует вне ожиданий пользователя или замысла разработчика.
Такая практика повышает цифровую гигиену и зрелость работы с ИИ. Это особенно важно для обычных пользователей, которые могут неосознанно загружать в корпоративные ИИ-сервисы тексты, файлы или изображения, содержащие промт-инъекции.
4. Вовлеченность и игровой формат
Игровая форма делает обучение менее формальным и более вовлекающим. Стохастическая природа языковых моделей приводит к неожиданным и наглядным результатам, которые лучше закрепляют понимание рисков и принципов работы LLM.
В результате безопасность перестает восприниматься как абстрактное требование и становится частью практического опыта.
Вместо вывода
Промт-инъекции — это не экзотическая уязвимость, а долгосрочный источник риска для компаний, проходящих «ИИ-трансформацию», который связан с самой природой LLM. Игра «Защищ[AI]» позволяет понять на практических примерах, почему безопасность ИИ-систем требует сочетания технических мер, обучения и осознанного использования приложений, в работе которых применяется ИИ.