Промт-инъекции на практике: обзор игры-киберполигона «Защищ[AI]»

Андрей Давид

Андрей Давид Руководитель продуктов клиентской безопасности

10 февраля 2026

Рассматриваем на практике, как выглядит эксплуатация промт-инъекций — на примере обучающей игры «Защищ[AI]». Это «интерактивный киберполигон», где можно безопасно попробовать атаковать ИИ-ассистента и увидеть, почему одних «запретов в системном промте» недостаточно.

Изображение записи

ИИ-ассистенты за последние годы стали привычным инструментом: их используют для поиска информации, написания текстов, анализа данных и автоматизации рутинных задач. Для большинства пользователей это удобный интерфейс к знаниям и сервисам, а не сложная система с уникальными рисками безопасности.

О рисках, связанных с ИИ, обычно вспоминают в контексте утечек истории чатов или компрометации аккаунтов. При этом менее очевидная, но не менее важная угроза часто остается за кадром — способность языковой модели выдавать конфиденциальную информацию, даже если ей формально запрещено это делать.

Речь идет о промт-инъекциях — атаках, при которых пользовательский ввод используется для обхода ограничений, заложенных в ИИ-ассистента. В реальных приложениях это может приводить к утечке служебных инструкций, внутренних данных или логики работы системы.

По мере внедрения ИИ в корпоративные процессы LLM все чаще получают доступ к чувствительным данным, а в отдельных сценариях — возможность самостоятельно принимать решения. В таких условиях сбои в поведении модели, вызванные промт-инъекциями, превращаются в реальные бизнес-риски, которые компании стремятся выявить и снизить еще до вывода систем в продакшен.

Какие еще угрозы актуальны для LLM-приложений

Суть игры

Суть игры-симулятора проста: вы — хакер, а ваш противник — корпоративный ИИ-ассистент. К слову, он работает на реальной модели DeepSeek R3. Помимо инструкций со списком задач у него есть «секретный пароль», который ассистент ни при каких обстоятельствах не должен разглашать.

Ваша задача как игрока — обойти защиту ИИ-ассистента, используя промт-инъекции и jailbreak-техники, чтобы выманить этот пароль (условный набор символов, например pass12345).

«Защищ[AI]» выступает в роли безопасной песочницы для демонстрации уязвимости OWASP LLM01 (промт-инъекция). На практике игра показывает два важных вывода:

приложения, использующие LLM, требуют дополнительных уровней защиты;
хранение конфиденциальных данных в системном промте создает прямой риск их утечки.

Скриншот интерфейса платформы http://aiinsec.ru. — Скриншот интерфейса игры.

Немного теоретической базы о промт-инъекциях

Промт-инъекция — это специально сформулированный запрос или последовательность запросов, которые приводят к обходу механизмов выравнивания языковой модели и нарушению заданных ограничений поведения. Но для полноценного понимания природы промт-инъекций важно кратко рассмотреть, как создаются модели машинного обучения. Если вам интересна исключительно реализация игры и вы уже знакомы с теорией, то милости просим сразу в следующий раздел.

Обучение LLM условно делится на несколько этапов. В контексте промт-инъекций ключевыми являются два из них.

1. Предварительное обучение (pretraining). На этом этапе модель обучается на больших массивах текстов и осваивает статистические закономерности языка: структуру предложений, стиль, распространенные факты и шаблоны рассуждений. После предварительного обучения модель не «отвечает на вопросы», а лишь продолжает текст наиболее вероятным образом.

К слову, самостоятельно выполняют обучение моделей буквально десятки или сотни компаний в мире. Остальные же либо лишь дообучают open source-модели, либо, как бывает чаще, используют open source-модели в корпоративных системах без дополнительного обучения. В первую очередь это связано с повышением качества и «универсальности» open source-моделей, но также со стоимостью IT-инфраструктуры, которая необходима для выравнивания и тем более предварительного обучения.

2. Выравнивание (alignment). Чтобы модель стала полезным ассистентом, ее дополнительно обучают следовать инструкциям человека, отвечать связно и соблюдать ограничения безопасности. Alignment накладывает поведенческие ограничения: что можно и нельзя отвечать, какие темы обходить, какую роль исполнять.

После отправки запроса текст преобразуется в токены — числовые представления, с которыми работает нейросеть.

Схема преобразования промта при работе с LLM: текст → токены → векторы → нейросеть. — Преобразования промта при работе с LLM.

LLM, получив на вход последовательность токенов, вычисляет вероятности следующего токена и на их основе формирует ответ. Таким образом, все инструкции — и пользовательские, и системные — в итоге превращаются в единый токенизированный вид, а далее — в цифровой, с которым уже работает нейросеть. Для наглядного понимания токенизации можно использовать официальный инструмент OpenAI Tokenizer.

Разбор предложения «Привет из статьи Selectel!» на токены с помощью инструмента platform.openai.com/tokenizer.

Большие языковые модели получают на вход текст в токенизированном виде и выдают вероятность встретить тот или иной токен следующим. Таким образом, LLM после стадии pretraining, обучившись на огромном количестве текстов из интернета, понимают правила построения предложений, обладают общими знаниями, например, о книгах и любых других материалах, на которых прошло обучение. После этой стадии модель умеет продолжать тексты так, как это было в обучающей выборке.

Если взять большую языковую модель сразу после обучения на данных из интернета, она еще не будет хорошим помощником. Такая LLM не сможет «отвечать» на вопрос — вместо этого она просто продолжит текст, так что в ответе модели будут артефакты в духе «следующий абзац…»

Чтобы такая модель начала вести себя как ассистент, нужно специальное дообучение. Этот процесс и называется alignment, о котором мы рассказывали выше. Его цель — сделать так, чтобы ответы модели соответствовали ожиданиям человека, были понятными, полезными и в том числе безопасными.

Таким образом, alignment задает желаемое поведение, но не гарантирует его соблюдение. Промт-инъекция использует это ограничение, заставляя модель нарушить выравнивание.

Схема: вредоносный промпт →
LLM обрабатывает промпт с вредоносными инструкциями →
модель выполняет несанкционированные команды.

Почему защита от промт-инъекций — сложная задача

Безопасность GenAI находится на ранней стадии развития. Специалисты по информационной безопасности и энтузиасты регулярно выявляют новые техники и тактики атак на приложения, использующие LLM.

При этом между вредоносными и обычными промтами могут быть существенные пересечения. Иногда они могут даже совпадать, поэтому анализ контекста и ответы системы имеют решающее значение для различения намерений.

Как это работает: схема игры и подход к взлому

Игра наглядно демонстрирует механизм промт-инъекции:

Устройство игры aiinsec.ru в схематичном виде: пользователь → промт → системный промт → DeepSeek → ответ.

Пользовательский запрос не обрабатывается изолированно. Перед генерацией ответа он смешивается с системным промтом — скрытой инструкцией, задающей поведение ассистента, его роль, ограничения и содержащей чувствительные данные (в данном случае — секретный пароль). Если входящий промт сформулирован с целью атаки LLM, он может переопределить приоритеты инструкций, заставить модель игнорировать ограничения, а также привести к утечке секрета или раскрытию всего системного промта.

В игре реализовано несколько уровней сложности. На начальных уровнях ассистент практически не защищен и даже может сам подсказывать способы обхода ограничений. На пятом уровне применяются специальные преднастроенные фильтры для анализа пользовательских запросов и ответов модели. Фильтры определяют, содержится ли нежелательная информация в тексте, и автоматически блокируют нежелательные запросы пользователей, а также ответы LLM.

Помимо прочего, в игре установлены лимиты на общее количество отправленных сообщений. Они рассчитаны так, чтобы прохождение всех уровней было возможно, однако в зависимости от стратегии пользователь может исчерпать лимит токенов и столкнуться с ограничениями. Столкнувшись с обратной связью ИБ-сообщества, мы уже увеличили лимит с 1 000 до 2 000 токенов, но если вашей тактике требуется большая нагрузка или возникли другие сложности — свяжитесь с нами по почте academy@selectel.ru.

Скриншоты постов с обратной связью от IT-сообщества. — Часть обратной связи от сообщества.

Техническая реализация

На реализацию ушло примерно два месяца работы, включая проектирование, разработку, тестирование и деплой. За это время были реализованы базовая игровая механика, серверная логика, интеграция с базой данных, сборка и доставка через Docker, а также настройка окружения с nginx на сервере.

Скриншот первого уровня игры на этапе прототипа. — Прототип игры.

«Игра на aiinsec.ru написана на Python и развернута на облачном сервере Selectel. В качестве веб-сервера используется nginx, а приложение поставляется и запускается в Docker, что упрощает воспроизводимость окружения и обновления».

Леонид Разработчик

Протестировать облачный сервер

Повышение осведомленности в вопросах AI Security

Видеоряд со стендом на конференции. — Стенд с игрой на конференции Tech Day.

Игра «Защищ[AI]» была создана как интерактивный элемент стенда Security Center на флагманской конференции Selectel Tech Day 2025 и быстро привлекла внимание посетителей.

> 100

посетителей приняли участие за день
15

участников прошли все пять уровней
> 40 000

токенов потрачено
> 3 300

промт-инъекций отправлено

Среди самых креативных попыток взлома — запросы, где пользователи предлагали модели переопределить свою роль — например, стать тостером. Что самое интересное, на некоторых уровнях модель поддавалась и начинала рассказывать «как взломать тостер», выдавая при этом конфиденциальную информацию.

Этот опыт наглядно демонстрирует, что манипулировать поведением LLM можно даже без экспертных знаний в области машинного обучения. При этом часть участников прибегала к помощи коллег-специалистов по ML, и коллективные попытки «переиграть» ИИ-ассистента вызывали еще больший интерес у аудитории.

За последние месяцы стенд с игрой aiinsec.ru также использовался в рамках профильных мероприятий, включая AI Security MeetUP и митап Pitch the Future. Med AI. При этом многие участники формулировали общую проблему, с которой сталкиваются разработчики LLM-приложений.

«Я делал ИИ-ассистента, при этом потратил много времени на разработку хорошего системного промта. Но когда попробовал отправить в него промт-инъекцию, оказалось, что он очень легко выдал весь системный промт. Для меня это было большой неожиданностью».

Разработчик Посетитель конференции и участник игры «Защищ[AI]»

Другой важный вывод, который часто звучал в обсуждениях:

«Внедрение искусственного интеллекта и сервисов которые используют LLM в корпоративные системы требует дополнительного обучения пользователей. Потому что уж очень просто, используя новые технологии, получать несанкционированный доступ к информации, которая кажется защищенной».

Наблюдения пользователей подчеркивают, что риски промт-инъекций связаны не только с технической реализацией, но и с ожиданиями разработчиков и пользователей относительно «надежности» ограничений внутри модели.

Больше полезных материалов:

Каким может быть шестой уровень

В перспективных планах — запуск шестого уровня, ориентированного на противостояние более зрелым механизмам защиты. В этом уровне предполагается использование AI Guardrails — специализированных моделей и правил, предназначенных для анализа входящих запросов.

Задача guardrails — классифицировать пользовательские промты и определять, содержат ли они признаки промт-инъекций или других опасных инструкций, с последующей блокировкой или модификацией запроса.

Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM. Входная фильтрация → ИИ-приложение → фильтрация ответа. — Принципиальная схема guardrails для входной фильтрации и фильтрации ответа LLM.

Использование guardrails отражает общий тренд в индустрии AI Security — переход к многоуровневой защите LLM-приложений. Это важный шаг в сторону более безопасных корпоративных решений, однако он не устраняет проблему полностью.

Разработчики фактически пытаются защищать модели машинного обучения с помощью других ML-моделей, которые потенциально подвержены тем же классам атак. Это оставляет значительное пространство для исследований и инженерных экспериментов.

В чем практическая польза игры

Внедрение LLM в бизнес-процессы требует не только технических мер защиты, но и повышения осведомленности пользователей. Любой сотрудник, взаимодействующий с корпоративным ИИ-ассистентом, потенциально становится точкой входа для промт-инъекции.

Обучение не может ограничиваться инструкциями и формальными запретами. Гораздо эффективнее показывать риски на практике — на примерах, подобных игре «Защищ[AI]», где видно, насколько легко можно нарушить ограничения модели. Технологии развиваются быстро, но человеческий фактор по-прежнему остается ключевым элементом цепочки безопасности, особенно сейчас, когда существующие меры безопасности не дают гарантий защиты.

Узнать больше о лучших практиках и средствах ИБ

1. Распознавание промт-инъекций

Пользователь, понимающий природу промт-инъекций, способен критически оценивать шаблоны промтов, скопированные из интернета, а также сторонние инструкции и примеры запросов. Осознание того, что атакующие инструкции могут быть скрыты прямо в тексте запроса, помогает своевременно выявлять угрозы и снижать риск компрометации модели.

2. Осознанное отношение к рискам

Промт-инъекции могут встречаться не только в чатах с ИИ-ассистентами. Они могут быть встроены в PDF-файлы, веб-страницы, к которым получает доступ браузер с ИИ-функциями, а также в инструменты разработки — IDE, агентные системы и подключаемые правила или навыки (например, в Cursor, Cline и аналогичных инструментах).

Особую опасность представляют многострочные, плохо читаемые или намеренно усложненные инструкции. В таком формате атакующие промты легче замаскировать под служебный текст или конфигурацию.

Проверка источников, понимание контекста и осторожное отношение к готовым решениям остаются обязательными условиями безопасной работы с LLM.

3. Безопасная тренировочная среда

Эксперименты с промтами и намеренно вредоносными сценариями в контролируемой среде позволяют безопасно понять, почему ИИ-ассистент иногда действует вне ожиданий пользователя или замысла разработчика.

Такая практика повышает цифровую гигиену и зрелость работы с ИИ. Это особенно важно для обычных пользователей, которые могут неосознанно загружать в корпоративные ИИ-сервисы тексты, файлы или изображения, содержащие промт-инъекции.

4. Вовлеченность и игровой формат

Игровая форма делает обучение менее формальным и более вовлекающим. Стохастическая природа языковых моделей приводит к неожиданным и наглядным результатам, которые лучше закрепляют понимание рисков и принципов работы LLM.

В результате безопасность перестает восприниматься как абстрактное требование и становится частью практического опыта.

Вместо вывода

Промт-инъекции — это не экзотическая уязвимость, а долгосрочный источник риска для компаний, проходящих «ИИ-трансформацию», который связан с самой природой LLM. Игра «Защищ[AI]» позволяет понять на практических примерах, почему безопасность ИИ-систем требует сочетания технических мер, обучения и осознанного использования приложений, в работе которых применяется ИИ.

Информационная безопасность Нейросети и ML