Обезличивание персональных данных: цели, методы, схема

Обезличивание персональных данных

Марк Песков
Марк Песков Методолог по информационной безопасности
6 декабря 2024

Разбираемся, зачем нужно обезличивание персональных данных, какие это дает преимущества всем участникам. Рассматриваем предусмотренные законом методы.

Изображение записи

Обезличивание персональных данных 

В материалах, посвященных безопасной работе с персональными данными, часто можно встретить такое понятие, как обезличивание. Не все до конца ясно понимают цели этого мероприятия и какие шаги следует осуществлять на практике. 

Привет! Меня зовут Марк, я методолог по информационной безопасности в Selectel. В этой статье разберемся, что такое обезличивание персональных данных, а также какими методами и когда оно выполняется. 

Причины и цели

Обезличиванием персональных данных (ПДн) называют действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность ПДн конкретному субъекту ПДн.

из федерального закона № 152 от 27 июля 2006 года

Если данные не позволяют однозначно определить субъект (то есть лицо), которому они принадлежат, то как они могут использоваться?

Обезличенные данные могут быть обработаны и проанализированы без риска раскрытия личных сведений о субъектах. Это позволяет компаниям проводить исследования, не концентрируясь на многоплановых мерах безопасности. Границы применения таких баз трудно определить, это могут быть:

  • научные работы: медицина, социология, психология;
  • маркетинговый анализ: сегментация рынка, изучение потребительского поведения, разработка стратегий;
  • государственное планирование и политика: создание социальных программ, совершенствование систем управления;
  • здоровье и медицина: эпидемиологические исследования, ранняя диагностика заболеваний, понимание эффективности лекарств и лечения;.
  • финансовый сектор: оценка рисков, формирование банковских продуктов;
  • транспорт и логистика: оптимизация маршрутов, управление потоками грузов и пассажиров;
  • образование: мониторинг успеваемости, разработка новых подходов к обучению, повышения эффективности учебных программ.

Использование обезличенных данных позволяет извлекать ценные инсайты, сохраняя при этом конфиденциальность индивидуальной информации, что является важным аспектом в эпоху цифровых технологий и больших данных. Такие датасеты формируются из разных источников и содержат сведения — например, возраст, пол, регион проживания, диагноз и тому подобные — достаточные только для решения задач конкретного исследования.

В случае утечки обезличивание ПДн существенно снижает риск негативных последствий для оператора и субъектов. Поскольку таким образом повышается защищенность всех участников, обезличивание нередко рассматривается как ключевой фактор безопасной работы с ПДн. 

Любой процесс преобразования данных непосредственно влияет на полноту, структурированность и семантическую целостность. Поэтому именно цель использования обезличенных данных определяет метод их получения.

Схема действий

Процесс должен быть четко регламентирован и содержать несколько ключевых этапов.

  1. Определение цели. Это самый первый шаг, так как он в значительной степени обуславливает остальные. Примерами могут быть: аналитические исследования, маркетинговые наблюдения, соответствие требованиям законодательства.
  2. Выбор подходящего метода наряду с целью зависит от типа данных и способа их предполагаемого использования.
  3. Проведение процедуры. На этом шаге не обойтись без специализированного программного обеспечения. Только так можно обработать большое количество информации и при этом избежать ошибок, неизбежных при ручном вводе.
  4. Проверка и верификация результатов. После завершения всех действий по обезличиванию ПДн необходимо удостовериться в корректности нового массива данных. Важно: получившиеся сведения не должны позволять идентифицировать субъектов.
  5. Документирование процесса. Чтобы не потерять возможность подтвердить соответствие процедур требованиям законодательства, протоколируется каждый шаг работы. В случае аудита такая предосторожность оказывается обязательной.

Используемые методы

В соответствии с приказом Роскомнадзора № 996 от 5 сентября 2013 года, выделяют четыре метода обезличивания:

  • введение идентификаторов — часть сведений (например, ФИО) заменяется на несвязанные с ними последовательности символов, но с сохранением соответствия исходным данным в специальной таблице (справочнике); 
  • изменения состава или семантики — подмена, обобщение или удаление части сведений результатов статистической обработки — например, сокращение полного адреса проживания до региона или населенного пункта, замещение чувствительных элементов фиктивными;
  • декомпозиция — разбиение исходного массива данных на несколько частей, которые хранятся и используются независимо;
  • перемешивание — перестановка отдельных записей или групп.

На практике чаще всего применяются в сущности схожие методы — введения идентификаторов и декомпозиции. С их помощью исходная база данных преобразуется для достижения конкретных целей. Получившаяся в итоге БД состоит из нескольких отдельных наборов записей, которые соотносятся между собой благодаря общим идентификаторам.

Оба метода обратимы. Противоположное преобразование (деобезличивание) осуществимо — для этого потребуется дополнительная информация, связывающая идентификаторы с первоначальными данными. Однако ни один из наборов сам по себе не позволяет соотнести записи с конкретными людьми (субъектами ПДн). Идентификаторы тоже не дают возможности восстановить исходные значения, поскольку представляют из себя лишенные смысловой нагрузки числовые или буквенно‑числовые последовательности определенного формата. 

Несмотря на кажущуюся схожесть методов, есть и существенные отличия. При использовании идентификаторов часто без деобезличивания не обойтись — иначе или не объединить записи из нескольких наборов, или рисковать нарушением их целостности. В противоположность этому метод декомпозиции формирует наборы так, что ими можно оперировать независимо, не прибегая к деобезличиванию. 

При эксплуатации обоих методов безопасность ПДн основывается на принципе нулевого доверия: доступ даже к обезличенным наборам данных возможен только после аутентификации и авторизации пользователей. Проверка происходит при каждом обращении ко всякому без исключения набору данных. Тогда даже при утечке одного из них вероятность воссоздание других остается мала. Кроме того, в случае негативного сценария невозможно установить связи между записями и субъектами. 

Аутентификация и авторизация — два важных процесса информационной безопасности. Эти термины часто встречаются вместе и могут показаться схожими, однако они выполняют разные задачи.

Аутентификация — проверка подлинности пользователя, подтверждение, что он именно тот, за кого себя выдает.

Авторизация — определения прав и привилегий пользователя в системе, установление перечня разрешенных для него действий.

Скриншот с выдержкой из 21‑го приказа ФСТЭК.
Выдержка из Приказа ФСТЭК № 21. Источник.

Метод изменения состава или семантики — наиболее подходящий для формирования датасетов при статистических исследованиях и обучении нейросетей. Для выполнения таких задач БД практически всегда передаются сторонним группам специалистов — следовательно, должны обезличиваться. С учетом разных целей исследования формируются новые отдельные БД. При этом поддерживается: 

  • структурная и семантическая целостность данных; 
  • необратимость преобразования, при которой невозможно восстановить исходные сведения даже при наличии дополнительной информации.

Так появляется возможность безбоязненно отдавать материалы третьим лицам для дальнейшего изучения. Раскрытие анонимности субъектов ПДн особенно нежелательно, например, в медицинских исследованиях. Подобные структуры требуют учета множества существенных характеристик субъекта: пола, возраста, наличия хронических заболеваний, применяемых препаратов и других сведений, составляющих медицинскую тайну.

Метод перемешивания — наименее безопасный. Полученный с его помощью набор обезличенных данных по объему соответствует исходному. Возможность деобезличивания в случае утечки в значительной степени зависит от количества записей и перестановок: чем их больше, тем сложнее восстановить исходный набор. Несмотря на обратимость, у метода есть уникальное преимущество: наличие дополнительной информации — например, от других операторов ПДн — практически не влияет на возможность деобезличивания перемешанных данных. 

Метод перемешивания часто применяют совместно с методами введения идентификаторов и декомпозиции. Полученные таким путем датасеты тоже используются для обучения нейросетей, особенно для анализа и генерации текстовых документов, например договоров. В подобных случаях наибольшее значение имеет не взаимосвязь между данными одного субъекта, а именно их структура — например, окончания фамилий, форматы адреса и местоположение сведений в окружающем тексте. 

Безопасность

Важно помнить: при работе даже с обезличенными данными необходимо соблюдать внутренние политики по обработке и защите информации, а также использовать надежные технологии и инструменты.

Несмотря на кажущуюся неосуществимость раскрытия обезличенных данных, они подлежат защите наравне с другими категориями ПДн. Обезличивание само по себе не является единственным способом и должно быть дополнено комплексом организационных и технических мер, предусмотренных приказом ФСТЭК России № 21 для соответствующего уровня защищенности ПДн. Их реализация должна учитывать:

  • возможность использования обезличенных данных;
  • особенности процессов обработки ПНд;
  • применяемые технологии.

Обратите внимание: часто обезличенные персональные данные продолжают находиться в обращении у оператора. Они также могут передаваться третьей стороне. Цели обработки поменялись и уже не те, на которые согласилось лицо, которому они принадлежат.

Все связанные с использованием обезличенных данных обстоятельства, включая применяемый метод их получения, должны быть однозначно описаны в согласии субъекта. В противном случае запрещается обрабатывать ПДн даже при условии их анонимности, достигнутой в результате обезличивания.

Чтобы не допустить нарушений при работе с обезличенными данными и обеспечить безопасность обращения с ними, достаточно соблюдать следующие простые правила.

1. Четко формулируйте цели, условия их достижения, перечень необходимых сведений, предполагаемые операции с ПДн, описание применяемых методов, обоснованность передачи третьим лицам или организациям.

2. Обезличивайте ПДн всегда, когда это позволяют цели и процессы. Тщательно выбирайте наиболее подходящий для решаемой задачи метод.

3. Цели использования ПДн, условия их обращения, методы обезличивания, конечные сроки хранения — все особенности, затрагивающие интересы субъекта, должны присутствовать в его письменном согласии на обработку ПДн.

4. Придерживайтесь принципа наименьших привилегий.

5. При использовании методов изменения состава или семантики обобщайте данные и сокращайте их объем насколько это возможно. Но так, чтобы решались задачи и поставленные цели могли быть достигнуты.

6. Придерживайтесь принципа нулевого доверия: всякий раз при обращении к любому набору данных выполняется проверка — только аутентифицированные и авторизованные пользователи должны получать доступ.

7. При обезличивании методами введения идентификаторов и декомпозиции формируйте наборы данных так, чтобы ни один из них не позволял однозначно идентифицировать субъектов ПДн.

Старайтесь учитывать возможность использования отдельных наборов обезличенных ПДн для решения наибольшего количества задач — без необходимости объединения данных с деобезличиванием.

8. Система должна аутентифицировать и авторизовывать пользователей при каждом обращении к отдельному набору обезличенных данных.

9. Используйте метод перемешивания в комбинации с другими методами обезличивания для повышения безопасности.

10. После достижения всех целей персональные данные, в том числе обезличенные, должны быть уничтожены.

Помните: именно уничтожение, а не обезличивание, является конечной точкой жизненного цикла ПДн. 

Выводы

Цели сбора персональных данных разнообразны. Для достижения некоторых из них могут использоваться обезличенные ПДн. Такое преобразование не позволяет однозначно установить их владельца (субъекта) без дополнительной информации.

Важно понимать, что хотя обезличивание в целом и повышает уровень безопасности, оно не отменяет необходимости в проведении комплекса организационных и технических мер, предусмотренных приказом ФСТЭК России № 21. Кроме того, обезличивание эффективно только в том случае, когда метод его достижения выбран с учетом целей и особенностей дальнейшей обработки обезличенных ПДн. 

Наиболее часто применяются методы введения идентификаторов и декомпозиции. Они разбивают исходную базу данных на отдельные наборы, записи в которых связаны между собой общими идентификаторами. Такие обратимые преобразования подходят для случаев, когда одна часть задач решается с использованием обезличенных данных, а другая — требует их деобезличивания. 

Формирование датасетов для проведения статистических исследований, обучения нейросетей, а также решения других задач выполняется с использованием метода изменения состава или семантики ПДн. При этом требуемые данные обобщаются без потери смысла, а лишние исключаются из итогового набора. Такое преобразование необратимо и обеспечивает анонимность субъектов без потери структурной и семантической целостности данных. В некоторых случаях датасеты для обучения нейросетей могут быть сформированы и методом перемешивания — все зависит от решаемой проблемы.

Обработка обезличенных персональных данных подчиняется общим правилам безопасности. Нужно внимательно относиться к правовым вопросам и применяемым технологиям. Сформированные отдельные наборы обезличенных данных следует использовать для решения как можно большего числа задач. Объединение их с другими наборами может привести к деобезличиванию.

Таблица, описывающая виды персональных данных и уровни их защищенности.
Уровни защищенности информационных систем для работы с ПДн.

Каждое обращение к отдельному набору данных — только при аутентификации и авторизации пользователей. Регламенты должны быть понятны и законны, а сроки — конечны. После достижения всех целей персональные данные, в том числе и обезличенные, уничтожаются.

Работа с данными в Selectel

Мы предлагаем решения для хранения и обработки всех видов персональных данных, включая обезличенные. Предоставляем облачные сервисы и инструменты для их анализа. Наша платформа обеспечивает высокую степень защиты и соответствует требованиям законодательства — компании могут сосредоточиться на бизнесе и не беспокоиться о безопасности данных.

Мы не только предоставляем облачные решения для хранения обезличенных ПДн, но и консультируем по соблюдению законодательства и внедрению эффективных мер безопасности, а также обучаем персонал наших заказчиков и оказываем поддержку в освоении новых инструментов.

Если у вас есть вопросы — например, трудно определиться со средствами — или вы хотите получить консультацию, посетите нашу продуктовую страницу «Информационная безопасность как услуга». Мы окажем помощь в выборе и ответим на все вопросы. По ссылке вы найдете удобную форму — дадим обратную связь в течение дня.