Обезличивание персональных данных
Разбираемся, зачем нужно обезличивание персональных данных, какие это дает преимущества всем участникам. Рассматриваем предусмотренные законом методы.

Обезличивание персональных данных
В материалах, посвященных безопасной работе с персональными данными, часто можно встретить такое понятие, как обезличивание. Не все до конца ясно понимают цели этого мероприятия и какие шаги следует осуществлять на практике. В этой статье разберемся, что такое обезличивание персональных данных, а также какими методами и когда оно выполняется.
Материал подготовили Марк Песков, методолог по информационной безопасности, и Яна Жилинская, Pre-sale инженер в Selectel.
Что такое обезличивание персональных данных
Обезличиванием персональных данных (ПДн) называют действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность ПДн конкретному субъекту ПДн.
Обезличивание ПДн — это процесс, в результате которого данные теряют связь с конкретной личностью, но остаются полезными для анализа и обработки. Информацию можно использовать в статистических исследованиях, маркетинговых анализах или научных работах. Идентифицировать пользователя не получится.
Приведу пример. Представьте, что вы аналитик в крупном банке. Ежегодно ваша команда проводит исследование потребительского поведения за прошедший год. Чтобы решить задачу, сотрудникам нужно проанализировать финансовые операции клиентов. Держать такие данные в открытом доступе небезопасно, поэтому стоит использовать обезличивание ПДн — заменить настоящие имена и карты на набор символов.
Обезличиванию подлежат все персональные данные, которые могут привести к идентификации конкретных лиц. Это могут быть ФИО, адрес, номер телефона, электронная почта, номер паспорта, информация о трудовой деятельности, а также данные, связанные с финансовыми операциями.
В чем отличие обезличенных ПДн от анонимных
Обезличенные данные могут быть восстановлены до первоначального состояния, если у исследователя есть доступ к дополнительным сведениям. Анонимные данные, напротив, полностью исключают возможность идентификации личности. Это значит, что восстановить исходную информацию о пользователи не получится. Инструмент защищает данные, которые можно связать с конкретным субъектом, путем стирания или шифрования идентификаторов.
Выбор между обезличиванием и анонимизацией зависит от целей обработки данных. Например, интернет-магазин использует cookie, чтобы анализировать предпочтения клиентов и улучшать сервис. В случае, если компания сохраняет имена клиентов, их адрес и историю покупок, ей необходимо использовать обезличивание ПДн. При этом сотрудники могут воспользоваться «ключом», чтобы вернуть обезличенные данные к исходной форме.
Если компания получает анонимизированные данные, то информация будет собираться в виде общей статистики посещений страницы без привязки к конкретным пользователям, анализа покупательских тенденций и других характеристик. Эти данные невозможно сопоставить с конкретными людьми или восстановить по желанию.
Чем обезличивание отличается от блокирования ПДн
Блокирование ПДн — это метод, который временно ограничивает доступ к данным, при этом сохраняет их в исходном виде. Обычно его используют, когда необходимо скрыть пользовательские данные по запросу клиентов. Обезличивание, напротив, предполагает, что переработанные данные исключают возможность идентификации субъектов. В результате компании могут использовать информацию без нарушения конфиденциальности.
Допустим, сотрудникам IT-компании нужно собрать информацию о клиентах, чтобы проанализировать их уровень удовлетворенности. Если использовать обезличивание ПНд, то оператор будет отделять или заменять пользовательские данные: ФИО, место работы, контактную информацию. Останется только необходимая для исследования информация, например сфера деятельности.
Приведем другую ситуацию: клиент попросил удалить свои данные или не дал согласие на их обработку. В таком случае ответственная компания должна прекратить любые операции с данными кроме хранения. Доступ будет заблокирован до момента, когда появится основания для их дальнейшей обработки — например, согласие пользователя или законодательных обязательств. Таким образом, обезличивание позволяет использовать данные в безопасной форме, тогда как блокирование приостанавливает их обработку, исключая доступ и использование.
Причины и цели
Если данные не позволяют однозначно определить субъект (то есть лицо), которому они принадлежат, то как они могут использоваться?
Обезличенные данные могут быть обработаны и проанализированы без риска раскрытия личных сведений о субъектах. Это позволяет компаниям проводить исследования, не концентрируясь на многоплановых мерах безопасности. Границы применения таких баз трудно определить, это могут быть:
- научные работы: медицина, социология, психология;
- маркетинговый анализ: сегментация рынка, изучение потребительского поведения, разработка стратегий;
- государственное планирование и политика: создание социальных программ, совершенствование систем управления;
- здоровье и медицина: эпидемиологические исследования, ранняя диагностика заболеваний, понимание эффективности лекарств и лечения;.
- финансовый сектор: оценка рисков, формирование банковских продуктов;
- транспорт и логистика: оптимизация маршрутов, управление потоками грузов и пассажиров;
- образование: мониторинг успеваемости, разработка новых подходов к обучению, повышения эффективности учебных программ.
Использование обезличенных данных позволяет извлекать ценные инсайты, сохраняя при этом конфиденциальность индивидуальной информации, что является важным аспектом в эпоху цифровых технологий и больших данных. Такие датасеты формируются из разных источников и содержат сведения — например, возраст, пол, регион проживания, диагноз и тому подобные — достаточные только для решения задач конкретного исследования.
В случае утечки обезличивание ПДн существенно снижает риск негативных последствий для оператора и субъектов. Поскольку таким образом повышается защищенность всех участников, обезличивание нередко рассматривается как ключевой фактор безопасной работы с ПДн.
Любой процесс преобразования данных непосредственно влияет на полноту, структурированность и семантическую целостность. Поэтому именно цель использования обезличенных данных определяет метод их получения.
В каких случаях используется обезличивание
- Анализ исследовательских данных. Сотрудники могут использовать научные и маркетинговые данные, не нарушая конфиденциальность участников.
- Обработка статистики и отчетности. При работе с большими объемами данных нет необходимости в идентификации отдельных людей.
- Работа с алгоритмами. Метод полезен для обучения ML-моделей и разработки аналитических решений.
- Передача данных третьим лицам. Компании могут безопасно передавать данные другим организациям, не опасаясь раскрытия персональной информации.
- Сохранение конфиденциальности. Пригодится в случаях, когда нужно проанализировать внутренние данные, при этом сохранить анонимность пользователей.
Требования законодательства РФ к обезличиванию ПДн
Государство регулирует обезличивание персональных данных в официальных документах — например, в федеральном законе «О персональных данных», приказе Роскомнадзора и других материалах. Рассмотрим их подробнее.
В соответствии с Федеральным законом «О персональных данных» от 27.07.2006 (152-ФЗ) организации обязаны обеспечивать защиту персональных данных. Их нужно преобразовывать так, чтобы исключить возможность восстановления без дополнительных сведений.
Согласно постановлению Правительства № 211 от 21.03.2012, государственные и муниципальные учреждения не обязаны осуществлять обезличивание персональных данных. Требование не распространяется на другие организации.
Приказ Роскомнадзора № 966 от 05.09.2013 «Об утверждении требований и методов по обезличиванию персональных данных» определяет требования к обезличенным данным и содержит методику процедуры. Например, организациям нужно фиксировать процессы в соответствии со следующими условиями.
- Обеспечивать семантическую целостность,
- Сохранять полноту и структурированность датасета данных,
- Гарантировать анонимность некоторых сведений не ниже требуемого уровня,
- Предоставить возможность восстановления данных к исходному виду.
В рамках правовых требований компании должны хранить чувствительные данные в информационных системах персональных данных (ИСПДн). По сути, это любые системы, в которых размещается и обрабатывается чья-либо персональная информация: собственных сотрудников или клиентов. Подробнее о ИСПДн рассказали в предыдущей статье.
Юридические лица не обязаны регулярно предоставлять ПДн государственным учреждениям. Тем не менее, контролирующие органы имеют право проводить проверки соблюдения режима безопасности обработки этих данных. В ходе таких проверок оценивают меры, которые организации применяют для защиты персональной информации.
Схема действий
Процесс должен быть четко регламентирован и содержать несколько ключевых этапов.
- Определение цели. Это самый первый шаг, так как он в значительной степени обуславливает остальные. Примерами могут быть: аналитические исследования, маркетинговые наблюдения, соответствие требованиям законодательства.
- Выбор подходящего метода наряду с целью зависит от типа данных и способа их предполагаемого использования.
- Проведение процедуры. На этом шаге не обойтись без специализированного программного обеспечения. Только так можно обработать большое количество информации и при этом избежать ошибок, неизбежных при ручном вводе.
- Проверка и верификация результатов. После завершения всех действий по обезличиванию ПДн необходимо удостовериться в корректности нового массива данных. Важно: получившиеся сведения не должны позволять идентифицировать субъектов.
- Документирование процесса. Чтобы не потерять возможность подтвердить соответствие процедур требованиям законодательства, протоколируется каждый шаг работы. В случае аудита такая предосторожность оказывается обязательной.
Используемые методы
В соответствии с приказом Роскомнадзора № 996 от 5 сентября 2013 года, выделяют четыре метода обезличивания:
- введение идентификаторов — часть сведений (например, ФИО) заменяется на несвязанные с ними последовательности символов, но с сохранением соответствия исходным данным в специальной таблице (справочнике);
- изменения состава или семантики — подмена, обобщение или удаление части сведений результатов статистической обработки — например, сокращение полного адреса проживания до региона или населенного пункта, замещение чувствительных элементов фиктивными;
- декомпозиция — разбиение исходного массива данных на несколько частей, которые хранятся и используются независимо;
- перемешивание — перестановка отдельных записей или групп.
На практике чаще всего применяются в сущности схожие методы — введения идентификаторов и декомпозиции. С их помощью исходная база данных преобразуется для достижения конкретных целей. Получившаяся в итоге БД состоит из нескольких отдельных наборов записей, которые соотносятся между собой благодаря общим идентификаторам.
Оба метода обратимы. Противоположное преобразование (деобезличивание) осуществимо — для этого потребуется дополнительная информация, связывающая идентификаторы с первоначальными данными. Однако ни один из наборов сам по себе не позволяет соотнести записи с конкретными людьми (субъектами ПДн). Идентификаторы тоже не дают возможности восстановить исходные значения, поскольку представляют из себя лишенные смысловой нагрузки числовые или буквенно‑числовые последовательности определенного формата.
Несмотря на кажущуюся схожесть методов, есть и существенные отличия. При использовании идентификаторов часто без деобезличивания не обойтись — иначе или не объединить записи из нескольких наборов, или рисковать нарушением их целостности. В противоположность этому метод декомпозиции формирует наборы так, что ими можно оперировать независимо, не прибегая к деобезличиванию.
При эксплуатации обоих методов безопасность ПДн основывается на принципе нулевого доверия: доступ даже к обезличенным наборам данных возможен только после аутентификации и авторизации пользователей. Проверка происходит при каждом обращении ко всякому без исключения набору данных. Тогда даже при утечке одного из них вероятность воссоздание других остается мала. Кроме того, в случае негативного сценария невозможно установить связи между записями и субъектами.
Аутентификация и авторизация — два важных процесса информационной безопасности. Эти термины часто встречаются вместе и могут показаться схожими, однако они выполняют разные задачи.
Аутентификация — проверка подлинности пользователя, подтверждение, что он именно тот, за кого себя выдает.
Авторизация — определения прав и привилегий пользователя в системе, установление перечня разрешенных для него действий.
Метод изменения состава или семантики — наиболее подходящий для формирования датасетов при статистических исследованиях и обучении нейросетей. Для выполнения таких задач БД практически всегда передаются сторонним группам специалистов — следовательно, должны обезличиваться. С учетом разных целей исследования формируются новые отдельные БД. При этом поддерживается:
- структурная и семантическая целостность данных;
- необратимость преобразования, при которой невозможно восстановить исходные сведения даже при наличии дополнительной информации.
Так появляется возможность безбоязненно отдавать материалы третьим лицам для дальнейшего изучения. Раскрытие анонимности субъектов ПДн особенно нежелательно, например, в медицинских исследованиях. Подобные структуры требуют учета множества существенных характеристик субъекта: пола, возраста, наличия хронических заболеваний, применяемых препаратов и других сведений, составляющих медицинскую тайну.
Метод перемешивания — наименее безопасный. Полученный с его помощью набор обезличенных данных по объему соответствует исходному. Возможность деобезличивания в случае утечки в значительной степени зависит от количества записей и перестановок: чем их больше, тем сложнее восстановить исходный набор. Несмотря на обратимость, у метода есть уникальное преимущество: наличие дополнительной информации — например, от других операторов ПДн — практически не влияет на возможность деобезличивания перемешанных данных.
Метод перемешивания часто применяют совместно с методами введения идентификаторов и декомпозиции. Полученные таким путем датасеты тоже используются для обучения нейросетей, особенно для анализа и генерации текстовых документов, например договоров. В подобных случаях наибольшее значение имеет не взаимосвязь между данными одного субъекта, а именно их структура — например, окончания фамилий, форматы адреса и местоположение сведений в окружающем тексте.
Безопасность
Важно помнить: при работе даже с обезличенными данными необходимо соблюдать внутренние политики по обработке и защите информации, а также использовать надежные технологии и инструменты.
Несмотря на кажущуюся неосуществимость раскрытия обезличенных данных, они подлежат защите наравне с другими категориями ПДн. Обезличивание само по себе не является единственным способом и должно быть дополнено комплексом организационных и технических мер, предусмотренных приказом ФСТЭК России № 21 для соответствующего уровня защищенности ПДн. Их реализация должна учитывать:
- возможность использования обезличенных данных;
- особенности процессов обработки ПНд;
- применяемые технологии.
Обратите внимание: часто обезличенные персональные данные продолжают находиться в обращении у оператора. Они также могут передаваться третьей стороне. Цели обработки поменялись и уже не те, на которые согласилось лицо, которому они принадлежат.
Все связанные с использованием обезличенных данных обстоятельства, включая применяемый метод их получения, должны быть однозначно описаны в согласии субъекта. В противном случае запрещается обрабатывать ПДн даже при условии их анонимности, достигнутой в результате обезличивания.
Чтобы не допустить нарушений при работе с обезличенными данными и обеспечить безопасность обращения с ними, достаточно соблюдать следующие простые правила.
1. Четко формулируйте цели, условия их достижения, перечень необходимых сведений, предполагаемые операции с ПДн, описание применяемых методов, обоснованность передачи третьим лицам или организациям.
2. Обезличивайте ПДн всегда, когда это позволяют цели и процессы. Тщательно выбирайте наиболее подходящий для решаемой задачи метод.
3. Цели использования ПДн, условия их обращения, методы обезличивания, конечные сроки хранения — все особенности, затрагивающие интересы субъекта, должны присутствовать в его письменном согласии на обработку ПДн.
4. Придерживайтесь принципа наименьших привилегий.
5. При использовании методов изменения состава или семантики обобщайте данные и сокращайте их объем насколько это возможно. Но так, чтобы решались задачи и поставленные цели могли быть достигнуты.
6. Придерживайтесь принципа нулевого доверия: всякий раз при обращении к любому набору данных выполняется проверка — только аутентифицированные и авторизованные пользователи должны получать доступ.
7. При обезличивании методами введения идентификаторов и декомпозиции формируйте наборы данных так, чтобы ни один из них не позволял однозначно идентифицировать субъектов ПДн.
Старайтесь учитывать возможность использования отдельных наборов обезличенных ПДн для решения наибольшего количества задач — без необходимости объединения данных с деобезличиванием.
8. Система должна аутентифицировать и авторизовывать пользователей при каждом обращении к отдельному набору обезличенных данных.
9. Используйте метод перемешивания в комбинации с другими методами обезличивания для повышения безопасности.
10. После достижения всех целей персональные данные, в том числе обезличенные, должны быть уничтожены.
Помните: именно уничтожение, а не обезличивание, является конечной точкой жизненного цикла ПДн.
Выводы
Цели сбора персональных данных разнообразны. Для достижения некоторых из них могут использоваться обезличенные ПДн. Такое преобразование не позволяет однозначно установить их владельца (субъекта) без дополнительной информации.
Важно понимать, что хотя обезличивание в целом и повышает уровень безопасности, оно не отменяет необходимости в проведении комплекса организационных и технических мер, предусмотренных приказом ФСТЭК России № 21. Кроме того, обезличивание эффективно только в том случае, когда метод его достижения выбран с учетом целей и особенностей дальнейшей обработки обезличенных ПДн.
Наиболее часто применяются методы введения идентификаторов и декомпозиции. Они разбивают исходную базу данных на отдельные наборы, записи в которых связаны между собой общими идентификаторами. Такие обратимые преобразования подходят для случаев, когда одна часть задач решается с использованием обезличенных данных, а другая — требует их деобезличивания.
Формирование датасетов для проведения статистических исследований, обучения нейросетей, а также решения других задач выполняется с использованием метода изменения состава или семантики ПДн. При этом требуемые данные обобщаются без потери смысла, а лишние исключаются из итогового набора. Такое преобразование необратимо и обеспечивает анонимность субъектов без потери структурной и семантической целостности данных. В некоторых случаях датасеты для обучения нейросетей могут быть сформированы и методом перемешивания — все зависит от решаемой проблемы.
Обработка обезличенных персональных данных подчиняется общим правилам безопасности. Нужно внимательно относиться к правовым вопросам и применяемым технологиям. Сформированные отдельные наборы обезличенных данных следует использовать для решения как можно большего числа задач. Объединение их с другими наборами может привести к деобезличиванию.
Каждое обращение к отдельному набору данных — только при аутентификации и авторизации пользователей. Регламенты должны быть понятны и законны, а сроки — конечны. После достижения всех целей персональные данные, в том числе и обезличенные, уничтожаются.
Работа с данными в Selectel
Мы предлагаем решения для хранения и обработки всех видов персональных данных, включая обезличенные. Предоставляем облачные сервисы и инструменты для их анализа. Наша платформа обеспечивает высокую степень защиты и соответствует требованиям законодательства — компании могут сосредоточиться на бизнесе и не беспокоиться о безопасности данных.
Мы не только предоставляем облачные решения для хранения обезличенных ПДн, но и консультируем по соблюдению законодательства и внедрению эффективных мер безопасности, а также обучаем персонал наших заказчиков и оказываем поддержку в освоении новых инструментов.
Если у вас есть вопросы — например, трудно определиться со средствами — или вы хотите получить консультацию, посетите нашу продуктовую страницу «Информационная безопасность как услуга». Мы окажем помощь в выборе и ответим на все вопросы. По ссылке вы найдете удобную форму — дадим обратную связь в течение дня.