Обезличивание персональных данных: цели, методы, схема

Обезличивание персональных данных

Тирекс
Тирекс Самый зубастый автор
6 декабря 2024

Разбираемся, зачем нужно обезличивание персональных данных, какие это дает преимущества всем участникам. Рассматриваем предусмотренные законом методы.

Изображение записи

 В материалах, посвященных безопасной работе с персональными данными, часто можно встретить такое понятие, как обезличивание. Не все до конца ясно понимают цели этого мероприятия и какие шаги следует осуществлять на практике. В этой статье разберемся, что такое обезличивание персональных данных, а также какими методами и когда оно выполняется. 

Материал подготовили Марк Песков, методолог по информационной безопасности, и Яна Жилинская, Pre-sale инженер в Selectel.

Что такое обезличивание персональных данных

Обезличивание персональных данных (ПДн) — это действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность ПДн конкретному субъекту ПДн — из федерального закона № 152 от 27 июля 2006 года.

Обезличиванию подлежат все персональные данные, которые могут привести к идентификации конкретных лиц. Это могут быть ФИО, адрес, номер телефона, электронная почта, номер паспорта, информация о трудовой деятельности, а также данные, связанные с финансовыми операциями.

Приведу пример. Представьте, что вы аналитик в крупном банке. Ежегодно ваша команда проводит исследование потребительского поведения за прошедший год. Чтобы решить задачу, сотрудникам нужно проанализировать финансовые операции клиентов. Держать такие данные в открытом доступе небезопасно, поэтому стоит использовать обезличивание ПДн — заменить настоящие имена и карты на набор символов.

Зачем обезличивать персональные данные

Обезличенные персональные данные можно использовать для статистических исследований и обучения нейросетей в различных сферах: от изучения целевой аудитории конкретного веб-ресурса до ранней диагностики заболеваний. Такие датасеты содержат данные из множества источников и при этом достаточные для решения задач конкретного исследования. Например,  они могут содержать возраст, пол, регион проживания, диагноз и другую информацию.

Обезличивание ПДн необходимо и тогда, когда оператору поступил запрос от Министерства цифрового развития на передачу определенных данных в единую государственную информационную систему. Такие обезличенные данные могут быть использованы, например, при разработке социальных проектов или для оценки эффективности отдельных отраслей. 

С точки зрения информационной безопасности обезличивание снижает риски негативных последствий для оператора ПДн и практически исключает последствия для самого субъекта ПДн при утечке данных. Таким образом, оно часто рассматривается как один из аспектов безопасной обработки ПДн. 

Сферы применения:

  • маркетинговый анализ: сегментация рынка, изучение потребительского поведения, разработка стратегий;
  • научные работы: медицина, социология, психология;
  • государственное планирование и политика: создание социальных программ, совершенствование систем управления;
  • здоровье и медицина: эпидемиологические исследования, ранняя диагностика заболеваний, понимание эффективности лекарств и лечения;.
  • финансовый сектор: оценка рисков, формирование банковских продуктов;
  • транспорт и логистика: оптимизация маршрутов, управление потоками грузов и пассажиров;
  • образование: мониторинг успеваемости, разработка новых подходов к обучению, повышения эффективности учебных программ.

В чем отличие обезличенных ПДн от анонимных

Обезличенные данные могут быть восстановлены до первоначального состояния, если у исследователя есть доступ к дополнительным сведениям. Анонимные данные, напротив, полностью исключают возможность идентификации личности. Это значит, что восстановить исходную информацию о пользователи не получится. Инструмент защищает данные, которые можно связать с конкретным субъектом, путем стирания или шифрования идентификаторов.

Выбор между обезличиванием и анонимизацией зависит от целей обработки данных. Например, интернет-магазин использует cookie, чтобы анализировать предпочтения клиентов и улучшать сервис. В случае, если компания сохраняет имена клиентов, их адрес и историю покупок, ей необходимо использовать обезличивание ПДн. При этом сотрудники могут воспользоваться «ключом», чтобы вернуть обезличенные данные к исходной форме. 

Если компания получает анонимизированные данные, то информация будет собираться в виде общей статистики посещений страницы без привязки к конкретным пользователям, анализа покупательских тенденций и других характеристик. Эти данные невозможно сопоставить с конкретными людьми или восстановить по желанию. 

Чем обезличивание отличается от блокирования ПДн

Блокирование ПДн — это метод, который временно ограничивает доступ к данным, при этом сохраняет их в исходном виде. Обычно его используют, когда необходимо скрыть пользовательские данные по запросу клиентов. Обезличивание, напротив, предполагает, что переработанные данные исключают возможность идентификации субъектов. В результате компании могут использовать информацию без нарушения конфиденциальности.

Допустим, сотрудникам IT-компании нужно собрать информацию о клиентах, чтобы проанализировать их уровень удовлетворенности. Если использовать обезличивание ПНд, то оператор будет отделять или заменять пользовательские данные: ФИО, место работы, контактную информацию. Останется только необходимая для исследования информация, например сфера деятельности. 

Приведем другую ситуацию: клиент попросил удалить свои данные или не дал согласие на их обработку. В таком случае ответственная компания должна прекратить любые операции с данными кроме хранения. Доступ будет заблокирован до момента, когда появится основания для их дальнейшей обработки — например, согласие пользователя или законодательных обязательств. Таким образом, обезличивание позволяет использовать данные в безопасной форме, тогда как блокирование приостанавливает их обработку, исключая доступ и использование.

В каких случаях используется обезличивание

  • Анализ исследовательских данных. Сотрудники могут использовать научные и маркетинговые данные, не нарушая конфиденциальность участников.
  • Обработка статистики и отчетности. При работе с большими объемами данных нет необходимости в идентификации отдельных людей.
  • Работа с алгоритмами. Метод полезен для обучения ML-моделей и разработки аналитических решений. 
  • Передача данных третьим лицам. Компании могут безопасно передавать данные другим организациям, не опасаясь раскрытия персональной информации.
  • Сохранение конфиденциальности. Пригодится в случаях, когда нужно проанализировать внутренние данные, при этом сохранить анонимность пользователей.

Требования законодательства РФ к обезличиванию ПДн

Государство регулирует обезличивание персональных данных в официальных документах — например, в федеральном законе «О персональных данных», приказе Роскомнадзора и других материалах. Рассмотрим их подробнее. 

В соответствии с Федеральным законом «О персональных данных» от 27.07.2006 (152-ФЗ) организации обязаны обеспечивать защиту персональных данных. Их нужно преобразовывать так, чтобы исключить возможность восстановления без дополнительных сведений. 

Согласно постановлению Правительства № 211 от 21.03.2012, государственные и муниципальные учреждения не обязаны осуществлять обезличивание персональных данных. Требование не распространяется на другие организации. 

Приказ Роскомнадзора № 966 от 05.09.2013 «Об утверждении требований и методов по обезличиванию персональных данных» определяет требования к обезличенным данным и содержит методику процедуры. Например, организациям нужно фиксировать процессы в соответствии со следующими условиями. 

  • Обеспечивать семантическую целостность, 
  • Сохранять полноту и структурированность датасета данных,
  • Гарантировать анонимность некоторых сведений не ниже требуемого уровня, 
  • Предоставить возможность восстановления данных к исходному виду.

В рамках правовых требований компании должны хранить чувствительные данные в информационных системах персональных данных (ИСПДн). По сути, это любые системы, в которых размещается и обрабатывается чья-либо персональная информация: собственных сотрудников или клиентов. Подробнее о ИСПДн рассказали в предыдущей статье

Юридические лица не обязаны регулярно предоставлять ПДн государственным учреждениям. Тем не менее, контролирующие органы имеют право проводить проверки соблюдения режима безопасности обработки этих данных. В ходе таких проверок оценивают меры, которые организации применяют для защиты персональной информации.

Схема действий

Процесс должен быть четко регламентирован и содержать несколько ключевых этапов.

  1. Определение цели. Это самый первый шаг, так как он в значительной степени обуславливает остальные. Примерами могут быть: аналитические исследования, маркетинговые наблюдения, соответствие требованиям законодательства.
  2. Выбор подходящего метода наряду с целью зависит от типа данных и способа их предполагаемого использования.
  3. Проведение процедуры. На этом шаге не обойтись без специализированного программного обеспечения. Только так можно обработать большое количество информации и при этом избежать ошибок, неизбежных при ручном вводе.
  4. Проверка и верификация результатов. После завершения всех действий по обезличиванию ПДн необходимо удостовериться в корректности нового массива данных. Важно: получившиеся сведения не должны позволять идентифицировать субъектов.
  5. Документирование процесса. Чтобы не потерять возможность подтвердить соответствие процедур требованиям законодательства, протоколируется каждый шаг работы. В случае аудита такая предосторожность оказывается обязательной.

Методы обезличивания персональных данных

Выделяют четыре метода обезличивания ПДн: 

  • введение идентификаторов — часть персональных данных (например, ФИО) заменяется на идентификатор и создается таблица (справочник) соответствия этого идентификатора исходным данным; 
  • декомпозиция — исходный массив ПДн разбивается на несколько частей, которые хранятся и используются раздельно;
  • изменения состава или семантики — часть ПДн заменяется результатами статистической обработки, обобщается или удаляется часть сведений (например, полный адрес проживания сокращается до региона или населенного пункта); 
  • перемешивание — происходит перестановка отдельных записей и групп записей в массиве ПДн.

На практике чаще всего применяют два первых метода: введения идентификаторов и декомпозиции, — которые по сути связаны. В обоих случаях база ПДн состоит из нескольких наборов записей, которые связаны между собой наличием одного и того же идентификатора — числовой или буквенно-числовой последовательности определенного формата. При этом каждый из наборов сам по себе не позволяет без дополнительной информации однозначно связать записи с конкретными людьми (субъектами). 

Оба метода являются обратимыми, то есть позволяют проводить деобезличивание. При использовании идентификаторов обычно требуется объединять записи из нескольких наборов (деобезличивать данные) в момент использования, чтобы не нарушить их целостность. В случае декомпозиции наборы данных формируются таким образом, чтобы их в большинстве ситуаций можно было использовать независимо от других наборов, то есть без деобезличивания. 

При использовании идентификаторов или декомпозиции безопасность ПДн достигается за счет управления доступом к наборам обезличенных данных в соответствии с принципом нулевого доверия. 

Принцип нулевого доверия подразумевает аутентификацию и авторизацию пользователя при каждом обращении к каждому из наборов данных, особенно в момент деобезличивания. При нарушении конфиденциальности (утечки) одного из наборов данных вероятность установления связи записей в этом наборе с конкретными субъектами (деобезличивания) мала. 

Метод изменения состава или семантики считается наиболее подходящим при формировании датасета для статистической обработки или обучения нейросети. В том числе его используют, когда данные после обезличивания нужно передать третьим лицам. В этом случае для разных исследований из одной исходной базы ПДн могут быть сформированы отдельные базы обезличенных данных. 

При использовании этого метода преобразование данных практически необратимо — он не позволяет восстановить исходную базу даже при наличии дополнительных данных. Однако при этом метод сохраняет структурированность необходимых ПДн и их семантическую целостность. Это особенно важно в медицинских исследованиях, где учитывается сразу множество важных характеристик (пол, возраст, наличие хронических заболеваний, применяемых препаратов) с сохранением анонимности. 

Метод перемешивания в теории является наименее безопасным, поскольку полученный с его использованием набор обезличенных данных содержит полный набор исходных ПДн. Из-за этого его часто используют вместе с методами введения идентификаторов и декомпозиции.

Возможность деобезличивания данных в случае утечки зависит от количества записей и количества перестановок: чем их больше, тем сложнее восстановить исходный набор данных. Однако метод перемешивания обратим и обладает одним уникальным преимуществом: наличие дополнительных данных, например, полученных из баз ПДн других операторов, практически не влияет на возможность деобезличивания перемешанных данных. Полученные путем перемешивания датасеты также довольно часто используются для обучения нейросетей, особенно таких, которые предназначены для анализа и генерации текстовых документов (например, договоров). В этом случае наибольшее значение имеет структура данных (например, окончания фамилий, форматы адреса и положение данных в окружающем тексте), но не взаимосвязь между данными одного субъекта. 

Что учесть при выборе метода обезличивания?

Выбор того или иного метода или их комбинации должен быть обоснован с учетом целей обработки обезличенных данных и задокументирован. Необходимо заранее определить во внутренней документации следующие моменты. 

Порядок учета действий, связанных с обезличиванием. Необходимо в произвольной форме зафиксировать все действия в рамках обезличивания ПДн и дальнейшего использования полученных данных. Это означает, что при автоматизированной обработке ПДн необходимо автоматически логировать операции обезличивания и деобезличивания, а также передачи массивов обезличенных данных в сторонние системы или удаления этих массивов. 

Данные каких субъектов или групп субъектов подлежат обезличиванию. Например, данные всех участников рекламных акций могут обезличиваться сразу после окончания этих акций для дальнейшего использования в целях анализа целевой аудитории. 

Как именно проводится обезличивание: какие действия, в каком порядке и с какими записями необходимо выполнить, чтобы данные могли считаться обезличенными; 

Результаты оценки достаточности выбранного метода обезличивания. Иначе говоря —  наличие возможности и сложности деобезличивания ПДн, полученных при использовании описанной методики. 

Безопасность обезличенных данных

Несмотря на кажущуюся безопасность использования обезличенных данных, они подлежат защите наравне с другими категориями ПДн. Обезличивание не является единственным способом защиты и должно быть дополнено комплексом организационных и технических и мер, предусмотренных приказом ФСТЭК России № 21. Реализация мер должна учитывать возможность использования обезличенных данных, особенности процессов их обработки и применяемых при этом технологий. 

Также стоит отметить, что после обезличивания ПДн продолжают использоваться оператором в целях, часто отличных от целей первоначального сбора данных, а также могут быть переданы для дальнейшей обработки третьей стороне. При этом предварительного согласия субъекта на использование его ПДн в обезличенном виде не требуется. 

Однако, если оператор планирует передать обезличенные ПДн в единую государственную информационную систему, он обязан заранее проинформировать об этом субъекта, а субъект имеет право запретить такую передачу. Это можно оформить в согласии субъекта на обработку его ПДн. 

Чтобы избежать нарушений при работе с обезличенными данными и обеспечить их безопасность, следуйте правилам. 

  • Четко сформулируйте и закрепите во внутренних документах цели использования ПДн, в том числе обезличенных, и условия достижения этих целей, перечни необходимых данных, предполагаемые операции с данными (включая описание метода обезличивания), достаточность выбранного метода обезличивания, необходимость передачи данных третьим лицам или организациям, а также возможность передачи данных в единую государственную информационную систему. 
  • Сохраняйте в тайне используемые методы и алгоритмы обезличивания ПДн, так как в некоторых случаях эта информация может быть использована для деобезличивания. 
  • Исходные наборы ПДн и обезличенные данные должны храниться раздельно — в отдельных сегментах информационных систем или в отдельных экземплярах баз данных с настроенным разграничением доступа.
  • Если цели обработки ПДн могут быть достигнуты при использовании обезличенных данных, проведите обезличивание тем методом, который наиболее подходит для решаемой задачи.
  • Отразите в форме согласия субъекта на обработку его ПДн условия использования обезличенных данных, включая планируемую передачу обезличенных данных в единую государственную информационную систему. 
  • При обезличивании методом изменения состава или семантики ПДн максимально сокращайте объем данных и обобщайте их до такого уровня, который достаточен для решения задач и достижения поставленных целей. 
  • При использовании методов введения идентификаторов и декомпозиции формируйте наборы данных так, чтобы ни один из них не позволял однозначно идентифицировать субъектов ПДн. При этом старайтесь учитывать возможность использования отдельных наборов обезличенных данных для решения максимально возможного количества задач без необходимости объединения данных с данными других наборов (деобезличивания). Старайтесь аутентифицировать и авторизовывать пользователей при каждом обращении к отдельному набору ПДн.
  • Используйте метод перемешивания в комбинации с другими методами обезличивания для повышения безопасности. 
  • Фиксируйте в любой удобной форме все операции, связанные с обезличиванием ПДн и дальнейшим использованием обезличенных данных.
  • После достижения всех целей обработки ПДн, в том числе обезличенных, такие данные должны быть уничтожены. 

Помните: именно уничтожение, а не обезличивание, является конечной точкой жизненного цикла ПДн.

Выводы

Цели сбора персональных данных разнообразны. Для достижения некоторых из них могут использоваться обезличенные ПДн. Такое преобразование не позволяет однозначно установить их владельца (субъекта) без дополнительной информации.

Важно понимать, что хотя обезличивание в целом и повышает уровень безопасности, оно не отменяет необходимости в проведении комплекса организационных и технических мер, предусмотренных приказом ФСТЭК России № 21. Кроме того, обезличивание эффективно только в том случае, когда метод его достижения выбран с учетом целей и особенностей дальнейшей обработки обезличенных ПДн. 

Наиболее часто применяются методы введения идентификаторов и декомпозиции. Они разбивают исходную базу данных на отдельные наборы, записи в которых связаны между собой общими идентификаторами. Такие обратимые преобразования подходят для случаев, когда одна часть задач решается с использованием обезличенных данных, а другая — требует их деобезличивания. 

Формирование датасетов для проведения статистических исследований, обучения нейросетей, а также решения других задач выполняется с использованием метода изменения состава или семантики ПДн. При этом требуемые данные обобщаются без потери смысла, а лишние исключаются из итогового набора. Такое преобразование необратимо и обеспечивает анонимность субъектов без потери структурной и семантической целостности данных. В некоторых случаях датасеты для обучения нейросетей могут быть сформированы и методом перемешивания — все зависит от решаемой проблемы.

Обработка обезличенных персональных данных подчиняется общим правилам безопасности. Нужно внимательно относиться к правовым вопросам и применяемым технологиям. Сформированные отдельные наборы обезличенных данных следует использовать для решения как можно большего числа задач. Объединение их с другими наборами может привести к деобезличиванию.

Каждое обращение к отдельному набору данных — только при аутентификации и авторизации пользователей. Регламенты должны быть понятны и законны, а сроки — конечны. После достижения всех целей персональные данные, в том числе и обезличенные, уничтожаются.

Работа с данными в Selectel

Мы предлагаем решения для хранения и обработки всех видов персональных данных, включая обезличенные. Предоставляем облачные сервисы и инструменты для их анализа. Наша платформа обеспечивает высокую степень защиты и соответствует требованиям законодательства — компании могут сосредоточиться на бизнесе и не беспокоиться о безопасности данных.

Мы не только предоставляем облачные решения для хранения обезличенных ПДн, но и консультируем по соблюдению законодательства и внедрению эффективных мер безопасности, а также обучаем персонал наших заказчиков и оказываем поддержку в освоении новых инструментов.

Если у вас есть вопросы — например, трудно определиться со средствами — или вы хотите получить консультацию, посетите нашу продуктовую страницу «Информационная безопасность как услуга». Мы окажем помощь в выборе и ответим на все вопросы. По ссылке вы найдете удобную форму — дадим обратную связь в течение дня.