Отказоустойчивая инфраструктура на Bare Metal: SEOWORK

Как построить отказоустойчивую инфраструктуру на базе Bare Metal: опыт SEOWORK

В кейсе рассказываем, как компания SEOWORK построила отказоустойчивую и безопасную IT-инфраструктуру для платформы поискового маркетинга. Ежедневно система не только пополняет свой DataLake и обрабатывает более 600 ГБ данных, но и легко выдерживает любые пиковые нагрузки, гарантируя клиентам доступность на уровне 99,8%.

Изображение записи

Кейс будет полезен для компаний в следующих сферах:

  • MarTech
  • SaaS
  • автоматизация бизнеса
  • аналитика

Задачи:

  • Повысить стабильность и производительность инфраструктуры.
  • Обеспечить безотказную работу с большими данными.
  • Получить возможность быстрого и гибкого масштабирования.
  • Обеспечить высокий уровень безопасности.

О компании

SEOWORK — платформа для мониторинга и аналитики поискового маркетинга. Платформа собирает, хранит и обрабатывает гигантские объемы информации о трафике, спросе и видимости интернет-ресурсов в поисковой выдаче. Разрозненные данные объединяются и визуализируются с помощью наглядных дашбордов. Ежедневно в хранилище компании поступает более 600 ГБ данных. При этом все они считаются «горячими» и хранятся по SLA минимум три года, а для некоторых клиентов — бессрочно.

Клиенты SEOWORK — крупные компании из сфер электронной коммерции и медиа, в их числе «М-Видео», «Лента», Okko, «Т—Ж» и другие. Платформа занимает первое место в рейтинге сервисов для поискового маркетинга по версии портала SEOnews.

Вызовы и решения

Прежде компания размещала инфраструктуру на выделенных серверах зарубежного провайдера. Хотя в целом он справлялся с нагрузками, все чаще стали возникать технические проблемы, к которым позже добавились политические риски. В связи с этим в 2022 году команда SEOWORK приняла решение миграции на мощности российского провайдера.

Повысить стабильность и производительность инфраструктуры

Для SEOWORK стабильность и скорость — не просто технические метрики, а основа бизнес-модели. Отзывчивость платформы напрямую влияет на удовлетворенность клиентов. Компания должна выдерживать заявленный уровень обслуживания (SLA) в 99,8% не только по доступности, но и по скорости поступления и отображения данных. Любые сбои, вроде падения пропускной способности сети, ставят под угрозу выполнение этих обязательств.

Инфраструктура прежнего провайдера не справлялась с неравномерными, «взрывными» нагрузками, которые в отдельные дни могли увеличиваться до пяти раз. Также наблюдалась неустранимая просадка скорости обмена данными, она могла внезапно деградировать из‑за отсутствия внутренней выделенной сети — весь трафик между сервисами SEOWORK шел через внешние коннекторы.

Помогли мигрировать на выделенные серверы

Поэтапный переезд позволил SEOWORK не просто сменить провайдера, а решить фундаментальные проблемы, которые ограничивали рост и угрожали бизнес-модели компании.

Обеспечили отказоустойчивость 99,982% благодаря тому, что все дата-центры Selectel спроектированы по стандарту Tier III. Он устанавливает именно такой уровень стабильности.

Локальная сеть со скоростью до 10 Гбит/с, полностью изолированная от интернета, теперь объединяет серверы SEOWORK. Такая архитектура обеспечивает минимальные задержки при обмене данными между компонентами сложной системы. В результате компания получила гарантированную пропускную способность для внутренних сервисов. Положительно сказалась и географическая близость дата‑центров Selectel как к источникам, так и потребителям данных. Все просадки скорости ушли, улучшилось время отклика для конечных пользователей.

Обеспечить безотказную работу с большими данными

Эффективная работа с большими данными — одна из ключевых ценностей платформы SEOWORK. Вся платформа построена на анализе «горячей» информации в реальном времени (OLAP). Ежедневная обработка более 600 ГБ данных — не вспомогательная, а основная функция. Data Lake — «сердце» и центр всей аналитики. Если «сердце» работает плохо из-за неподходящего «железа», вся система перестает выполнять свое предназначение. 

Компания использует кастомизированные версии аналитической СУБД ClickHouse, которая требует правильно подобранного производительного оборудования. Неправильный выбор технологического решения мог сделать бизнес-модель нерентабельной.

Подобрали производительное оборудование

Selectel предоставил сбалансированные конфигурации серверов, где каждый компонент нацелен на недопущение узких мест в работе ClickHouse.

Процессоры AMD EPYC™ 7452 (32 ядра) — именно на них ClickHouse достигает максимальной производительности за счет векторизованной обработки запросов, распараллеливая вычисления на все доступные ядра. Процессоры AMD EPYC™, согласно официальным бенчмаркам ClickHouse, а также независимым тестам, демонстрируют превосходную производительность в многопоточных сценариях. Для SEOWORK это означает ускорение выполнения сложных аналитических запросов с большим количеством группировок (GROUP BY), что является ядром их продукта.

Оперативная память 512 ГБ на сервер позволяет решить ключевую задачу при обработке «горячих» данных объемом в сотни гигабайт и выполнении агрегаций — избежать сброса временных данных на диск. Большой размер RAM позволяет ClickHouse удерживать для агрегаций хеш-таблицы целиком в оперативной памяти. Избежать обращений к диску критически важно для производительности, так как доступ к RAM на порядки быстрее, чем к SSD. В результате SEOWORK добилась минимального времени отклика при построении сложных дашбордов для клиентов, даже при запросах к данным за длительный период.

Быстрые SSD-диски корпоративного класса в RAID объемом до 20 ТБ обеспечивают требуемую скорость чтения и записи дисковой подсистемы — это залог быстрой загрузки данных (ingestion) и оперативного доступа к ним. Enterprise NVMe SSD, объединенные в RAID-массивы, показывают высокий IOPS (Input-Output Per Second, количество операций ввода-вывода в секунду) и низкую задержку (latency). Высокопроизводительные накопители напрямую влияют на скорость слияния партов данных в ClickHouse и сокращают время «поднятия» информации с диска в память для обработки запросов.

Получить возможность гибкого масштабирования

С учетом постоянного роста объема данных и неравномерных нагрузок, компании требовалась архитектура, позволяющая быстро и безболезненно расширять хранилище, не прибегая к сложным и дорогим кластерным конфигурациям СУБД.

Объем данных у SEOWORK не только постоянно увеличивается, но и сам рост крайне неравномерен — иногда в 4−5 раз выше обычного. Без возможности быстрого масштабирования компания была бы вынуждена либо постоянно содержать избыточную и дорогую инфраструктуру «про запас», либо рисковать сбоями в пиковые моменты.

Оперативно предоставляем требуемые конфигурации

Команда SEOWORK разработала собственную архитектуру с шардированием на уровне приложения. Вместо того чтобы использовать встроенный кластер ClickHouse, команда вынесла логику распределения данных в свой софт. Такой подход позволяет гибко масштабироваться горизонтально.

Возможность быстро получать необходимые физические серверы — основа для горизонтального расширения озера данных. Системные администраторы SEOWORK в любой момент могут добавить новый выделенный сервер в свой Data Lake и начать его использовать в этот же день. Такая возможность напрямую зависит от того, насколько быстро и предсказуемо провайдер может предоставить требуемое «железо».

Широкая вариативность конфигураций стала одним из ключевых факторов выбора провайдера. У SEOWORK специфические требования к оборудованию — процессорам, оперативной памяти, дискам. Selectel — компания, которая смогла предложить нужные конфигурации. Более того, даже когда возникали ситуации с нехваткой конкретной модели, Selectel предлагала альтернативные варианты, что позволяло клиенту не останавливать процесс роста. Большой комплекс готового оборудования давал уверенность, что необходимая инфраструктура будет получена вовремя, без критичных задержек.

Обеспечить высокий уровень безопасности

SEOWORK работает с крупнейшими e-commerce и медиа компаниями российского рынка. Утечка или потеря данных таких клиентов нанесла бы непоправимый урон репутации. Кроме того, SEOWORK — резидент «Сколково» и участник государственных программ. Ее продукт включен в реестр российского ПО. Возникает обязанность соответствовать строгим нормативным актам, в том числе в области IT-инфраструктуры.

Предоставили защищенную инфраструктуру

Безопасная инфраструктура Selectel — основа. Все продукты соответствуют требованиям 152-ФЗ «О персональных данных», а также международным стандартам управления безопасностью ISO. Кроме того, вся инфраструктура Selectel по умолчанию защищена от DDoS-атак на сетевом и транспортном уровнях (L3-L4).

Независимый пентест выстроенной системы подтвердил ее защищенность. Компания SEOWORK инициировала трехмесячное тестирование на проникновение. Наняли «белых хакеров» с задачей взломать инфраструктуру и зашифровать основное хранилище данных, за что обещали приз в 1 000 000 рублей. Разрешались любые способы. Несмотря на все усилия, атакующие не смогли преодолеть многоуровневую защиту и добраться до критически важных данных. Этот результат стал самым убедительным подтверждением надежности и неуязвимости инфраструктуры Selectel.

Результаты

  • 99,8%

    уровень доступности платформы SEOWORK.

  • 100%

    защищенность инфраструктуры подтверждена независимыми тестами на проникновение.

  • на 600 ГБ

    ежедневно пополняется озеро данных.

  • превышение средней нагрузки не вызывает никаких сбоев.

«Переезд для нас оказался не просто сменой площадки — это было стратегическое решение. Для нашего продукта, работающего с большими данными в реальном времени, стабильность инфраструктуры — основа всего. Предыдущий опыт показал, что экономия на «железе» в итоге обходится дороже из-за постоянной борьбы со сбоями. Нужен был не просто поставщик серверов, а надежный технологический партнер.

Мы присматривались к разным провайдерам IT-инфраструктуры. Смотрели на отзывы коллег, изучали качество поддержки. Определяющим критерием стала репутация на рынке. Сервисы Selectel нельзя назвать самыми дешевыми. Однако доверие к бренду и уверенность в том, что получим стабильную и предсказуемо работающую платформу, стали решающими факторами. Мы инвестировали в скорость и надежность. Наша ставка полностью себя оправдала».

Марат Фаткуллин директор по информационным технологиям SEOWORK