Как снизить стоимость инфраструктуры компании на 30%

Как снизить стоимость инфраструктуры компании на 30%

Как компания РЕХАУ делегировала администрирование инфраструктуры провайдеру, чтобы сконцентрироваться на задачах бизнеса и сэкономить на инфраструктуре.

Изображение записи

Кейс будет полезен для компаний в следующих сферах:

  • Е-commerce

Задачи:

  • Делегировать задачи по развитию инфраструктуры сервиса.
  • Установить мониторинг безопасности и работы приложений.
  • Оптимизировать затраты на инфраструктуру.

О компании

РЕХАУ — компания, которая разрабатывает инновации для строительства промышленных зданий и обустройства жилых домов. В ее продуктовом портфеле есть как специфические решения для строительства — монтажные инструменты, ПО для расчета систем отопления и системы автоматического регулирования — так и более бытовые вещи. Например, окна РЕХАУ, ставшие визитной карточкой компании, мебель и системы водоснабжения для сохранения качества питьевой воды.

В фокусе РЕХАУ — качество продукции, проверенное годами успешной работы на российском рынке. Команда опирается на международные стандарты и нормы, производит продукты как в России, так и за рубежом.

РЕХАУ — компания, развивающаяся в Е-commerce. Разработка сервисов и администрирование инфраструктуры — не профильные для нее направления, поэтому специалистов в этих сферах РЕХАУ находит на аутсорсе.

В качестве инфраструктурного партнера компания выбрала Selectel. В основу сервиса РЕХАУ легли Облако на базе VMware, облачные серверы, Managed Kubernetes и объектное хранилище. Здесь же, в Selectel, компания нашла опытных DevOps-инженеров, которые стали помогать с развитием сервиса с точки зрения инфраструктуры, добавлять новые функции, поддерживать безотказную работу сайта, выстраивать CI/CD и закрывать другие важные для РЕХАУ задачи.

Вызовы и решения

  • Развивать новые проекты и поддерживать старые.
    Команда администрирования взяла на себя добавление новых функций, поддержку приложений и работу с инцидентами.
  • Следить за безопасностью приложений.
    Администраторы сканируют кодовую базу на баги и уязвимости, проверяют актуальность используемых образов.
  • Оптимизировать работу приложений.
    DevOps-инженеры помогли с разделением приложения на микросервисы и готовятся задеплоить переписанный код.

Результаты

  • 70%

    примерно столько задач по администрированию инфраструктуры РЕХАУ. закрывает Selectel

  • 30%

    на столько уменьшилась стоимость инфраструктуры компании после аудита Selectel.

На старте компания РЕХАУ сотрудничала с Selectel по пяти проектам. Сейчас их число увеличилось до 12. Еще два-три новых проекта находятся в разработке.

В команде инфраструктурной поддержки РЕХАУ со стороны Selectel пять специалистов: три DevOps-инженера и двое сотрудников из команды интеграции. Задача команды интеграции — взять код, описывающий определенную функциональность, разместить его на инфраструктуре Selectel, организовать отказоустойчивость, совместно с разработчиками приложений внедрить CI/CD, добавить мониторинг. Число активно вовлеченных сотрудников варьируется в зависимости от задач, которые находятся в фокусе клиента. В пике число людей, которые занимались проектами РЕХАУ, достигало девяти человек.

Под проектами подразумеваются задачи компании, у которых нет быстрого решения. Их можно поделить на несколько категорий:  

  • Добавление новых функций в сервис, поддержка штатной работы приложений.
  • Рефакторинг старых проектов, оптимизация работы приложений.
  • Работа с инцидентами.

Добавление новых фичей, поддержка работы инфраструктуры

Консалтинг по развитию инфраструктуры

Команда администрирования сервисов оценила задачу клиента и подсказала оптимальное решение по оптимизации потребления ресурсов.

Внедрение сервисов для импортозамещения

Год назад РЕХАУ понадобилась помощь с заменой зарубежных сервисов — в частности, таск-менеджера EvaTeam. В рамках одного проекта команда администрирования сервисов Selectel организовала инфраструктуру для BPMN-системы на базе Camunda — open source-платформы для автоматизации бизнес-процессов. Другое решение, которое компания РЕХАУ интегрировала в сервис, — ELMA365, платформа для бизнес-процессов компании. Задача DevOps-специалистов Selectel состояла в том, чтобы предложить наиболее эффективный и оптимальный вариант размещения сервисов. На одном сервере или на нескольких? Использовать ли Kubernetes? С этими вопросами команда администрирования помогает на старте большинства новых проектов РЕХАУ.

Работа команды администрирования сервисов и РЕХАУ — это не одностороннее взаимодействие в формате «заказчик — исполнитель». Нередко специалисты Selectel приходят с встречными предложениями по улучшению инфраструктуры и работы сервиса. 

Мониторинг безопасности

Обеспечение информационной безопасности сервисов клиента — базовая задача для команды администрирования сервисов Selectel. Специалисты РЕХАУ обратились с просьбой проверить приложения компании на уязвимости. Администраторы подключили open source-платформу SonarQube и просканировали всю кодовую базу на наличие багов и уязвимостей, проверили актуальность используемых образов. Информацию о найденных проблемах передали заказчику.  

При обнаружении новых уязвимостей специалисты Selectel проактивно анализируют сервисы РЕХАУ. Так было, например, с Log4Shell в инструменте для ведения логов log4j. Чтобы исключить эксплуатацию уязвимости, команда Selectel проверила все приложения клиента.

Рефакторинг старых проектов, оптимизация работы

Рефакторинг сайта и распил монолита

РЕХАУ понадобилось сменить англоязычное название на кириллицу — изменение должно было коснуться всех ресурсов компании (от доменных имен до ссылок, картинок на сайтах и т.д.). Работа осложнялась тем, что часть приложений собраны недавно с учетом лучших практик, а часть представляли собой легаси, в котором было немало подводных камней. Задача под звездочкой — поменять названия с минимальным даунтаймом. Проект завершился успешно с управляемым даунтаймом примерно в полчаса.

Сейчас компания почти завершила разделение на микросервисы. Задача DevOps-инженеров Selectel — задеплоить переписанный код сервиса, незаметно для пользователей заменить старый компонент на новый, встроить его в CI/CD.

Миграция из старого кластера и обновление Kubernetes

Один из последних масштабных проектов РЕХАУ и команды администрирования — миграция приложения из старого кластера Kubernetes в облаке на базе VMware в новый. В первую очередь переезд связан с необходимостью использовать современную версию k8s (старый кластер сейчас в версии 1.18). Учитывая сильное отставание от актуальной версии 1.27, обновлять Kubernetes на старом «железе» было опасно — слишком много всего поменялось. Поэтому DevOps-специалисты Selectel поэтапно переносят приложения клиента в кластер с новой архитектурой. 

Миграция также позволит решить проблему утилизации мощностей. Много приложений РЕХАУ написаны на Java. Особенность этого языка в том, что при запуске приложения на Java потребляют много ресурсов, а, запустившись, потребляют мало. Из-за этого ресурсов нужно брать с запасом — иногда в 2-5 раз больше, чем нужно для работы приложения. 

Чтобы оптимизировать потребление, архитектор Selectel внедрил функционал, который автоматически добавляет новые ноды при росте нагрузки и исключает лишние мощности за ненадобностью. Автоскейлинг для РЕХАУ организован в облаке на базе VMware. При этом  DevOps-компетенций Selectel хватит, чтобы организовать скейлинг нод Kubernetes на выделенных серверах — в облако. 

Оптимизация стоимости инфраструктуры

По запросу РЕХАУ специалисты Selectel провели «инвентаризацию» серверов, которыми пользовалась компания. Выявили неудачные технические решения, которые могли «есть» бюджет проекта без практической пользы для компании. Приоритизировали задачи по администрированию сервисов — определили ключевые, исключили побочные и необязательные. В итоге система переоценки помогла снизить стоимость инфраструктуры компании на 30%.

Работа с инцидентами и задачами компании

Инцидент-менеджмент

Обеспечивая техническую надежность сайта (SRE), команда администрирования сервисов ориентируется на лучшие мировые практики — в частности, опыт компании Google.  Каждый день за статусом работы сервисов РЕХАУ следит дежурный, который доступен 24/7. Время реакции на инциденты не превышает 15 минут (по соглашению с компанией) — в реальности оно в разы быстрее. После разрешения инцидента дежурный всегда собирает небольшое ретро. Команда фиксирует:

  • что случилось и в чем основная причина инцидента,
  • кто участвовал в решении проблемы,
  • что отработало, как нужно, а какие процессы нужно доработать,
  • остались ли «костыли» после экстренного решения проблемы, которые нужно будет в дальнейшем устранить,
  • каков таймлайн инцидента — время начала и конца.

В итоге получается postmortem по инциденту. Он хранится в базе знаний команды и доступен клиенту по требованию.

Благодаря работе команды администрации сервисов процент инцидентов по проектам, которые она поддерживает, очень мал. На 100 проектов в среднем выпадает один-два инцидента с даунтаймом. В июле 2023 года даунтайм длился 20 минут.

Организация коммуникации по проектам

РЕХАУ и команда администрирования сервисов проводят еженедельные созвоны для синхронизации. На них представители компании могут получить статус по проектам, обсудить новую задачу, получить консультацию по развитию инфраструктуры сервиса. Также при необходимости к встрече подключается менеджер по оплате — команда проделала большую работу, чтобы оплата услуг администрирования была максимально прозрачной для клиента. 

Под каждый проект с РЕХАУ специалисты Selectel создали отдельный чат в Telegram. В чаты — сейчас их 20 — входят команда проекта, ответственные специалисты со стороны клиента и разработчики приложений. Telegram-чаты позволяют быстро реагировать на вопросы клиента и обсуждать мелкие вопросы по задачам, не дожидаясь еженедельной координационной встречи.