SLA (Service Level Agreement) — что это и как работает

23 марта 2021

Рассказываем, что такое SLA, какие метрики чаще всего содержит и почему будет полезно как компании-провайдеру услуг, так и организации-пользователю.

Что такое SLA

SLA (Service Level Agreement) дословно переводится как «Соглашение об уровне обслуживания (оказания услуги)». Это договор об уровне предоставляемого сервиса между компанией-провайдером и организацией-клиентом. Основное отличие SLA от обычного договора состоит в подробно прописанном уровне доступности сервиса и времени реакции на инциденты.

Чек-лист: что должен включать SLA

SLA подразумевает:

прозрачность — снижается количество размытых формулировок, которые можно было бы двояко истолковать. В результате пользователи услуги и компания-провайдер говорят на одном языке и используют одни и те же термины;
четкое определение обязанностей для всех сторон, как использующих услугу, так и предоставляющих сервис;
управление ожиданиями, например, отсутствие недовольства за отказ работать ночью в выходные или отсутствие завышенных требований к качеству сервиса.

В соглашении SLA обязательно указываются сроки решения инцидентов и штрафы, которые компания-провайдер обязуется выплатить, если значения метрик, определяющих качество услуги, окажутся ниже заявленного уровня. Все это поможет организации-заказчику минимизировать убытки в случае незапланированного простоя.

Важно помнить, что использование SLA выгодно обеим сторонам:

компания-провайдер ограждена от внезапно появившихся новых требований к качеству сервиса;
организация-клиент уверена, что инциденты будут устранены в указанный срок, и сможет лучше планировать деятельность.

Происхождение термина SLA

Термин SLA появился из методологии ITIL, которая помогает IT-компаниям упорядочивать свои бизнес-процессы

ITIL, или IT Infrastructure Library, — библиотека инфраструктуры информационных технологий.

SLA подробно описывается в стандартах ITIL и COBIT, используя которые компании-провайдеры регламентируют процессы внутри и стандартизируют оказание услуг. Подробнее эти регламенты мы рассмотрим ниже.

Типы соглашений об уровне обслуживания

Соглашение об уровне обслуживания может быть разного типа. В основном выделяют зависимость от сторон, между которыми оно заключается. Чаще всего вы можете встретить следующие договоры.

SLA между компанией и клиентом. Обычно формируется бизнесом для клиентов. Это договор, в котором подробно описывается предоставляемая услуга, предлагаемая клиенту. SLA определяет уровень, качество и доступность услуг, который компания обязуется предоставлять своим клиентам. Например, облачный провайдер гарантирует полноценную работу услуги в течение 99.9% времени.

С каким айтишником из кино у вас много общего? Пройдите тест и узнаете

Помимо базового типа соглашений об уровне обслуживания, существуют дополнительные виды SLA, которые могут быть адаптированы под конкретные бизнес-процессы и модели взаимодействия.

SLA, ориентированные на сервис. Определяют уровень обслуживания для конкретного сервиса, который предоставляется всем клиентам на одинаковых условиях. Например, облачный провайдер может гарантировать 99.9% доступности для всех пользователей виртуальных машин.

SLA, ориентированные на клиента. Договор заключается между компанией и конкретным клиентом, с учетом его индивидуальных требований. Например, клиент может за дополнительную плату запросить 99.99% доступности вместо стандартных 99.9%.

Динамическое SLA. Позволяет изменять параметры SLA в зависимости от нагрузки, требований клиента или условий работы. Например, в период высокой нагрузки сервис может гарантировать более высокий уровень отдачи.

Операционное SLA. Договор заключается между внутренними подразделениями компании, обеспечивающими выполнение SLA перед клиентами. Например, в IT-службе могут быть зафиксированы показатели качества между отделом поддержки и DevOps-командой для обработки инцидентов.

Для чего нужно SLA

Соглашение об уровне обслуживания (SLA) необходимо бизнесу: оно формализует ожидания и обязательства сторон, снижает риски и способствует повышению качества услуг.

Польза для компании

Для компании-поставщика SLA позволяет:

структурировать процессы — четко определить зоны ответственности, регламентировать обработку инцидентов и повысить эффективность работы службы поддержки;
повысить доверие клиентов — прозрачные условия обслуживания укрепляют лояльность заказчиков и помогают избежать конфликтных ситуаций;
оптимизировать ресурсы — благодаря SLA компания может лучше прогнозировать нагрузку на команды технической поддержки и распределять ресурсы;
снизить финансовые риски — заранее оговоренные санкции за нарушение SLA позволяют избежать неожиданных убытков и юридических споров.

Польза для клиента

Для заказчика SLA — это гарантия надежности сервиса:

контроль качества услуг — клиент получает четкие метрики, по которым можно оценить выполнение обязательств;
прозрачность взаимодействия — SLA позволяет избежать разночтений в условиях предоставления сервиса;
защита от убытков — если провайдер не выполняет условия SLA, клиент может получить компенсацию или скидку.

Таким образом, SLA становится важным инструментом не только для операционной эффективности, но и для стратегического управления качеством сервиса.

В чем разница между SLA и OLA

Как мы уже говорили, SLA — это внешнее соглашение между поставщиком услуг и клиентом. Оно фиксирует условия предоставления сервиса, ключевые показатели качества и возможные штрафные санкции за невыполнение обязательств.

Для исполнения SLA с внешним клиентом компания должна выработать процессы оказания услуги внутри. Для этого формируется OLA — Operational Level Agreement — операционное соглашение об уровне обслуживания.

OLA — это внутренний документ, который регулирует взаимодействие между подразделениями одной компании.

Основные характеристики OLA:

определяет внутренние процессы, необходимые для выполнения SLA,
может включать метрики разных подразделений,
фокусируется на координации работы внутри компании.

Рассмотрим пример. Допустим, клиент заключает SLA с облачным провайдером, и этот документ гарантирует время реакции на инциденты не более 30 минут. Чтобы компания могла выполнить обязательство, между отделом поддержки и DevOps-командой составляется OLA, по которому инциденты критической важности должны передаваться разработчикам в течение 10 минут.

В чем разница между SLA и KPI

KPI — это метрика, внутренний инструмент для мониторинга производительности. Он измеряет эффективность работы сотрудников, команды или компании в целом и не , но накладывает юридических обязательств. В отличие от SLA, KPI является скорее инструментом внутреннего контроля и оптимизации.

Рассмотрим пример. Допустим, в SLA прописано, что компания должна отвечать на клиентские запросы в течение 30 минут. Если компания нарушает этот срок, клиент может потребовать компенсацию за нарушение SLA.

Внутри компании KPI для службы поддержки может быть установлен на уровне 90% запросов, обработанных в течение 20 минут. Если KPI не выполняется, это не ведет к штрафам, но может сигнализировать о необходимости оптимизации процессов.

Стандарты ITIL и COBIT

В управлении IT-услугами и корпоративным IT существуют различные стандарты и фреймворки, которые помогают компаниям обеспечивать надежность, безопасность и эффективность работы сервисов. Два наиболее распространенных стандарта: ITIL и COBIT. Мы уже кратко о них упомянули выше, а теперь углубимся в детали.

ITIL помогает организациям стандартизировать процессы предоставления IT-сервисов, повышая их качество и эффективность.

В чем особенность ITIL?

Ориентирован на управление IT-услугами и их соответствие бизнес-потребностям.
Включает принципы Service Lifecycle — полный жизненный цикл управления сервисами: стратегию, проектирование, переход, эксплуатацию и улучшение.
Помогает минимизировать риски и повысить удовлетворенность клиентов за счет строгого управления процессами, такими как инцидент-менеджмент, управление изменениями и проблемами.
Широко применяется в IT-службах, службах поддержки, облачных сервисах, DevOps.

COBIT (Control Objectives for Information and Related Technologies)— это фреймворк для управления IT и обеспечения соответствия корпоративным требованиям (IT Governance). Он помогает компаниям интегрировать информационные технологии в бизнес-стратегию, управлять рисками и контролировать соответствие нормативным требованиям.

В чем особенность COBIT?

Ориентирован на корпоративное IT-управление, а не только на управление сервисами.
Фокусируется на контроле IT-процессов, рисков, соответствия нормативным требованиям (ISO, GDPR, SOX).
Помогает топ-менеджменту управлять IT-инфраструктурой с точки зрения бизнеса.
Используется в крупных компаниях, финансовых учреждениях, аудитах и кибербезопасности.

Многие компании используют оба стандарта одновременно. ITIL помогает управлять IT-сервисами, фокусируясь на их качестве и бесперебойной работе. А COBIT ориентирован на контроль и соответствие IT-процессов бизнес-целям и нормативным требованиям.

Проблемы соглашений SLA

Хотя SLA помогает стандартизировать уровень обслуживания и защитить интересы обеих сторон, при его применении можно столкнуться с рядом проблем.

Нечеткость формулировок и измеримых показателей, недостаточная конкретизация метрик и параметров SLA. Например:

размытые формулировки вроде «высокий уровень доступности» вместо конкретного 99,9% uptime;
неясность в трактовке времени реакции: считается ли оно с момента поступления запроса или с момента его регистрации.

Отсутствие ответственности и санкций. Если в SLA не прописаны штрафные санкции или компенсации за невыполнение обязательств, провайдер может нарушать условия без последствий.

Неполный охват возможных инцидентов. Некоторые инциденты могут выпадать из зоны ответственности, если SLA не покрывает все возможные ситуации. Например, сервис гарантирует доступность 99,9%, но не отвечает за задержки в обработке запросов.

Сложность мониторинга и контроля выполнения SLA. Даже если SLA составлен правильно, могут возникнуть сложности с его проверкой:

нет инструментов для отслеживания метрик в реальном времени;
провайдер предоставляет только итоговые отчеты, без возможности оперативного контроля.

Несоответствие SLA бизнес-целям. Иногда SLA разрабатывается без учета реальных потребностей бизнеса. Например, доступность 99,5% может быть приемлемой для одного сервиса, но критичной для банковской системы.

Порой в документах встречаются и другие недостатки, например, игнорирование форс-мажоров и их влиянии на SLA или сложные формулировки. Избегайте лишней бюрократии, не перегружайте договор юридическими терминами — это затрудняет его понимание.

Что включает типовой SLA

SLA также может быть как частью основного пользовательского соглашения, так и самостоятельным документом.

Соглашение об уровне обслуживания (SLA) должно быть четким, понятным и охватывать все ключевые аспекты работы сервиса. Типовой SLA включает следующие элементы:

Описание услуги. В этом разделе фиксируются:

название и назначение услуг,
основные характеристики и ограничения,
доступные версии или тарифные планы.

Уровень доступности и отказоустойчивость. SLA должен четко определять, насколько надежен сервис и как часто возможны сбои:

uptime (например, 99,9% в месяц);
допустимое время простоя (например, не более 43 минут в месяц при 99,9% доступности);
виды сбоев и их допустимая частота.

Время реакции и устранения инцидентов. Фиксируются сроки обработки обращений в зависимости от критичности инцидента.

Критические (P1) — сбои, влияющие на всех пользователей. Например, время реакции — 15 минут, устранение — два часа.
Средние (P2) — частичная потеря функциональности. Реакция — час, устранение — восемь часов.
Низкие (P3) — незначительные ошибки или запросы на изменения. Реакция — четыре часа, устранение —три дня.

Обязанности сторон. Определяются роли заказчика и исполнителя, например:

Поставщик обеспечивает стабильную работу сервиса и техническую поддержку.
Клиент своевременно оплачивает услуги и соблюдает условия эксплуатации.

Метрики качества сервиса. Для объективного контроля SLA важно зафиксировать, как будет измеряться качество услуги:

время отклика (Response Time);
время устранения (Resolution Time);
среднее время восстановления после сбоя (MTTR);
доступность (Availability).

Санкции за невыполнение SLA. Если провайдер нарушает SLA, клиенту могут быть предоставлены компенсации, например, возврат части оплаты или бесплатное продление подписки.

Исключения и форс-мажор. Определяются обстоятельства, при которых SLA не применяется, например:

плановые технические работы (с уведомлением);
аварии на стороне клиента (например, сбой сети);
форс-мажор (стихийные бедствия, военные действия).

Как составить SLA

Грамотно составленный SLA помогает избежать конфликтов, повысить доверие между сторонами и обеспечить стабильную работу сервиса. Главное — четко формулировать условия, использовать измеримые метрики и предусмотреть механизмы контроля и ответственности.

1. Определите цель SLA. Прежде чем приступить к составлению документа, необходимо понять, зачем он нужен:

Какие услуги будут регулироваться?
Какие ожидания есть у заказчика?
Какие бизнес-цели должен поддерживать SLA?

2. Зафиксируйте границы ответственности. Важно четко определить, какие аспекты работы сервиса покрывает SLA, а какие — нет.

3. Опишите параметры качества услуги. Основные метрики SLA должны быть четкими и измеримыми:

uptime (доступность) — важно указать конкретный процент;
точное время реакции на запрос — например, 15 минут для критических инцидентов;
среднее время устранения проблем (MTTR);
пропускная способность.

4. Определите процесс обработки инцидентов. Важно установить, как именно провайдер будет обрабатывать запросы и решать проблемы. Что важно прописать:

классификация инцидентов по критичности;
каналы связи (email, чат, телефон);
регламент взаимодействия между заказчиком и исполнителем.

5. Закрепите штрафные санкции и компенсации. Если SLA нарушается, должны быть четкие механизмы компенсации — подробнее о них чуть ниже.

6. Пропишите исключения (форс-мажор). SLA не должен распространяться на ситуации, которые не зависят от провайдера, например:

аварии в дата-центрах партнеров;
кибератаки (DDoS, хакерские атаки);
стихийные бедствия, войны и прочие чрезвычайные обстоятельства.

7. Установите механизмы мониторинга и отчетности. Заказчик должен иметь доступ к информации о выполнении SLA. Предусмотрите:

регулярные отчеты о доступности,
дашборды с реальными показателями,
автоматизированные системы мониторинга.

Какие штрафы могут понести поставщики услуг

Соглашение об уровне обслуживания не только определяет обязательства провайдера, но и устанавливает меры ответственности за их невыполнение. Если поставщик услуг не соблюдает заявленные параметры SLA, он может понести штрафные санкции.

Финансовые компенсации — выплаты клиенту за простой сервиса или задержку в устранении инцидентов. Например, 10% от стоимости услуг за месяц.
Скидки и бесплатные услуги — снижение стоимости или продление подписки при нарушении SLA.
Разрыв контракта без штрафов — клиент может расторгнуть договор, если SLA систематически нарушается.
Репутационные обязательства — публичное раскрытие информации о сбоях и мерах их устранения.
Дополнительные улучшения — поставщик обязуется усилить мониторинг и модернизировать сервис.

Эти меры мотивируют провайдеров соблюдать SLA и гарантируют клиентам стабильное качество услуг.

Можно ли автоматизировать соблюдение SLA

Автоматизация SLA снижает вероятность сбоев, ускоряет реакцию на инциденты и упрощает контроль за исполнением договоренностей. Чтобы не отслеживать выполнение условий вручную, можно использовать разные инструменты — по отдельности или все сразу.

Мониторинг в реальном времени — инструменты Zabbix, Prometheus, New Relic и другие помогают отслеживать доступность сервиса, время отклика и производительность.

Тикет-системы — сервисы вроде Jira, ServiceNow или OTRS фиксируют инциденты, в них можно назначать ответственных и контролировать сроки решения.

Автоматизированные оповещения — можно настроить уведомления по email, Slack или Telegram при приближении критических сроков SLA.

Автоматическое масштабирование — здесь можно воспользоваться облачными решениями, такими как AWS Auto Scaling и Kubernetes. Они позволяют предотвратить падения сервисов за счет динамического распределения нагрузки.

Параметры, от которых зависит SLA

Такие параметры могут варьироваться в зависимости от типа и задач SLA. Рассмотрим основные показатели, которые охватывают соглашения об уровне обслуживания.

Время доступности —процент времени, в течение которого сервис остается доступным для пользователей.
Время реакции на инцидент — время, за которое поставщик услуг должен отреагировать на запрос или проблему клиента.
Время устранения инцидента — время, за которое должна быть устранена неисправность после ее регистрации.
Поддержка и обслуживание — доступность службы поддержки и регламентные работы: клиенты должны знать, когда могут обратиться за помощью и когда возможны плановые перерывы в работе.
Санкции за невыполнение SLA — компенсации или штрафы при несоблюдении соглашения.

Важно производить актуализацию договоров с SLA хотя бы раз в год, так как заданные значения параметров могут меняться с течением времени.

Доступность услуги

Доступность услуги — это минимальное время, в течение которого услуга точно будет доступна. Метрика обычно измеряется в абсолютных величинах: часах, минутах и секундах, но ее можно указать и в процентах. Например, в договоре может быть указано, что за заданный промежуток времени (месяц, год) услуга будет точно доступна N часов, а время простоя составит X часов за тот же период.

В качестве примера доступности услуги рассмотрим уровень надежности дата-центров Tier. Для каждого из четырех уровней дата-центров задана конкретная доступность в процентном эквиваленте.

Значение доступности в процентах стремится к 100%, но не равняется этому показателю. Оно выражается в виде количества «девяток» процента доступности. Например, доступность 99% и 99,999% может быть обозначена как «две девятки» и «пять девяток», а доступность в 99,95% — может обозначаться как «три с половиной девятки».

Уровень надежности дата-центра	Уровень доступности (%)	Время простоя (часов в год)
Tier I	99,671%	28,8
Tier II	99,749%	22,0
Tier III	99,982%	1,6
Tier IV	99,995%	0,4 (24 минуты)

Кстати, на примере доступности дата-центров учитывается только время простоя, тогда как значения остальных основных параметров заданы по умолчанию. При размещении сервера в Selectel в стоимость входят:

мощность 300 Вт,
выделенный IP-адрес,
ширина интернет-канала 1 Гбит/с.

Время простоя для оборудования, размещенного в дата-центре, обычно включает в себя время проведения плановых и ремонтных работ. То есть, чтобы снизить длительность простоя, компания-провайдер должна закладывать время на подготовку плановых работ. Финальное значение метрики показывает не только надежность конкретно используемого оборудования, но и его качество обслуживания.

Время реакции на инциденты

Время реакции на инциденты — это время, прошедшее с момента поступления или регистрации заявки на обслуживание до момента выполнения самой заявки.

Важный момент, время реакции на инцидент в работе используемого сервиса — не равно времени простоя. Этот показатель лишь одна из составляющих длительности простоя. В качестве другой может быть, например, время решения проблемы.

Совокупность всех составляющих является временем жизни инцидента, например, в простейшем случае это может выглядеть как:

Время реакции на инцидент + Время решения проблемы = Время жизни инцидента.

В SLA рекомендуется прописывать неустойки за неисполнение указанных метрик, например, если было превышено время реакции на инцидент.

Оценка результата

Оценка работы по SLA проводится регулярно, например ежемесячно. Она включает сбор данных по каждой ключевой метрике.

Во время оценки анализируются результаты текущего периода и сравниваются с предыдущими. Кроме того, обязательно учитываются отзывы клиентов.

По итогам принимаются решения: что делать дальше. Клиент и компания могут продлить контракт, скорректировать условия SLA или внедрить меры для улучшения качества услуг. Такой подход обеспечивает прозрачность выполнения обязательств и повышение уровня сервиса.

SLI и SLO

В дополнение к SLA, существуют важные понятия SLI и SLO. Они тесно связаны и играют ключевую роль в измерении и контроле качества предоставляемых услуг.

SLI (Service Level Indicator) — Показатель Уровня Обслуживания, это количественный показатель производительности.

SLO (Service Level Objective) — Цель Уровня Обслуживания. Это целевое значение или диапазон значений для SLI, которые должны быть достигнуты.

В чем разница между SLI и SLO? SLO задает желаемый уровень производительности, а SLI показывает, достигаем ли мы его.

Не отпугивает ли это клиентов

Обычно SLA не отпугивает клиентов, а наоборот, повышает их доверие. Такой документ дает четкое представление о том, чего ожидать от поставщика услуг.

Однако важно учитывать следующие моменты:

Прозрачность и ясность: соглашение должно быть написано понятным языком, без излишней технической терминологии, чтобы клиенты легко понимали условия.

Реалистичные обязательства: показатели должны быть достижимыми и соответствовать возможностям компании. Завышенные обещания могут привести к разочарованию клиентов.

Гибкость: документ должен легко адаптироваться под индивидуальные потребности клиента.

Таким образом, правильно составленный и согласованный SLA способствует укреплению отношений с клиентами и повышению их удовлетворенности услугами.

Вместо заключения

SLA — ключевой документ, определяющий качество и надежность IT-услуг. Он помогает заказчикам объективно оценивать условия сервиса, а поставщикам — четко обозначать свои обязательства.

Соглашение фиксирует метрики предоставляемых услуг, допустимые отклонения и гарантированные уровни доступности. Например, SLA может предусматривать время реакции на инцидент — в течение одного часа круглосуточно или только в рабочие дни с 10:00 до 19:00, в зависимости от выбранного тарифа.

Важно, чтобы показатели SLA были реалистичными и достижимыми, а не завышенными в маркетинговых целях. При этом стоит учитывать необходимость проведения плановых работ и возможные форс-мажоры. Продуманный SLA — это не просто формальность, а эффективный инструмент управления сервисами и выстраивания доверительных отношений между клиентами и поставщиками.

Что еще почитать?

Дата-центры

SLA (Service Level Agreement) — что это и как работает

Что такое SLA

Происхождение термина SLA

Типы соглашений об уровне обслуживания

С каким айтишником из кино у вас много общего? Пройдите тест и узнаете

Для чего нужно SLA

Польза для компании

Польза для клиента

Получите до 1 000 000 бонусов при миграции

В чем разница между SLA и OLA

В чем разница между SLA и KPI

Стандарты ITIL и COBIT

Проблемы соглашений SLA

Что включает типовой SLA

Как составить SLA

Какие штрафы могут понести поставщики услуг

Можно ли автоматизировать соблюдение SLA

Параметры, от которых зависит SLA

Доступность услуги

Серверы дешевеют у вас на глазах

Время реакции на инциденты

Оценка результата

SLI и SLO

Не отпугивает ли это клиентов

Вместо заключения

Что еще почитать?

Читайте также

Отказ от IPv4 и готовность человечества к IPv6‑инфраструктуре

История виртуализации от chroot и jails до современных гипервизоров

Джентльменский набор образов — пособие для администраторов