Что такое Service Level Agreement
Что такое «Соглашение об уровне обслуживания», известное как SLA, какие метрики чаще всего содержит и почему будет полезно как компании-провайдеру услуг, так и организации-пользователю. Как расшифровывается SLA SLA (Service Level Agreement) дословно переводится как «Соглашение об уровне обслуживания (оказания услуги)», то есть это договор об уровне предоставляемого сервиса между компанией-провайдером и организацией-клиентом. Основное отличие SLA […]
Что такое «Соглашение об уровне обслуживания», известное как SLA, какие метрики чаще всего содержит и почему будет полезно как компании-провайдеру услуг, так и организации-пользователю.
Как расшифровывается SLA
SLA (Service Level Agreement) дословно переводится как «Соглашение об уровне обслуживания (оказания услуги)», то есть это договор об уровне предоставляемого сервиса между компанией-провайдером и организацией-клиентом. Основное отличие SLA от обычного договора состоит в подробно прописанном уровне доступности сервиса и времени реакции на инциденты и раскрывает следующее:
- прозрачность – снижается количество размытых формулировок, которые можно было бы двояко истолковывать, что способствует тому, что пользователи услуги и компания-провайдер говорят на одном языке и оперируют одними и теми же терминами;
- четкое определение обязанностей для всех сторон, как использующих услугу, так и предоставляющих сервис;
- управление ожиданиями, например, отсутствие недовольства за отказ работать ночью в выходные или отсутствие завышенных требований к качеству предоставления сервиса.
В соглашении SLA в обязательном порядке должны быть указаны сроки для решения инцидентов и определяются штрафы, которые обязуется выплатить компания-провайдер в том случае, если значения метрик, определяющих качество услуги, окажутся ниже заявленного уровня. Все это поможет организации-заказчику минимизировать убытки в случае незапланированного простоя.
Важно помнить, что использование SLA выгодно обеим сторонам:
- компания-провайдер будет ограждена от внезапно возникающих новых требований к качеству предоставляемого сервиса;
- у организации-клиента будет уверенность, что инциденты будут устранены в указанный срок, что позволит лучше планировать собственную деятельность.
Происхождение термина SLA
Термин SLA появился из методологии ITIL (англ. IT Infrastructure Library – библиотека инфраструктуры информационных технологий), которая помогает IT-компаниям упорядочивать свои бизнес-процессы.
SLA подробнее всего описывается в стандартах ITIL и COBIT (от англ. Control Objectives for Information and Related Technologies – «Задачи управления для информационных и смежных технологий»), используя которые компании-провайдеры регламентируют большинство своих процессов и выстраивают процедуры дальнейшего контроля выполнением этих процессов и взаимодействием с клиентами.
Для чего нужно SLA
Соглашение об уровне обслуживания в числе первых помогает потребителям сервисов однозначно понимать, на каком уровне предоставляется услуга и оперировать теми же терминами, что и компания-провайдер. Например, IT-компания может составить SLA, в котором будут указаны:
- инциденты, которые компания-провайдер не должна допускать или своевременно устранять;
- скорость решения инцидентов, в том числе и в разбивке по категориям срочности – от незначительных до аварийных;
- заданное время реакции на инцидент;
- примерные сроки решения инцидентов в зависимости от их категории.
Организация-заказчик в свою очередь сможет контролировать качество предоставления услуги и в случае инцидента не понесет убытки, более того его запрос будет решен точно в заданные сроки.
Что включает в себя типовой SLA
SLA также может быть как частью основного пользовательского соглашения, так и самостоятельным документом.
Чаще всего соглашение SLA включает в себя следующие пункты, каждый из которых рекомендуется прописывать как можно подробнее и однозначнее во избежание двоякого толкования:
- процесс использования услуги/сервиса;
- зоны ответственности каждой из сторон, как и кем будет контролироваться исполнение SLA;
- шаги по восстановлению работоспособности в случае возникновения инцидента, а также то, что рекомендуется указать в заявке об инциденте для скорейшего его решения;
- срок действия соглашения SLA при необходимости;
- процесс решения технических инцидентов и/или действия при возникновении новых требований к функциональности услуги.
При описании уровня качества сервиса, важно указать в SLA такие параметры, как:
- доступность самого сервиса;
- время реакции на инцидент;
- время решения инцидента.
Если речь идет об оплате сервиса, то указывается следующее:
- по какой модели идет списание денег за пользование сервисом: фиксированная абонентская плата или оплата только за потребленные ресурсы;
- штрафы, связанные с невыполнением компанией-провайдером заявленных обязательств.
Все пункты, описанные в SLA, должны быть иметь цифровые параметры, например, время простоя в минутах, необходимое для проведения плановых работ или перезагрузки сервиса.
Параметры, от которых зависит SLA
Параметры, из которых состоит SLA – это измеримые метрики, отвечающие за уровень качества предоставления услуги. Условно эти метрики можно называть «KPI» для SLA.
Такие метрики позволяют пользователям сервиса понимать, что именно и в каком объеме будет предоставляться. Главное условие соблюдения SLA — значения метрик должны быть известны всем заинтересованным сторонам, то есть находиться в открытом доступе, а описания метрик должны трактоваться однозначно.
В метриках могут указываться, например, время реакции на заявку от организации-заказчика, время решения инцидента и штрафы за явные нарушение соглашения компанией-провайдером.
В случае, когда одна и та же услуга предоставляется с разным уровнем качества (используются тарифные планы разной стоимости), в договоре SLA должны обязательно явно выделяться параметры для разных категорий пользователей.
Рекомендуется заранее определять критически важные сервисы, управление качеством которых будет осуществляться без каких-либо задержек, например:
- для интернет-магазинов — непрерывное подключение к CRM-системе;
- для хостинг-провайдера — средняя доступность виртуального сервера;
- для интернет-провайдера — средняя пропускная способность соединения;
- для дата-центра — постоянный доступ в интернет и отсутствие перебоев с электричеством.
Доступность услуги
Минимальное время, в течение которого услуга точно будет доступна, является метрикой доступности услуги. Доступность услуги обычно измеряется в абсолютных величинах (часах, минутах, секундах), например, за заданный промежуток времени (месяц, год) услуга будет точно доступна N часов, а время простоя составит X часов за тот же период. Доступность сервиса также может быть измерена в процентах и напрямую влияет на итоговую стоимость сервиса.
В качестве примера доступности услуги рассмотрим уровень надежности дата-центров Tier. Для каждого из четырех уровней дата-центров задана конкретная доступность в процентном эквиваленте.
Доступность сервиса невозможна на 100%. Значение доступности в процентах стремиться к 100% и выражается в виде количества «девяток» процента доступности. Например, доступность 99% и 99,999% может быть обозначена как «2 девятки» и «5 девяток», а доступность в 99,95% — может обозначаться как «три с половиной девятки».Уровень надежности дата-центра | Уровень доступности (%) | Время простоя (часов в год) |
---|---|---|
Tier I | 99,671% | 28,8 |
Tier II | 99,749% | 22,0 |
Tier III | 99,982% | 1,6 |
Tier IV | 99,995% | 0,4 (24 минуты) |
Кстати, на примере доступности дата-центров учитывается только время простоя, в то время как значения остальных основных параметров заданы по умолчанию. При размещении сервера в Selectel, в стоимость входят:
- мощность 300 Вт;
- выделенный IP-адрес;
- ширина интернет-канала 1 Гбит/с.
Время простоя для оборудования, размещенного в дата-центре обычно включает в себя время проведения плановых и ремонтных работ, то есть чтобы снизить длительность простоя компания-провайдер должна закладывать время на подготовку плановых работам. Финальное значение метрики Доступность сервиса показывает не только надежность конкретно используемого оборудования, но и его качество обслуживания.
Время реакции на инциденты
Измеренное время, прошедшее с момента поступления и/или регистрации заявки на обслуживание до момента выполнения самой заявки — это числовая метрика Время реакции на инциденты.
Важный момент, время реакции на инцидент в работе используемого сервиса — не равно времени простоя. Время реакции — одна из составляющих длительности простоя, в качестве другой составляющей может быть, например, время решения проблемы. А объединение совокупности времени всех составляющих является временем жизни инцидента, например, в простейшем случае это может выглядеть как:
Время реакции на инцидент + Время решения проблемы = Время жизни инцидента
В SLA рекомендуется прописывать неустойки за неисполнение указанных метрик, например, если было превышено время реакции на инцидент.
Оценка результата
Оценка результата управления инцидентами обычно определяется следующими метриками:
- количество инцидентов, решенных вовремя;
- среднее время, за которое получилось решить инцидент.
Время реакции на инциденты для оценки результата рекомендуется разделять на категории в зависимости от важности для работы всего сервиса в целом, например:
- низкий — проблемы в функционировании одного из модулей сервиса;
- средний — проблемы в работе и взаимодействии нескольких модулей сервиса;
- высокий — неработоспособность большей части сервиса.
Чаще всего время реакции на инцидент в среднем составляет от 10 минут до 1 часа. Если при этом заранее были определены критически важные сервисы, то именно на сбои в их работе должна быть самая быстрая реакция.
SLI и SLO
SLI (Service Level Indicator) – это количественная оценка работы сервиса, которая является корреляцией между ожиданиями пользователей и действительной производительностью сервиса за указанный период времени (месяц, квартал, год).
SLI можно рассматривать в качестве индикатора пользовательского опыта, измеряя его в процентном эквиваленте, где:
- 100 % — отличный пользовательский опыт;
- 0% — ужасный пользовательский опыт.
Причем стоит помнить, что абсолютные минимум и максимум достижимы только в идеальных условиях, точно также, как и прописанные в SLA 100% доступности сервиса. При постановке целей рекомендуется реалистично смотреть на свой продукт и находить золотую середину.
Иногда измерять уровень обслуживания SLI, представляющий интерес, напрямую не получается и нужно измерять связанную метрику. Например, хотелось бы замерить задержки на клиентской стороне, но можно измерить только задержки на сервере.
SLO (Service Level Objectives) – это значение SLI, которого компания-провайдер хотела бы достичь. При установке SLO рекомендуется указывать реально достижимое значение для каждого конкретного SLI. SLO показывает, с каким качеством фактически работает сервис и/или приложение, в отличие от SLA, который используется для того, чтобы задать тот уровня доступности сервиса, на который смогут ориентироваться все пользователи.
Если у компании-провайдера имеется публично-доступный SLA, то обычно при подготовке SLO рассчитываются прописанные показатели SLA. Достижение показателей SLO напрямую зависит от достижения метрик, указанных в SLA. Если показатели SLO не будут достигаться, то становиться более вероятным и нарушение договорных обязательств, прописанных в SLA.
Плюсы использования SLA для заказчиков и исполнителей
Организация-заказчик:
- получает услугу на необходимом и достаточном уровне и знает, за какой именно уровень качества платит;
- может контролировать сроки выполнения заявок;
- видит ответственность компании-провайдера за несоблюдение заявленных параметров (вплоть до штрафов), поддержка же параметров услуги на заранее заявленном уровне повышает доверие к провайдеру услуг;
- не несет финансовые потери при инцидентах в зоне ответственности компании-провайдера.
Компания-провайдер:
- при подготовке SLA уточняет детали предоставления услуги, учитывая в том числе возможные плановые работы и рассчитывая базовое время реакции на инциденты;
- четко обозначает за поддержку каких параметров и на каком уровне несет ответственность;
- может решать инциденты в пределах заявленных параметров без согласования с организацией-заказчиком;
- может вводить несколько уровней предоставления услуги, например, классифицируя поступающие задачи по срочности и приобретенному тарифу.
Вместо заключения
SLA на сегодняшний день — один из основополагающих документов, влияющих на выбор большинства IT-услуг, так как отражает их качество предоставления и напрямую влияет на их стоимость.
В SLA указываются метрики предоставляемой услуги/сервиса, допускаемые колебания которых и есть уровень SLA. Например, в соглашении об уровне оказания услуг можно указать, что в случае возникновения инцидента заявка будет принята в течение одного часа в любой день недели или только по будним дням с 10 до 19, в зависимости от оплаченного уровня поддержки сервиса. Сами же метрики рекомендуется указывать близкими к реально достижимым, а не желаемым и рекламно-привлекательным, не забывая о необходимости проведения плановых работ.