SLA 가용성 기준별 다운타임 정리 – 99.0%부터 99.999%까지 한눈에


📖

SLA 99.0%부터 99.999%까지 가용성 기준별 허용 다운타임을 연·월 단위로 정리했습니다. SLA 기준이 의미하는 장애 시간 계산이 궁금하다면 이 글에서 한눈에 확인해보세요.

도입

SLA 정의, 주요 구성 요소

SLA가 뭐야?

SLA는 Service Level Agreement의 약자로, 우리말로는 서비스 수준 협약이라고 해요. 이것은 서비스 제공자와 고객 간에 합의된 서비스의 품질, 가용성, 책임 등을 문서로 명시한 계약을 말합니다.

주로 아래와 같은 내용이 포함됩니다.

  1. 서비스 범위 : 어떤 서비스를 제공할지 구체적으로 명시
  2. 성능 수준 : 시스템 가용성 99.9%, 응답 시간 2초 이내 등
  3. 문제 대응 시간 : 장애 발생 시 대응/복구 시간 규정 (예: 1시간 이내 응답, 4시간 내 복구)
  4. 측정 및 보고 : SLA 준수 여부를 확인할 수 있는 지표와 보고 방식
  5. 보상 조항 : SLA를 지키지 못했을 경우의 보상 방식 (예: 요금 할인)

예시 규약을 하나 적용하면, 클라우드 서비스 업체와 고객 간 SLA 계약이 다음과 같을 수 있어요.

  • 월간 서비스 가용성 99.95% 이상 보장
  • 다운타임 발생 시 24시간 이내에 공지 및 복구
  • SLA 미준수 시 월 요금의 일부 환불

즉, SLA는 서비스의 신뢰성과 품질을 보장하기 위한 약속이라고 보면 됩니다.

전개

여기서 SLA 99.9, 99.99%와 같은 건 뭐야?

SLA에서 말하는 99.9%, 99.99%와 같은 숫자는 서비스 가용성(Availability)을 의미해요. 즉, 서비스가 정상적으로 운영되는 비율을 퍼센트로 표현한 거예요. 숫자가 높을수록 서비스가 멈추는 시간(다운타임)이 적다는 뜻이죠.

서버 장애가 발생했다고 하는 경우, 99.0% SLA 준수를 해야하는 경우 몇 분 이상 장애가 발생하면 미달하게 돼?

SLA(Service Level Agreement) 99.0%는 서비스가 1년 기준으로 얼마나 오래 정상 운영되어야 하는지를 나타냅니다. 이를 시간으로 계산해 보면 다음과 같습니다.

99.0% SLA 기준 (two nines)

  • 1년(365일) 기준:
    • 총 시간: 365일 × 24시간 × 60분 = 525,600분
    • 1.0% 다운타임 허용: 525,600 × 0.01 = 5,256분
    • => 연간 최대 5,256분 (약 3일 15시간) 까지만 장애 허용
  • 월간 기준 (30일):
    • 총 시간: 30일 × 24시간 × 60분 = 43,200분
    • 1.0% 다운타임 허용: 43,200 × 0.01 = 432분
    • => 한 달 기준 최대 약 7시간 12분까지 장애 허용

한 달 기준 약 7시간 12분 이상 장애가 발생하면 99.0% SLA를 미달하게 됩니다.

1년 기준으로는 약 3일 15시간 이상일 경우 미달입니다.

그럼 99.9% SLA 준수면 얼마나 허용돼?

99.9%(99.90%) SLA 기준 (three nines)

  • 1년(365일) 기준:
    • 총 시간: 365일 × 24시간 × 60분 = 525,600분
    • 0.10% 다운타임 허용: 525,600분 × 0.001 = 525.6분
    • => 연간 최대 525.6분 (약 8시간 45분) 까지만 장애 허용
  • 월간 기준 (30일):
    • 총 시간: 30일 × 24시간 × 60분 = 43,200분
    • 0.10% 다운타임 허용: 43,200 × 0.001 = 43.2분
    • => 한 달 기준 최대 약 43분까지 장애 허용

한 달 기준 43분 이상 장애가 발생하면 99.9% SLA를 미달하게 됩니다.

1년 기준으로는 약 8시간 46분 이상일 경우 미달입니다.

필요하면 99.95%, 99.99% 등 다른 SLA 기준도 계산해줄 수 있어요.

그럼 99.95% SLA 준수면 얼마나 허용돼?

99.95% SLA 기준

  • 1년(365일) 기준:
    • 총 시간: 365일 × 24시간 × 60분 = 525,600분
    • 0.05% 다운타임 허용: 525,600 × 0.0005 = 262.8분
    • => 연간 최대 262.8분 (약 4시간 23분) 까지만 장애 허용
  • 월간 기준 (30일):
    • 총 시간: 30일 × 24시간 × 60분 = 43,200분
    • 0.05% 다운타임 허용: 43,200 × 0.0005 = 21.6분
    • => 한 달 기준 최대 약 21분까지 장애 허용

한 달 기준 21분 이상 장애가 발생하면 99.95% SLA 미달입니다.

1년 기준 약 4시간 23분 이상 장애가 발생하면 미달입니다.

이번엔 SLA 99.99%일 경우는?

좋습니다! 이번엔 99.99% SLA 기준으로 허용 가능한 다운타임을 계산해볼게요.

99.99% SLA 기준 (four nines)

  • 1년(365일) 기준:
    • 총 시간: 525,600분
    • 0.01% 다운타임 허용: 525,600 × 0.0001 = 52.56분
    • => 연간 최대 52.56분 (약 52분 34초) 까지만 장애 허용
  • 월간 기준 (30일):
    • 총 시간: 43,200분
    • 0.01% 다운타임 허용: 43,200 × 0.0001 = 4.32분
    • => 한 달 기준 최대 약 4분 19초까지 장애 허용

한 달 기준 4분 20초 이상 장애가 발생하면 99.99% SLA 미달입니다.

1년 기준 52분 34초 이상 장애가 발생하면 미달입니다.

필요하면 SLA 99.95%, 99.999%(five nines) 등도 알려줄게요!

SLA 99.999%는?

99.999% SLA 기준 (five nines)

  • 년 기준 (365일)
    • 총 시간: 365일 × 24시간 × 60분 = 525,600분
    • 허용 다운타임: 525,600 × 0.00001 = 5.256분
    • => 연간 최대 약 5분 15초 다운타임 허용
  • 월 기준 (30일)
    • 총 시간: 30일 × 24시간 × 60분 = 43,200분
    • 허용 다운타임: 43,200 × 0.00001 = 0.432분
    • => 한 달 기준 최대 약 26초 다운타임 허용

한 달 기준 약 26초 이상 장애가 발생하면 99.999% SLA 미달입니다.

1년 기준 약 5분 15초 이상 장애가 발생하면 미달입니다.

SLA 가용성 수치별 허용 다운타임 정리

아래는 일반적으로 1년(365일) 기준으로 각 가용성 수준에 따라 서비스가 중단될 수 있는 최대 시간을 나타낸 거예요.

SLA 가용성연간 허용 다운타임월간 허용 다운타임
99.0% (“two nines”)약 3일 15시간약 7시간 12분
99.9% (“three nines”)약 8시간 46분약 43분
99.95% (“three nines five”)약 4시간 23분약 21분
99.99% (“four nines”)약 52분 34초약 4분 19초
99.999% (“five nines”)약 5분 15초약 26초

쉽게 이해하기 :

예를 들어, 어떤 클라우드 서비스가 99.9% SLA를 제공한다고 하면, 한 달에 약 43분까지는 시스템 장애가 나도 계약 위반이 아닌 거예요. 만약 이 시간을 초과하면 SLA 위반으로 간주되고, 계약서에 명시된 보상을 받을 수 있어요.

중요한 이유 :

  • 고가용성(High Availability)이 중요한 금융, 의료, 통신 서비스 등에서는 SLA가 99.99% 이상이 요구돼요.
  • 가용성 수치가 높을수록 서비스 안정성, 고객 신뢰, 비용 부담도 함께 커지기 때문에 서비스 업체는 SLA 수치를 신중하게 설정하죠.

추가 정보

주요 클라우드 서비스의 SLA 규약

AWS, Azure, Naver Cloud Platform, GCP 는 각각 일반적인 SLA 보장 퍼센트가 몇으로 규정되어 있어?

각 클라우드 서비스 제공업체의 일반적인 서비스 수준 계약(SLA) 가용률은 다음과 같습니다:

Amazon Web Services (AWS):

  • AWS는 서비스별로 SLA를 정의하며, 예를 들어 Amazon EC2Amazon EBS의 경우 99.99%의 월간 가동률을 보장합니다.

Microsoft Azure :

  • Azure는 서비스 구성에 따라 다양한 SLA를 제공합니다.
    • 단일 인스턴스 가상 머신(VM): 99.9% 가용성
    • 가용성 집합(Availability Set)을 사용하는 다중 인스턴스 VM: 99.95% 가용성
    • 가용성 영역(Availability Zone)을 사용하는 다중 인스턴스 VM: 99.99% 가용성

Naver Cloud Platform :

  • 네이버 클라우드 플랫폼은 서비스별로 SLA를 정의하며, 일반적으로 99.95%의 가용성을 보장한다고 설명하고 있습니다.

Google Cloud Platform (GCP):

  • GCP는 서비스별로 SLA를 정의하고 있습니다.
  • 예를 들어 Google Cloud VMware Engine의 경우 99.99%의 월간 가동률을 보장합니다.

각 서비스의 SLA는 구성 및 사용 사례에 따라 다를 수 있으므로, 정확한 정보를 위해서는 각 제공업체의 공식 SLA 문서를 확인하는 것이 좋습니다.

점검 등 예외 처리

서버 점검 등 불가피한 작업이 예정되어 있어 서비스가 중단된다는 사전 공지 시 SLA 서비스 품질에 예외를 둘 수 있는 약괸이 존재하지?

네, 서비스 수준 협약(SLA)에는 예외를 두는 약관이 존재할 수 있습니다. SLA는 서비스 제공자가 고객에게 약속하는 서비스 품질 수준을 정의하는 문서로, 여기에는 일반적으로 다음과 같은 요소가 포함됩니다.

  1. 서비스 가용성 : 서비스가 언제 이용 가능해야 하는지에 대한 기준.
  2. 응답 시간 : 고객의 요청에 대한 응답 시간을 명시.
  3. 지속적인 유지보수 : 정기적인 유지보수 작업이 계획되어 있는 경우, 해당 작업에 대한 사전 공지 및 예상 중단 시간.
  4. 예외 조항 : 특정 상황(예: 재해, 자연재해, 비상 상황 등)에서 SLA 조건을 일시적으로 변경할 수 있는 예외 조건.

따라서, 사전 공지 시에도 특정 상황에서는 SLA의 서비스 품질에 대한 예외를 두는 것이 가능할 수 있습니다. 이를 통해 서비스 제공자는 유지보수나 긴급 상황으로 인한 서비스 중단에 대해 고객에게 명확히 알리고, 서비스 품질 보장에 대한 책임을 줄일 수 있습니다. 고객과의 신뢰를 유지하기 위해서는 이러한 예외 조항이 명확하게 정의되어 있어야 합니다.

※ GPT-4를 사용하는 생성형 AI 서비스가 작성하는 내용을 기반으로 필자가 교차 검증과 팩트 체크를 통해 정확한 정보를 전달, 게시합니다. 어투를 친숙하게 변형하고자 노력하지만 생성형 인공지능의 어투가 남아 있음을 참고해 주세요.

※ 콘텐츠에 오류 또는 실수가 있을 수 있습니다. 잘못된 정보를 제공하고 있을 경우 언제든지 댓글 또는 공식 연락처를 통해 제보해 주시면 수정하도록 하겠습니다. 관심 가져 주셔서 감사합니다.