你正在開發軟體產品嗎?別忘了 SLA 協定!

你正在開發軟體產品嗎?別忘了 SLA 協定!

日前在協助公司銷售產品,除了 Sales 幫忙推產品之外,我也參與了一項有關政府的相關計畫,因而得知 SLA(Service Level Agreement, 服務等級協定) 這個名詞。

認識的同業朋友圈當中,也沒人聽過這東西,還以為是跟 Blockchain, Metaverse 有關(近期太多新名詞了 XD

目錄

SLA是什麼?

認識 SLA 之前,來看你我都熟悉的疫苗預約登記情境

今天你要到 COVID-19 公費疫苗預約平台 去預約登記疫苗,但系統一直當掉、卡在那動也不動,

然後預約平台負責人知道系統炸掉了,就急忙打電話給廠商(系統開發商, 服務供應商)詢問:

中央衛福部:系統不能用誒!怎麼辦!什麼時候會修好 …

關貿網路系統開發商:很快!再一下下就幫你們排除這問題

image

然後就這樣一直等等等等等 … 不知道系統啥時會修好,此時坐在電腦前的你應該也無力登記了 🥲 🥲

對於產品經理來說,我們把產品策略、路線圖等相關資訊規劃好並準備敲 kick-off meeting, 此時若對技術的理解度不足、從來不去理解團隊的技術架構,自然也不會設想到系統的服務品質, 等產品上線後需求大增,導致服務整個炸掉就出現了上述的情境。

當然,你可能會認為這應該是 CTO, Tech Lead 該負責的事情,但在多數新創公司 Early stage 的階段只有少數幾個夥伴時,很大的機率會忽略這些細節。

SLA(服務等級協定) 它是賣方(關貿網路, 平台服務提供者)和購買方(中央衛福部, 平台使用者)之間的合約,擬定平台QoS(Quality of Services, 服務質量)、服務品質效能、責任歸屬及賠償事項,藉此保障購買人的權益及可預期的保證。

SLA 的內容有哪些?

一般來說 SLA 的合約內容有以下這幾點,但還是要以系統開發商和買方所擬定的為主:

  • 簡介

說明 SLA 應包含的事項,包括其範圍及訂閱續約對條款的影響。

  • 一般條款

在整個 SLA 中使用的條款,讓雙方 (關貿網路與中央衛福部) 都具有一致的詞彙。例如,閃退、交易金額錯誤、資料錯誤及功能失常等。

定義協議的一般條款,包括如何提交索賠請求、取得任何效能或可用性問題的退費,以及協定的限制。

  • 詳細資料

主要的效能承諾通常著重於「執行時間」,或產品服務成功運作的時間百分比。部分 SLA 也會著重於其他因素,包括「延遲」或服務回應要求的必要速度。

定義服務的特定保證,以有效率、妥善率來表示。效能承諾通常是以 %(百分比) 表示,該百分比的涵蓋範圍表示方式,下面有更詳盡的解釋

SLA 計算方式&百分比與總停機時間

通常 SLA 一定會有幾個衡量 Index(指標),像是:

  • 可用性
  • 失敗率
  • 回應時間
  • 中段時間
  • 復原點目標

等 …

以下為我司某產品於公開資訊網站上的 SLA 部分內容,僅供參考:

  1. 系統可用性 (System Availability):客戶使用系統正常運作率達到 99% 以 上的可用性。

  2. 客服支援時段(Customer service support period):服務時間為周一到周五,09:00 至 18:00,客戶如有無法正常使用,於接獲客戶通知後於標準服務時間之 24 小時內恢復正常使用。

  3. 服務中斷補償(Service interruption compensation):可與第一項指標對照(例如低於 99%則開始計算賠償),或如系統中斷達 1 小時起,順延使用中斷時間的 2 倍。

  4. 問題回應時間(Incident Response): 核心系統(L1)問題,15 分鐘內回應重要系統(L2)問題,60 分鐘內回應 支援系統(L3)問題,120 分鐘內回應。

  5. 復原點目標(Recovery Point Objective, RPO):每 24 小時將進行一次整體系統備份,而每筆資料輸入時皆會進行即時備份。

-百分比與總停機時間有何關聯?

為了能夠客觀地評估服務水準,雲端服務一般把 「能夠提供服務的時間」稱為 Uptime(正常運行時間) 或 Web Availability(網站可用性),這是指用戶使用網站連續不中斷服務的程度。而 「無法提供服務的時間」稱為 Downtime

妥善率 一年當中必須提供服務的時間 一年當中無法提供服務的時間,不得低於
兩個 9 99% 3 天 15 小時 36 分
三個 9 99.9% 8 小時 45 分 36 秒
四個 9 99.99% 52分 33.6秒
五個 9 99.999% 5 分 15.36秒

服務層級通常是以「一定時間內(例如,一個月或一年)的 Uptime 百分比」來表示,也就是:

# 服務層級 = uptime(小時)/ 一定期間(月/年)* 100%

所以上述表格中的妥善率計算如下:

  • 妥善率 99%

表示一年之中必須要有 99% 的時間正常營運:

(60秒 * 60分 * 24小時 * 365天 ) * 99%  = 31220640 秒

換言之,無法提供服務的時間為 (60秒 * 60分 * 24小時 * 365天 ) * 1% = 315360 秒 = 5256 分 = 87 小時 36 分 = 3 天 15 小時 36 分

  • 妥善率 99.9%

表示一年之中必須要有 99.9% 的時間正常營運:

(60秒 * 60分 * 24小時 * 365天 ) * 99.9% = 31504464 秒

換言之,無法提供服務的時間為(60秒 * 60分 * 24小時 * 365天 ) * 0.1% = 31536 秒 = 525 分 36 秒 = 8 小時 45 分 36 秒

  • 妥善率 99.99%

表示一年之中必須要有 99.99% 的時間正常營運:

(60秒 * 60分 * 24小時 * 365天 ) * 99.99% =  31532846.4 秒

換言之,無法提供服務的時間為(60秒 * 60分 * 24小時 * 365天 ) * 0.01% = 3153.6 秒 = 52 分 33.6 秒

  • 妥善率 99.999%

表示一年之中必須要有 99.999% 的時間正常營運:

(60秒 * 60分 * 24小時 * 365天 ) * 99.999% = 31535684.64 秒

換言之,無法提供服務的時間為(60秒 * 60分 * 24小時 * 365天 ) * 0.001% = 315.36 秒 = 5 分 15.36 秒

在實務中難免會有臨時事件的產生,像主機的服務,免不了為了規劃中的維修保養問題而停機,此時,服務供應商就得提供 99% 的連續服務,若低於這個數值,依差異的多寡給予客戶相關補償。

總結

今天如果你作為需求購買方找供應商合作時,記得留意是否有擬一份 SLA 協定條款。通常能提供 SLA 合約的廠商在議價上會比較硬,但也代表有堅固的法律顧問團隊、軟體產品開發團隊,也就能大大確保供應商能百分百負責到底。

image

洋洋灑灑的 SLA 合約當中其實最重要的就是廠商能負責到什麼程度,也就是服務及管理 - 廠商能否在系統炸掉時即時地排除問題;購買方得不到應有的服務如何要求廠商賠償

也要擬定 Index(指標), 雙方才能夠共同協議出具體且可追蹤的合約。

Ref

comments powered by Disqus