日前在協助公司銷售產品,除了 Sales 幫忙推產品之外,我也參與了一項有關政府的相關計畫,因而得知 SLA(Service Level Agreement, 服務等級協定) 這個名詞。
認識的同業朋友圈當中,也沒人聽過這東西,還以為是跟 Blockchain, Metaverse 有關(近期太多新名詞了 XD
認識 SLA 之前,來看你我都熟悉的疫苗預約登記情境
今天你要到 COVID-19 公費疫苗預約平台 去預約登記疫苗,但系統一直當掉、卡在那動也不動,
然後預約平台負責人知道系統炸掉了,就急忙打電話給廠商(系統開發商, 服務供應商)詢問:
中央衛福部:系統不能用誒!怎麼辦!什麼時候會修好 …
關貿網路系統開發商:很快!再一下下就幫你們排除這問題
然後就這樣一直等等等等等 … 不知道系統啥時會修好,此時坐在電腦前的你應該也無力登記了 🥲 🥲
對於產品經理來說,我們把產品策略、路線圖等相關資訊規劃好並準備敲 kick-off meeting, 此時若對技術的理解度不足、從來不去理解團隊的技術架構,自然也不會設想到系統的服務品質, 等產品上線後需求大增,導致服務整個炸掉就出現了上述的情境。
當然,你可能會認為這應該是 CTO, Tech Lead 該負責的事情,但在多數新創公司 Early stage 的階段只有少數幾個夥伴時,很大的機率會忽略這些細節。
SLA(服務等級協定) 它是賣方(關貿網路, 平台服務提供者)和購買方(中央衛福部, 平台使用者)之間的合約,擬定平台QoS(Quality of Services, 服務質量)、服務品質效能、責任歸屬及賠償事項,藉此保障購買人的權益及可預期的保證。
一般來說 SLA 的合約內容有以下這幾點,但還是要以系統開發商和買方所擬定的為主:
說明 SLA 應包含的事項,包括其範圍及訂閱續約對條款的影響。
在整個 SLA 中使用的條款,讓雙方 (關貿網路與中央衛福部) 都具有一致的詞彙。例如,閃退、交易金額錯誤、資料錯誤及功能失常等。
定義協議的一般條款,包括如何提交索賠請求、取得任何效能或可用性問題的退費,以及協定的限制。
主要的效能承諾通常著重於「執行時間」,或產品服務成功運作的時間百分比。部分 SLA 也會著重於其他因素,包括「延遲」或服務回應要求的必要速度。
定義服務的特定保證,以有效率、妥善率來表示。效能承諾通常是以 %(百分比) 表示,該百分比的涵蓋範圍表示方式,下面有更詳盡的解釋。
通常 SLA 一定會有幾個衡量 Index(指標),像是:
等 …
以下為我司某產品於公開資訊網站上的 SLA 部分內容,僅供參考:
系統可用性 (System Availability):客戶使用系統正常運作率達到 99% 以 上的可用性。
客服支援時段(Customer service support period):服務時間為周一到周五,09:00 至 18:00,客戶如有無法正常使用,於接獲客戶通知後於標準服務時間之 24 小時內恢復正常使用。
服務中斷補償(Service interruption compensation):可與第一項指標對照(例如低於 99%則開始計算賠償),或如系統中斷達 1 小時起,順延使用中斷時間的 2 倍。
問題回應時間(Incident Response): 核心系統(L1)問題,15 分鐘內回應重要系統(L2)問題,60 分鐘內回應 支援系統(L3)問題,120 分鐘內回應。
復原點目標(Recovery Point Objective, RPO):每 24 小時將進行一次整體系統備份,而每筆資料輸入時皆會進行即時備份。
為了能夠客觀地評估服務水準,雲端服務一般把 「能夠提供服務的時間」稱為 Uptime(正常運行時間) 或 Web Availability(網站可用性),這是指用戶使用網站連續不中斷服務的程度。而 「無法提供服務的時間」稱為 Downtime。
妥善率 | 一年當中必須提供服務的時間 | 一年當中無法提供服務的時間,不得低於 |
---|---|---|
兩個 9 | 99% | 3 天 15 小時 36 分 |
三個 9 | 99.9% | 8 小時 45 分 36 秒 |
四個 9 | 99.99% | 52分 33.6秒 |
五個 9 | 99.999% | 5 分 15.36秒 |
服務層級通常是以「一定時間內(例如,一個月或一年)的 Uptime 百分比」來表示,也就是:
# 服務層級 = uptime(小時)/ 一定期間(月/年)* 100%
所以上述表格中的妥善率計算如下:
表示一年之中必須要有 99% 的時間正常營運:
(60秒 * 60分 * 24小時 * 365天 ) * 99% = 31220640 秒
換言之,無法提供服務的時間為 (60秒 * 60分 * 24小時 * 365天 ) * 1% = 315360 秒 = 5256 分 = 87 小時 36 分 = 3 天 15 小時 36 分
表示一年之中必須要有 99.9% 的時間正常營運:
(60秒 * 60分 * 24小時 * 365天 ) * 99.9% = 31504464 秒
換言之,無法提供服務的時間為(60秒 * 60分 * 24小時 * 365天 ) * 0.1% = 31536 秒 = 525 分 36 秒 = 8 小時 45 分 36 秒
表示一年之中必須要有 99.99% 的時間正常營運:
(60秒 * 60分 * 24小時 * 365天 ) * 99.99% = 31532846.4 秒
換言之,無法提供服務的時間為(60秒 * 60分 * 24小時 * 365天 ) * 0.01% = 3153.6 秒 = 52 分 33.6 秒
表示一年之中必須要有 99.999% 的時間正常營運:
(60秒 * 60分 * 24小時 * 365天 ) * 99.999% = 31535684.64 秒
換言之,無法提供服務的時間為(60秒 * 60分 * 24小時 * 365天 ) * 0.001% = 315.36 秒 = 5 分 15.36 秒
在實務中難免會有臨時事件的產生,像主機的服務,免不了為了規劃中的維修保養問題而停機,此時,服務供應商就得提供 99% 的連續服務,若低於這個數值,依差異的多寡給予客戶相關補償。
今天如果你作為需求購買方找供應商合作時,記得留意是否有擬一份 SLA 協定條款。通常能提供 SLA 合約的廠商在議價上會比較硬,但也代表有堅固的法律顧問團隊、軟體產品開發團隊,也就能大大確保供應商能百分百負責到底。
洋洋灑灑的 SLA 合約當中其實最重要的就是廠商能負責到什麼程度,也就是服務及管理 - 廠商能否在系統炸掉時即時地排除問題;購買方得不到應有的服務如何要求廠商賠償。
也要擬定 Index(指標), 雙方才能夠共同協議出具體且可追蹤的合約。