站點可靠性工程

站點可靠性工程(英語:Site reliability engineeringSRE)是一門將軟體工程應用於基礎設施以及運營的學科[1],該概念由Google於2003年提出[2]。站點可靠性工程主要目標是創建可擴展高可用性的軟體系統[3]

職責

站點可靠性工程師要花50%的時間來參與與軟體運營相關的工作,如解決問題、隨叫隨到和人工干預。由於站點可靠性工程師所負責的軟體系統需要高度自動化和自我修復,所以站點可靠性工程師要將另外50%的時間用於開發工作,如增加新功能等工作[4]

參考文獻

  1. ^ What Does a Reliability Engineer Do?. [2021-02-11]. (原始內容存檔於2020-10-24). 
  2. ^ SRE vs DevOps:它们有共同点吗?. [2021-02-11]. (原始內容存檔於2021-01-16). 
  3. ^ Are SRE the next data scientists?頁面存檔備份,存於網際網路檔案館), TechCrunch, Mar 2, 2016, Donald Fischer
  4. ^ Jones, Chris; Underwood, Todd; Nukala, Shylaja. Hiring Site Reliability Engineers (PDF). ;login:. Vol. 40. June 2015: 35–39 [2021-02-11]. (原始內容存檔 (PDF)於2017-08-24). 

更多閱讀

  • Site Reliability Engineering: How Google Runs Production Systems, O'Reilly Media, April 2016, Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, ISBN 978-1-491-92912-4
  • The Practice of Cloud System Administration: Designing and Operating Large Distributed Systems, Volume 2, Thomas Limoncelli, ISBN 032194318X
  • Google - Site Reliability Engineering interview with Ben Treynor頁面存檔備份,存於網際網路檔案館