站点可靠性工程

站点可靠性工程(英语:Site reliability engineeringSRE)是一门将软件工程应用于基础设施以及运营的学科[1],该概念由Google于2003年提出[2]。站点可靠性工程主要目标是创建可扩展高可用性的软件系统[3]

职责

站点可靠性工程师要花50%的时间来参与与软件运营相关的工作,如解决问题、随叫随到和人工干预。由于站点可靠性工程师所负责的软件系统需要高度自动化和自我修复,所以站点可靠性工程师要将另外50%的时间用于开发工作,如增加新功能等工作[4]

参考文献

  1. ^ What Does a Reliability Engineer Do?. [2021-02-11]. (原始内容存档于2020-10-24). 
  2. ^ SRE vs DevOps:它们有共同点吗?. [2021-02-11]. (原始内容存档于2021-01-16). 
  3. ^ Are SRE the next data scientists?页面存档备份,存于互联网档案馆), TechCrunch, Mar 2, 2016, Donald Fischer
  4. ^ Jones, Chris; Underwood, Todd; Nukala, Shylaja. Hiring Site Reliability Engineers (PDF). ;login:. Vol. 40. June 2015: 35–39 [2021-02-11]. (原始内容存档 (PDF)于2017-08-24). 

更多阅读

  • Site Reliability Engineering: How Google Runs Production Systems, O'Reilly Media, April 2016, Betsy Beyer, Chris Jones, Jennifer Petoff, Niall Richard Murphy, ISBN 978-1-491-92912-4
  • The Practice of Cloud System Administration: Designing and Operating Large Distributed Systems, Volume 2, Thomas Limoncelli, ISBN 032194318X
  • Google - Site Reliability Engineering interview with Ben Treynor页面存档备份,存于互联网档案馆