S.M.A.R.T.
S.M.A.R.T.,全稱為「Self-Monitoring Analysis and Reporting Technology」,即「自我監測、分析及報告技術」,是一種自動的硬盤狀態檢測與預警系統和規範。通過在硬盤硬件內的檢測指令對硬盤的硬件如磁頭、盤片、馬達、電路的運行情況進行監控、記錄並與廠商所設定的預設安全值進行比較,若監控情況將要或已超出預設安全值的安全範圍,就可以通過主機的監控硬件或軟件自動向用戶作出警告並進行輕微的自動修復,以提前保障硬盤數據的安全。除一些出廠時間極早的硬盤外,現在大部分硬盤均配備該項技術。
功能
該技術能使硬盤更穩定的運行。作用如下:
- 當硬盤的損壞程度還能在軟件可修復的範圍內(通常由廠商決定),軟件就會自動修理,防止數據的進一步損壞。同時報告異常值,異常程度為警告;
- 當硬盤的損壞程度已經超出軟件的修復承載範圍(通常由廠商決定),軟件則會盡最大能力防止再次寫入數據的丟失(如避開已損壞扇區),同時會報告異常值,異常程度為危險;
- BIOS自檢時,主板會檢測硬盤的S.M.A.R.T.信息,如果硬盤的異常程度為危險時,會提醒用戶及時備份數據(如嗡鳴聲或顯示文字)。
- Windows 7或以上的Windows系統,如果檢測到硬碟的S.M.A.R.T.錯誤,也會彈出警告視窗,提示用戶備份資料。
歷史
最早期的硬盤監控技術起源於1992年IBM在為AS/400計算機的IBM9337硬盤陣列中的IBM 0662 SCSI2代硬盤驅動器之中,後來該技術被命名為Predictive Failure Analysis(故障預警分析技術),它是通過在固件中測量幾個重要的硬盤安全參數和評估他們的情況。從物理硬盤發送到監控軟件的結果中被限定兩種結果:「硬盤安全」和「硬盤不久後會發生故障」。
不久,由個人電腦製造商Compaq和硬盤製造商Seagate、Quantum和Conner提出了名為IntelliSafe的類似技術。通過該技術,硬盤會測量自身的的健康指標並將參量值傳送給操作系統和用戶的監控軟件中,每個硬盤生產商有權決定哪些指標需要被監控和它們的安全閾值。
Compaq於1995年早期將該項技術方案提交到Small Form Factor委員會進行標準化,該方案得到IBM、Seagate、Quantum、Conner和Western Digital所支持。由於IntelliSafe技術的靈活性,委員會接受了該方案,並正式更名S.M.A.R.T.技術,將其標準化並推廣至ATA-3行業標準中。
運作原理
該技術所需數據被存放在硬盤物理盤面最前面的磁道中,由硬盤製作商將相關管理程序和數據該磁道中,包括加解密程序,自監控程序,自修復程序等,主機的監控軟件可以通過「SMART RETURN STATUS」的命令讀取S.M.A.R.T.信息,且這些信息不允許被用戶直接修改。
檢測屬性
下面將列出一些S.M.A.R.T.的原始檢測屬性和含義。普遍為檢測值越高性能越好。即使所有製造商都必須遵守共同的規則,但由於有些檢測值在不同硬盤製造商中用不全相同的定義和計量方法而對於不同製作商來說檢測值不全是越高越好,所以下面屬性的指標只作一般參考。除外,各製造商也會根據自己需要添加一些自己專有的檢測屬性。
表示數值越高越好 | |
表示數值越低越好 | |
重要項:粉色底 | 當超出安全範圍會對性能嚴重影響,甚至導致數據丟失。 |
ID | ID十六進制值 | 英文名 | 中文譯名 | 最優 | 說明 |
---|---|---|---|---|---|
1 | 0x01 | Read Error Rate | 底層數據讀取錯誤率 | 存儲器從一個硬盤表面讀取數據時發生的錯誤率。原始值由於不同廠商的不同計算方法而有所不同,其十進制值往往無意義的。 | |
2 | 0x02 | Throughput Performance | 讀寫通量性能 | 通常是硬盤讀寫性能的測量值,如果其值有變動,有可能硬盤出現了問題。 | |
3 | 0x03 | Spin-Up Time | 盤片啟動時間 | 盤片由靜止啟動加速到穩定正常運行速度的平均所需時間。 | |
4 | 0x04 | Start/Stop Count | 電機起停次計數 | 一個盤片啟動關閉周期的統計值,只有硬盤從完全斷電中啟動或從睡眠模式恢復,盤片主軸電機被啟動時才會記一次數。 | |
5 | 0x05 | Reallocated Sector Count | 重定位磁區計數 | 記錄由於損壞而被映射到無損的後備區的磁區計數。當硬盤出現損壞磁區時,可以通過將其物理空間指向到特定的無損區域進行重映射修復,從而出現壞磁區的硬盤仍可使用。但當高過一定數值後,後磁區消耗殆盡而無法再重映射修復時,這些壞磁區就會顯現出來且無法自行修復。除外由於要要求磁頭讀取這些壞磁區時專門再移動到後備區讀寫數據,對硬盤讀寫性能也有影響。 | |
6 | 0x06 | Read Channel Margin | 信道讀取餘量 | 讀取數據時信道可用的餘量,該屬性沒制定任何功用。 | |
7 | 0x07 | Seek Error Rate | 尋道錯誤率 | (該屬性是特定製造商才有的)磁頭尋找磁道由於機械問題而出錯幾率,有多種原因可能引致出錯,如:磁頭伺服構件,盤體過熱,或損壞。於不同廠商的不同計算方法而有所不同,其十進制值往往無意義的。 | |
8 | 0x08 | Seek Time Performance | 尋道性能 | 每次尋道時間的平均值,該值短期內迅速減少,有可能硬盤出現了問題。 | |
9 | 0x09 | Power-On Hours | 硬盤加電時間 | 硬盤自出廠以來加電啟動的統計時間,單位為小時(或根據製造商設定為分鐘或秒),一般用戶以該值判定硬盤是否被使用過。 | |
10 | 0x0a | Spin Retry Count | 電機起轉重試 | S.M.A.R.T參數電機起轉重試,表明了主軸電機的啟動嘗試次數。這個屬性存儲了關於主軸電機嘗試加速到完全可操作速度的次數(在這種情況下,意味着主軸電機的第一次啟動嘗試沒有成功)。主軸電機頻繁的嘗試啟動,意味着硬盤驅動器的壽命可能將近實際限值。 | |
11 | 0x0b | Recalibration Retries | 磁頭校準重試 | 磁頭在一次運行失敗時嘗試校準至正常狀態的統計數,該值改變時意味着硬盤的機械部件已經出現問題了。 | |
12 | 0x0c | Power Cycle Count | 設備開關計數 | 該屬性表示硬盤電源充分開/關循環計數。 | |
13 | 0x0d | Soft Read Error Rate | 軟件讀取錯誤率 | 操作系統讀取數據時的出錯率。 | |
183 | 0xb7 | SATA Downshift Error Count | SATA降級運行計數 | Western Digital 和 Samsung 特有屬性,記錄由於兼容問題導致降低SATA傳輸級別運行的計數。 | |
184 | 0xb8 | End-to-End error | 終端校驗出錯 | HP專有S.M.A.R.T.(SMART IV)技術的一個特有屬性,記錄硬盤從盤片讀取數據到高速緩存後再傳輸到主機時數據校驗出錯的次數。 | |
185 | 0xb9 | Head Stability | 磁頭穩定性 | Western Digital特有屬性 | |
186 | 0xba | Induced Op-Vibration Detection | Western Digital特有屬性 | ||
187 | 0xbb | Reported Uncorrectable Errors | 報告不可糾正錯誤 | 硬件ECC無法恢復的錯誤計數。 | |
188 | 0xbc | Command Timeout | 通信超時 | 由於無法連接至硬盤而終止操作的統計數,一般為0,如果遠超過0,則可能電源問題,數據線接口氧化或更嚴重的問題。 | |
189 | 0xbd | High Fly Writes | 磁頭寫入高度 | 硬盤進行寫入時對磁頭高度進行監控以提供額外的保障。當磁頭處於不正常高度進行寫入時,寫入操作會被終止,原有數據重寫入或者將該扇區重映射到安全區域。該屬性是統計值。 | |
190 | 0xbe | Airflow Temperature | 氣流溫度 | Western Digital特有屬性,計量硬盤內氣流溫度,和檢測項0xc2相似。 | |
191 | 0xbf | G-sense Error Rate | 加速度錯誤率 | 計量可能對硬盤做成損害的衝擊次數。 | |
192 | 0xc0 | Power-off Retract Count | 電源關閉磁頭收回計數 | 計量磁頭在沒有加電時不移進硬盤的值。 | |
193 | 0xc1 | Load Cycle Count | 磁頭釋放收回循環 | 計量磁頭在加電時移至停泊區和移至盤片循環的值。 | |
194 | 0xc2 | Temperature | 溫度 | 如果有合適的傳感器的話,這裡會顯示硬盤溫度。請注意該溫度並非直接的攝氏度或華氏度。通常來說,將原始值的最低兩位字節轉化成十進制,即為精確的溫度值(單位:攝氏度)。例如:原始值為0x003600090023,將0x23轉換為十進制為35,則硬盤溫度為35度。[1] | |
195 | 0xc3 | Hardware ECC Recovered | 硬件ECC恢復 | (特定原始值) | |
196 | 0xc4 | Reallocation Event Count | 重定位事件計數 | 記錄已重映射扇區和可能重映射扇區的事件計數。 | |
197 | 0xc5 | Current Pending Sector Count | 等候重定的扇區計數 | 記錄了不穩定的扇區的數量。 | |
198 | 0xc6 | Uncorrectable Sector Count | 無法校正的扇區計數 | 記錄肯定出錯的扇區數量。 | |
199 | 0xc7 | UltraDMA CRC Error Count | UltraDMA通訊CRC錯誤 | 記錄硬盤通訊時發生的CRC錯誤。 | |
200 | 0xc8 | Multi-Zone Error Rate | 多區域錯誤率 | 寫入一個區域時發現的錯誤的計數。 | |
200 | 0xc8 | Write Error Rate | 寫入錯誤率 | Fujitsu的特別屬性,寫入一個區域時發現的錯誤的計數。 | |
201 | 0xc9 | Soft Read Error Rate | 邏輯讀取錯誤率 | 記錄脫軌錯誤。 | |
202 | 0xca | Data Address Mark errors | 數據地址標記錯誤 | 記錄數據地址標記錯誤(或製造商特定的計數) | |
203 | 0xcb | Run Out Cancel | 用完取消 | ECC錯誤計數 | |
204 | 0xcc | Soft ECC Correction | 邏輯ECC糾正 | 記錄由軟件ECC更正的錯誤計數。 | |
205 | 0xcd | Thermal Asperity Rate | 熱嘈率 | 記錄高溫導致的出錯記數。 | |
206 | 0xce | Flying Height | 飛行高度 | 記錄磁頭的飛行高度。飛得太低會增加磁頭撞毀的機會,飛得太高增加讀寫錯誤的機會。 | |
207 | 0xcf | Spin High Current | 主軸電機浪涌電流計數 | 記錄主軸電機運轉時浪涌電流的次數。 | |
208 | 0xd0 | Spin Buzz | 電機啟動失敗 | 記錄由於電力不足而啟動主軸電機的蜂鳴聲次數。 | |
209 | 0xd1 | Offline Seek Performance | 離線尋址效能 | 在其內部測試硬盤的尋址能力表現。 | |
210 | 0xd2 | ? | ? | (沒定性,出現在Maxtor 6B200M0 200GB 和Maxtor 2R015H1 15GB 的硬盤中) | |
211 | 0xd3 | Vibration During Write | 寫操作震動 | 記錄寫入操作的震動數。 | |
212 | 0xd4 | Shock During Write | 寫操作衝擊 | 記錄寫入操作時的衝擊數。 | |
220 | 0xdc | Disk Shift | 盤體偏移 | 記錄盤體由於衝擊或溫度導致偏離主軸的相對距離。 | |
221 | 0xdd | G-Sense Error Rate | 加速計出錯率 | 從外部誘發的衝擊和振動產生的錯誤計數。 | |
222 | 0xde | Loaded Hours | 數據加載時間 | 數據讀取時所花費的時間。(磁頭移動時間) | |
223 | 0xdf | Load/Unload Retry Count | 加載/卸載重試次數 | 磁頭改變位置時所需時間。 | |
224 | 0xe0 | Load Friction | 負載摩擦 | 讀寫時由於機械摩擦做成的阻力。 | |
225 | 0xe1 | Load/Unload Cycle Count | 加載/卸載循環計數 | 總負載周期計數。 | |
226 | 0xe2 | Load 'In'-time | 磁頭加載耗時 | 磁頭加載所需總時間(不包括在停泊區的花費)。 | |
227 | 0xe3 | Torque Amplification Count | 扭矩放大計數 | 嘗試來補償盤片的速度變化的計數。 | |
228 | 0xe4 | Power-Off Retract Cycle | 斷電縮回周期 | 切斷電源後電磁樞自動縮回的時間計數。 | |
230 | 0xe6 | GMR Head Amplitude | GMR磁頭振幅 | 磁頭振幅計數(磁頭反覆正反向運動距離)。 | |
231 | 0xe7 | Temperature | 硬盤溫度 | 記錄硬盤溫度。 | |
232 | 0xe8 | Endurance Remaining | 耐久性剩餘 | 磁盤可使用周期與設計可使用周期的百分比。 | |
232 | 0xe8 | Available Reserved Space | 可用保留空間 | Intel固態硬盤報告的可提供的預留空間占作為一支全新的固態硬盤預留空間的百分比。 | |
233 | 0xe9 | Power-On Hours | 加電時間 | 處於開機狀態的小時數。 | |
233 | 0xe9 | Media Wearout Indicator | 介質耗損指標 | Intel固態硬盤報告的NAND刷寫壽命,全新時值為100,最低值為1,其跌幅隨NAND的擦除周期增加而在0到最大額定周期範圍減少。 | |
240 | 0xf0 | Head Flying Hours | 磁頭飛行時間 | 磁頭處於定位中的時間。 | |
240 | 0xf0 | Transfer Error Rate | 傳輸錯誤率 | 在數據傳輸時連接被重置的次數計數。(Fujitsu特有屬性) | |
241 | 0xf1 | Total LBAs Written | LBA寫入總數 | LBA寫入總數計數。 | |
242 | 0xf2 | Total LBAs Read | LBA讀取總數 | LBA讀取總數計數,部分S.M.A.R.T.檢測程序會把原始值顯示為負數,這是因為該原始值為48位,而不是32位的。 | |
250 | 0xfa | Read Error Retry Rate | 讀取錯誤重試率 | 從磁盤讀取時的錯誤計數。 | |
254 | 0xfe | Free Fall Protection | 自由跌落保護 | 對「自由落體事件」檢測計數。 |
在非ATA平台上的實現
SCSI
硬盤的傳輸端口平台主要分為ATA和SCSI兩個平台。作為一種硬盤的檢測技術,理論上都能在兩個平台上實現的,但由於兩個平台也存在巨大的不同,S.M.A.R.T.在SCSI上的實現和在ATA的實現上也有所不同。首先,作為ATA上的專有規範,S.M.A.R.T.對ATA系統的干預要比SCSI更明顯,S.M.A.R.T.對SCSI更多是起到檢測的作用,即使在檢測到磁盤有故障時,其只是報告監控端,要人為地處理故障。其次,由於SCSI平台的硬盤比ATA的更為複雜,所以其檢測屬性也比ATA的多和複雜準確,如包括對盤片和驅動電路版的溫度檢測(ATA多僅對盤片溫度檢測),對電壓的檢測等。
USB
在USB標準中,USB不能用於計算機內部儲存設備的基本總線(如ATA,SCSI等),其本身沒有為S.M.A.R.T.提供傳輸數據的途徑。在使用ATA硬盤,以USB為傳輸端口的移動硬盤中,即使硬盤內S.M.A.R.T.仍然運作,但沒辦法直接向系統提供S.M.A.R.T.的數據。現在新的移動硬盤的內部驅動轉換電路已經能以一些方法將硬盤內S.M.A.R.T.的數據通過USB傳輸到系統或監控程序中讀取。
參考文獻
- Seagate's Seek Error Rate, Raw Read Error Rate, & Hardware ECC Recovered SMART attributes. [2013-02-01]. (原始內容存檔於2013-07-07) (英語).
- ^ S.M.A.R.T. basics. [2017-11-19]. (原始內容存檔於2017-09-22).