マイコミジャーナル

知りたい!を刺激する総合専門サイト


  1. 経営

  2. ITソリューション
  3. コラム
  4. システムの評価、できてますか?

【コラム】

システムの評価、できてますか?

10 ハードディスクをS.M.A.R.Tで診断

2007/02/20

鶴田展之

ちょうどいいタイミングで信頼性評価の好事例が報告された。今月13日から開催されたストレージ関連のカンファレンス「FAST '07」(5th USENIX Conference on File and Storage Technologies)で、Googleが「Failure Trends in a Large Disk Drive Population」と題する論文を発表したのだ。この論文の内容は、同社の使用する約10万台のハードディスクドライブについて故障率を詳細に調査したもの。筆者もまだ論文のすべてにきちんと目を通せていないので詳細な内容は次回以降に譲るが、さまざまな報道によると、「ドライブの温度」や「アクセスの頻度」と故障率には有意な関連性が認められず、また「S.M.A.R.T値」による故障予測もあまり役に立たないという結果だったようだ。

システムの評価を考える上で、この論文は非常に興味深く、かつ自前のシステムではめったに調査できない大規模な事例として貴重である。せっかくGoogleが有益な調査結果を公表してくれたのだから、我々もそれぞれの立場で活用せねばもったいないというものだ。で、論文をちゃんと理解するためには、まず基本的な知識を仕入れておかねばならない。

たとえば「S.M.A.R.T」。一般ユーザにはあまり馴染みのない言葉だが、ハードディスクドライブの信頼性評価では結構重視される指標のひとつだ。S.M.A.R.Tは「Self Monitoring, Analysis, and Reporting Technology」の略称で、つまりハードディスクドライブが自分自身の障害を自己診断し、ユーザに報告するインテリジェントな機能である。現在出回っているハードディスクドライブは、大半がこの機能を搭載している。大切なデータが入ったハードディスクが、システムにおいて最も壊れてほしくない部品であることには誰も異論はないはずだ。S.M.A.R.Tが本当に故障を予知して教えてくれるのだとしたら活用しない手はない。

さて、S.M.A.R.Tが報告してくれる検査項目は、電源オンの通算時間(Power-On hours)、ディスクアクセスのスループット(Throughput Performance)、シークエラーの発生頻度(Seek Error Rate)、書き込みや読み込みのエラー頻度(Write/Read Error Rate)などなど、非常にたくさんある。ただ、我々一般ユーザはS.M.A.R.Tの報告を生のまま受けとるわけではなく、何らかの実装、つまりアプリケーションを経由してハードディスクドライブの状態を見るのが普通だ。今回はS.M.A.R.Tアプリケーションの例として、Linuxの「hddtemp」コマンド*を使ってみよう。デバイスを指定してhddtempコマンドを実行すると、そのドライブのメーカー、型番と温度が表示される。

# hddtemp /dev/hda
/dev/sda: XXXXXXX XXXXXXXXXX: 39 C

デバッグオプション(-D)を付ければ、S.M.A.R.Tの報告するさまざまな値を参照可能だ。以下の例では、field(194)が「Templature」で温度を表している。

# hddtemp -D /dev/hda

================= hddtemp 0.3-beta13 ==================
Model: ST940110A

field(1) = 226
field(3) = 0
field(4) = 11
field(5) = 0
field(7) = 179
field(9) = 139
field(10) = 0
field(12) = 63
field(192) = 156
field(193) = 13
field(194) = 39
field(195) = 226
field(197) = 0
field(198) = 0
field(199) = 0
field(200) = 0
field(202) = 0

残念ながら、ここで紙幅が尽きた。次回はもう少し詳しくS.M.A.R.Tについて勉強してみよう。

*ディストリビューションや導入時の構成によってはhddtempコマンドが使えないこともあるので、その場合はaptやyumを使ってインストールしてほしい。

特別企画


注目サイト