本日(2017/09/09)、このメモサイトを動かしているサーバーメンテナンスを行いました。
数日前からサーバーのHDDアクセスランプが付きっぱなしのままで応答が無くなったり、突然リブートしてしまうという症状が発生し、サーバーの様子がおかしいことに気づきました。
初回のフリーズでは、電源を強制的に落とした後、電源再投入したものの起動せず、データロスト?と焦りました。1時間くらい放置して電源投入したところ、幸いOSが起動し、データのバックアップも行えたので少し気が楽になりましたが、次の土日を使ってメンテナンスすることに決めていました。
メンテナンスを決めたものの、その後もフリーズしたり、勝手にリブートを繰り返していたので、何が起きているんだろう?と思いながら週末を迎えました。Athlon 入りの発熱マシンでしすが夏を無事に乗り切り、秋になった途端これですからね。
考えたのは、
- HDDの故障
- CPUファンの停止
- メモリの劣化
あたり。
CPUファンの劣化停止が可能性大だと思いながら、サーバーを停止させて、ケースを開けてみたところ・・・・・・電源付近が異常に高温であることに気づきました。
CPUファンは普通に回っています。
このサーバー、10cmケースファンが2個も付いていて、ケース内の冷却にはあまり不安がなかったのですが、電源ファンが固くなっていて、殆ど排気力が無くなり電源を冷却できなくなっていたことがフリーズの原因のようです。
8cmファンは予備があるので、別マシンのATX電源が壊れた時のようにファンだけ30分くらいかけて交換。元に戻したところ、電源から十分な空気量が排出されるようになりました。
その他、AGPビデオカード上のビデオチップ冷却用ファンもなんだか回転数が安定していない感じでしたので、エアダスターを吹きかけてみると、空気の圧力で簡単に回転が停止。スプレーを止めると回転が復活。これもそのままにしておくのは怖いので、ファンレスのPCIビデオカードに交換。ViRGEかな。Xを使う予定は無いので、PCIビデオカードで問題なし。
電源ファン停止が原因だったと仮定して、このあと、通常稼働状態に戻しました。果たしてこれで24時間365日運用に耐えられるのか?現在もモニター中です。
サーバー停止前は、HDDの故障だったらデータを吸い上げて、新しいHDDを準備して交換しないといけないな〜と、長期戦を考えていたので、ファン交換で済んだことは幸いでした。