昨年から私を悩まし続けてくれた、FreeBSD サーバーが、SATA HDDのエラーを吐き続ける。場合によっては Panic で再起動してしまうという現象。ついにやっつけることが出来たので、メモに残します。
Jan 1 02:47:48 tokyo kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 38 00 8d 91 40 24 00 00 00 00 00 Jan 1 02:47:48 tokyo kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error Jan 1 02:47:48 tokyo kernel: (ada1:ahcich1:0:0:0): Retrying command Jan 1 02:47:48 tokyo kernel: (ada1:ahcich1:0:0:0): WRITE_FPDMA_QUEUED. ACB: 61 40 c0 84 59 40 24 00 00 00 00 00 Jan 1 02:47:48 tokyo kernel: (ada1:ahcich1:0:0:0): CAM status: Uncorrectable parity/CRC error Jan 1 02:47:48 tokyo kernel: (ada1:ahcich1:0:0:0): Retrying command
この現象に遭遇するのが初めてだったらもっと早く原因にたどり着けたかもしれませんが、過去に何度か悩まされたエラーだったため、原因にたどり着くのが遅くなってしまいました。
まず、上記エラーが発生するのは、Vostro220s のみ。HDDを別のPCマザーボードに接続すれば発生しません。
つまり、Vostro220sにエラーの原因があるってこと。
Vostro220s のCPU、メモリ、SATAポート、HDDを交換しても、現象は発生し続けます。
ここで、原因はまだ交換していないもの、マザーボード と思い込んでしまったのが間違い。よ〜く考えるともう一つ交換していないものがありました。それは電源。
データHDDを取り外せば、正常動作したため気が付きませんでした。
Amazonで Dell Vostro220s の安い中古マザーボードを見つけて、これはラッキーと購入して、早速ボード交換。これで解決するはず!と電源スイッチを入れたら、、、、前より高い頻度でエラーが出続けました。ガックリ!!
ここでようやく電源が犯人だと理解。
Vostro220sの電源はDellカスタムとばかり思い込んでいたので、調達が難しいという先入観もあり疑いませんでした。ATX電源をケース外側から接続して、電源スイッチを入れてみたら、その後ウソのようにエラーが消滅しました。電源から供給される電圧の一部が安定していなかったものと思います。
この後は、Vostro220s の電源を内蔵できるタイプと交換してVostro220sの修理は完了。これに関しては別のメモとして残しました。
CAM status: Uncorrectable parity/CRC error
CAMのエラーはやっかいです。
通常なら原因はHDD側にあるのですが、ドライバーが原因としか思えないような症状もあります。今回も、原因はHDDではなく別のパーツでした。
エラーメッセージを目にしてから、解決まで2ヶ月以上かかりました。途中、原因パーツを取り違えて無駄な出費も発生しましたが、Vostro220sの修理は完了しました。