- レンタルサーバーの【Xbit(エクスビット)】HOME
- ニュース一覧
- 【報告】cs210サーバーで発生した障害について
【報告】cs210サーバーで発生した障害について
2011/8/23
株式会社ラクス サポートセンターです。
平素は当社サービスをご利用いただきまして誠にありがとうございます。
この度発生しておりましたcs210サーバーの障害についての詳細を報告いたします。
記
◆対象サーバー
cs210サーバー
◆障害内容及び原因
サーバー高負荷によるサービスのレスポンス遅延
下記時間帯に於いてサーバーが断続的に高負荷な状態となり、サーバー機能が利用しづらい状態となっておりました。
<サーバー高負荷>
①2011/8/21(日)08:30~8/23(火)09:10
ディスク障害によるI/O負荷の上昇が原因
②2011/8/23(火)13:37~8/23(火)13:52
筐体移行に伴う受信済みメールデータの大量転送による負荷上昇が原因。
また、以下の時間に於いては、復旧作業を行うためにサーバー機能を停止しております。
<メンテナンス時刻>
- 2011/8/22(月)
- 13:57 ~ 15:06 ・・・(※1)
- 15:19 ~ 15:32 ・・・(※2)
- 15:50 ~ 15:54 ・・・(※3)
- 2011/8/23(火)
- 07:23 ~ 09:10 ・・・(※4)
◆対応内容
ディスク故障を検知した為、通常の障害対応手順に則りディスク交換をしましたが(※1)、交換したディスクへのデータ同期が途中で異常終了しました(※2)。
そのため、障害を検知したディスクを抜き取り(※3)、調査を進めたところ、抜き取ったディスクは過去の時点で異常が発生しており、ディスクI/Oの遅延はその時点でサーバーに設置されているディスク側に異常が発生していたことが原因であると判明しました。(ディスクの二重障害)
よって、急きょ別筐体へのデータ載せ替えを実施(※4)し、復旧を完了させました。
◆今後の対応
通常であれば片方のディスクに障害が発生した場合、監視システムによって検知し、ディスク交換を行うことで障害は解消するのですが、今回はハードウェアベンダが提供する監視ツールからも、ディスク異常が検出されず、ディスクの二重障害が発生しました。
そのため、急きょ別筐体への載せ替え作業というイレギュラーな対応となることで、長時間に渡るメンテナンスとなってしまったことを深くお詫び申し上げます。
今後同様の事象にも対応できるようにするため、今回異常が検出できなかった原因をハードウェアベンダに調査依頼するとともに、弊社側でも別の監視方法を検討・導入し再発防止に努める所存です。
この度は長時間にわたり多大なご迷惑をおかけしたことを深くお詫び申し上げます。