Metaphorical Dream

ESX4.0 HA

切替わり時は問題なし。

切戻し時は問題あり。

ホスト1=192.168.11.72→障害時ゲストの退避先ホスト
ホスト2=192.168.11.81→障害発生ホスト
ゲスト=win2003-6→ホスト2で稼動

2:01:30
 shut(ホスト2が接続されているSwitchのポート)

2:02:30
 vCSにてホスト2障害検知

2:02:45
 ゲストPing復帰
 Ping復帰してもコンソールは効かない
 再起動が掛かってるハズ
 →しばらくした後コンソール復帰
 ホスト1にてゲストは正常稼動したことを確認

2:07:45
 no shut

2:08:00
 仮想マシンのメッセージ表示 ※1
 表示されたり消えたりを繰り返す
 Pingも落ちる
 両方のホストで仮想マシンをつかみ合っているような状態 ※2
 OKボタンをクリックしても状況変わらず

2:14:00
 復帰せずと判断

しばらくしてから、再度shutを実施。
5分以上経過してから、no shutを実施したところ、
無事ゲストが復帰したように見える。

がしかし、ゲストのコンソールが開かない。

再起動、シャットダウン、パワーオフ、リセットの
どれを実施しても以下のメッセージが表示。
「別のタスクが既に進行中です。」

5分経過については、可用性ガイドにあった、
 das.isolationShutdownTimeout
が、Default300secだったからなんだけど、
全然関係なかったっぽい。

試しに10分以上経過してから、
no shutってこともやってみたけど、事象変わらず。

こんなこと客先でやっちまったら、
 オレ「鯖が死んじゃいました」
 顧客「お前が死にてぇのか?」
っていう、やり取りが出来るに違いにない!

結局のところ、2台のホストを再起動することで、
ゲストのパワーオフができたw
→掴み合い状態が開放されたと想定

クラウド(仮想)化しても、これじゃあお粗末じゃないかな。

仮に復帰したからといってもさ、
 オレ「鯖が死なずに済んでよかったですね☆」
 顧客「確かに。でも、お前はもう死んでいる。」
ってな具合で、ケンシロウっぽく応対してくれるかもしれないw

※1の際の画面
もちろんOKを押してもダメ。
記載されているURLのkbを読む限り、ESX3.x系のこととして記載されている。
稀にしかないってなことを書いてあるけど、再現性100%なんだよねぇ(^^;
e0113173_1734547.jpg


※2の際の画面
win2003-6のサマリ画面なんだけど、「全般」項目内のホストのアドレス。
192.168.11.72で稼動していると表示されたり、
192.168.11.81で稼動していると表示されたり、
ってことを繰り返しているときの画面。

ホスト1上では正常稼動としているように見える
e0113173_1742726.jpg


ホスト2上では※1と同じメッセージが表示されてる
e0113173_1745394.jpg


んまぁ、とりあえず、VMのBug潰しをやっているわけじゃないので、
現時点では「危険」という評価として、次に行く。

[PR]
by mdesign21 | 2009-10-31 17:12 | IT系