━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
ケーススタディ: HCX Troubleshooting における初期チェックポイントの紹介
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
日本でも VMware Cloud on AWS (以下、VMConAWS) をご利用中のお客様が徐々に増えて来ております。
今回は VMConAWS の中で最も多くご利用いただいている VMware HCX (以下、HCX) において、トラブル発生時のチェックポイントについて共有したいと思います。
なお、本記事で例として紹介している HCX のバージョンは、現時点の最新バージョンである R133 となります。
HCX の異なるバージョンにおいては表記が異なる可能性がございますこと、予めご了承ください。
まず、簡単なチェックポイントの概要は以下となります。
1.GUI 上の確認
2.CLI 上の確認
3.サポートバンドルの取得
では、早速それぞれの詳細をご紹介させていただきます。
[1. GUI 上の確認]
確認箇所(オンプレ):
・1-1
vSphere Client > HCX-plugin > Dashboard > Site Pairings
Site Pairings のステータスが "UP" であることをご確認ください。
・1-2
vSphere Client > HCX-plugin > Interconnect > Service Mesh (該当 Service Mesh を選択) > VIEW APPLIANCES
HCX Appliances のトンネルステータスが "UP" であることをご確認ください。
・1-3
vSphere Client > HCX-plugin > Interconnect > Service Mesh (該当 Service Mesh を選択) > RUN DIAGNOSTICS
Diagnostics の診断結果が "All probes were successful" であることをご確認ください。
[2. CLI 上の確認]
確認箇所(オンプレ):
・2-1
オンプレ HCX Manager へ SSH 接続を行い、コマンドにて詳しい情報を取得することが可能です。
まずは、HCX Manager へ SSH 接続ができるように、HCX Manager の SSH サービスを起動してください。
https://[オンプレ HCX Manager IPアドレス:9443] > Appliance Summary > System Level Services > SSH Service > START
オンプレ HCX Manager デプロイ時に設定した admin アカウントにてログインが可能です。
SSH Service のステータスが "RUNNING" であることをご確認ください。
・2-2
ターミナルソフト (Putty, TeraTerm など) より、オンプレ HCX Manager へ SSH 接続および、root ユーザーへの変更まで実施してください。
#ssh admin@[オンプレ HCX Manager IPアドレス]
#su -
・2-3
HCX Central CLI (以下、ccli) にて、HCX のステータスをご確認ください。
#ccli
"Welcome to HCX Central CLI" メッセージが表示されます。
[root@hcx_ent_manager ~]# ccli
Welcome to HCX Central CLI
#list
HCX-IX、HCX-NET-EXT などの HCX Appliance リストが表示されます。(この時点で、Selected 欄にはどの Appliance も選択されていない状況がわかります。)
[root@hcx_ent_manager] list
|-------------------------------------------------------------|
| Id | Node | Address | State | Selected |
|-------------------------------------------------------------|
| 0 | SM1-IX-I1 | 172.16.121.151:9443 | Connected | |
|-------------------------------------------------------------|
| 1 | SM1-NE-I1 | 172.16.121.152:9443 | Connected | |
|-------------------------------------------------------------|
#go 0 (数字のところは、該当する Appliance の Id 番号をご入力ください。本例では、HCX-IX に該当する "0" としてあります。)
"Switched to node 0." メッセージが表示されます。
[root@hcx_ent_manager] go 0
Switched to node 0.
#list
改めて list コマンドで確認をすると、Selected 欄に HCX-IX が選択されていることがわかります。
[root@hcx_ent_manager] list
|-------------------------------------------------------------|
| Id | Node | Address | State | Selected |
|-------------------------------------------------------------|
| 0 | SM1-IX-I1 | 172.16.121.151:9443 | Connected | * |
|-------------------------------------------------------------|
| 1 | SM1-NE-I1 | 172.16.121.152:9443 | Connected | |
|-------------------------------------------------------------|
#hc -d
Health Check コマンドを実行し、Appliance のトンネルステータス、CPU、Memory などのシステムリソース情報をご確認ください。
[root@hcx_ent_manager:SM1-IX-I1] hc -d
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
Probe HealthChecking
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
(vcenter) : 172.16.121.50(443)
|-- icmp(success)
|-- ssl connection(success)
|-- ssl handshake(success)
(lookupservice) : 172.16.121.50(7444)
|-- icmp(success)
|-- ssl connection(success)
|-- ssl handshake(success)
(SM1-IX-I1-53016ba0-20cb-4146-83c3-d38b30a9b9af) : 172.16.121.151(9443)
|-- icmp(success)
|-- ssl connection(success)
|-- ssl handshake(success)
|-- gateway status(success)
|-- Appliance System Status: good
|-- Peer Site Connectivity: up
|-- WANOPT 198.18.0.2 Status: up
|-- Tunnel t_0 Status: up , rx 260266, tx 326547
|-- Tunnel t_2 Status: up , rx 456333, tx 321169
|-- Tunnel t_1 Status: up , rx 260480, tx 330410
|-- Tunnel te_0 Status: up , rx 1105305, tx 1106564
(SM1-NE-I1-81bae26e-2de3-47f6-a0e2-9630e0910557) : 172.16.121.152(9443)
|-- icmp(success)
|-- ssl connection(success)
|-- ssl handshake(success)
|-- gateway status(success)
|-- Appliance System Status: good
|-- Peer Site Connectivity: up
|-- Tunnel t_1 Status: up , rx 261355, tx 260254
|-- Tunnel t_2 Status: up , rx 260805, tx 261243
|-- Tunnel t_0 Status: up , rx 260760, tx 261336
|-- Tunnel t_3 Status: up , rx 260734, tx 260780
|-- Tunnel t_4 Status: up , rx 260758, tx 260806
|-- Tunnel te_0 Status: up , rx 1432860, tx 1564406
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
Node Units HealthChecking
+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-
[+] systemResource:
[-] cpu
[*] cpu.idle ............ good
[*] cpu.loadAvg ............ good
> CPU load average high (1min: 0.090000, 5min: 0.050000, 15min: 0.010000), threshold: 6.400000
[-] memory
[*] memory.free ............ good
> Free memory (free: 2555580416 bytes, total: 3144695808 bytes)
[-] disk
[*] disk.root.free ............ good
> Free root partition (free: 335876096 bytes, 27% of total)
[*] disk.log.free ............ good
> Free log partition (free: 510021632 bytes, 92% of total)
[*] disk.coredump.free ............ good
> Free coredump partition (free: 395269120 bytes, 94% of total)
[+] systemService:
[-] service.status
[*] cgw ............ good
> Service cgw is running properly.
[*] hbrsrv ............ good
> Service hbrsrv is running properly.
[*] lwdproxy ............ good
> Service lwdproxy is running properly.
[*] ntpd ............ good
> Service ntpd is running properly.
[*] fcron ............ good
> Service fcron is running properly.
[*] vmtoolsd ............ good
> Service vmtoolsd is running properly.
[*] watchdog ............ good
> Service watchdog is running properly.
[*] hamon ............ good
> Service hamon is running properly.
[*] ipsec ............ good
> Service ipsec is running properly.
[+] encryptService:
[-] encrypt.daemons
[*] ipsec ............ good
> Service ipsec is running properly.
[-] encrypt.tunnels
[*] encrypt.configstate ............ good
[*] encrypt.tunnelstate ............ good
[*] encrypt.tunnelconn.t_0 ............ good
> Tunnel t_0 connectivity is UP.
[*] encrypt.tunnelconn.t_1 ............ good
> Tunnel t_1 connectivity is UP.
[*] encrypt.tunnelconn.t_2 ............ good
> Tunnel t_2 connectivity is UP.
[+] fouService:
[-] fou.tunnels
[*] fou.tunnelstate.ipip_te_0 ............ good
[*] fou.flow.{ 172.16.121.151:4500 --> 44.230.162.55:4500, state: } { 44.230.162.55:4500 --> 172.16.121.151:4500, state: [ASSURED] } ............ good
[*] fou.configstate ............ good
[*] fou.tunnelstate ............ good
#go 1 (本例では、HCX-NET-EXT に該当する "1" としてあります。)
HCX-IX に続いて、HCX-NET-EXT においても Health Check を実行したいと存じます。
#list
Selected 欄に HCX-NET-EXT が選択されていることをご確認ください。
[root@hcx_ent_manager:SM1-IX-I1] list
|-------------------------------------------------------------|
| Id | Node | Address | State | Selected |
|-------------------------------------------------------------|
| 0 | SM1-IX-I1 | 172.16.121.151:9443 | Connected | |
|-------------------------------------------------------------|
| 1 | SM1-NE-I1 | 172.16.121.152:9443 | Connected | * |
|-------------------------------------------------------------|
#hc -d
同じく、Appliance のトンネルステータス、CPU、Memory などのシステムリソース情報をご確認ください。
[3. サポートバンドルの取得]
さらに詳しく調査を行うためには、HCX のログ確認が必要となります。その際には以下の方法で HCX のログバンドルをご取得ください。
確認箇所(オンプレ):
・3-1
vSphere Client > HCX-plugin > System > Administration > Troubleshooting > 全ての項目にチェックイン > REQUEST
REQUEST 実施後、数分経つと REQUEST ボタンの右側に Download リンクが表示されます。そこからログバンドルを入手してください。
・3-2
vSphere Client > HCX-plugin > System > Support
System ID が含まれる形で、全画面のスクリーンショットをご取得ください。
確認箇所 (VMConAWS) :
・3-3
VMConAWS Console > SDDCs > Add Ons > OPEN HCX > 該当 SDDC の OPEN HCX > Administration > Troubleshooting > 全ての項目にチェックイン > REQUEST
REQUEST 実施後、数分経つと REQUEST ボタンの右側に Download リンクが表示されます。そこからログバンドルを入手してください。
・3-4
VMConAWS Console > SDDCs > Add Ons > OPEN HCX > 該当 SDDC の OPEN HCX > Administration > Support
System ID が含まれる形で、全画面のスクリーンショットをご取得ください。
まとめ
上記の例においては正常な状態をベースにご紹介させていただきましたが、トラブル発生時はこちらのステータスが異なる状態になっているかと存じます。その際は正常時のステータスとの比較が参考になるかと存じます。また、上記の情報だけでも問題が発生している箇所 "接続(トンネル) または パフォーマンス(システムリソース)" が素早く特定できるかと存じますので、ぜひ覚えてご活用いただければ幸いでございます。
最後に、事象が改善されず、弊社へお問い合わせいただく際には、よりスムーズな対応が期待できるため、上記 1 ~ 3 でご取得いただいた情報を共有いただけますようお願い申し上げます。
|