Zabbixエラー対応
どうも。
kiekunです。
今日は昨日立ちはだかったエラーを解決することに取り組んでいました。
昨日のエラー内容は...
Tomcatが落ちてしまったときに自動で再起動してくれるというアクションの結果の不一致です。
ポート監視のグラフではきちんと再起動している。
しかし、障害のところのリモートコマンドのステータスは失敗になっている。
どういうことだ....!
というものでした。
昨日行き着いた仮説は/etc/zabbix/zabbix_agent.confのTimeoutという設定項目。
これを長くすることにより、Zabbixさんがリスタートの処理が終わるまで待ってくれると思っていました。
しかし。
MAX30秒にしても一向に改善されませんでした。
色々考えた結果ある考えにたどり着きました。
zabbix_server.conf側にも似たような設定があるのでは..... と
見てみると
### Option: Timeout
# Specifies how long we wait for agent, SNMP device or external check (in seconds).
#
# Mandatory: no
# Range: 1-30
# Default:
# Timeout=3
あったー!
しかもwait for agentって書いてあるではないか。
これは来たと嬉しくなりました。
このTimeout項目を15秒にしてみたところ、問題は無事解決されました。
問題の解決ができた際にはとても達成感がありました。
こういったエラーが出た際にもめげずに立ち向かって経験値をためてレベルアップしていきたいなと感じた1日となりました。
今日はこんなところで。
では。