Zabbixテスト
どうも。
kiekunです。
今日は研修の一環としてこれまで構築した内容の手順書作成と、一通りのテストを行いました。今回Zabbixで監視する対象はAlfrescoと呼ばれるアプリケーションです。
このアプリ....便利なんです。
でもこのアプリ.....厄介なんです。。
このAlfrescoというアプリにはTomcatが組み込まれているので、監視する時にはTomcatを見ることになります。
新米としてはTomcatはどうやって監視するのだろうと色々調べてみるわけです。
そうすると色々出てきました。
なるほどーそうやってやるのかー。よしやってみよう!となって取り掛かろうとすると調べて分かったいじくるであろうファイルなどが見当たらないんです。
そう。Alfrescoに組み込まれてしまっているから。
Tomcat単体じゃないことによって全然上手くいかなくて苦労しました。
苦労の末なんやかんや手順書まで辿り着き、テストまで漕ぎ着けたわけです。
一通りの手順を終えて監視状態を見てみました。
するとシナリオの部分で「失敗」の文字が。
ガーーーン。
どこで失敗しているのか調べてみました。
するとどうやらTomucatが落ちてしまった時用の自動再起動が上手くいっていないらしい。
しかしここで新たな謎が浮上したんです。
それはTomcatのポート監視のグラフを見たことによる謎。
そこで見たものはポートが停止した後すぐに起動するグラフの動き。
グラフでは再起動している。
しかしシナリオだと失敗している。
ん???
ってなりました。
そこから再度調査してある可能性が見つかりました。
それは/etc/zabbix/zabbix_agentd.confという設定ファイルの
#Timeout=3 この項目
どうやらZabbixさんがエージェントさんに再起動の指示を飛ばしてから結果が出るまで待ってくれる時間の設定っぽいことがわかりました。
3秒間待ってやる。
何かのセリフに似ている。。
つまり3秒以内には再起動できずシナリオのところに失敗の文字が出てしまったけれどそこからエージェントさんが仕事を続けたおかげで再起動してグラフ上には現れたのではないかと推測しました。
実際どうなのかは今日検証できなかったので明日やってみようと思います。
今日はこんなところで。
では。