このスレッドは解決済です(未解決に戻す場合はこちら)
<<戻る

Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/09(Thu) 21:33
名前: かずみ
URL:
1ヶ月ほど前から下記のNagiosの警告及び復旧メールが繰り返し届く様になってしまい、
困っております。

警告パターン
------------------------------------------------------------
***** Nagios *****

Notification Type: PROBLEM

Service: Total Processes
Host: localhost
Address: 127.0.0.1
State: WARNING

Date/Time: Thu Jun 9 19:39:20 JST 2016

Additional Info:

PROCS WARNING: 253 processes with STATE = RSZDT

復旧パターン
------------------------------------------------------------
***** Nagios *****

Notification Type: RECOVERY

Service: Total Processes
Host: localhost
Address: 127.0.0.1
State: OK

Date/Time: Thu Jun 9 19:49:20 JST 2016

Additional Info:

PROCS OK: 250 processes with STATE = RSZDT
------------------------------------------------------------

上記のメールが届きだしたのは「メーリングリストサーバー構築(Postfix+Mailman編)」を導入した時期と重なるのですが、
具体的な問題点と対処方法がわかりません。

お教え頂けませんでしょうか?

尚、警告メールから復旧までの間隔は数分〜数時間となり、
発生時間は特に偏りはございません。
また、警告と復旧メールは両方で日に20通ほど届いております。

お手数ですが宜しくお願い致します。
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/10(Fri) 09:23
名前: とおり
URL:
中身みてみるとプロセス数が250を超えたから、
警告がでてるんでしょう。

解決アプローチは複数あります。
自分だったら、サーバーのリソースを見てそれほど問題がないようでしたら、
250で警告がくるという設定をみなおします。
逆に、サーバーの負荷がかなり高い状態になってる場合は
問題のプロセスを調べてサーバーの増強や攻撃の対処をします。
攻撃ならアクセスできないようにfail2banやらiptablesで遮断。

今回、メーリングリストサーバー構築ということなんで
攻撃でもされてるんじゃないでしょうか?
apacheのログをみて対策するしかないでしょう。

いっそ監視しないというのもありといえばありですけどね。
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/11(Sat) 05:20
名前: stranger
URL: http://ja.528p.com/
runlevel 5 グラフィックブートで起動してませんか
runlevel 5で起動するだけで200プロセス近くなります

プロセス数を調べてみる
ls --color=no -d /proc/* | grep [0-9] | wc -l

ゾンビプロセス(すでに実体は無い)を調べてみる
ps -ef | grep defunct

動いているプロセスを表示してみる
ps axwu

psコマンドで表示される STAT:プロセスの状態
R:稼動中
S:一時停止中
D:停止不可能で一時停止
T:終了処理中
Z:ゾンビプロセス(すでに実体は無い)
W:実メモリ上に無くて,スワップアウトしている
N:nice値
らしいです

プロセスに問題がなければ
nagiosのデフォルト設定を変える
localhostの設定で
check_command check_local_procs!250!400!RSZDT
になってる部分がありませんか
そこの 250 400 の値を変えます

私のひ弱なサーバ runlevel 3 での起動では
apache mysql postfix dovecot proftpdデーモンを起動して
プロセス数は100まで行かない
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/11(Sat) 13:16
名前: かずみ
URL:
stranger 様、とおり 様

アドバイスありがとうございます。本当に助かります。

>runlevel 5 グラフィックブートで起動してませんか
GUIでは利用しておりません。必要がある時はWindows機よりtelnet接続しております。

現在のプロセス数を確認しましたところ「291」となっておりました。
また、ゾンビプロセスと起動しているは下記になります。

[root@server ~]# ls --color=no -d /proc/* | grep [0-9] | wc -l
291
[root@server ~]# ps -ef | grep defunct
root 21479 27948 0 13:01 pts/0 00:00:00 grep defunct
[root@server ~]#

起動プロセスに関しては文字制限によりこちらに貼り付けできませんので、
下記のCubeファイル便にテキストでアップロードさせて頂きました。

https://fileup.cube-soft.jp/?2edefc87811c273da05b413ed90d7add3877402a


>S:一時停止中
起動プロセスの中で同名で一時停止中が殆どをしめておりますが、これらはどういったプロセスになりますでしょうか?
必要なのでしょうか?

ぐぐった所、「ksoftirqd は CPU 毎のカーネルスレッドで、 マシンのソフト割り込み (interrupt) の負荷が高くなったときに実行される。」
migrationは「1 つのストレージ・プールから、ストレージ階層内の次のプールにデータをマイグレーションします。」とありましたが、理解できませんでした。

nagiosの設定については下記を確認しました。変更する場合は「check_local_procs!350!500!RSZDT」ほどで宜しいでしょうか?
ただ、素人目の当方から見てもプロセス起動数が異常に感じるので、根本的な問題解決はできない気がしております。

[root@server ~]# cat /usr/local/nagios/etc/objects/localhost.cfg
check_command check_local_procs!250!400!RSZDT

引き続きアドバイス頂けましたら助かります。
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/11(Sat) 17:20
名前: stranger
URL: http://ja.528p.com/
マルチコアではないですか
マルチコアの場合、
CPUごとにカーネルモードのプロセスが実行されるので
プロセスが多くなります

topコマンドを実行し
fキーを押して
矢印キーで移動し
P = Last Used Cpu (SMP)
にスペースキーで*をつける
qキーまたはESCキーで表示画面に戻ると
行末にLast Used Cpuの番号が表示されます
同名の複数のプロセスが働いていることがわかります
qキーでtopコマンドを終了

nagiosの”しきい”値をどのくらいにするかは各自の判断でお願いします
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/12(Sun) 10:06
名前: かずみ
URL:
stranger 様、お返事ありがとうございます。

CPUは「Intel(R) Core(TM) i7 CPU 870 @ 2.93GHz」ですのでマルチコアになりますね。
マルチコアですとプロセスが増えるのは理解できましたが、過去に警告メールを探してみたところ、
プロセスの警告メールは来ておりませんでした。

御参考にお教え頂きたいのですが、メーリングリスト(Mailman)追加でそんなにプロセス数が上がってしまうものなのですか?
250が閾値となっており、最後のプロセス数の確認では291でしたので、少なくとも41は上がってしまっている計算になります。

因みに前回、外部に保存しましたプロセス一覧に関しては特に問題なさそうな認識で宜しいでしょうか?

取り敢えず、閾値を下記に修正致しました。

< check_command check_local_procs!250!400!RSZDT
---
> check_command check_local_procs!350!500!RSZDT
[root@server ~]# /etc/rc.d/init.d/nagios restart
Running configuration check...done.
Stopping nagios: .done.
Starting nagios: done.

以上、宜しくお願い致します
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/12(Sun) 13:00
名前: stranger
URL: http://ja.528p.com/
Intel(R) Core(TM) i7 CPU 870
4コア8スレッド

いままでが「しきい値」に近かったのではないですか
ps.txtを見ましたが
kernelプロセスだけで185以上ありますよね
apacheユーザのプロセスが15
postfixユーザのプロセスが20
saslのプロセスが5
ログインデバイスmingettyが6
haldのプロセスが4
amavisのプロセスが5
これだけで240

mailmanユーザのプロセスが12

越えてますね

その他
rootで起動してるプロセスが多数
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/13(Mon) 11:59
名前: とおり
URL:
定期的にリソースチェックしてるわけじゃないから
俺らじゃわからん。設定変更して様子見するのがいいでしょう。
そしてこの際サーバーのリソースを可視化するといいんじゃないかな?
お勧めはmunin。5分に一回チェックしてくれますよ。

http://knowledge.sakura.ad.jp/beginner/3669/
記事編集 編集
Re: Nagiosの警告&復旧 このメッセージに返信する
日時: 2016/06/14(Tue) 07:14
名前: かずみ
URL:
stranger 様
ありがとうございました。
修正した閾値で様子を見てみます。
m(__)m

とおり 様
ありがとうございます。
お教え頂きましたツールについても活用してみます。
記事編集 編集
件名※必須
名前※必須
URL
任意のパスワード (投稿後のコメント修正・削除時に使用)
画像認証※必須 投稿キー(画像で表示されている数字を入力)
コメント※必須

※質問を投稿後に自己解決された場合は、原因と行った対処を具体的に書き込み下さるよう、よろしくお願いします。

- WEB PATIO -