インフラの運用(監視とモニタリング)

外形監視(ユーザから見えている状態)

 ・応答時間(3~5秒)

 ・HTTPステータス(400番以上はエラー)

 ・HTTPキーワード(ページの末尾に含まれるキーワード)

  途中でデータが途切れたことを検知するため

 

デーモン監視

 ・プロセスの死活

 ・接続可否

  接続数超過など

 ・ステータス

  デーモン自体が管理している状態。例えばスレーブサーバの状態など

 ・応答時間

リソース監視

 ・CPU使用率:恒常的に90%/コア以下か

 ・Load Average:Load Averageの値がコア数以上か

  実行中、実行待ちのプロセス数、スレッド数を計算したもの。なお、CPUコア数を超える処理待ちが出ていても必ずしもサーバ全体の応答時間の低下を意味するものではない。

 ・スワップメモリ:使用量が50%を超えていないか

  メモリは大きく、プログラム利用領域、バッファ、キャッシュの3つの流域が確保されている。Linuxは、メモリに空きがあればバッファ、キャッシュへ割り当てパフォーマンスを向上させている。プログラム利用領域で足りない状況になれば先の2つから解放して回収する。そのうえでメモリが足りない場合はスワップが発生し、スワップファイルにメモリデータが移動する。

 ・ストレージ:空き容量が20%以上か

死活監視