インフラの運用(監視とモニタリング)
外形監視(ユーザから見えている状態)
・応答時間(3~5秒)
・HTTPステータス(400番以上はエラー)
・HTTPキーワード(ページの末尾に含まれるキーワード)
途中でデータが途切れたことを検知するため
デーモン監視
・プロセスの死活
・接続可否
接続数超過など
・ステータス
デーモン自体が管理している状態。例えばスレーブサーバの状態など
・応答時間
リソース監視
・CPU使用率:恒常的に90%/コア以下か
・Load Average:Load Averageの値がコア数以上か
実行中、実行待ちのプロセス数、スレッド数を計算したもの。なお、CPUコア数を超える処理待ちが出ていても必ずしもサーバ全体の応答時間の低下を意味するものではない。
・スワップメモリ:使用量が50%を超えていないか
メモリは大きく、プログラム利用領域、バッファ、キャッシュの3つの流域が確保されている。Linuxは、メモリに空きがあればバッファ、キャッシュへ割り当てパフォーマンスを向上させている。プログラム利用領域で足りない状況になれば先の2つから解放して回収する。そのうえでメモリが足りない場合はスワップが発生し、スワップファイルにメモリデータが移動する。
・ストレージ:空き容量が20%以上か
死活監視