障害内容

ping監視に失敗することがある

【現象】

  • 複数のNICを備えたサーバの各NICに対し、ping監視を行おうとしたところ、時折リプライが来ないことがある

システム

Red Hat Enterprise Linux AS release 4 Update 4

解析内容

パケットダンプ、ネットワーク設定内容

解析結果

  • ping監視の間隔を、10分から10秒に短くしたところ、再現しなくなったということから、デフォルトルーターに対するARPに問題があるのではないかと推測。通信がある間はARPキャッシュが更新され続けるため問題ないが、通信が途切れてARPキャッシュがエクスパイアした後、サーバが能動的にARP要求を行った場合、何らかの原因でARPリプライが届かず、ping応答が送信できないのではないかと推測。
  • 裏づけのため、パケットダンプを調査。
  • 結果、eth0より、eth1のIPアドレスと、eth0のMACアドレスを送信元とするARPリクエストが出ていることが判明。ルータがARPにうまく答えられなかったと思われる。
  • sysctl変数 net.ipv4.conf.all.arp_announce を1にすることにより解決。