Webサイトを立ち上げると、同じIPから頻繁にアクセスしてくる痕跡がaccess_logに残る場合があるが、これがBOT、クローラーのたぐいのものなのか、悪意を?もったところからなのか、判断に迷う事が多い。
このIPあやしいのかな?
と思った場合の確認法の1例をあげると、GoogleのBOTに限定されてしまうが、
例えば 66.249.64.8があやしいと判断した場合、Linux、CentOS、MACなどのUNIX系OSであればhostコマンドで確認できる。
# host 66.249.64.8
8.64.249.66.in-addr.arpa domain name pointer crawl-66-249-64-8.googlebot.com.
# host crawl-66-249-64-8.googlebot.com
crawl-66-249-64-8.googlebot.com has address 66.249.64.8
#
8.64.249.66.in-addr.arpa domain name pointer crawl-66-249-64-8.googlebot.com.
# host crawl-66-249-64-8.googlebot.com
crawl-66-249-64-8.googlebot.com has address 66.249.64.8
#
今回の66.249.64.8は予測通りGOOGLEのクローラーだったという事だ。
Googlebot が呼び出し元であることを確認するには:
1.ログにアクセスが記録されている IP アドレスについて、host コマンドを使用して DNS リバース ルックアップを実施します。
2.ドメイン名が googlebot.com または google.com であることを確認します。
3.手順 1 で取得したドメイン名で host コマンドを使用して、取得したドメイン名について DNS フォワード ルックアップを実施します。これがログにアクセスが記録されていた元の IP アドレスと同じかどうか確認します。
これ、Googleだけに通用するのかと思ったが、
MicrosoftのBOTの例では、 msnbot-40-77-167-210.search.msn.com. など表示される。
ちなみに、おっさん、クローラーは別の意味で以前から知っている。田んぼのコンバインや、ブルドーザー、戦車のキャタピラの事をクローラーと呼ぶ。なので冒頭にブルドーザーの画像を使用した。
スクロールのクロール、水泳のクロールなども、派生語ではなかろうか!
コメント