・当ブログはアフィリエイト広告を利用しています。

BOT、クローラーの確認方法(1例)

CentOS
この記事は約2分で読めます。
記事内には広告が含まれています。

Webサイトを立ち上げると、同じIPから頻繁にアクセスしてくる痕跡がaccess_logに残る場合があるが、これがBOT、クローラーのたぐいのものなのか、悪意を?もったところからなのか、判断に迷う事が多い。

このIPあやしいのかな?

と思った場合の確認法の1例をあげると、GoogleのBOTに限定されてしまうが、

例えば 66.249.64.8あやしいと判断した場合、Linux、CentOS、MACなどのUNIX系OSであればhostコマンドで確認できる。

# host 66.249.64.8
8.64.249.66.in-addr.arpa domain name pointer crawl-66-249-64-8.googlebot.com.
# host crawl-66-249-64-8.googlebot.com
crawl-66-249-64-8.googlebot.com has address 66.249.64.8
#
今回の66.249.64.8は予測通りGOOGLEのクローラーだったという事だ。
Googlebot が呼び出し元であることを確認するには:

1.ログにアクセスが記録されている IP アドレスについて、host コマンドを使用して DNS リバース ルックアップを実施します。
2.ドメイン名が googlebot.com または google.com であることを確認します。
3.手順 1 で取得したドメイン名で host コマンドを使用して、取得したドメイン名について DNS フォワード ルックアップを実施します。これがログにアクセスが記録されていた元の IP アドレスと同じかどうか確認します。

Google Search Console ヘルプより引用

これ、Googleだけに通用するのかと思ったが、
MicrosoftのBOTの例では、 msnbot-40-77-167-210.search.msn.com. など表示される。

ちなみに、おっさん、クローラーは別の意味で以前から知っている。田んぼのコンバインや、ブルドーザー、戦車のキャタピラの事をクローラーと呼ぶ。なので冒頭にブルドーザーの画像を使用した。

スクロールクロール水泳クロールなども、派生語ではなかろうか!

 

コメント

タイトルとURLをコピーしました