ロボット対策に関するメモ (2003/03/27)
ホームページを開設していると、色々なお客さんが尋ねてくるわけでして。たまぁ〜〜にぃ(ほんとに)、Webのログなんかを見ていると、だれ?これ?へんな "User Agent" は! ってな感じに陥るときがあるんですよ、特に大手の大きい検索サイトから訪問あったり、韓国の妙ぉ〜(nabot)な検索サイトからだったりして、まあ好き勝手やっているなーって思う、桜咲く時期に思う私でありました。(感慨深い1日なのだ)
あ。前置きというか長かったですね、えーっと”ロボット”というのは、検索サイトで情報を検索する元ネタを収集するプログラムの事を指していて、ディレクトリ検索ロボットとか、全文検索検索ロボットとか、ようは人のサイトをぶっこぬくって事なんですよ。でも、そのロボットには、一応(本当に一応なんだよね)紳士協定としてロボットを動作させるための条件が書いてある場合には、それを読み込み従うというのがルールなのだが、中にはカンケーネーよ! なんて強気の所もあり、こーいった輩は皆から嫌われているのが実情です。
本家? : Robot Exclusion Standard Revisited
参考 : ロボット対策
参考 : robots.txt とは?
参考 : Webサイトの情報を追跡せよ
公開しているホームページのトップディレクトリに robots.txt を設置します。書き方について後記しますが、設置されていない場合は、下記のエラーメッセージが大量に出ます。404 の大量のエラーは、これだったらしい。
218.145.25.12 - - [17/Feb/2003:03:44:05 +0900] "GET /robots.txt HTTP/1.0" 404 1256 "-" "dloader(NaverRobot)/1.0"
書式ですけど書き方に若干癖があるようで、はまる場合もあるそーな♪ A Standard for Robot Exclusion
・"Disallow:" のあと空白行をあけること
・一番最後のDisallow: のあとにも空白行をあけること
(最終行は、空行であること)こんな風に書くらしい
User-Agent: fast
Disallow: /
User-agent: DiaGem
Disallow: /
User-agent: *
Disallow: /analog/
Disallow: /mrtg/
Disallow: /namazu/
Disallow: /webalizer/
Disallow: /snortsnart/
← 空行
検索ロボットは、自分のホームページを宣伝してくれる効果もあるんで無下にしても可哀相なんですが、あまり行儀が悪いと嫌になっちゃいますね。したのサイトは、ロボット君との戦いをしているサイトなんで見てみるのも面白いかも〜〜。私は勉強になり、いつも訪れてます。
ロボット君やぁぁ〜〜いぃ
参考 : robotはぢきについて
参考 : 望月明夜の日々(フィクション)