« PHP-STATSが重い。。 | メイン | XOOPS ログインできない! »

2005年07月20日

大量クロール制御を考える

[ HP作成関連 ]

暴走して怒られましたが、原因の調査をいただけまして。。どうも Ask Jeeves のクローラーが大量にアクセスしにきたせいで負荷がかかりすぎた為ということでした。

再調査頂きありがとうございます。 m(_'_)m

ロボットの大量アクセスはほとんど想定外のことで。。どうしましょ。
ぱっと思いついたのは「.htaccess」のようなものでアクセス制限を行うことですかね。しかし、完全に拒否してもいいのですが、せっかくキャッシュしに来てくれてるわけですから うまいこと調整できないかなぁ。。ちゅうことで、「robots.txt」で設定してやることに。

「robots.txt」について詳しいことは。。
robots.txtで検索エンジンのロボット(クローラ、スパイダー)対策
Robots.txtで秘密がバレる!?
robots.txtの間違った使い方

で、以下のよな感じで設定してルートに入れておいてみました。

User-Agent: *
Crawl-delay: 10

こうすると、クローラーのアクセス頻度を一定時間で制限できるということです。短時間大量アクセスは少しはコントロールできるかな?

Ask の User-Agent に限定することも考えましたが他のロボットが来る可能性も加味して一応汎用設定に。。「.htaccess」などの設定を無視するといわれていた今は無き(たしか、検索事業撤退)「N○VER」等の様なお行儀の悪いロボットが来ると困るわけですが。。

Askは一応、「クロール頻度の制御」という形で明記していますのでちゃんと従ってくれるでしょう。。たぶん。

投稿者 こてつ : 2005年07月20日 16:28

最近の検索テーマ - 旬?!ワード
outlook  移行  エクスポート  変換  outlook2003  バリカー  mov  アカウント  データ移行  交換  悪性リンパ腫  婚姻届受理証明書  similar  2003  ドアノブ  断り方  mii  悪性リンパ腫とは  wii  楽天  設定  ボラード  迷惑電話  似顔絵  改造 


トラックバック

このエントリーのトラックバックURL:
(このブログへの記事紹介・リンクがない場合トラックバックできません。)

コメント

コメントしてください




保存しますか?


 
copyright (c) 2004-2005 Mercury Plan, Inc. All rights reserved.