« 2005年08月 | メイン | 2005年10月 »
2005年09月29日
Yahooのインデックス200億ページ?
前のエントリー「rel="nofollow" の検証。。悩ます」を書いていてふと思った。。
少し前。。といっても1ヶ月ぐらい前だったかYahoo!の検索インデックス数が200億ページを超え、Googleの80億ページを大幅に凌いだとの発表があった記事を読んだ記憶がある。。
総ページ数のことについてGoogleでもちょっとした動きがあったようです。
Google のインデックス数が消えた
話を戻します。。Yahoo!のインデックスって、リンクをたどってページを(内容とかまで)キャッシュしたインデックスではなく、ページ内に存在するURLを「ガーッ」っと集めた中身の無いインデックスぢゃないのか??という疑問が出てきたりなんかしたわけです。
容量のないURLだけのキャッシュを見るとなんか疑っちゃいます。。
そうなると、キャッシュしたページ数はかぁーんたんに膨らますことは出来るが、200億ページのうちの一部(どれくらいかは、はてな)は中身は無いことになりゃせんかい??
ページ数だけ一気に増やしてそれぞれのページクロール&中身のキャッシュは徐々にしていくのではないかなぁ??
クロールするためのURLのリスト(それもかなり強引な集め方のモノも含め)さえページキャッシュだと言い張っているのではないか??
普通の検索結果にはほとんど出てこない。。URL直打ちの検索なら出てくる。。
なんとなくの勝手な予想です。まぁ、クロールの仕方とすれば順繰りにたどってクロール&キャッシュしますなんてことは言っていないわけだから、ロボットの種類というか性能というか動き方によってはこういう方式のほうが効率がいいのかもしれない。。ってかそれが普通なのかもしれないが(Google Sitemapsなんかのことを考えると。。)
また、勝手な予想と疑問だから200億ページのキャッシュに「容量のないURLだけのキャッシュページ」も含まれているかどうかも分からない。
しかし、少なくともそういう方式でのクロール&キャッシュだと前のエントリーでも書いたようにページ中のMETAタグを無視した状態でキャッシュすることもありうることになってしまう。
まぁ、どちらにしても総ページ数ではなく(だけではなく?かな)検索結果の質で争っていただけたらと思う。。自分のサイトが上のほうに来ればなおウレシ(爆。。
投稿者 こてつ : 17:43 | コメント (0) | トラックバック | SEO?! 関連
rel="nofollow" の検証。。悩ます
ある程度、放置状態だった「rel="nofollow" の検証」。ある程度、各検索エンジンは当然のように表明通りの動きをしているようで、「なるほどなるほど」という感じだったのですが、均衡を破られてしまいました。
2005/09/29 07:07:12
lj2371.inktomisearch.com
68.142.250.181
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
YAHOO!のロボットが来ちゃいましたよ。。?? 訳分からなくなるぢゃないか!!
なんてことしてくれるんだい!!
今のところ自分で検証用に作ったページからのみのリンクでリンクタグに「rel="nofollow"」を入れているわけですが、他の方がそこに向けてリンクを貼る訳でもないでしょうし。。
そうすると、「rel="nofollow"」があっても、リンクをたどってきたとしか考えようが無いわけで。。謎になってしまいました。
さらに謎なのは。。ロボットを確認するだけのページですので「noindex」にしているわけですが、YAHOO!にキャッシュされている。。7月16日付けで。。そんな日にアクセスされたログは残ってない。。キャッシュされているが 「0k(ゼロキロバイト)」 容量なし。。実際は3KB弱。なぞなぞ。。
「リンクをたどっていくことはしないけどリンクタグに書いてあるURLはキャッシュするよ」。。ってことだろうか??キャッシュされたURLには折を見て別途直接ロボット行きますみたいな。。そんな感じなのだろうか?
うぅ~ん。。訳分からん。
調べてみましたが、ロボットのアクセスを確認する為の「*.shtml」ファイルのうちのいくつかが同じように「noindex」にもかかわらず 同日 2005年7月16日 付け 「0k(ゼロキロバイト)」 容量無し(実際は3KB弱)でキャッシュされています。。
ページのMETAタグ(下記)を無視しているわけではないのではないか?また、METAの読み込み失敗とかでもないのではないか?。。
<meta name="robots" content="noindex,follow">
つまり、ページを読みに来てキャッシュしたわけではなく、どこかのページのリンクタグのみでURLをキャッシュしたため容量がゼロでMETAなんかは見てさえいないのだと考えると筋が通るように思う。
謎だぞ!やほお。。
投稿者 こてつ : 16:38 | コメント (0) | トラックバック | SEO?! 関連
2005年09月26日
検索結果のユーザーレベルでのカスタマイズ
スパムサイトを検索結果画面から削除 - 登録ユーザーのカスタマイズをテスト中
こちらのエントリーを拝見した。googleで登録ユーザー向けには検索結果に現れるうちの不要ページを削除する機能のテストを行っている。。らしい。たしか米YAHOO!でも同じような機能があった。
米YAHOO!のものを、しっかり使いこなしたり、機能について詳細を確認したわけではないので概略です。
検索結果のうちのチェック要なサイトについて、必要なものとしてあるいは「Shared」共有される?ものとしてブックマークのようにされたり、不要なものとして「Blocked」することが出来るようです。ブロックしたサイトは検索結果から除外されましたので、上記で読んだgoogleのものと同じような機能だと思います。
但し、除外についてのハバ。。「1キーワードのみについて該当ページを」なのか「すべてのキーワードについて該当ページを」なのか「ドメインごとあるいは下層ページすべて」なのかは調べていません。。
この行動がGoogleに送信されるようになったら、一定数の得票を得たスパムサイトは、消去されるかもしれないが…
これは個人的には??です。やろうと思えばgoogle爆弾のような形で悪戯や嫌がらせのようなことも可能になってしまいかねないように思うのですがどうでしょう??。。登録ユーザーがグッドユーザーばかりであれば一つの削除指標にすることも可能でしょうが。。キーワードによってユーザー数、需要も供給もまたいろんな意味でのレベルもちがうわけですから「一定数」をどこに持ってくるのか難しい。。まぁ当然固定「一定数」ではなく各々いろんな条件加味した「ライン」になるのでしょうが、「ライン」設定大変じゃないでしょうか?そこにエネルギーを注ぐならストレートにgoogleサイドで検索結果調整すれば良いように思うわけです。。そういっても「餅は餅屋」とか「蛇の道は蛇」とかいいますが。。。
ただ、検索エンジンがこのような動きをしていることは確かなことです。
ユーザーが必要なサイト不要なサイトをいくつか登録しておくことによってそれに応じた検索結果を返す。。使用ユーザーレベルで異なる検索結果を表示することが出来るような「ファジー(。。死語だな)」な検索エンジンになっていくのでしょうか?ある程度見る目がある、判断できるユーザーは検索結果をカスタマイズできるようになっていくのかもしれません。。?!
投稿者 こてつ : 10:10 | コメント (0) | トラックバック | SEO?! 関連
2005年09月15日
Google Maps にリンク
結構、ログをみていると治療施設を探している方が多いように思う腰痛やヘルニア関連。
「腰椎椎間板ヘルニアになっちゃいました」の体験談だけではなく、各都道府県の医療機関リンクをつくって訪問者の流れをつくってみることにしよう!
と思い立って作っていた「Hernia Links」。
各機関の所在地も記入していたが、なんか全部記入するのは長いような気がしていて○丁目○番地○号あたりは省いていた(これが後で大変後悔。。)
別のところで、
「Google、検索結果に地図へのリンクを表示」
という記事を見て、あぁ。。地図にリンクをしておけば使い勝手いいんちゃう?って思いつくの遅せぇ。。
ということで、管理者コメントで記入していた住所にリンクを作るようシステム改造した。
ココからは、おもいっきり自分の覚え書き♪
template/kt.html と template/search.html
if($Slog[7]){
print<<"<!--HTML-->";
<tr>
<td width="3"></td>
<td colspan="2"><font id="kanri">$Slog[7]</font></td>
</tr>
<!--HTML-->
#<!--(↓修正不可↓)
}
if($Slog[7]){
print<<"<!--HTML-->";
<tr>
<td width="3"></td>
<td colspan="2"><font id="kanri"><IMG src="$EST{home}img/map.gif" width="36" height="13" border="0" align="left" alt="$Slog[1]_地図">
<!--HTML-->
@map=split(/¥/,$Slog[7]);
foreach(@map){
{local($encomap=$_);
$encomap=~s/(\W)/'%' . unpack('H2',$1)/eg;
}
if(length($_) > 6){
print "<<a href=\"http://maps.google.co.jp/maps?ie=SJIS&q=$encomap\" target=\"_blank\" rel=\"nofollow\">";
print $_;
print "</a>>";
}
else{
print $_;
}
}
print<<"<!--HTML-->";
</font></td>
</tr>
<!--HTML-->
#<!--(↓修正不可↓)
}
regist_ys.cgi
$PR_data=<<"EOM";
<div class="sub_bar">[登録データ]</div>
<table width="336" summary="$Tlog[1] サイト情報"><tr><td>
■タイトル:<br><a href="$Tlog[2]"><strong><b>$Tlog[1]</b></strong></a><br>
■URL:<br><a href="$Tlog[2]"><font size="1" color="#008000" style="text-decoration:none" title="$Tlog[1]">$Tlog[2]</font></a><br>
■紹介文:<br>$Tlog[6]
<br><br>$Tlog[7]
</td></tr>
</table>
EOM
if($Tlog[7]){
@map=split(/¥/,$Tlog[7]);
foreach(@map){
{local($encomap=$_);
$encomap=~s/(\W)/'%' . unpack('H2',$1)/eg;
}
if(length($_) > 6){
$map_data=$map_data."<br><<a href=\"http://maps.google.co.jp/maps?ie=SJIS&q=$encomap\" target=\"_blank\" rel=\"nofollow\">".$_."</a>>";
}
else{
$map_data=$map_data.$_;
}
}
$map_data="<IMG src=\"$EST{home}img/map.gif\" width=\"36\" height=\"13\" border=\"0\" align=\"left\" alt=\"$Tlog[1]_地図\">".$map_data;
}
$PR_data=<<"EOM";
<div class="sub_bar">[登録データ]</div>
<table width="336" summary="$Tlog[1] サイト情報"><tr><td>
■タイトル:<br><a href="$Tlog[2]"><strong><b>$Tlog[1]</b></strong></a><br>
■URL:<br><a href="$Tlog[2]"><font size="1" color="#008000" style="text-decoration:none" title="$Tlog[1]">$Tlog[2]</font></a><br>
■紹介文:<br>$Tlog[6]
<br>$map_data<br><br>
</td></tr>
</table>
EOM
という感じ。。まぁ、わかんない人には全然わかんないな。。っと。
最初に書いたが、住所は最初から全部記入しとけばよかった。。二度手間だ。。
投稿者 こてつ : 21:31 | コメント (0) | トラックバック | Yomi-Search 関連
YAHOO!天気予報。。晴れ
「検索エンジン考」さんのところの「狼少年の無責任天気予報」
9月14日にはYSTのSERPsに変動がある。。
これをかなり期待していました。
それは、「inktomi系 大敗中。。」だったからです。
まぁ、単なるただの期待ではなく ある程度順位回復の自信はありました。
「同一ドメインからの同一アンカーテキストによる大量リンク」がペナルティーになるという噂ですがこれは、これが本当なら競合サイトを陥れることも可能といえば可能。ですから、あってもプラスマイナスゼロくらいかなぁなんて。。
ということで、感じ的には定説ではおこらないとされているが、ドメイン変更なしのサーバの移転のみでも順位転落はありえるのじゃないかなぁ。。なんて。キャッシュにDNSまで反映しているのか??ミラーサイトペナルティーを考えるともしかしたらありえるかも。。どうかな??
ということで、キャッシュがあたらしいDNSのものにほとんど入れ替わる頃には順位の復活が見込めるかなと思っていた。まぁ、BETA版移行の最中だったのでそれが影響した暴落だったのかもしれない。。ハテナだった。
で、うれしいことに天気予報はほぼ当たり!変動があって順位がぼちぼち戻ってきている。
いくつかのキーワードで。。
28位 → 1位
29位 → 1位
50位ランク外 → 1位
50位ランク外 → 4位
50位ランク外 → 5位
50位ランク外 → 6位
50位ランク外 → 6位
50位ランク外 → 12位
まぁ、暴落前はどれも1~3位くらいにあったものですから完全に満足ではないですが、良くぞ戻ってきてくれたってところでしょうか。この調子で順位が復活すれば、BETA版へ移行してもそうアクセス減少はしないかな。。
投稿者 こてつ : 20:54 | コメント (0) | トラックバック | SEO?! 関連
2005年09月12日
胡散臭いのは。。
「胡散臭い」検索で亀井静香、KIRIN 極生・生黒が
「胡散臭い」と検索すると…亀井氏トップ
こんな記事を読んだ。google爆弾のYAHOO!版だ。
YAHOO!検索で「胡散臭い」と検索すると、国民新党・亀井静香氏の公式ウェブサイトとキリンビール極生・生黒が1位、2位に表示されるらしい。。試してみた。
9月12日現在、まだその結果が表示されました。

まぁ、なんとなく政治家の大半は胡散臭いと思っている。が、こういった標的対称になってしまうとはなんともご愁傷様とでも言っておこう。今回の選挙では一応、刺客「ホリエモン」こと堀江貴文氏を下したが楽勝ムードでは決して無かったな。。怪しい(W まぁ、それはさておき。。
YAHOO!は問題視しており、削除する方針を明らかにしている。。らしい。へぇ、やっぱりそういうことは出来る。。やってるんだね。
YAHOO!のヘルプより。
なお、公平なサービスを提供するため、[Yahoo!カテゴリとの一致]や[Yahoo!登録サイトとの一致][ページとの一致]の各セクションにおいて、表示順を故意に変更するなどの操作は、有料・無料にかかわらず一切行っておりません。
。。ふぅ~ん。一番胡散臭いのは YAHOO! だな、たぶん(W
うさんくさい 【胡散臭い】
見た様子がなんとなく怪しくて油断できない。疑わしい。
「得体の知れぬ胡散臭い人物」
投稿者 こてつ : 10:10 | コメント (0) | トラックバック | とりとめなく
2005年09月05日
怪しいロボット弾き
ふと、アクセスログを見ているとなんか怒涛にアクセスしてきているリファラのない「JavaScript OFF」なやつがいる。。何だコイツ?!ロボットか??
ユーザエージェントをみると。。
OmniExplorer_Bot/3.95 (+http://www.omni-explorer.com) WorldIndexer
IPアドレスは 65.19.150.229
。。Bot。。おめぇ絨毯爆撃系ロボットだろ!
ほんの数分の間に結構なアクセスをかけてきている。。いっかぁ~ん!調べてみましたが、素性もよう分からん怪しいやつ。弾きだ!弾き!!
大量アクセスの原因判明、「OmniExplorer_Bot」!こいつはアクセス禁止推奨です。
馬鹿ロボット OmniExplorer_Bot (www.omni-explorer.com/) をキック。
♪01.今日のくそボット
いくつかのサイトで出入り禁止になってるヤツのようです。ちゅう訳でうちにも来んなぁ!
.htaccess に一行追加しました
SetEnvIf User-Agent "OmniExplorer_Bot/" BadRobot
投稿者 こてつ : 23:22 | コメント (0) | トラックバック | SEO?! 関連
My Yahoo! - RSSリーダー正式版
My Yahoo! - RSSリーダーがBETA版からいつの間にか正式版になっていました。
米YAHOO!は未だBETAのようですから日の方が早かったようですね。
検索フォームがちゃんとTOPに来たままになるようになったのが数日前ですから、そのときが正式版になったときでしょう。
自分的にはよく行くサイトの新着情報を得る為のRSSではなくて自サイトをクロールしてくれないかなぁ。。なんてあわよくばの淡い期待をこめて、自サイトの情報をRSSリーダー登録しています。。効果の程は。。不明です。
米YAHOO!のMy Web BETAにも登録?保存?してみたりしています。
My Web BETA - Yahoo!
まぁ、キャッシュするのは結構早いと思うブログなんかもあるのですが、いかんせん検索順位に不満があるんだようぅ!
inktomi系 大敗中。。
数日前から自サイトのほとんどでインデックス数の激変を確認。。しかも激減。。がっくし。
これは、検索結果変動の前触れだろうか。。元の検索結果!カムバーック!!