« 「あとで読む」でコメントを入力できるようになりました | メイン | IE6 と IE7 を一つのパソコンで共存させる公式な方法 »

2006年11月30日

URL のパラメータに http:// が含まれているものは検索エンジンにインデックスされないんじゃないか あとで読む

SEO的には常識なのかもしれないけど、いろいろ調べてしまったのでメモ。


これだけ盛り上がっているはてなブックマークのページが Google にほとんどインデックスされていない。

⇒ Google検索: site:b.hatena.ne.jp/entry/ の検索結果は たった 数百件 (他:allinurl: b.hatena.ne.jp/entry/

数百件も良く見ると b.hatena.ne.jp/entry/775288 のような短縮形式のものだけになっていたり。

一方、はてなブックマークのキーワードはそんなことはない。

⇒ Google検索: site:b.hatena.ne.jp/keyword/ の検索結果は 96,800件

意図的に b.hatena.ne.jp/entry/http://~ の URL をもつものだけがインデックスされていないみたい。

はてなブックマークの購読者数を表示するパーツを大量に配布していることを考えても、相当数のバックリンクが集まっているはずで やっぱり URL に原因があるのでは、と。


同様の傾向が Yahoo や MSN でも見られるし。


実は、このことを裏付ける(かもしれない)もう一つの現象があります。

例えば次のような URL をクリックしたとすると…

http://b.hatena.ne.jp/entry/http://blog.myrss.jp/hogehoge_foobar.html

ブックマークしようとしている「http://blog.myrss.jp/hogehoge_foobar.html」というページは実際に存在しないので、はてなブックマークの「未ブックマークエントリー」が表示されます。

が、それと同時に、Google Media-Partners (つまりAdSense)から 「http://blog.myrss.jp/hogehoge_foobar.html」にアクセスが来るのです。
※関連エントリ: はてブコメントを見るだけで、そのサイトがGoogleに嫌われているかどうか分かる

恐らく「実質的なコンテンツは b.hatena.ne.jp ではなくて URLにくっついている http://blog.myrss.~ の方にある」と Google が判断しているのでは、と。


Google もさすがに無限にクロールするわけにはいかないので、URL がパラメーターに含まれているものなんかはどんどん弾いてるんでしょうかね。

実は del.icio.us/url/ もほとんどインデックスから外されているので、URL を単純に md5 にしただけではダメみたい。

その辺 Reddit は良く(も悪くも?)研究しているようで、うまくURLを短縮して Google のインデックスを増やしているようです。


・・・なんかスパムサイト作成ノウハウみたいなエントリになってしまった・・・けど、モラルある人ための参考エントリということで。

※Google はデータセンターの移転とかもあって、インデックス数は大幅に増減しているので一過性の情報という可能性もあります。

※検索エンジンはやっぱり賢いので無意味なページ(検索で見つけても嬉しくないページ)や無限ページ製造サイト、2次・3次的な副次生成ページは工夫してもいずれはインデックスの外に追いやられると思います、と書かないといけない気がしたので書いときます。

※はてブを例に出してしまいましたが本質的な議論とはなんら関係ありません。(はてブは検索誘導する必要もないだろうし)

Follow yoski on Twitter

ワード

投稿者 aka : 2006年11月30日 12:31  / 2006年11月 / (~2006) コネタ

トラックバック

人気ブログランキング - a++ My RSS 管理人ブログ

このエントリーのトラックバックURL:
http://210.188.206.194/mt-tb-sf.cgi/519

コメント

コメントしてください

あわせて読みたい




保存しますか?


あとで読む | to read | フレッシュリーダー | フレッシュミーティング | RSSフィード.cc | あわせて読みたい | track feed MyRSS管理人