« スパムサイト作成講座13 - 一万PV/日を超えた | メイン | スパムサイト作成講座15 - Yahoo! に嫌われた »

2007年02月20日

スパムサイト作成講座14 - Google にサイトマップを送信する あとで読む

Google は ウェブマスターツール というすばらしいものを提供しているので、こちらを使って検索エンジンにサイトがどのように登録されているかを確認してみる。


このウェブマスターツールを使っても検索順位には影響がない。Google がそう宣言しているし実際にその通りだろう。

しかし、いくつかメリットもあるので実際に試して損ということは無いと思う。


さて、このツールを使うと検索キーワードなどの統計値を閲覧することができる。

こんな感じ。

spam-2007022001.gif

これだけでもかなり興味深いデータではあるが、実際には「サイトマップを送信せずしてウェブマスターツールを利用する価値は無い」と断言する。

ということで、サイトマップを作成してみた⇒sitemap.php(注:DLに数分かかるときがあります)

サイトマップの作成というと、なんだか面倒だなぁ、と思うかも知れないが実際は全然大したことはない。

次のようなフォーマットでファイルを一つ用意するだけだ。

  <?xml version="1.0" encoding="UTF-8"?>
  <urlset xmlns="http://www.google.com/schemas/sitemap/0.84">
   <url>
    <loc>http://www.example.com/</loc>
    <lastmod>2005-01-01</lastmod>
    <changefreq>monthly</changefreq>
    <priority>0.8</priority>
   </url>  

  </urlset> 

url というアイテムをフラットに追加していけばいい。
このファイルでは、階層構造を考える必要もないしページのタイトルなどを送信する必要もない。

単にサイトに含まれる URL をただただ羅列し、それらを url や loc というタグで囲むだけのことである。実作業的には CSV ファイルを作るのと大差ない。
※サイトマップをグループ化して送信することも可能。


さて、スパムサイトではこのサイトマップでもちょっとしたポイントがある。

それは、一般サイトが「最新の情報を Google にクロールしてもらう」ためにサイトマップを送信するのに対し、スパムサイトは「できるだけ多くの新規ページを Google にクロールしてもらう(見つけてもらう)」ためにサイトマップを送信するという点だ。


上記 XML のフォーマットを見ると、changefreq 、 priority 、lastmod という項目がある。

スパムサイトでは、サイトが常にフレッシュな状態で検索結果に表示されるかどうかなどはどうでもいいわけで、上記の changefreq を monthly や never に設定し、一度クロールしてくれたページは長期間変更しないよと宣言しておいても良いのではないかと考えている(ま、実際過去コンテンツはキャッシュ化しててほぼ更新されないのでその通りなんだけど)。

そして、内部リンクの密度をあげるために存在するページ(カテゴリページや日付別インデックスページなど)は priority を極端に下げ、検索結果で拾って欲しいページについては priority を上げておく。

ちなみにpriority については次のように記載されている。

この情報を使用してご自身のサイトの URL の中から重要なページを検索インデックスに優先的に登録することができます。


そして、新規追加ページは鳥のヒナが親鳥に餌をねだるように lastmod の値を「現在」に調整しておく。

lastmod については次のように記載されている。

この最終更新日のタイムスタンプを提供すると、検索エンジンのクローラでインデックスにある特定のサイトマップのみをクロールできるようになります。たとえば、特定の日付以降に更新されたサイトマップのみがクロールされます。このようにサイトマップを段階的にクロールすることで、大規模なサイトでも新しい URL を迅速に見つけることができます

これらの設定によって、新規ページのクロール率が高まる可能性があるのではないかと思う。
※本影響については現在も引続き実験中なので、結果を保証するものではありません。。。実証データに乏しいので・・・ただ、ある別の方面では多大な威力を発揮しているので、それについては今度書きますw

なお、最後にページのクロール率を定期的に監視し、毎日のページ増加速度がクロールされたページ数を大幅に超えるようなことにならないように調整するのが良いであろう。
簡単な調整方法としては、人間が閲覧したときは履歴を保存せずページ増加に含めない いや、このあたりはまたおいおい。

spam-2007022002.gif

サイトがある程度のレベルに達するとクロール速度の調整も行えるようになるので、そちらのオプションが有効になるかどうかも定期的にチェックしておこう。

さて、次回からそろそろ外部リンクの獲得に乗り出そうかと思う。かなりどきどきするけど。


※本エントリはスパムサイトをネタにしたSEO講座です・・・いい意味で。⇒序章を参照

投稿者 aka : 2007年02月20日 12:01  / 2007年02月 / SEO (スパムサイト講座)

トラックバック

人気ブログランキング - a++ My RSS 管理人ブログ

このエントリーのトラックバックURL:
http://133.242.136.64/mt-tb-sf.cgi/573

コメント

とても、便利、ためになった。

投稿者 nobo : 日時 2007年02月21日 11:42

いつも参考にさせて頂いています。とっても興味深い投稿記事が多くて私のような素人には、ありがたい限りです!

上記の投稿記事は、本当に興味深いのですが、私には Google Analytics と Google ウェブマスターツールの違いが良く解りません・・・もっと勉強しなくてはなりませんね・・・

投稿者 Zero Cool : 日時 2007年02月25日 11:52

はじめまして。

webプログラマをしておりますが、この講座をみつけて熟読させていただいてます。

たいへん面白いので、私も暇を見つけてただいま実験サイトを作成中です。

グーグルサイトマップについてですが、
mod_rewriteで静的URLにした場合はサイトマップに静的URLを書くのでしょうか・・・。

投稿者 jigen : 日時 2007年04月10日 07:53

こんにちは

Google サイトマップには外部に公開している URL を登録してくださいね。
つまり静的URLです。

旧URLは外部に知られないように注意しましょう。
(似たページとして一方が消えます・・どちらが消えるかわからないので・・・)

投稿者 aka : 日時 2007年04月10日 14:24

こんにちは。

すばやい返信ありがとうございます。

旧URLは外部に知れたらいけないのですか・・・

教えてもらわなければ、がっつり旧URLでサイトマップ送信するところでした。

作成中のサイトはまだローカルで思考錯誤中なので、まだ先の話なのですけど。

この講座では公開してから段階的にサイトを育てているようです(公開後に静的URLに変えてる印象)が、講座の説明順番の問題なのですか?

講座9あたりまで作成して公開してみようかなと思ってるのです。

バックリンクの話読みました。なるほどですね。
この先期待しています。(ぷれっしゃー)

投稿者 jigen : 日時 2007年04月10日 21:24

コメントしてください

あわせて読みたい




保存しますか?