グーグルの2007年内部文書レビュー第二回:スパム定義の概要

グーグルの2007年内部文書レビュー第二回:スパム定義の概要

この記事ではGoogleのQuality Raters用の文書の後半、スパムについて書かれた部分を見ていきます。

まず最初にスパムの定義が書かれています。

「Webspam is the term for web pages that are designed by webmasters to trick search engine robots and direct traffic to their websites. 」(General Guidelines Version2.1、P32)
( 直訳:ウェブスパムとは検索エンジンロボットを騙して、自身のウェブサイトにトラフィックを集めるウェブページのことである。 )

「A page should receive a Spam label if it is created using deceptive techniques – no matter what query it is associated with. It is possible for a page to receive a very high rating – even a Vital rating – and also be assigned a Spam label.」(P32)
( 直訳:ロボットを欺くようなテクニックを使っているウェブページはスパムのレッテルを貼られるべきで、これはどんな検索結果に表示されるウェブページであっても例外ではない。つまり、ある検索結果で非常に高い評価を得ているページでも、スパムのレッテルは貼られる。これは Vital (絶対になくてはならないページ)と評価されたページでも同じである。 )

この「Vital」(読みはヴァイタル) という言葉は実はこの文書の前半部分に出てくる言葉で、Quality Raterが検索キーワードと検索結果のサイトの関連性を照らし合わせ、各サイトを評価するときに使う言葉です。Vital は最高評価を表します。

Vital の後にはUseful (価値あり)、Relevant (関連性あり)、Not Relevant (関連性は若干あるが、検索者の意図からは外れている)、Off-topic (関連性セロ)、Didn’t Load (表示されない)とつづきます。

Vitalという単語の意味は「生命維持に必要な、死活の」で、この場合は特定のキーワードの検索結果として「絶対になくてはならないページ」を意味します。

この文書では、「yahoo」というキーワードに対する、yahooのホームページ、
また、「Hillary Clinton」というキーワードに対する、ヒラリークリントンさんの公式ホームページが「Vital」の例として挙げられています。(P5)

ヒラリーさんの公式ページは絶対になくてはならないので「Vital」、
ヒラリーさんのファンサイトや、ヒラリーさんの政策を論じているようなサイトは絶対になくてはいけないわけではないので、「Useful」とか 「Relevant」と評価されるわけです。

要するに、どんなに検索キーワードと関連性の高いウェブサイト(ウェブページ)であっても(それがヒラリークリントンの公式サイトであったとしても)、検索エンジンロボットを欺くような行為はスパムページ扱いとなるということが、はっきりと述べられているわけです。

では、「検索エンジンロボットを欺く行為」とはどんな行為だと、グーグルは言っているのか?

この核心部分を次の記事で書きます。

参考資料
「General Guidelines Version2.1 (April 6, 2007)」(作者不明、一般的にグーグルの内部閲覧用文書と認識され ” “Google Spam Recognition Guide for Quality Rater” と呼ばれている文書で、2008年3月中旬、beu blog にて紹介されその後インターネット上に出回る。2008/3/17 現在、beu blog でのこの文書のダウンロードリンクは削除されている。)

この記事をつぶやく! (*゚▽゚)ノ”

Posted 2008-03-18 (Tue) 7:22  Updated 2008-12-08 (Mon) 5:48
Category: Google 内部文書レビュー   Tag: , , ,

Comments

  1. anishio says:

    すごい資料ですね。
    私英語全然ダメなんで、詳しく説明してくれるとすごく助かります。
    スパムの定義、楽しみです。


Comment Closed




グーグルの2007年内部文書レビュー第一回:概要 »
« グーグルの2007年内部文書レビュー第三回:スパム定義の詳細