このサイトは、2011年6月まで http://wiredvision.jp/ で公開されていたWIRED VISIONのコンテンツをアーカイブとして公開しているサイトです。

関裕司の「サーチ・リテラシー」

検索の鉄人が、サーチの周辺事情とユニークなウェブビジネスを読み解く。

Googleの新サービスを予測するちょっぴり趣味の悪い方法

2007年9月13日

次々と新しいサービスをリリースするGoogleにはいつも驚かされてしまう。つい先日もGoogle Earth がバージョンアップして Earth どころか sky という機能で宇宙の隅々まで見られるようになってしまった。「フライトシミュレータ」なんていうイースターエッグまで隠されていたしね。次はどんなサービスを出すんだろうかと、いつもワクワクさせられる。

そんなGoogleの新サービスを、リリース前に察知する方法がある。確実じゃないけどね。それは「robots.txt」の観察だ。robots.txt はサーチエンジンのクローラーの振る舞いを制御するための簡単なテキストファイルである。正しい書式に則って設置しておけば、特定のファイルやフォルダ内をクロールできないように、クローラーにお願いすることが可能なのだ。サーチエンジンの検索結果に、こんなページやデータが出てしまったら格好悪いよね、といったときに設置するといいだろう。そして、Google本体にもこの robots.txt が設置してある。これを覗き見するのは別に違反行為ではないので、ちょっと見てみようか。

http://www.google.com/robots.txt

最初の行に「User-agent: *」とあるのは、「すべてのクローラーにお願いします」という呪文。「Allow:」はクロールを許可するファイルやフォルダ、「Disallow:」はクロールを禁止しているファイルやフォルダだ。Googleの robots.txt を見ると、あらゆるサービス名のフォルダを「クロールしないでね」とお願いしていることがわかる。

例えば「Disallow: /search」というのは、Googleの検索結果のページをすべてクロール禁止にしているという意味。何かを検索していてその結果をクリックしたら、別のサーチエンジンの検索結果が開いた、という経験はないだろうか。数年前ほどでもないけれど、今でもよくブログサーチや特定のバーチカルサーチ系の検索結果のページがウェブサーチの検索結果の中に紛れ込んでくることがある。ユーザ体験としてはかなりのがっかり感だ。少なくともGoogleの検索結果ページは出さないように、「Disallow: /search」としているのだろう。

さて、あらゆるサービス名のフォルダを Disallow しているということは、この robots.txt を毎度毎度観察して、もし「Disallow:」の行が増えていたら、新サービスの準備中という可能性があるわけ。私がこれまで観察したところでは、「Disallow:」の行が増える場合は一番下に追加されるようだ。でも確実にその変化をとらえるなら、robots.txt を更新チェッカーとかアンテナに登録して自動チェックさせ、変化があったら予めローカルに保存しておいた robots.txt と差分をとってみよう。うん、なんて趣味が悪い。これではまるでストーカーだね。

正直に告白しよう。これまで私はこの方法で、Googleの新サービスを察知した経験は一度もない。だってこんなことをしているよりは別のことをしていた方が有意義だからね。

フィードを登録する

次の記事

関裕司の「サーチ・リテラシー」

プロフィール

1963年生まれ。「検索の鉄人コンテスト」で優勝。40歳を過ぎて「ヤフー ジャパン」に転職。サーファー部の部長としてヤフー検索の精度向上の業務を日米共同で行う。現在はフリーで活動中。

過去の記事

月間アーカイブ