Googleの新サービスを予測するちょっぴり趣味の悪い方法
2007年9月13日
次々と新しいサービスをリリースするGoogleにはいつも驚かされてしまう。つい先日もGoogle Earth がバージョンアップして Earth どころか sky という機能で宇宙の隅々まで見られるようになってしまった。「フライトシミュレータ」なんていうイースターエッグまで隠されていたしね。次はどんなサービスを出すんだろうかと、いつもワクワクさせられる。
そんなGoogleの新サービスを、リリース前に察知する方法がある。確実じゃないけどね。それは「robots.txt」の観察だ。robots.txt はサーチエンジンのクローラーの振る舞いを制御するための簡単なテキストファイルである。正しい書式に則って設置しておけば、特定のファイルやフォルダ内をクロールできないように、クローラーにお願いすることが可能なのだ。サーチエンジンの検索結果に、こんなページやデータが出てしまったら格好悪いよね、といったときに設置するといいだろう。そして、Google本体にもこの robots.txt が設置してある。これを覗き見するのは別に違反行為ではないので、ちょっと見てみようか。
http://www.google.com/robots.txt
最初の行に「User-agent: *」とあるのは、「すべてのクローラーにお願いします」という呪文。「Allow:」はクロールを許可するファイルやフォルダ、「Disallow:」はクロールを禁止しているファイルやフォルダだ。Googleの robots.txt を見ると、あらゆるサービス名のフォルダを「クロールしないでね」とお願いしていることがわかる。
例えば「Disallow: /search」というのは、Googleの検索結果のページをすべてクロール禁止にしているという意味。何かを検索していてその結果をクリックしたら、別のサーチエンジンの検索結果が開いた、という経験はないだろうか。数年前ほどでもないけれど、今でもよくブログサーチや特定のバーチカルサーチ系の検索結果のページがウェブサーチの検索結果の中に紛れ込んでくることがある。ユーザ体験としてはかなりのがっかり感だ。少なくともGoogleの検索結果ページは出さないように、「Disallow: /search」としているのだろう。
さて、あらゆるサービス名のフォルダを Disallow しているということは、この robots.txt を毎度毎度観察して、もし「Disallow:」の行が増えていたら、新サービスの準備中という可能性があるわけ。私がこれまで観察したところでは、「Disallow:」の行が増える場合は一番下に追加されるようだ。でも確実にその変化をとらえるなら、robots.txt を更新チェッカーとかアンテナに登録して自動チェックさせ、変化があったら予めローカルに保存しておいた robots.txt と差分をとってみよう。うん、なんて趣味が悪い。これではまるでストーカーだね。
正直に告白しよう。これまで私はこの方法で、Googleの新サービスを察知した経験は一度もない。だってこんなことをしているよりは別のことをしていた方が有意義だからね。
フィードを登録する |
---|
関裕司の「サーチ・リテラシー」
過去の記事
- 懐かしいあのサイトを再訪2007年12月20日
- ブックマークしておきたい辞書サイト2007年12月13日
- Twitter検索でゆるやかな嗜好のつながりを作る2007年11月 8日
- ヤフーのfeatureオペレータとは2007年11月 1日
- 未来のウェブサービスに流されないぞ宣言2007年10月25日