ブログ検索の対象って何

Yahoo!などに「ブログ検索」などの機能がついて久しいが、最近、検索結果に「ブログを含めない」というフィルタがついたとかいうニュースを目にした。以前から気になっていたことではあるが、検索エンジンは、何をもってサイト上のコンテンツを「これはブログだ」と決定しているのだろうか。

1.どこかに登録申請するところがあって、「このサイトはブログです」と申請されたサイトをもって「ブログ」と判断する

一番確実なのはコレしかないと思っているが、検索結果をみるとどうもそんな感じではなく、ロボット等が広く収集してきた結果の中から何らかの手段で「コレハぶろぐダ」と判定しているように見える。ちなみにロボットなので片言で語らせてみました(笑)。

では、その判断基準とは何なのだろうか。

2.ココログなど、「ブログ」と言い切ってサービスしているサイトを拾う
→自動でやるには一番もっともらしいが、独自にブログシステムを構築しているところが外れてしまう。

3.MovableTypeなど、ブログシステムとして使われているシステムを使っているサイトを拾う
→そんなのいくらでも詐称できるので誤差が大きい。またMT等を使っているからといってブログとは限らない。

4.タイトルや本文中に、「このサイトやページがブログである」と宣言している記述を拾う
→公言していないけどブログなサイトはどうしましょ。

5.ホームページビルダーなど昔ながらの手段でコツコツ作っているもんで、とてもブログとは公言しづらいサイトだけれども、製作者本人は「これはブログなんだ」と思っている。そんな秘めたる胸の内(諦めまじりの負の念波)を自動でくみ取って、温情をもって拾う
→そんな技術があったらイイナ(笑)。しかし、逆に余計なお世話になる脆弱性が。そんな時は「よかれと思って、よかれと思ってさ!」(なぜ復唱)

私の考えることなので、本質的にもネタ的にも(苦笑)いまひとつである。そこで、代表してYahoo!ブログ検索のヘルプをちょこっと調べてみた。んだけど、有力な手がかりはあまりなかった。ただ気になる記述がひとつ。

※Yahoo!ブログ検索は、東京工業大学 精密工学研究所 奥村研究室からの技術協力を受けてサービスを行っています。

大学の研究室ならもう少し具体的なことが書いてあるかもしれない。と見に行って、気が短いので詳しくは見ず(そんなんだからよくわからないまま)、ブログを収集しているというblogWatcherの解説を見る。その中のクローラーの解説に以下のようにあった。

blogWatcher 3.0b のクローラーについて

以前までのバージョンでは,ウェブ上を広く巡回し, 独自のブログ判定によってブログと判定されたサイトを巡回し, 更新を監視,情報の収集を行っていました. これにより,ツールを用いたブログだけでなく, 一般の日記サイトの収集も可能となっていました.

しかし,近年のツールを用いたブログの大幅な増加に伴い, 収集コストの見直しをはかり,収集方法を変更いたしました.

blogWatcher 3.0bでは, 主要なPing serverのweblog Updates Pingの情報や, ブログホスティングサービスの更新情報を元に, 各ブログの更新情報を獲得しています. 更新があったブログから,RSSフィード, エントリの記事ページの取得などを行っています. 記事ページからは本文部分の抽出を行っており, blogWatcherでの検索・分析には抽出した本文部分のみを用いています.

私としては「独自のブログ判定」の「独自」な部分が知りたかったんだけど、それこそ企業秘密ってヤツかな? 研究内容などを詳しく参照すれば出てるのかも。いずれにしても今は、Ping serverなどの情報を元にしているとのこと。つまり、ちょっとニュアンスは違うかもしれないけど1.に近いという訳だ。ただ仰々しい申請が必要ではなく、ブログを使って自己主張設定にチェックを入れれば対象になるよ、ということだ。

結果として、やはり現状のブログシステムの有用性というか、そういうものを実感するという至極真面目なオチになってしまった。個人的には「よかれと思って」機能の実現こそ次世代に必要な機能だと‥だから余計なお世話か(笑)。