ゆーたんのつぶやき

株式会社ノークリサーチにてIT関連のシニアアナリストとして活動しています。

デスクトップ検索における課題



Google、AOLなどに続いてAppleMacOS X 10.4(Tiger)で
「Spotlight」というデスクトップ検索を発表しています。


デスクトップ検索での競争が今後激化してきそうな感じです。


デスクトップ検索が本当に使い勝手の良いものになるためには
以下のような技術的課題があるのではないかと考えています。


(1)意味的仮想フォルダの動的構築


現在のファイルシステムにおける「フォルダ」はある一通りの
規則(フォルダの作成者が任意に決める規則)に従って、物理的
にファイルを配置するものです。ですが、デスクトップ検索に
おいてはPC内の物理的な格納場所に関係なく、意味的な分類に
従ってファイルを整理する必要があります。インターネット上
の検索の場合には検索サイト側がカテゴリを整理してくれます
が、デスクトップ検索においてカテゴリ整理の作業をユーザー
に強いるのではこれまでの物理的なフォルダと手間は変わりま
せん。MS WordやHTMLのように見出しや章立てといった意味的
構造がデータの中に明示的に表現されているものであれば、そ
れに従った階層的な意味フォルダを生成することが比較的容易
かと思われます。問題はそのように構造化されていない文書の
場合です。特定の単語の出現回数などを調べて、出現回数の多
い単語を所属フォルダ名として採用するなどのルールが考えら
れるかと思います。意味的仮想フォルダの特徴は一つのファイ
ルがいろいろなコンテキストを持つ意味的仮想フォルダに所属
することができるという点です。つまり、いろいろな角度から
ファイルを整理・分類することができます。書籍であれば、内
容のカテゴリ(人文、科学、歴史など)で分類したり、著者名や
著者の国別に分類したり、出版社や出版年で分類したりといっ
た方法です。これまでにもこれら異なる分類方法を検索条件と
して指定することは可能でしたが、視覚的なフォルダ階層とし
て自由自在に切り口を変えてみるということはできなかったの
ではないかと思います。これができれば、意味的分類を視覚的
に確認できるというのは人間の脳にはとてもやさしいインター
フェースではないかと思います。


(2)画像ファイル内の文字列検索


もう一つの問題が画像に対する検索です。社内で作成した統計
情報のグラフやプレゼンシートの一部などを画像ショットとし
て保存しておくということも意外によく行われます。最近はデ
ジカメでホワイトボードに書かれた議事内容を撮っておくとい
う場面も見かけるようになりました。こうしたファイルを保存
しておく場合には何に関する画像なのか、どんな内容なのかと
いったいわゆる「メタ情報」に当たるものを自分で記入してお
かないといけません。後で確実に利用できるようにするために
は画像に盛り込まれた情報を可能な限り抽出する必要があり、
結果として画像内に現れる文字列を自分でシコシコと打ち直す
ということになってしまいます。手書き文字認識は特に日本語
においてはまだまだ実用的とはいえないレベルですが、今から
でもできることはあります。PDFでは文字列情報はAPIを通じて
テキストとして抽出できます。同じようにWordやPPTにおいて
も画面ショットを撮ったときに単に画像としてショットを撮る
のではなく、WordやPPTとアプリケーションレベルで情報をや
りとりして、テキスト情報をメタ情報として格納した画像を生
成してしまうということができれば、かなり使い勝手が上がる
のではないかと考えています。バス亭の時刻表をデジカメで撮
る場面もよく見かけますが、携帯の二次元バーコードと同じよ
うな発想で、人間の目に見える時刻表と一緒にコンピュータに
取り込むためのビット情報も表示しておけば、わざわざデジカ
メの小さいディスプレイから数字を読み取る必要もなくなりま
す。ちょうどEPGと同じような発想ですね。


上記のようなことがうまく解決すれば、これまで情報の洪水に
悩まされていた時間ももっと有効に使えるようになるのではな
いかと期待しています。