研究室を訪ねて/学会受賞

【研究成果】「インターネット検索エンジンの未来形」山名早人助教授(コンピューター・ネットワーク工学科)



 情報検索に関して山名研究室での研究についてお話します。現在、情報検索に関しては、WWW(ワールドワイドウェブ/インターネット上で公開されている情報)を対象に様々な研究がされています。現在、世界中に約80億のWebページが存在しています。通常、世の中一般で研究されているのは、それらのうちの、一千万ページ、多くても一億くらいのページを対象としたものです。世の中には80億のページがあり、大量の情報処理が実用面で非常に重要になってきています。
 現在唯一、必要なデータの的確な抽出で知られているのが、検索エンジンの「Google」です。「Google」がいま、ちょうど30億くらいのWebページを集めています。他にもノルウェーのファストという会社が20億程度のページを集めていますけれど、やはりこういった大量のWebページを対象とした研究は、もともとそのデータがないとできません。一般の研究では、多くても1億ページ程度の収集に留まっており、そこでまず私の研究室では、世界で一番といわれるくらいの大量のWebページを収集しようと、昨年、2億ページをテストとして収集してみました。
 今年からは、本年を含めて5年計画のプロジェクトで、「Google」を抜く、「Google」の倍以上の60億〜80億の世界一のデータを集めて、様々な解析をすることを目標にしています。「集める」と言ってもそう簡単なことではありません。皆さんリンクをたどって色んなWebページに行けると思うのですけれど、これ、リンクをたどっていってもなかなか全部のページを集められないのです。1ページ集めるのに時間がかかりますので、80億のページを集めようとすると一年以上かかります。また、一年以上かかると最初に集めたページが古くなってしまって、実用的でなくなります。ところが、Webページの8割、9割のページは数ヶ月しても更新されていないことが判明していますので、更新されていないページは頻繁に集めなくてもよく、ニュースのように毎日更新されるページは毎日集めてくるといったワザが使えます。そうすることによって、手元に集めたページを常に最新の状態に保つことができます。このように、どのようにして最新のページだけ集めるかという研究をしています。
 また、頻繁に更新されるページとか更新されないページにうまく分けたとしても、1箇所から集めているとかなり時間がかかってしまいますので、国内3箇所に拠点を設置し、担当を分けて、Webページを収集していこうと考えています。その中で重要なのは、同じWebページでもどこからアクセスするかでアクセスにかかる時間が違ってくるという点です。それぞれの拠点で使用しているネットワークは、それぞれアクセスが得意なWebページ(厳密にはWebサーバ)を持っており、Aという会社はあるWebページにアクセスするのが得意だし、Bは別のWebページにアクセスするのが得意・・。この組み合わせを見つけることによって、高速に収集しようと考えています。一応、今年度中に、10億ページの収集を目標とし、来年度以降、30億まで集め、最終的に80億を目指しています。 
 以上の話が「集める」という話ですが、次に「集めたあと何をするか」が次の研究課題になっています。80億のページがあったときに、その全てのページを読むというのは一生かかってもできません。とはいっても、80億のページの中に、必要な情報があります。人間生まれてから、現在までたくさんの経験をすると思うのですけれど、たくさんの経験を持っている人のほうが、一般的にはいい決断やアイデアを出すことができるし、人生を楽しく過ごすことができると思うのです。例えば、Webページに載っている他人の経験をうまく抽出することができて、短時間でみることができたら、実体験ではないけれど、例えば海外に行ったことがなくても、海外の旅行したのと同じ体験をすることができる。インターネットのすばらしいところは、自分の経験だけでなく、他人のすばらしい情報を簡単に入手できることだと思うのです。
 これをうまくサポートできるようなもの、もちろん、今でも「Google」をはじめとするサーチエンジンを使って検索することができますが、検索をしても必ずしも自分のほしい情報が得られるとは限りません。例えば自分の興味のある内容について、うまく自動的にまとめることができる。さらに、Webページは色々な言語で書かれていますが、それらを日本語で見ることができたら、もっと実用的ですよね。そういうことを実現できないかなと思って、研究を続けています。これを専門的な言葉で言えば「Webマイニング」といいます。今お話したように、1億程度のページから「Webマイニング」の研究が現在なされているのですけれども、やはり大量のデータを対象としたときにどうなるかが、これからの一番のポイントになると思っています。
 ひとつの例ですが、「クレーマー」と言われる人がいますよね。今、企業はそういう情報に敏感になっています。Webページでの発言なので、それがインターネット上のどこに出ているかを知ることが重要になってきているのですけれど、現状の技術では、ある特定のWebサイトだけを調べることしかできません。でも、どこに出ているかはわかりませんので、そういうことを的確に素早くみつけることができれば、これは大変ビジネスにも役に立つ技術になるのではないかと考えています。大量のデータの中から必要なデータだけを抽出する、ということは、このようなビジネスシーンでも役立っていくのです。

                                        以上

専門分野 ◎情報検索・データマイニング
       ◎コンピュータアーキテクチャ
       ◎分散処理
       ◎バイオインフォマティックス


【関連リンク】
 ★山名研究室
 ★理工Web「教員の研究紹介」山名 早人先生
Copyright 2009 Waseda University.