シェアする

保存する

Life Shift

2016.04.15

ディープラーニングだけじゃない。トピックモデルの第一人者が語るマシンラーニングの最前線

マシンラーニングの理論研究者であり、トピックモデルの第一人者である米コロンビア大学教授のデビッド M・ブレイ氏が来日。2015年4月からシリコンバレーにあるリクルートのAI研究所(Recruit Institute of Technology)のアドバイザリーボードも務める。昨今のAIブームの中、私たちにとって身近であるFacebookやTwitterなどが採用しているディープラーニング(深層学習)に注目が集まっている一方、日本ではまだ聞きなれないが、今回は同じマシンラーニングの中の1つであるトピックモデルにフォーカスを当てたい。ディープラーニングの原型であるニューラルネットワークは1980年代より存在するが、このトピックモデルは2003年に開発された技術で、自然言語処理のみならず、さまざまな領域に適用しやすく、現在多くの企業で先進的に使われている技術である。近年急速に進化してきているとトピックモデルとはいったいどんな技術なのか? リクートライフスタイルのデータサイエンティストである小林元がインタビューを行い、マシンラーニングの1つであるトピックモデルの最前線に迫る。

トピックモデルとは、ぐちゃぐちゃの本の山を図書室のように整理された状態にするようなもの

ls_main04

ls_main05

マシンラーニングとは、人間が行っている学習能力を機械であるコンピュータやロボットにおいて実現するための技術であり研究分野である。人間がルールを明示的に与えるのではなく、データから機械自身に法則を学習させるところが特徴である。人であれば予測が立つが、機械にはロジックを与えないと解明はできない。
マシンラーニングにおけるトピックモデルとは、ある自然言語で書かれた文章からそれが何を表しているのかというトピック(単語の集まりで表現される潜在的な意味)を抽出する技術である。ディープラーニングのようにデータに対して解を紐づける必要はなく、データを与えるだけでトピックを抽出することができるのだ。文章にはたくさんのトピックが盛り込まれているが、テーマに関連するワードを抽出して整理すれば、それだけで何の話なのかは大体わかるようになる。例えば科学の論文を書くときは、科学に関連するトピックが使われるし、マネジメントの論文を書くときはマネジメントに関連するトピックで構成される。人は何を書くかによって使う単語、つまりトピックを使い分けているのがよくわかるという。また統計学的に関連性を割り出すことが可能であり、トピックとは高い確率で相関する単語の集まりとして、機械による学習能力を高めることができるのだ。
「トピックモデルを例えるならば、ぐちゃぐちゃに置かれた膨大な情報が書いてある大量の本を、図書室にある本のように、テーマ別に構造的に並べ替え、文書に注釈を付けて、人が探しているテーマの本を探しやすくするようなこと」とブレイ氏は言う。つまり、トピックモデルとは、整理された図書室と同じように、膨大なデータから機械が見つけるべき情報を瞬時に探せるようにするため、自然言語処理をしてトピックを抽出しカテゴリーを分類することによって、背景に潜む意味のラベリングをする技術である。これによって、多くのアプリケーションに適用することができるのだ。

ls_main03

トピックモデルの1つであるLDAの成功理由は何か?

LDA(Latent Dirichlet Allocation)は、マシンラーニングの中にある、トピックモデルの一つだ。LDAは大量のデータの中から隠れたパターンを抽出し、見つけたパターンから未来の予測やデータの意味の理解を深める技術である。
従来の手法と異なり、人間が決定するパラメータを減らして、よりデータに沿ったモデルになったため、様々な分野へ適応しやすいのが特徴だ。特にモデルの取り扱いがしやすいこともあり、コンピュータサイエンティスト以外の各分野の専門家がLDAをデータ分析に適用する例も広がりつつある。
データと一言で言ってもテキスト以外の画像なども存在しているが、LDAは様々なデータにも対応可能なモデルだ。マシンラーニングを飛躍的に利用しやすくさせたこのLDAという技術の成功要因をブレイ氏に尋ねた。

「1つめの理由は、データ取得可能な時代になったということと世の中のニーズです。そもそもディープラーニングの基礎技術であるシンプルなニューラルネットワークは1980年代からありましたが、当時は取得可能なデータがとにかく少なかった。21世紀になり取得可能なデータが増え始め、データに対する意味の解釈の必要性が爆発的に高まり、効果的に活用できる時代になったということです。
そして、LDAが成功した2つめの理由は複雑なデータ解析を可能にしたことです。ビッグデータにはラベル付けのされていない非構造的なデータも多く存在しており、このようなデータをどう扱うかが大きな問題でした。そこで取り扱いづらい非構造的なデータを扱えるLDAは、この業界の注目を浴びていきました。
LDAが成功した3つめの理由にあげるのは、データの情報量が増えるのに合わせて、私たちのアルゴリズムを拡張させることができたことです。その結果、何百万件ものデータを扱うことが可能となっています」

想定以上にニーズがあったと話すブレイ氏。一気に取得可能なデータが増えたことによる時代背景はもちろんだが、このLDAは、ディープラーニングに比べてラベル付けがされていないデータであってもデータさえあれば自動でトピックを抽出することができ、様々な分野で扱いやすいことこそが、昨今注目を集めている理由である。
実際にリクルートライフスタイルでは数千万種類を超える商品説明文に対してLDAを用いて解析を行い、ユーザーの興味の基づいた商品のレコメンドなどを行なっている。多くの企業でも導入が進んでおり、最適化された情報の裏側に、マシンラーニングの威力を感じずにはいられない。

ユーザーの行動分析がLDAの研究を発展させる?!

なぜリクルートのAI研究所のアドバイザリーボードになったのか? 直接訪ねてみると答えはシンプルで、LDAを進化させるための研究に最適だと思ったそうだ。リクルートのサービスを使っているユーザーの行動データは、老若男女の日常生活からライフイベントの行動ログを取得することができる。その点において、リクルートは膨大なデータをクロス分析させることができるグローバルで見ても稀有な企業だという。
「LDAの研究を続けるにあたって最も関心が高かったものは、ユーザー側の行動パターンのデータです。ユーザーがネット上で、どういったものに関心を持ってクリックし、それがどう購買行動へ変わっていくのか。ユーザー側のアクティビティを、LDAを用いて理解したいという思いがありました。また、関連性のないと思われる複数の異なるデータ間でも、LDAを用いて関連性を持たせることが可能なのか、検証をしていきたい」と言う。

ls_main02

AIが人間を乗っ取るなんてありえない

「AIとはコンピューターサイエンスにおける未解決問題の総称です。問題を解決したらAIじゃなくなる……」なんてジョークを飛ばし、「AIは実際大きな傘のような存在であり、マシンラーニングの中のディープラーニングやトピックモデルなどをくくるようなもの」とブレイ氏は言う。

AIが人類を滅亡させる序章になると言う人もいるが、ブレイ氏ははっきりとそれを否定する。人工知能という言葉がバズワードのように扱われることで、過大評価をされていると感じるのだそう。実体は単なる計算式で、データを与えたら、その計算式に基づいてアウトプットが出てくる、ただの仕組みにすぎない。もし人類を滅亡させることを実行可能な仕組みがあり、かつそれがコンピュータからのアウトプットで実行されてしまう環境が存在したとするならば、人工知能の発達にかかわらず、それ自体がそもそも危うい状態なのではないかと言うのだ。

このように「AIが人間を乗っ取るなんて、ありえない」と笑いながら話す一方でブレイ氏は、AIの精度を高めるために、仮設と検証の繰り返しを泥臭く行っている。今でこそAIは産業に使えることが実証され注目されているが、ほんの5年10年前まではここまでの注目は浴びていなかった。産業に応用する環境が整っていなかったからだ。実際に取得可能なデータ量が増えたこともそうだが、コンピュータ自体の処理速度が高まったこともマシンラーニングの応用や進化が進む背景となっている。大量に取得できるようになったデータがあり、日々データ量が増え、すべてのモノがオンラインでつながっていく世界がすぐそこにある。私たちの日常生活の裏側に、データサイエンスの研究はかなり進化を遂げ、検索をしなくても自分が欲しい情報が必要なタイミングで入手できるようになった。データから導きだされたとは思えない、自身の思考や行動の中で自然に情報を得ることができるようになっている。この地道な研究の先に、さらに快適でわずらわしさからの解放をもたらされるとブレイ氏は心から信じているように感じられた。


David M. Blei(米コロンビア大学教授)

マシンラーニングの理論研究者であり、膨大なデータの中からパターンを見つけるための代表的なマシンラーニングの手法であるトピックモデルの第一人者。幅広い分野で応用されているトピックモデル手法Latent Dirichlet Allocation (LDA)の考案者のひとり。
ACM Infosys-Foundation Award受賞(2014)


小林 元(株式会社リクルートライフスタイル データサイエンティスト)

1979年生まれ。データマイニング関連ビジネスで起業、保険会社、コンサルティングファームを経て、2012年よりリクルートライフスタイル在籍。2013年より筑波大学大学院博士課程在学中。2014 年より東京大学医学部付属病院特任研究員。


PHOTO BY RYO MIYAKE
TEXT BY MIKI KAWAMURA