統計ブームから意思決定ブームに昇華させるために必要な活動とは

 

機械学習の実用化例が増えていてとても嬉しい。およそ10年前はニューラルネットワーク第二の冬の時代で、ほとんど使われていなかった。機械学習をはじめ様々な手法がビジネス分野で活用されていて、売上XX%アップした!なんて事例がそこかしこで報道されている。

でも、残念ながら、統計ブームがどれほどの経済的なインパクトがあるかは微妙なところのようだ。もちろんある程度はあるわけだが、なかなか金のなる木をたくさん生み出すという状況には至っていない。この点、クラウドには及びもつかない。

理由のひとつは、企業の経営層の多くは統計的な意思決定に漠然とした恐れを感じているからのようだ。新しくて未知なるものに、会社の重要な意思決定を任せようというのだから、当たり前の感情だ。

この手の「なんとなく気持ち悪い」という感情は、新しい技術の導入にプラスであるわけがない。だから、ビジネス分野で普及させるには、この漠然とした恐れの解消は不可欠なのだ。

残念ながらこの恐れを解消するのはなかなか大変だ。

恐れを解消するには対象を理解する必要があるわけだが、その対象というのが統計理論なのだから簡単にはいかない。導入をすすめたいと思っている売りたい側ですら胸を張って完全に理解していますという人は少ないだろう。

そんなわけで、「こんなケースでは統計的手法に頼ってOKです(NGです)」と理論に精通している人間が整理する必要がある。そして残念ながら、体系的に整理されて、しかもわかりやすい本というのは僕が知るかぎりは無い。

統計学」のわかりやすい解説書はあるのだ。そうではなく、統計学をメタな視点で俯瞰して、どんな時に有効なのかの境界を引く本や啓蒙活動が必要とされているわけだ。

例えば、Gmailスパムフィルタは有効だが、我が社にも導入して良いのか?に解を与えてくれる書物だ。個別の事例に解を出すのはさすがに非現実的だから、その本を読むことで解を出す力がつくような本であり、啓蒙活動である。

(と思って、実は少しずつ執筆や活動を始めている)

機械学習の特徴は、中身のわからないブラックボックスであることであるとよくいわれる。それはそうなのだが、広く普及させるためにはブラックボックスだからわかりませんでは経営層には受け入れられないだろう。

確率モデルが先か、アルゴリズムが先か

自然言語処理の分野でとても有名な手法にLDAというのがある。

これは文書群を自動で分類するための方法を提案しているもので、

  • (A)確率モデルの提案
  • (B)その確率モデルのもとで、実際にそれぞれの文書を分類する方法の提案

からなっている。最近、趣味でLDAをちょっとだけ拡張しようとしている。

で、LDAを拡張しようとウンウン唸って考えるわけだが、(A)と(B)をいったりきたりしながら、頭がだんだんとこんがらがって、最終的に「うおーー、わからん!お茶でもいれよう」となる。

生成モデルについて考えるときは、自分がいま(A)を考えているのか、(B)を考えているのかを明確にしておかないと頭はずっとゴチャゴチャするし、両方を並行してズンズンと進んでいかないと、気付くと得体のしれない気味の悪い結論にたどり着いたりする。

いまの僕のやり方だと、(B)を変えたらいいんじゃないかと着想しているので、(A)がおざなりになりがちで、確率的になんの根拠もない謎のアルゴリズムが手に入ってしまっている。まあ、結果がでればいいんだけど、個人的には気持ち悪いし、論文にしたときに格好がつかないのでもう少し頑張ろうかなと思っている。

なぜあなたの提案手法は有力か?という質問

僕は工学分野なのだが、ディスカッションしていて「なぜあなたの提案手法は有力か?」という質問をするときがある。

手法がうまくいく理由なんてどうでもいいと思っている研究者はわりと多いし、実際、どうでもいいケースはある。

例えば、タスクが明確で、そのタスクがとにかく解ければいい場合だ。

だが、提案手法を別のタスクにも当てはめてみたいだとか、別の手法と組み合わせてより良くタスクを解きたい場合は、提案手法がうまくいく理由を考えることは価値があると思う。

タスクの性質をより深く知れば、もっと良い手法を思いつくことがあるし、提案手法の理論的な背景を理解しておくと別のタスクが与えられた時の結果がなんとなくわかる。

自分の研究をより普遍的な成果にしたいのならば、きっと「なぜ僕の手法はうまくいくんだろう?」と考えておくことは必要だと思う。(個人的にそれを考えるのが好きだから単なる言い訳かもしれないけれども)

このブログに書いてみたいこと

 

f:id:anodhogehoge:20150509120206j:plain

意思決定について 

正しい意思決定はあるのか?

  • 問題が大きすぎ。この命題にはおそらく答えはない
  • 問題を絞り込むところから
  • いくつかの道具立てが必要

道具立てその1 統計

  • 統計が特別に優れたツールという意味ではない
  • 単純に自分の専門領域だから
  • プラグマティックなアプローチ。「真理を目指す」とは真逆。そこにある正しさとは?

道具立てその2 公共政策?

  • みんなが幸せになる意思決定とは→曖昧すぎて議論にならない
  • 理論と現実がチョーーー乖離している気がする
  • 勉強不足

道具立てその3 心理学

  • 意思決定権者のバイアス
  • ステークホルダーの嬉しさ度
  • これを無視する限り、現実との乖離は埋まらないまま

道具立てその4 哲学

  • 認識論。人はどこまで知ることができるのか?
  • 論理学や言語の哲学。正しいってどんなことだろう
  • 科学の哲学。科学者によるアセスメントはどう活用すべきなんだろう

道具立てその5 数学

  • おれが好きだから

日々の生活で感動したこと

なにかと感動しすぎ。冷静さを取り戻すために書く。

映画みたり散歩したり論文読んだり友達と会話したりするたびにいちいち感動しすぎ。

イラッとしたこと

いちいちイラッとしすぎ。本当にイラッとすべきことにフォーカスするために書く。

このブログの目的

自分の思考パターンを直視するため。

いまの限界を知れば、もしかしたらその先があるかもしれない。

オレへの注意1:いままでブログが挫折した理由

がんばりすぎ。誰からも読まれないどうでもいい投稿を目指す。

はてブがつきそうな品質になってきたら、その投稿は切り上げる。尻切れトンボを目指す。いや、無理やり結論だけ書くから腹切れトンポ。