確率モデルが先か、アルゴリズムが先か

自然言語処理の分野でとても有名な手法にLDAというのがある。

これは文書群を自動で分類するための方法を提案しているもので、

  • (A)確率モデルの提案
  • (B)その確率モデルのもとで、実際にそれぞれの文書を分類する方法の提案

からなっている。最近、趣味でLDAをちょっとだけ拡張しようとしている。

で、LDAを拡張しようとウンウン唸って考えるわけだが、(A)と(B)をいったりきたりしながら、頭がだんだんとこんがらがって、最終的に「うおーー、わからん!お茶でもいれよう」となる。

生成モデルについて考えるときは、自分がいま(A)を考えているのか、(B)を考えているのかを明確にしておかないと頭はずっとゴチャゴチャするし、両方を並行してズンズンと進んでいかないと、気付くと得体のしれない気味の悪い結論にたどり着いたりする。

いまの僕のやり方だと、(B)を変えたらいいんじゃないかと着想しているので、(A)がおざなりになりがちで、確率的になんの根拠もない謎のアルゴリズムが手に入ってしまっている。まあ、結果がでればいいんだけど、個人的には気持ち悪いし、論文にしたときに格好がつかないのでもう少し頑張ろうかなと思っている。