第一回 にこにこテキストマイニングに参加してきた #nicoTextMining

February 20, 2011 - データマイニング

第一回 にこにこテキストマイニングに参加してきました。

主催は@NLP_PRMさんと@toilet_luhchさん。会場はオラクル青山センターさん。 懇親会と二次会にも参加させていただき、皆様の豊富な知識に圧倒されて参りました。精進しようと思います。いろいろな話しをありがとうございました。

当日の内容はTogetterにまとめられています。

以下、勉強会の資料と私的メモです。

@AntiBayesian : 「テキストマイニングの歩き方」

発表資料:テキストマイニングの歩き方

「技術云々ではなく、どのようにテキストマイニングを活かすか」、という今回の勉強会の趣旨に沿った発表内容。ナレッジの自動蓄積のために、Wikiとかを使うのではなく日報メールを解析するというのは面白いですね。情報共有ツールの導入ってほとんどが失敗に終わる気がします。それよりは慣れたフォーマットを活かす方向に考えてみる、と。

  • アンケート
    • 封書解答で20%の回答率
    • 個人情報を求めると10%の回答率
  • 言語処理における様々な解析
    • 押さえるべきところ
    • 形態素解析
    • 構文解析

@toilet_lunch : 「ゆるふわテキストマイニングをしてみよう」

発表資料: ゆるふわテキストマイニングをしてみよう

「ゆるふわ」というよりはけっこうガチな内容。私はNLPを少しかじったことがあったので、なんとかひと通りの用語は理解できました。現在の自然言語処理では何ができて、何が問題になるのか、というのがよくわかりました。

  • 評判分析ツール
    • http://toilet-lunch.shisobu.in/search.cgi
    • 一日でつくった
    • 評価表現(ポジティブ、ネガティブの二種)
    • 形態素解析
      • 辞書とマッチさせる
      • 活用語幹を用いる
      • 単語感情極性対応表
    • 精度問題
      • ジャンルごとにネガポジが反転する場合も(「薄い」とか)
    • クリーニング
    • 言語の困難さ
      • 否定表現
        • 「わからない訳でもなくない?」
      • 未知語
        • ヤバい、素で
      • 助詞の省略
      • 複合表現
      • 表記ゆれ
      • 複数評価の混在
        • 一文に含まれる結論が読みにくい
    • 「テキストマイニング」の定義があいまい
      • 目的によって手法が異なる
        • 目的を決め手手法を選ぶこと。
    • QA
      • 名詞より形容詞のほうが未知語になりにくい
      • 皮肉とか大変。

@langstat : 「コピー&ペーストのみで始めるテキストマイニング超入門」

自然言語処理における一連の解析を、無料のWebサービスを使ってコピペでやってみよう、というもの。 これらのツールがひと通り用意されていることに驚き。ただし、すべて統合したものはないようなので、ぜひ欲しいなと思います。(※APIとかあれば良いのですが…)

@gepuro : 「初めてのnltk」

学部二年生の発表。 nltkとpython-twitterをつかったテキストマイニング。つまづきにもめげず、テキストマイニングをしてみたようです。Tweetもしたんですけど、挫折も含めて発表するのは、これからはじめてみたい方にとって有益な情報だと思いました。同じつまづきをしないためにも。

@bob3bob3 : 「アンケート自由回答のテキストマイニング事例」

発表資料: * 「楽しい食事」ってどんな食事? ? Text Mining Studio を用いた自由回答の分析事例 ?

テキストマイニングをどう活用して何を達成するのか、というとても具体的な活用事例でした。私の場合、仕事がWebサービスなのでそっちに興味が偏りがちですが、こういう実生活における分析にも興味を頂きました。アンケートという自由回答形式だからこそ得られるものもあるんですね。

  • 商用テキストマイニングツール
    • 一番安いワードマイナーでも30万する。
    • 野村総研のツールが6割のシェア。
    • 単語出現頻度分析
      • 表記の違いは辞書つくる
        • ゴールデンウィークとGWなど
      • 名詞、形容詞、動詞に絞る
  • 特徴語分析
    • 補完類似度
  • コレスポンデンス分析
  • QA1
    • コレスポンデンス分析のグルーピングが困難な場合はグルーピングしない
    • 今回はうまくいった
  • QA2
    • あとで「状況」をグループ化しにくい
      • アンケートなら質問を工夫する「〜な時はどうですか?」
      • ブログとかあとから集めて分析する場合は難しい。
  • QA3
    • 女性より男性のほうがアンケートに含まれる単語数が多い傾向
      • グラフで見ると女性のほうが全体的に上回る(単語出現頻度の分析において)
  • QA4
    • ツールのよしあし
      • TRUE TELLERは完成されているが、機能は限定されている。

関連エントリ

みなさん日記を書くの早すぎです…勉強会が終わった、と思ったらもうエントリされていましたw そのスピード感、見習いたいです。

余談

今回からTwitter名刺を用意していきました。Twitterアイコンがプリントされているので、初めてお会いする方もアイコンは見たことあると言って頂けたのが良かったです。勉強会には、会社の名詞よりTwitter名刺が重要ですね。