第一回 にこにこテキストマイニングに参加してきた #nicoTextMining
February 20, 2011 - データマイニング
第一回 にこにこテキストマイニングに参加してきました。
主催は@NLP_PRMさんと@toilet_luhchさん。会場はオラクル青山センターさん。 懇親会と二次会にも参加させていただき、皆様の豊富な知識に圧倒されて参りました。精進しようと思います。いろいろな話しをありがとうございました。
当日の内容はTogetterにまとめられています。
以下、勉強会の資料と私的メモです。
@AntiBayesian : 「テキストマイニングの歩き方」
発表資料:テキストマイニングの歩き方
「技術云々ではなく、どのようにテキストマイニングを活かすか」、という今回の勉強会の趣旨に沿った発表内容。ナレッジの自動蓄積のために、Wikiとかを使うのではなく日報メールを解析するというのは面白いですね。情報共有ツールの導入ってほとんどが失敗に終わる気がします。それよりは慣れたフォーマットを活かす方向に考えてみる、と。
- アンケート
- 封書解答で20%の回答率
- 個人情報を求めると10%の回答率
- 言語処理における様々な解析
- 押さえるべきところ
- 形態素解析
- 構文解析
@toilet_lunch : 「ゆるふわテキストマイニングをしてみよう」
発表資料: ゆるふわテキストマイニングをしてみよう
「ゆるふわ」というよりはけっこうガチな内容。私はNLPを少しかじったことがあったので、なんとかひと通りの用語は理解できました。現在の自然言語処理では何ができて、何が問題になるのか、というのがよくわかりました。
- 評判分析ツール
- http://toilet-lunch.shisobu.in/search.cgi
- 一日でつくった
- 評価表現(ポジティブ、ネガティブの二種)
- 形態素解析
- 辞書とマッチさせる
- 活用語幹を用いる
- 単語感情極性対応表
- 精度問題
- ジャンルごとにネガポジが反転する場合も(「薄い」とか)
- クリーニング
- 言語の困難さ
- 否定表現
- 「わからない訳でもなくない?」
- 未知語
- ヤバい、素で
- 助詞の省略
- 複合表現
- 表記ゆれ
- 複数評価の混在
- 一文に含まれる結論が読みにくい
- 否定表現
- 「テキストマイニング」の定義があいまい
- 目的によって手法が異なる
- 目的を決め手手法を選ぶこと。
- 目的によって手法が異なる
- QA
- 名詞より形容詞のほうが未知語になりにくい
- 皮肉とか大変。
@langstat : 「コピー&ペーストのみで始めるテキストマイニング超入門」
- 無料の解析用テキスト
- 青空文庫
- 首相のスピーチテキストとかパブリックドメインのもの
- 用例検索
- 日本語形態素解析
- 形態素解析
- 日本語形態素解析
- Morphological Analyzer - Language Grid Playground
- Mecab/ChaSenとかで試せる
- 構文解析
- 日本語文章の頻度分析
- VBAツール
- Webサービスではない。
- 多機能 WEB 計算機
- 形態素解析
@gepuro : 「初めてのnltk」
@bob3bob3 : 「アンケート自由回答のテキストマイニング事例」
発表資料: * 「楽しい食事」ってどんな食事? ? Text Mining Studio を用いた自由回答の分析事例 ?
テキストマイニングをどう活用して何を達成するのか、というとても具体的な活用事例でした。私の場合、仕事がWebサービスなのでそっちに興味が偏りがちですが、こういう実生活における分析にも興味を頂きました。アンケートという自由回答形式だからこそ得られるものもあるんですね。
- 商用テキストマイニングツール
- 一番安いワードマイナーでも30万する。
- 野村総研のツールが6割のシェア。
- 単語出現頻度分析
- 表記の違いは辞書つくる
- ゴールデンウィークとGWなど
- 名詞、形容詞、動詞に絞る
- 表記の違いは辞書つくる
- 特徴語分析
- 補完類似度
- コレスポンデンス分析
- QA1
- コレスポンデンス分析のグルーピングが困難な場合はグルーピングしない
- 今回はうまくいった
- QA2
- あとで「状況」をグループ化しにくい
- アンケートなら質問を工夫する「〜な時はどうですか?」
- ブログとかあとから集めて分析する場合は難しい。
- あとで「状況」をグループ化しにくい
- QA3
- 女性より男性のほうがアンケートに含まれる単語数が多い傾向
- グラフで見ると女性のほうが全体的に上回る(単語出現頻度の分析において)
- 女性より男性のほうがアンケートに含まれる単語数が多い傾向
- QA4
- ツールのよしあし
- TRUE TELLERは完成されているが、機能は限定されている。
- ツールのよしあし
関連エントリ
- 第1回 にこにこテキストマイニング勉強会 ( #nicoTextMining #1) に参加してきた - hamadakoichi blog
- 第1回にこにこテキストマイニング勉強会に参加しました #nicotextmining - nokunoの日記
- 第1回 にこにこテキストマイニング勉強会(#nicoTextMining)に参加してきた - yokkunsの日記
- にこテキ #1 - コーパスいぢり ?langstatの研究日誌?
みなさん日記を書くの早すぎです…勉強会が終わった、と思ったらもうエントリされていましたw そのスピード感、見習いたいです。
余談
今回からTwitter名刺を用意していきました。Twitterアイコンがプリントされているので、初めてお会いする方もアイコンは見たことあると言って頂けたのが良かったです。勉強会には、会社の名詞よりTwitter名刺が重要ですね。