今年は会社として大きな節目の年になりました。それに合わせて様々なチャネルでの製品や会社情報の発信が活発化していましたが、一年を通じてどんなことをお伝えしていたんでしょうか、、
ということで、Pythonのライブラリで、さくっとテキストマイニングしてみました。
今回は実行環境としてGoogle Colaboratoryを使っています。クラウド上でJupyter Notebook環境が無償で使える、個人的には今年イチオシのML(機械学習)ツールです。
結果の画像
2018年の魂のブログ記事をワードクラウドで表示するとこんな感じです。
うーん、固い、の一言。基幹業務と密接な領域のBtoB SaaSなのでこうなりますが、もう少し柔らかくしたい。 あと、弊社はFintech企業でもあるんですが、そちらの訴求も強くしていきたいですね。
実現方法(ポイント)
以降は興味がある方に向けて、今回Pythonでやったことの流れを書いておきます。
1. Beautiful SoupによるHTMLのパース
- ブログから対象範囲の記事CSVファイルを抽出
- HTMLタグ除去など
2. Janomeによる自然言語処理(形態素解析)
- 品詞のうち今回は名詞を抽出
※使っていたMecabでは上手く解析できず、途中でライブラリを切り替えました
3. WordCloudによる単語出現頻度の可視化
- フォントやストップワード設定
- お遊びでマスク設定
以上、処理時間は数分程度かかりますが、GPUの利用も無料なので有り難い限りです。
結びに
やはり驚愕すべきはGoogle Colaboratory。
ブラウザ上でまるで電卓を使うように対話的にPythonの処理を「無料で」実行が可能。ちょっとしたテキストマイニングなどは、既存の専用製品を使わずに済んじゃうあたりがうれしい一方、Googleのような巨大プラットフォーマーが「無料で」提供してしまうことによる恐怖も感じています、、。違うところで戦わないと死活問題です。
今回のワードクラウドを見て?TeamSpiritに興味をお持ちの企業様は、是非こちらからTeamSpiritが多くのユーザーに選ばれる理由をご覧ください!
この記事は「チームスピリット Advent Calendar 2018」の15日目です。
以上、若林(id:hwakabay)が執筆しました。