ドラマログテキストマイニング

テレビ番組(ドラマ)の字幕情報を対象に、テキストマイニングの研究をしておりますので、解析結果の公開をメインに関連グッズを交えた構成で記事にしてます。また、解析結果の信憑性が確認できるよう、解析用ソースも部分引用し掲載してあります。

テキストマイニングの方向性に関して

f:id:dramalog:20180806211106p:plain

 

これまでの状況について

 

テレビドラマに特化してみることで、トレンド予測に繋がるようなテキストマイニングができないものか?と思い、データの蓄積と簡易リポートを記事にしながら眺めているのですが…。

 

なかなか、予測材料のターゲットになりそうな仮説を立てられずにいます。

 

ドラマというのは直近トレンドを強く反映していると思うので、割と簡単に特徴的なキーワードと関係語句が浮き上がって、なんらかの仮説を立てるヒントが見つかるのかと思ってましたが…。

 

甘かったですねw

 

今後の展開について

 

1話毎の解析ではなく、シーズンをまとめて解析してみるなどの切り口も必要なのかもしれませんが、とりあえず発想を転換して新たなアプローチもしてみることにしました。

 

今後は、ブログアクセスの検索キーワードを月次で分析してみて、素材と反応を複合的に見ることで有用なターゲットが見つからないか?アタリを模索してみようと思います。
(これも記事にて簡易リポートして行きます)

 

余談ですが…

 

テレビの字幕情報というのは、番組データに含まれる映像(テロップなどを含む)や音声という膨大な情報と比較すると、ほんのわずかな情報量でしかないのですが、それでもテキスト量としては十分にテキストマイニングの対象として価値のあるターゲットだと思って取り組んでいます。

 

因みに、「番組本体データに対して、字幕情報データってどの程度の割合かな?」と思い計算してみたら…。

 

10分の1にも満たない量でした!