ドラマログテキストマイニング

テレビ番組(ドラマ)の字幕情報を対象に、テキストマイニングの研究をしておりますので、解析結果の公開をメインに関連グッズを交えた構成で記事にしてます。また、解析結果の信憑性が確認できるよう、解析用ソースも部分引用し掲載してあります。

解析用ソースに関して

f:id:dramalog:20180829213034p:plain

 

解析用ソースの作成について

 

日本の著作権法では、「情報解析を行うために著作物を複製すること」が、営利・非営利問わず認められており、テキストマイニングなどの「情報解析」のために、著作物を複製して解析用ソースとすることは問題ないものと考えております。

 

著作権法47条の7
著作物は、電子計算機による情報解析(多数の著作物その他の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下この条において同じ。)を行うことを目的とする場合には、必要と認められる限度において、記録媒体への記録又は翻案(これにより創作した二次的著作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に供するために作成されたデータベースの著作物については、この限りでない。

 

本ブログにて記事にしているテキストマイニングの場合は、テレビ放送データのうち映像や音声などは解析対象になりませんので、字幕情報のみをターゲットとするために、テレビ番組の字幕表示部分だけをテキスト化し解析ソースとしております。

(画像情報に含まれるテロップは対象外です)

 

解析ソースの引用掲載について

文化庁のサイトに有る引用の要件を見てみると…

「引用」とは、例えば自説を補強するために自分の論文の中に他人の文章を掲載しそれを解説する場合のことをいいますが、法律に定められた要件を満たしていれば著作権者の了解なしに利用することができます(第32条)。
 この法律の要件の中に、「公正な慣行に合致」や「引用の目的上正当な範囲内」のような要件があるのですが、最高裁判決(写真パロディ事件第1次上告審 昭和55.3.28)を含む多数の判例によって、広く受け入れられている実務的な判断基準が示されています。例えば、[1]主従関係:引用する側とされる側の双方は、質的量的に主従の関係であること [2]明瞭区分性:両者が明確に区分されていること [3]必然性:なぜ、それを引用しなければならないのかの必然性が該当します。

とあります。

 

各要件に対する本ブログの考え方については以下

 

主従関係:引用する側とされる側の双方は、質的量的に主従の関係であること

テキストマイニングの解析結果が「主」にあたり、その解析結果を裏付ける解析ソースが「従」に該当します。

質的なところでは、特徴的なキーワードを先鋭化する意味において、解析ソースよりも解析結果の方が質的向上が見られると考えております。

量的なところでは、解析結果の方が100KB前後のデータ量であり、引用部は一般的な番組で20KB~程度のデータ量なので、2~3割程度であれば妥当な分量との考えです。

(引用部のテキストを一定のデータ量に切り取って掲載することも考えましたが、同一性保持の観点から、特殊記号の省略や半角全角の表記揺れ調整以外の加工はせず、解析ソース全体を掲載しております)

 

明瞭区分性:両者が明確に区分されていること

これは記事の構成において見出しを分ける事により対応しており、ブログ説明においても解析ソースの引用掲載を明示しております。

また、出典情報が分かりやすいようにEPG情報を入れ子構造で掲載してありますので、元の番組把握に十分な材料になっているものと思います。

 

必然性:なぜ、それを引用しなければならないのか?

データ解析の結果について信憑性を担保するためには、裏付ける根拠としてソースを明示すべきであるため、解析結果の根拠となる解析ソースを示す必然性があるとの考えです。

 

最後に

現状の記事構成としては、上記に整理した考え方で作成しておりますが、この構成に固執するつもりはありませんので、権利事業者様から引用方法に関する指摘をいただいた場合は、速やかに対処いたします。