Sunday, May 30, 2010

plagiarism detection(剽窃検知)って書くと、まさにラノベ

疑惑の論文200本発見 米大が盗作探知プログラム開発 - ケムステニュース~化学ニュースサイト~ by Chem-Station
レポート 盗作 - Google 検索
レポート盗作発見プログラムにひっかかった学生が退学に | WIRED VISION
 教授が書いたプログラムは、レポートのすべての組み合わせについて比較を行ない、6語以上からなるフレーズが一致するものを検出する。500語以上合致するレポートは、自主管理委員会に報告された。

同じクラスで誕生日が一緒の人間がいる確率は?

ライトノベルの枠組み。漢字を開いたり、異能力が出たり、お約束の展開がもりこまれた、主な登場人物が同じ世代の学園もの。この条件で書かれたライトノベル作品をフレーズ一致で盗作判定をすると、たぶん、たいていの作品はいくつか一致が出てくると思います。なかには、一致数が多い作品も出てくるでしょう。


「俺と彼女が魔王と勇者で生徒会長」の盗作騒ぎに対して、作家 汀こるもの氏が言及:【2ch】ニュー速VIPブログ(`・ω・´)
そりゃ無茶な指摘と、あれれこれはーな指摘が混在しています。「(中略)」ありの指摘は、それはご無体なレベル。印象操作合戦にしても。

あと戦線を拡大するなら、一致数を増やすために、テキストを地味に検索していくぐらいでしょうか。でも、どうやって検索しますのん? 作者か出版社じゃないと、テキストデータってないんじゃないの? 電子化するのは骨じゃーん。
バカとテスト 青空文庫 - Google 検索
有名な作品の場合は、勝手にテキストデータ化されたものがたいていはあるので、「これってパクリじゃん!」という戦線は、いくらでも広げることが可能です。

コピペを疑う本を読む。使用頻度が高そうな単語や、ライトノベルで多い状況まわりの文章を手動で検索するか、バッチを組む。一致したものが出てきたら騒ぐネタが増える。繰り返し。

Turnitin
一致検索を自動化できるソフトはいくつかありますが、日本語対応はまだです。

株式会社アンク:コピペルナー
2ちゃんねる瓦版 【大学】レポートのコピペ検出ソフト、『コピペルナー』発売
こっちは、コピペ検知なんで、ちょっと文末や言い回しを変えた場合は検出する頻度は下がるでしょう。試用版あり。

レポートの正しいパクリ方Tips
メタファーでのやり方。これもいずれは、電子処理で分かってくるのかもしれません。

この手の騒ぎを回避するには、選考や出版側で、剽窃検知のソフトを導入するのが良いのでは無いかと思います。角川なら、ライトノベルの主要レーベルが揃っているので、ライトノベル文献データーベースの構築は比較的簡単でしょう。

あとは、google先生がgoogle plagiarism detectionを実装してくれるのを待つとか。形態素解析のえらい人がgoogle日本にいらっしゃいますので、実現可能だと思います。