NTT Data「ChatGPTが投げかけたAI学習と著作権侵害の波紋」を発表
NTTデータ経営研究所は最新レポート「ChatGPTが投げかけたAI学習と著作権侵害の波紋」を公開した。
Deep Learningが本格的に実用化された2012年ごろからわずか10年間でAIの利活用は急速に進展してきた。AIが「人間の機能/操作・知識・能力を補う、置き換える、自動化する」ことが実用化されたが、この時点では基本的にAIが創造するものを人間が予測できた。さらに近年では、日本のAI戦略(AI戦略2022)にみられるように、AIを「激甚災害、パンデミック、サステナビリティ等の国家/地球規模の危機への対処」や「健康・医療・介護、農業、インフラ・防災、交通インフラ・物流、地方創生、ものづくり、安全保障等の我が国ならではの課題への対処」に戦略的に適用していくビジョンが提示されている。この段階では、特定の対象と目的の為、AIと人が協調することが想定されている。しかし、ChatGPTやStable Diffusion、Midjourney等に代表される生成AIが急激な進展とともに登場し、世界を席巻している。生成系AIは完全にオリジナルのデジタル画像・動画、オーディオ、テキストを創造性かつ現実性をもって創造するものと定義されており、対象や目的・用途を限定せず、人と同等もしくはそれに近い創造・企画・アイデア提案・解説・総括を生み出すことが可能だ。このため、AIが創造するものを必ずしも人が予見できない事態が発生し始めている。この事態に大きな衝撃を受けた国際社会は、生成系AIの可能性を受容すべきか、その独走に歯止めを設けるべきかで活発な議論を展開している。このような背景を受け、このレポートでは著作権の問題について考察している。
生成系AIの学習済みモデルを作成するためには大量のエータを収集し、AIに学習させる必要がある。しかし、自然言語データや画像データは「著作物」にあたるものも多い為、このようなデータを利用するためには著作権法上の課題を明確にしておく必要がある。さらに、著作権問題に限らず、プライバシー侵害への懸念も指摘されている。このような中、日本では、著作権法2018年改正で著作権法30条の4が改正され、情報解析の為であれば、基本的に著作物を自由に利用することができることとされている。これは営利目的の場合にも適用される点やあらゆる著作物の利用行為にも適用される点で、諸外国と比較してもAI学習のための著作物利用を広く認めるものであるといえ、AIモデルづくりを活性化させるものである。では、日本の著作権法がどのような場合に適応されるのかという問題がある。「新たな知財制度上の課題に関する研究会」では、以下の3つの観点から検討し、基本的にこれらすべてに合致する場合、「著作権者の利益を不当に害することとなる場合」に該当すると解釈される可能性が高いとしている。
著作権者の利益を不当に害することとなる場合(すべてに合致)
1:情報解析を行うもののように供するために作成され販売されているか
2:データベースの著作物であるか
3:情報解析目的で複製等する場合か
ChatGPTのAI学習に日本の著作権法が適応されるとするならば、ChatGPTがAI学習で用いている収集データが上記1~3をすべて満たしていれば「著作権者の利益を不当に害することとなる場合」に該当し、著作権侵害が認められる可能性が生じる。これらについて検討した結果は以下のようになるとしている。
・著作物にクレンジング・アノテーション等が施されているAI学習用データセットであって、有償で提供されている
・効率的な学習のために、収集したデータから異常値を除外する等のクレンジング行為を行っており、加えて各著作権者等から提供を受けた個々の著作物に対しありふれたものではない一定の手法・要素でアノテーションや属性情報を付与している
・ディープラーニング用に作成されたAI学習用データセット全体をダウンロードし、ディープラーニングに利用している
インターネットで公開されたコンテンツ提供サイト等では、提供している著作物をクローリング等で収集してAI学習に用いることを、利用規約等で禁止している場合がある。著作権法によりAI学習での利用が認められる著作物の利用行為を契約によって制限する場合、このような契約条項は「オーバーライド条項」と呼ばれる。オーバーライド条項が適用される場合、AI学習のために対象となる著作物を利用することで、損害賠償を請求される可能性が生じる。そこで、オーバーライド条項が有効に働く場合について考察している。具体的には契約が成立しており、利用規約等の規定がAI学習のための「利用」を制限していると認められてことを前提としてオーバーライド条項の有効性が問われることとなる。コンテンツ提供サイト等で契約が成立するケース、しないケースそれぞれについて解説する。さらに、契約上の「利用」等の解釈や有効性の解釈の在り方についても解説している。
日本が「機械学習パラダイス」とも称されている中、今後もChatGPTのような生成系AIの精度向上のために多くの著作物が利用されることが想定される。今後生成系AIの発展の後押しとクリエイターの保護とのバランスにおいては、立法的な解決も含め模索されることになると考えられ、引き続き動向を注視していく必要があると結ぶ。