陶乾?董川
【摘要】人工智能時(shí)代,知識(shí)資源平臺(tái)上以數(shù)字化形態(tài)存在的作品是數(shù)據(jù)分析與人工智能模型訓(xùn)練的基礎(chǔ)性資源。運(yùn)用文本與數(shù)據(jù)挖掘技術(shù)能夠?qū)?shù)據(jù)庫(kù)中的內(nèi)容進(jìn)行深度分析,生成具有獨(dú)立價(jià)值的衍生數(shù)據(jù),從而能夠發(fā)現(xiàn)出版規(guī)律、了解學(xué)術(shù)趨勢(shì)、助力科學(xué)研究,這是知識(shí)資源轉(zhuǎn)化利用的一種路徑。然而,這些數(shù)字化的單一文件以及數(shù)據(jù)庫(kù)本身均構(gòu)成著作權(quán)法所保護(hù)的作品,文本與數(shù)據(jù)挖掘過程中的存儲(chǔ)行為落入了著作權(quán)人復(fù)制權(quán)的控制范圍,這為文本與數(shù)據(jù)挖掘的實(shí)施帶來了法律障礙。我國(guó)有必要在修訂《著作權(quán)法實(shí)施條例》或者進(jìn)行數(shù)據(jù)產(chǎn)權(quán)立法時(shí),明晰文本與數(shù)據(jù)挖掘?qū)儆谝环N合理使用情形,在特定條件滿足時(shí)無需獲得著作權(quán)人許可且無需支付使用費(fèi)。這不僅符合國(guó)際社會(huì)的立法趨勢(shì),而且有利于知識(shí)資源的價(jià)值轉(zhuǎn)化。
【關(guān)? 鍵? 詞】文本與數(shù)據(jù)挖掘;合理使用;知識(shí)資源平臺(tái);復(fù)制權(quán);生成式人工智能
【作者單位】陶乾,中國(guó)政法大學(xué)法律碩士學(xué)院; 董川,北京市通州區(qū)人民法院。
【基金項(xiàng)目】國(guó)家哲學(xué)社會(huì)科學(xué)基金項(xiàng)目“人工智能生成內(nèi)容的著作權(quán)立法研究”(21BXW042)階段性成果。
【中圖分類號(hào)】D923.41【文獻(xiàn)標(biāo)識(shí)碼】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.06.006
一、文本與數(shù)據(jù)挖掘的應(yīng)用概況
在當(dāng)下人工智能被廣泛應(yīng)用的時(shí)代,文本與數(shù)據(jù)挖掘(Text and Data Mining)是一種運(yùn)用算法從海量的數(shù)據(jù)中提取信息的技術(shù)活動(dòng),涉及數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗和預(yù)處理、數(shù)據(jù)計(jì)算、數(shù)據(jù)分析與挖掘、數(shù)據(jù)可視化這六個(gè)步驟[1]。文本與數(shù)據(jù)挖掘能夠結(jié)合人工智能和機(jī)器學(xué)習(xí)等技術(shù),通過對(duì)海量基礎(chǔ)數(shù)據(jù)的復(fù)制、擷取以及整合,從而對(duì)文本內(nèi)容深度開發(fā),構(gòu)建可識(shí)別的模型,形成有價(jià)值的衍生數(shù)據(jù)[2]。與傳統(tǒng)的內(nèi)容分析法相比,實(shí)施文本與數(shù)據(jù)挖掘的整個(gè)過程具有準(zhǔn)確性、智能化和高效率的特點(diǎn),這不僅對(duì)大樣本數(shù)據(jù)的處理更有優(yōu)勢(shì),而且拓展了傳統(tǒng)內(nèi)容分析的測(cè)量范圍,對(duì)分析海量數(shù)字化文本數(shù)據(jù)亦有著明顯的優(yōu)勢(shì)[3]。文本與數(shù)據(jù)挖掘是分析式人工智能和生成式人工智能重要的技術(shù)環(huán)節(jié)。
知識(shí)資源平臺(tái)上的作品是文本與數(shù)據(jù)挖掘技術(shù)運(yùn)用時(shí)的重要基礎(chǔ)數(shù)據(jù)。對(duì)這些知識(shí)資源進(jìn)行文本與數(shù)據(jù)挖掘,能夠成為產(chǎn)業(yè)界新的價(jià)值增長(zhǎng)點(diǎn)。國(guó)內(nèi)外已有一些知識(shí)資源平臺(tái)運(yùn)營(yíng)者在自身平臺(tái)原始數(shù)據(jù)的基礎(chǔ)上,為用戶提供數(shù)據(jù)衍生品服務(wù)?!巴ㄟ^對(duì)信息的數(shù)據(jù)化處理來實(shí)現(xiàn)出版資源的重新整合與最大化利用,通過建設(shè)專題數(shù)據(jù)庫(kù)的途徑實(shí)現(xiàn)對(duì)出版物資源的數(shù)據(jù)采集、存儲(chǔ)和檢索,并在數(shù)據(jù)庫(kù)平臺(tái)上進(jìn)行文本與數(shù)據(jù)挖掘和可視化呈現(xiàn),以生產(chǎn)新的知識(shí)和產(chǎn)生新的價(jià)值?!保?]與此同時(shí),也有專門從事數(shù)據(jù)產(chǎn)業(yè)的經(jīng)營(yíng)者看中知識(shí)資源平臺(tái)上的內(nèi)容價(jià)值,希望與平臺(tái)方開展合作。一些從事數(shù)據(jù)分析采集工作的組織,通過開發(fā)工具包的方式與出版商應(yīng)用程序接口對(duì)接,從而訪問出版商的開放存取內(nèi)容。
文本與數(shù)據(jù)挖掘技術(shù)的運(yùn)用提升了以作品為內(nèi)容的原始數(shù)據(jù)的使用效率,開發(fā)了其潛在的價(jià)值,應(yīng)屬于數(shù)據(jù)產(chǎn)業(yè)發(fā)展中的必要組成部分。但是,現(xiàn)行的著作權(quán)法律制度缺乏對(duì)文本與數(shù)據(jù)挖掘過程中作品使用問題的回應(yīng),這使得文本與數(shù)據(jù)挖掘的實(shí)施面臨著版權(quán)侵權(quán)風(fēng)險(xiǎn)。許多學(xué)者表達(dá)了對(duì)人工智能技術(shù)運(yùn)用下文本與數(shù)據(jù)挖掘構(gòu)成版權(quán)侵權(quán)的擔(dān)憂[5],并提出了設(shè)定文本與數(shù)據(jù)挖掘法定許可制度[6]、本土改造轉(zhuǎn)換性使用規(guī)則[7]、引入“四要素分析法”[8]、規(guī)定開放性的合理使用制度[9]等解決思路,來為文本與數(shù)據(jù)挖掘提供“避風(fēng)港”。但相反觀點(diǎn)認(rèn)為,文本與數(shù)據(jù)挖掘過程中,供機(jī)器學(xué)習(xí)的僅是臨時(shí)復(fù)制件,是客觀技術(shù)現(xiàn)象的產(chǎn)物,沒有被利用與傳播的獨(dú)立經(jīng)濟(jì)價(jià)值,不屬于著作權(quán)法意義上的復(fù)制行為,不構(gòu)成侵權(quán)[10]。
從比較法的角度,為避免文本與數(shù)據(jù)挖掘在法律上的不確定性使得技術(shù)發(fā)展與應(yīng)用受阻,保證本國(guó)或本地區(qū)數(shù)據(jù)產(chǎn)業(yè)發(fā)展中的國(guó)際競(jìng)爭(zhēng)優(yōu)勢(shì),一些國(guó)家和地區(qū)對(duì)文本與數(shù)據(jù)挖掘進(jìn)行了立法嘗試。在數(shù)字傳播技術(shù)被日益廣泛運(yùn)用的當(dāng)下,為促進(jìn)智能產(chǎn)業(yè)發(fā)展,我國(guó)也應(yīng)當(dāng)在著作權(quán)法律制度中對(duì)人工智能技術(shù)的作品利用問題作出回應(yīng)[11]。在國(guó)內(nèi)外數(shù)字出版產(chǎn)業(yè)與數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展的時(shí)代背景之下,我國(guó)有必要準(zhǔn)確地界定文本與數(shù)據(jù)挖掘的法律性質(zhì),研究文本與數(shù)據(jù)挖掘在國(guó)內(nèi)產(chǎn)業(yè)實(shí)踐中面臨的法律障礙,分析域外法律與實(shí)踐對(duì)文本與數(shù)據(jù)挖掘進(jìn)行立法的經(jīng)驗(yàn)與不足,通過厘清作者利益、出版者利益和文本與數(shù)據(jù)使用者利益之間的邊界,探尋我國(guó)化解文本與數(shù)據(jù)挖掘法律困境的路徑。
二、文本與數(shù)據(jù)挖掘在我國(guó)著作權(quán)法上的法律障礙
文本與數(shù)據(jù)挖掘技術(shù)能夠高效地幫助人們處理海量信息,提高公眾研究、學(xué)習(xí)和獲取資源的能力。實(shí)施文本與數(shù)據(jù)挖掘能夠?qū)⒒A(chǔ)文本數(shù)據(jù)資源的價(jià)值予以深度利用,幫助人們發(fā)現(xiàn)新的知識(shí),加快知識(shí)發(fā)現(xiàn)進(jìn)程。而且,經(jīng)過訓(xùn)練的人工智能模型能夠產(chǎn)出豐富人們精神文化生活的內(nèi)容。然而,文本與數(shù)據(jù)挖掘?qū)嵤┻^程中不可避免地存在對(duì)大量作品的使用,亟須對(duì)該種使用行為是否有侵犯版權(quán)風(fēng)險(xiǎn)進(jìn)行法律定性。
1.未獲作品著作權(quán)人許可的文本與數(shù)據(jù)挖掘行為涉嫌侵權(quán)
文本與數(shù)據(jù)挖掘能夠以圖書期刊等數(shù)字化的作品集合為樣本,智能化地運(yùn)用分析工具對(duì)數(shù)據(jù)進(jìn)行關(guān)聯(lián)總結(jié)、偏差檢測(cè)、評(píng)判預(yù)測(cè),根據(jù)特定指令生成結(jié)果。根據(jù)樣本數(shù)據(jù)的來源,可以將作品文本與數(shù)據(jù)挖掘分為兩大類。第一類是以紙質(zhì)作品為樣本,將海量紙質(zhì)作品掃描存儲(chǔ)后形成數(shù)字化復(fù)制件,然后根據(jù)特定需求,從數(shù)字化內(nèi)容中發(fā)現(xiàn)有用信息。比如,為用戶呈現(xiàn)某類圖書的主題分布情況和提供內(nèi)容檢索或比對(duì)服務(wù)等。第二類是以電子圖書、數(shù)字期刊、網(wǎng)絡(luò)文學(xué)、數(shù)字報(bào)紙、數(shù)據(jù)庫(kù)作品等數(shù)字化作品為樣本,提供文本與數(shù)據(jù)挖掘服務(wù)。這一情形較多存在于由知識(shí)資源平臺(tái)、專業(yè)出版機(jī)構(gòu)、數(shù)據(jù)庫(kù)運(yùn)營(yíng)者或者網(wǎng)絡(luò)平臺(tái)型企業(yè)提供的服務(wù)中。舉例來說,知識(shí)資源平臺(tái)對(duì)自身平臺(tái)中的學(xué)術(shù)論文進(jìn)行深度挖掘,不僅可以得出當(dāng)下科學(xué)研究的關(guān)注熱點(diǎn)、研究趨勢(shì)與既往成果綜述,還可以通過文本與數(shù)據(jù)挖掘技術(shù)的應(yīng)用,開拓語(yǔ)義檢索、文本推薦、自動(dòng)問答、內(nèi)容概括等增值業(yè)務(wù)。第三方企業(yè)也會(huì)利用獨(dú)立的工具對(duì)知識(shí)資源平臺(tái)進(jìn)行數(shù)據(jù)抓取,實(shí)施文本與數(shù)據(jù)挖掘,訓(xùn)練其人工智能模型,開發(fā)生成式人工智能產(chǎn)品。
上述多種情形下不可避免地存在對(duì)被挖掘作品的復(fù)制行為。文本與數(shù)據(jù)挖掘工具在進(jìn)行樣本采集、處理、挖掘乃至挖掘結(jié)果核對(duì)階段,需要將作品的文字內(nèi)容轉(zhuǎn)換為機(jī)器可讀的數(shù)據(jù)代碼,并保存于軟件可訪問的存儲(chǔ)介質(zhì)中。轉(zhuǎn)碼僅涉及文字表達(dá)內(nèi)容存儲(chǔ)格式上的改變,并不改變作品的內(nèi)容及其表現(xiàn)形式。該過程中的內(nèi)容存儲(chǔ)并非是短暫的、即時(shí)的、緩存性質(zhì)的臨時(shí)復(fù)制[12],而是在實(shí)施者主導(dǎo)下進(jìn)行的貫穿于挖掘全過程的對(duì)作品的數(shù)字化復(fù)制,因此,這種行為落入作品著作權(quán)人復(fù)制權(quán)的控制范圍。任何主體未經(jīng)著作權(quán)人許可對(duì)作品實(shí)施文本與數(shù)據(jù)挖掘,在未有法定抗辯事由的情況下,構(gòu)成對(duì)著作權(quán)人復(fù)制權(quán)的侵犯。
對(duì)于紙質(zhì)作品而言,出版者從作者手中獲得出版權(quán)的許可意指獲得復(fù)制和發(fā)行的許可。出版權(quán)中的復(fù)制與文本與數(shù)據(jù)挖掘過程中的復(fù)制相比,二者指向不同。前者的復(fù)制,目的是發(fā)行與傳播作品;后者的復(fù)制,目的是產(chǎn)生衍生數(shù)據(jù)。所以,獲得出版權(quán)授權(quán)并不代表就能對(duì)作品進(jìn)行文本與數(shù)據(jù)挖掘。出版者或者任何第三方在對(duì)作品實(shí)施文本與數(shù)據(jù)挖掘前,需要得到著作權(quán)人的另行單獨(dú)許可,否則構(gòu)成侵權(quán)。對(duì)于數(shù)字化作品而言,一種情況是出版者本身就是作品的著作權(quán)人,其有權(quán)阻止未經(jīng)許可對(duì)其產(chǎn)品進(jìn)行文本與數(shù)據(jù)挖掘的行為;另一種情況是知識(shí)資源平臺(tái)獲得了著作權(quán)人的信息網(wǎng)絡(luò)傳播權(quán)授權(quán),有權(quán)將作品數(shù)字化網(wǎng)絡(luò)傳播。此時(shí),雖然信息網(wǎng)絡(luò)傳播權(quán)本身所隱含的是以信息網(wǎng)絡(luò)傳播為目的的復(fù)制,但與為實(shí)施文本與數(shù)據(jù)挖掘所進(jìn)行的復(fù)制相比,二者的指向亦不同。因此,在未獲得著作權(quán)人復(fù)制權(quán)授權(quán)的情況下,知識(shí)資源平臺(tái)自己或者向其用戶提供內(nèi)置工具對(duì)其產(chǎn)品中的作品進(jìn)行文本與數(shù)據(jù)挖掘,都構(gòu)成侵權(quán)。若知識(shí)資源平臺(tái)之外的主體利用獨(dú)立的數(shù)據(jù)挖掘工具,對(duì)構(gòu)成匯編作品的數(shù)據(jù)庫(kù)整體內(nèi)容進(jìn)行復(fù)制和文本與數(shù)據(jù)挖掘,則不僅侵犯了數(shù)據(jù)庫(kù)中每一部作品著作權(quán)人的復(fù)制權(quán),還侵犯了作為匯編作品的數(shù)據(jù)庫(kù)運(yùn)營(yíng)者的復(fù)制權(quán)。
2.我國(guó)著作權(quán)法合理使用抗辯事由難以適用于文本與數(shù)據(jù)挖掘
合理使用是著作權(quán)侵權(quán)的一種法定抗辯事由。在我國(guó)現(xiàn)行著作權(quán)法之下,第24條列舉的情形中能夠與文本與數(shù)據(jù)挖掘建立關(guān)聯(lián)的情形有兩種。
一種情形是為個(gè)人研究的目的使用他人已經(jīng)發(fā)表的作品。也就是說,為科學(xué)研究目的,個(gè)人實(shí)施文本與數(shù)據(jù)挖掘,如果未影響被挖掘作品的正常使用,且并未損害著作權(quán)人的合法權(quán)益,則屬于合理使用。但實(shí)際上,挖掘主體需具備一定技術(shù)和物質(zhì)條件,一般以非自然人的組織機(jī)構(gòu)形式存在,如知識(shí)資源平臺(tái)、大學(xué)、圖書館或者其他研究機(jī)構(gòu)[13],個(gè)人通常不具有實(shí)施文本與數(shù)據(jù)挖掘的實(shí)力。因此,文本與數(shù)據(jù)挖掘很難落入這種個(gè)人研究目的的合理使用情形中。
另一種情形是為科學(xué)研究的目的,翻譯、改編、匯編、播放或者少量復(fù)制已經(jīng)發(fā)表的作品供科研人員使用。但是法條中所列舉的“翻譯、改編、匯編、播放或者少量復(fù)制”,難以與文本與數(shù)據(jù)挖掘形成對(duì)應(yīng)關(guān)系。文本與數(shù)據(jù)挖掘的效果高度依賴原始數(shù)據(jù)的質(zhì)量與數(shù)量。所以,文本與數(shù)據(jù)挖掘的實(shí)施有賴于對(duì)大量作品進(jìn)行整本復(fù)制,樣本越全面,得出的結(jié)果就越準(zhǔn)確。因此,文本與數(shù)據(jù)挖掘中的作品復(fù)制,并非片段性的少量復(fù)制,亦非對(duì)某個(gè)作品進(jìn)行選擇性匯編。而且根據(jù)我國(guó)現(xiàn)行著作權(quán)法對(duì)該項(xiàng)情形規(guī)定的字面含義,該種合理使用的實(shí)施主體是學(xué)校和科研機(jī)構(gòu)[14],范圍過窄,無法將知識(shí)資源平臺(tái)涵蓋其中。
綜上,個(gè)人之外的各類機(jī)構(gòu),利用他人發(fā)表的作品或者對(duì)其他主體享有匯編作品著作權(quán)的數(shù)據(jù)庫(kù)進(jìn)行文本與數(shù)據(jù)挖掘,無法落入現(xiàn)行著作權(quán)法規(guī)定的法定合理使用情形之中,故需要獲得著作權(quán)人的許可。在數(shù)據(jù)處理者并非著作權(quán)人,或者并非經(jīng)過著作權(quán)人授權(quán)的主體時(shí),未獲得授權(quán)的作品不能作為用于文本與數(shù)據(jù)挖掘的基礎(chǔ)數(shù)據(jù)。
三、文本與數(shù)據(jù)挖掘納入著作權(quán)法合理使用制度的嘗試
作品的復(fù)制是文本與數(shù)據(jù)挖掘技術(shù)運(yùn)行過程中不可避免的步驟。對(duì)于文本與數(shù)據(jù)挖掘?qū)嵤┲黧w而言,獲得其使用的海量作品授權(quán)許可不僅難以實(shí)現(xiàn),而且提升了文本與數(shù)據(jù)挖掘的成本,不利于文本與數(shù)據(jù)挖掘樣本庫(kù)的擴(kuò)充以及文本與數(shù)據(jù)挖掘的實(shí)施。因此,一些國(guó)家和地區(qū)紛紛修改著作權(quán)法律制度,以回應(yīng)人工智能技術(shù)帶來的新問題,試圖排除文本與數(shù)據(jù)挖掘在著作權(quán)法上面臨的授權(quán)障礙。
1.域外解決文本與數(shù)據(jù)挖掘法律障礙的立法與實(shí)踐
日本2009年將文本與數(shù)據(jù)挖掘以“使用電腦分析信息”合理使用的方式納入合理使用制度中,又于2018年修改著作權(quán)法時(shí)更新了文本與數(shù)據(jù)挖掘合理使用條款,分別在第30條之4和第47條之5規(guī)定了非享受性使用條款和信息處理輕微使用條款。日本通過彈性權(quán)利限制制度,分兩個(gè)層次為文本與數(shù)據(jù)挖掘?qū)で蠛戏ㄐ猿雎?。第一層指向不以享受作品所表達(dá)的思想感情為目的的使用行為,即在計(jì)算機(jī)處理過程中對(duì)他人作品不涉及人類感官感知表達(dá)的使用行為。第二層指向計(jì)算機(jī)信息處理和提供附隨結(jié)果等輕微使用行為。輕微使用需要具體綜合所使用的部分在整個(gè)已發(fā)表作品所占的比例、所使用的量、使用時(shí)的精細(xì)程度等要素考慮后方能認(rèn)定。通過第一層的概括性描述和第二層的確定性指引,將上述兩種行為認(rèn)定為合理使用,這種彈性權(quán)利限制制度在為文本與數(shù)據(jù)挖掘賦予法律確定性的同時(shí),也為文本與數(shù)據(jù)挖掘例外提供了靈活的適用空間,能夠抵消一部分由法律滯后性帶來的影響。
隨著文本與數(shù)據(jù)挖掘越來越多地被用于科學(xué)研究,排除文本與數(shù)據(jù)挖掘在著作權(quán)法上的侵權(quán)性質(zhì)變得至關(guān)重要,歐洲國(guó)家陸續(xù)開始進(jìn)行文本與數(shù)據(jù)挖掘立法的嘗試?!队?guó)版權(quán)法》在2014年被修改時(shí),增設(shè)了單一非商業(yè)目的的文本與數(shù)據(jù)挖掘版權(quán)例外,允許行為人出于非商業(yè)目的,對(duì)合法獲取的作品進(jìn)行文本與數(shù)據(jù)挖掘,但是行為人不能將其所用的信息轉(zhuǎn)讓給他人或進(jìn)行其他處理。同時(shí),立法也排除了當(dāng)事人通過合同限制文本與數(shù)據(jù)挖掘例外的可能性。法國(guó)2016年《數(shù)字化共和國(guó)法》為《法國(guó)知識(shí)產(chǎn)權(quán)法典》增設(shè)了一個(gè)規(guī)定,科學(xué)出版物的著作權(quán)人不得禁止合法獲取其作品的人以公共研究目的實(shí)施文本與數(shù)據(jù)挖掘。德國(guó)2017年頒布的《著作權(quán)回應(yīng)知識(shí)經(jīng)濟(jì)發(fā)展需求的法案》修改了著作權(quán)法中的權(quán)利限制制度,在對(duì)著作權(quán)的限制法定情形中引入了文本與數(shù)據(jù)挖掘。
在部分歐盟成員國(guó)的推動(dòng)下,2019年歐盟出臺(tái)了《數(shù)字市場(chǎng)單一版權(quán)指令》(以下簡(jiǎn)稱《版權(quán)指令》)?!栋鏅?quán)指令》調(diào)和了各成員國(guó)對(duì)文本與數(shù)據(jù)挖掘的立法態(tài)度,用兩個(gè)條文規(guī)定了兩種文本與數(shù)據(jù)挖掘合理使用情形,兼顧了法律確定性和涉文本與數(shù)據(jù)挖掘各方的利益平衡。第3條允許研究型組織和文化遺產(chǎn)機(jī)構(gòu)以科學(xué)研究目的復(fù)制、提取合法訪問的作品或數(shù)據(jù)庫(kù),也允許權(quán)利人采取適度的措施,確保作品或其他受著作權(quán)保護(hù)的客體所在的網(wǎng)絡(luò)和數(shù)據(jù)庫(kù)的安全性和完整性。文化遺產(chǎn)機(jī)構(gòu)指的是公眾可公開進(jìn)入的圖書館或博物館、檔案館、電影或音頻遺產(chǎn)機(jī)構(gòu)。研究型組織指的是主要從事科學(xué)研究或者開展涉及科學(xué)研究的教育活動(dòng)組織,包括大學(xué)及其圖書館、研究機(jī)構(gòu)或者其他主體。上述主體具有非營(yíng)利性質(zhì)或者其將所有收益重新投入科學(xué)研究,或者是從事被歐盟成員國(guó)認(rèn)可的公共利益目的的活動(dòng),都可以合法實(shí)施文本與數(shù)據(jù)挖掘??茖W(xué)研究包括自然科學(xué)和人文科學(xué)研究。第4條規(guī)定了一般的文本與數(shù)據(jù)挖掘,任何人可以文本與數(shù)據(jù)挖掘目的復(fù)制提取合法獲取的作品或其他內(nèi)容,但復(fù)制提取的內(nèi)容只能保留到必要時(shí)為止。第4條規(guī)定的文本與數(shù)據(jù)挖掘包括政府服務(wù)、商業(yè)預(yù)測(cè)、軟件開發(fā)等情形,除非著作權(quán)人以適當(dāng)?shù)姆绞矫鞔_聲明不許使用,否則任何主體均可以基于合法獲取的作品(包括在公共網(wǎng)絡(luò)上可開放獲取的作品),實(shí)施文本與數(shù)據(jù)挖掘,并且向公眾傳播衍生數(shù)據(jù)。
美國(guó)采取的是在個(gè)案中依照《美國(guó)版權(quán)法》第107條合理使用的“四因素”對(duì)涉案的文本與數(shù)據(jù)挖掘行為進(jìn)行合理性判斷。已有裁判從轉(zhuǎn)換性使用的角度,將文本與數(shù)據(jù)挖掘行為作為一種對(duì)被使用作品的功能與價(jià)值的轉(zhuǎn)化行為,認(rèn)定該行為不構(gòu)成侵權(quán)。除了在司法實(shí)踐中通過判例解決文本與數(shù)據(jù)挖掘所面臨的法律障礙,美國(guó)還通過立法排除文本與數(shù)據(jù)挖掘?qū)嵤┲暗陌鏅?quán)技術(shù)措施障礙。美國(guó)國(guó)會(huì)圖書館根據(jù)《美國(guó)數(shù)字千年版權(quán)法》中的授權(quán),每隔三年修訂一次《禁止規(guī)避版權(quán)技術(shù)保護(hù)措施的例外規(guī)則》,在2021年10月28日的最新修訂中,增加了對(duì)文本與數(shù)據(jù)挖掘的規(guī)定。具體而言,非營(yíng)利性高等教育機(jī)構(gòu)的研究人員以及接到上述研究人員指示的學(xué)生或信息技術(shù)人員,僅僅以學(xué)術(shù)研究和教學(xué)的目的對(duì)其合法獲取的文字作品匯編進(jìn)行文本與數(shù)據(jù)挖掘,可以規(guī)避版權(quán)技術(shù)措施。
2.文本與數(shù)據(jù)挖掘納入合理使用制度對(duì)各方利益的影響
對(duì)于我國(guó)來說,嘗試進(jìn)行立法突破之前,必須考慮文本與數(shù)據(jù)挖掘?qū)Σ煌黧w間利益的影響,以及將文本與數(shù)據(jù)挖掘納入合理使用制度是否有利于利益平衡。在人工智能時(shí)代,信息傳播的便捷快速及其多元化特質(zhì)打破了舊有的出版?zhèn)鞑ジ窬?。參與出版?zhèn)鞑サ拿袷路申P(guān)系主體錯(cuò)綜復(fù)雜,主要包括數(shù)字版權(quán)人、出版機(jī)構(gòu)、技術(shù)提供者、消費(fèi)者[15]。文本與數(shù)據(jù)挖掘作為大數(shù)據(jù)時(shí)代深度利用數(shù)據(jù)的一種手段,對(duì)已出版的圖書、文章等文字作品的文本與數(shù)據(jù)挖掘,不僅關(guān)涉著作權(quán)人的利益,還關(guān)涉出版商利益和數(shù)據(jù)處理者利益。這三者之間的關(guān)系,本質(zhì)上是著作權(quán)法中的創(chuàng)作者、傳播者與使用者三方主體之間的關(guān)系。
首先,從作品的創(chuàng)作者角度,文本與數(shù)據(jù)挖掘的實(shí)施一般不會(huì)損害其合法利益,也沒有對(duì)作品的正常使用產(chǎn)生負(fù)面影響。第一,對(duì)作品的使用行為僅存在于衍生數(shù)據(jù)生成前的采集與處理階段,類似于人類創(chuàng)作前對(duì)在先作品的“學(xué)習(xí)”環(huán)節(jié)。故文本與數(shù)據(jù)挖掘并不會(huì)對(duì)著作權(quán)人的利益產(chǎn)生負(fù)面影響,反而能夠更大限度地發(fā)揮作品的社會(huì)作用。第二,從功能上講,文本與數(shù)據(jù)挖掘僅是發(fā)現(xiàn)知識(shí)的工具,能夠起到加快知識(shí)發(fā)現(xiàn)進(jìn)程的作用。文本與數(shù)據(jù)挖掘是基于信息分析的目的使用既有數(shù)據(jù),與既有數(shù)據(jù)著作權(quán)人創(chuàng)作作品或控制作品使用行為的目的并不相同。衍生內(nèi)容和增值價(jià)值的開發(fā)和利用,并不影響作者創(chuàng)作作品時(shí)的目的實(shí)現(xiàn)。雖然文本與數(shù)據(jù)挖掘大量地使用他人作品,但是這種使用行為并沒有干涉作者對(duì)其自身思想表達(dá)的公開傳播[16]。第三,從文本與數(shù)據(jù)挖掘所生成的衍生數(shù)據(jù)內(nèi)容來看,其不是簡(jiǎn)單地重復(fù)此前已有的作品,也不是以既有作品中的基本表達(dá)為基礎(chǔ)的創(chuàng)作,而是在不影響既有數(shù)據(jù)價(jià)值的同時(shí)開拓其增值價(jià)值。相對(duì)于被挖掘的既有作品而言,文本與數(shù)據(jù)挖掘所產(chǎn)生的數(shù)據(jù)成果是原有作品文獻(xiàn)的價(jià)值增值部分[17]。因此,文本與數(shù)據(jù)挖掘?qū)颖镜氖褂镁哂修D(zhuǎn)換性??傊?,文本與數(shù)據(jù)挖掘所生成的衍生數(shù)據(jù)與作為基礎(chǔ)數(shù)據(jù)的作品,在內(nèi)容上和價(jià)值上相互獨(dú)立[18]。文本與數(shù)據(jù)挖掘?qū)扔凶髌返氖褂檬且环N非競(jìng)爭(zhēng)目的的使用,衍生數(shù)據(jù)并不影響既有作品的市場(chǎng)。
其次,從作品傳播者的角度,一方面,作品傳播者掌握著大量已經(jīng)出版的作品的數(shù)字化文本,出版單位實(shí)施文本與數(shù)據(jù)挖掘具有天然優(yōu)勢(shì)。另一方面,作品傳播者出版的作品被知識(shí)資源平臺(tái)等第三方主體實(shí)施文本與數(shù)據(jù)挖掘時(shí),若可依法不經(jīng)其授權(quán),那么可能會(huì)破壞其對(duì)高質(zhì)量?jī)?nèi)容所提供的投資激勵(lì)機(jī)制[19]。但事實(shí)上,將文本與數(shù)據(jù)挖掘納入合理使用制度,并不妨礙出版單位原有的商業(yè)安排。文本與數(shù)據(jù)挖掘?qū)ψ髌返膹?fù)制行為,是對(duì)已合法獲得作品的一種使用行為,所以,進(jìn)行文本與數(shù)據(jù)挖掘的前提條件是已通過合法渠道獲得數(shù)字作品或者紙質(zhì)作品。由于出版單位已經(jīng)在該作品的流通環(huán)節(jié)獲得了經(jīng)濟(jì)利益回報(bào),出版單位的利益不會(huì)因文本與數(shù)據(jù)挖掘而受到顯著減損。相反,由于數(shù)據(jù)產(chǎn)業(yè)的飛速發(fā)展,文本與數(shù)據(jù)挖掘的應(yīng)用場(chǎng)景與需求也在不斷增多,而且文本與數(shù)據(jù)挖掘技術(shù)的運(yùn)用需要以海量樣本作為支撐,所以,從出版單位處合法取得樣本的需求勢(shì)必會(huì)隨之增加,其商業(yè)機(jī)會(huì)也可能因此增多。
最后,從文本與數(shù)據(jù)挖掘?qū)嵤┲黧w的角度,數(shù)據(jù)的共享與運(yùn)用對(duì)其開展文本與數(shù)據(jù)挖掘活動(dòng)極為重要。文本與數(shù)據(jù)挖掘所需的樣本數(shù)量巨大,在實(shí)施文本與數(shù)據(jù)挖掘之前,要求實(shí)施主體獲得所有相關(guān)數(shù)字作品的復(fù)制權(quán)授權(quán)并不現(xiàn)實(shí)。在權(quán)利人拒絕許可的情況下,將會(huì)產(chǎn)生大量碎片化權(quán)利,阻礙衍生數(shù)據(jù)成果的流通與使用[20]。而且,在從互聯(lián)網(wǎng)采集公開數(shù)字資源的情況下,一些數(shù)字化作品的權(quán)利人以匿名的形式存在,根據(jù)待挖掘文本的來源一一確定作品著作權(quán)人并向其索取復(fù)制權(quán)許可也并非易事。
從另一個(gè)角度來說,倘若授權(quán)許可是合法進(jìn)行文本與數(shù)據(jù)挖掘的唯一途徑,那么,作品的著作權(quán)人與數(shù)據(jù)使用者在許可關(guān)系中的地位差距將擴(kuò)大。著作權(quán)人處于相對(duì)優(yōu)勢(shì)地位,其可能會(huì)不正當(dāng)?shù)叵拗仆诰虻姆椒?、范圍、?shù)量、存儲(chǔ)以及挖掘成果共享[21],采用一攬子許可、捆綁許可等方式進(jìn)行授權(quán)。若某些大型企業(yè)取得了作品的排他許可或獨(dú)占許可,也不利于小規(guī)模企業(yè)的成長(zhǎng)與市場(chǎng)競(jìng)爭(zhēng)秩序的維護(hù),可能會(huì)造成文本與數(shù)據(jù)挖掘領(lǐng)域的壟斷[22]。知識(shí)資源平臺(tái)整合了大量作品,若允許知識(shí)資源平臺(tái)在特定情況下對(duì)平臺(tái)內(nèi)的作品實(shí)施文本與數(shù)據(jù)挖掘,能夠最大限度地發(fā)揮其資源優(yōu)勢(shì),實(shí)現(xiàn)知識(shí)傳播與共享的目的。如果文本與數(shù)據(jù)挖掘行為的實(shí)施有賴于著作權(quán)人的在先許可,那么這可能會(huì)對(duì)文本與數(shù)據(jù)挖掘樣本庫(kù)的擴(kuò)充產(chǎn)生負(fù)面影響,使得文本與數(shù)據(jù)挖掘技術(shù)受制于缺少既有數(shù)據(jù)。若這種情形長(zhǎng)期持續(xù),文本與數(shù)據(jù)挖掘技術(shù)的應(yīng)用與進(jìn)步將受到阻礙。而且,文本與數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性有賴于全面的基礎(chǔ)數(shù)據(jù)。數(shù)據(jù)的缺失影響模型的構(gòu)建,文本與數(shù)據(jù)挖掘的結(jié)果也因數(shù)據(jù)和算法模型的偏差而產(chǎn)生偏差,形成算法偏見,這反而不利于社會(huì)公共利益。
四、文本與數(shù)據(jù)挖掘?qū)嵤┻^程中合理使用作品的條件
鑒于文本與數(shù)據(jù)挖掘的實(shí)施對(duì)著作權(quán)人利益不會(huì)產(chǎn)生嚴(yán)重?fù)p害,而且,文本與數(shù)據(jù)挖掘有利于社會(huì)公共利益,將其作為著作權(quán)法第24條列舉的一項(xiàng)合理使用情形具有合理性。對(duì)于文本與數(shù)據(jù)挖掘合理使用制度的構(gòu)建,通過立法手段在靈活性與確定性之間進(jìn)行平衡時(shí),不僅需要使用精準(zhǔn)的法律語(yǔ)言,還需要結(jié)合我國(guó)文本與數(shù)據(jù)挖掘的具體情形作出規(guī)定。在我國(guó)化解作品文本與數(shù)據(jù)挖掘的法律障礙時(shí),既要參考其他國(guó)家和地區(qū)的有益做法,也要努力彌補(bǔ)上述做法中的不足,從而形成適合中國(guó)數(shù)字出版產(chǎn)業(yè)和人工智能與大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的解決對(duì)策。
1.文本與數(shù)據(jù)挖掘?qū)ο髞碓吹暮戏ㄐ?/p>
從對(duì)實(shí)施文本與數(shù)據(jù)挖掘獲取作品的要求上看,英國(guó)、法國(guó)均將合法獲取作為文本與數(shù)據(jù)挖掘例外的條件之一,這意味著只有通過訂閱、購(gòu)買事先從版權(quán)人處獲得許可訪問權(quán),或者已經(jīng)合法購(gòu)買了作品的主體方能對(duì)作品實(shí)施文本與數(shù)據(jù)挖掘[23]。但事實(shí)上,在網(wǎng)絡(luò)空間中存在著大量的“孤兒作品”,事先確定權(quán)利主體獲得授權(quán)較為困難。而且基于文本與數(shù)據(jù)挖掘?qū)A孔髌返男枨螅髮?shí)施者在獲取作品環(huán)節(jié)與大量權(quán)利主體進(jìn)行許可談判,不僅耗費(fèi)大量的時(shí)間和精力,還提高了文本與數(shù)據(jù)挖掘的交易成本。有學(xué)者提出,鑒于判定合法來源的成本較高,而且從當(dāng)前促進(jìn)文本與數(shù)據(jù)挖掘技術(shù)發(fā)展與保護(hù)公共利益的角度出發(fā),不應(yīng)限制數(shù)據(jù)的來源[24]。但是,如果作品的獲取來源不合法,那么,該獲取行為本身就具有可責(zé)性,隨后對(duì)作品的復(fù)制行為更不具備合法基礎(chǔ)。而且如果不限來源,那么權(quán)利人在作品傳播環(huán)節(jié)獲取報(bào)酬的權(quán)利就無法保障。
對(duì)于我國(guó)來說,比較折中的方式應(yīng)當(dāng)是,將文本與數(shù)據(jù)挖掘所使用的作品,限定為從合法渠道或者從公開渠道合法取得的作品。也就是說,第一種是通過付費(fèi)、訂閱、合作等方式獲得數(shù)據(jù)資源的訪問權(quán)限進(jìn)而有權(quán)下載的數(shù)字作品,以及通過合法渠道獲取的經(jīng)著作權(quán)人或其授權(quán)復(fù)制并發(fā)行的紙質(zhì)作品;第二種是通過公開渠道獲取的,著作權(quán)人自己或默示許可他人進(jìn)行信息網(wǎng)絡(luò)傳播的內(nèi)容。
2.文本與數(shù)據(jù)挖掘結(jié)果的獨(dú)立性
文本與數(shù)據(jù)挖掘所產(chǎn)生的結(jié)果是獨(dú)立于被挖掘作品的新成果,但新成果中有可能包含有少量比例的被挖掘文本。德國(guó)、法國(guó)均要求著作權(quán)人不得限制文本與數(shù)據(jù)挖掘結(jié)果的對(duì)外傳播,但并未直接回應(yīng)挖掘結(jié)果中作品文本部分呈現(xiàn)是否也屬于合理使用。對(duì)此,《日本著作權(quán)法》的規(guī)定可供參考,研究人員運(yùn)用機(jī)器學(xué)習(xí)技術(shù)來處理版權(quán)內(nèi)容以提取和生成新的知識(shí)性信息,如果所生成的內(nèi)容中僅僅是附帶著輕微地利用了他人作品,那么該情形屬于合理使用。
對(duì)于我國(guó)來說,考慮到目前傳統(tǒng)出版機(jī)構(gòu)尚未普遍具有文本與數(shù)據(jù)挖掘的技術(shù)能力,從事文本與數(shù)據(jù)挖掘的機(jī)構(gòu)以知識(shí)資源平臺(tái)、科研院所和科技型企業(yè)居多,為平衡二者的利益,有必要要求文本與數(shù)據(jù)挖掘所呈現(xiàn)的衍生數(shù)據(jù)結(jié)果應(yīng)當(dāng)具有有別于被挖掘?qū)ο蟮膬?nèi)容上的獨(dú)立性和價(jià)值上的獨(dú)立性,應(yīng)當(dāng)不包含或者僅少量包含被挖掘的作品,對(duì)于文本與數(shù)據(jù)挖掘生成的衍生數(shù)據(jù)的使用,不得與被挖掘作品的市場(chǎng)相沖突。在衍生數(shù)據(jù)包含有作品內(nèi)容片段的情況下,是否構(gòu)成合理使用,需要綜合該片段在整個(gè)作品中所占的比例、所使用的量、使用時(shí)的精細(xì)程度等因素進(jìn)行認(rèn)定。此外,在文本與數(shù)據(jù)挖掘行為實(shí)施之后,出于為驗(yàn)證結(jié)果的目的,應(yīng)當(dāng)允許文本與數(shù)據(jù)挖掘?qū)嵤┲黧w保留作品的數(shù)字化副本,但應(yīng)保證副本存儲(chǔ)的安全性,防止他人未經(jīng)授權(quán)獲取和使用這些副本。
3.文本與數(shù)據(jù)挖掘目的的附條件性
從合理使用框架下文本與數(shù)據(jù)挖掘的實(shí)施條件上看,英國(guó)規(guī)定的是“單一非商業(yè)目的”,但是,這一標(biāo)準(zhǔn)有些狹窄。德國(guó)、法國(guó)的文本與數(shù)據(jù)挖掘例外條款適用于公益研究目的,但該范圍具有模糊性。歐盟《版權(quán)指令》在立法提案階段僅規(guī)定了科研機(jī)構(gòu)實(shí)施的科學(xué)研究目的的作品使用行為適用文本與數(shù)據(jù)挖掘例外,而具備創(chuàng)新性的初創(chuàng)公司、政府部門、個(gè)人研究者等均無法被該情形涵蓋。有學(xué)者認(rèn)為,該項(xiàng)提案規(guī)定的文本與數(shù)據(jù)挖掘范圍過于狹隘,將商業(yè)主體排除在文本與數(shù)據(jù)挖掘合理使用范圍之外的做法與歐洲工業(yè)利益相矛盾[25],應(yīng)當(dāng)允許非研究組織和公司進(jìn)行文本與數(shù)據(jù)挖掘,以保證歐盟在文本與數(shù)據(jù)挖掘活動(dòng)上與美國(guó)處于同一競(jìng)爭(zhēng)水平[26],但這遭到傳統(tǒng)出版商和報(bào)紙出版商的強(qiáng)烈反對(duì)。最終,歐盟《版權(quán)指令》采取類型化手段進(jìn)行了調(diào)試,以科學(xué)研究為目的的文本與數(shù)據(jù)挖掘合理使用,不賦予著作權(quán)人選擇退出的權(quán)利,除此之外的文本與數(shù)據(jù)挖掘,允許著作權(quán)人以“適當(dāng)?shù)姆绞健甭暶鞅A簦热缭谧髌肪€上傳播時(shí)以機(jī)器可讀的方式。但是,對(duì)于何為適當(dāng)?shù)姆绞饺狈γ鞔_的規(guī)定,雖以“機(jī)器可讀”作為舉例,但該詞本身亦缺乏標(biāo)準(zhǔn)。有學(xué)者批評(píng)指出,《版權(quán)指令》定義的不清晰以及著作權(quán)人決定例外適用的機(jī)制導(dǎo)致文本與數(shù)據(jù)挖掘例外缺少可操作性[27]。在美國(guó),依據(jù)轉(zhuǎn)換性使用理論來進(jìn)行個(gè)案評(píng)判時(shí),文本與數(shù)據(jù)挖掘是否具有商業(yè)性目的,僅僅是合理使用判斷的一個(gè)考量因素,并非決定性要素。所以,美國(guó)對(duì)文本與數(shù)據(jù)挖掘的態(tài)度被稱為“靈活例外”模式,為文本與數(shù)據(jù)挖掘的實(shí)施留下了更多的法律空間。但是,這種“靈活例外”制度無法針對(duì)文本與數(shù)據(jù)挖掘行為向公眾提供穩(wěn)定的構(gòu)成合理使用的法律預(yù)期[28]。
我國(guó)的合理使用制度采取“概括式加封閉式列舉”的立法模式,從而增強(qiáng)規(guī)則的確定性和穩(wěn)定性,避免合理使用規(guī)則被濫用和被寬泛解讀以至于威脅到著作權(quán)人的利益。法官不能僅憑第24條第1款的原則性規(guī)定來裁量涉訴行為是否屬于合理使用,還需要將其在所列舉的法定情形中尋找對(duì)應(yīng)。所以,我國(guó)并不適合采用類似于美國(guó)的“靈活例外”模式,司法實(shí)踐也不能僅通過引入“四因素”分析法、改造轉(zhuǎn)換性使用規(guī)則就將未在法律所列舉的法定情形之中的行為作為合理使用行為來對(duì)待。2020年修訂的著作權(quán)法在合理使用制度中增加了“法律、行政法規(guī)規(guī)定的其他情形”這一兜底條款,這一“半開放式”的合理使用情形,為《著作權(quán)法實(shí)施條例》以及數(shù)據(jù)專門立法規(guī)定文本與數(shù)據(jù)挖掘的合理使用留下了空間。
伴隨著互聯(lián)網(wǎng)產(chǎn)業(yè)的繁榮,我國(guó)數(shù)據(jù)產(chǎn)業(yè)發(fā)展迅猛,人工智能產(chǎn)業(yè)處于起步的關(guān)鍵階段。從最有利于數(shù)據(jù)開發(fā)利用與人工智能應(yīng)用創(chuàng)新的角度,數(shù)據(jù)開放與共享更有助于文本與數(shù)據(jù)挖掘的實(shí)施。為了推動(dòng)并發(fā)揮文本與數(shù)據(jù)挖掘在數(shù)據(jù)產(chǎn)業(yè)發(fā)展的效用,促進(jìn)知識(shí)的共享以及作品的傳播,同時(shí)兼顧對(duì)著作權(quán)人利益的保護(hù),我國(guó)有必要區(qū)分教學(xué)和科學(xué)研究目的與該目的之外的文本與數(shù)據(jù)挖掘行為。當(dāng)然,教學(xué)和科學(xué)研究目的下,不應(yīng)當(dāng)對(duì)文本與數(shù)據(jù)挖掘的主體性質(zhì)做過多限制,這符合我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展實(shí)際,能夠最大限度地促進(jìn)知識(shí)傳播與產(chǎn)業(yè)發(fā)展。教學(xué)和科學(xué)研究目的的文本與數(shù)據(jù)挖掘行為是“絕對(duì)的例外”,著作權(quán)人不可以通過在先聲明予以禁止;該目的之外的文本與數(shù)據(jù)挖掘行為是“相對(duì)的例外”,即允許其對(duì)合法獲取的作品進(jìn)行文本與數(shù)據(jù)挖掘,但著作權(quán)人聲明不許使用的除外。綜上,以教學(xué)和科學(xué)研究目的實(shí)施文本與數(shù)據(jù)挖掘時(shí),版權(quán)人的禁止挖掘聲明應(yīng)屬無效,但是教學(xué)和科學(xué)研究目的之外的文本與數(shù)據(jù)挖掘,則應(yīng)當(dāng)尊重著作權(quán)人的聲明。
在數(shù)字出版領(lǐng)域,知識(shí)資源平臺(tái)經(jīng)常會(huì)采用版權(quán)技術(shù)措施對(duì)數(shù)據(jù)進(jìn)行限制,如禁止未經(jīng)其授權(quán)的主體運(yùn)用爬蟲技術(shù)抓取文本與數(shù)據(jù)。依照《英國(guó)版權(quán)法》,在權(quán)利人采取的技術(shù)保護(hù)措施阻止了法律規(guī)定范圍內(nèi)的文本與數(shù)據(jù)挖掘行為時(shí),賦予文本與數(shù)據(jù)挖掘?qū)嵤┱呦蛳嚓P(guān)行政管理部門投訴的權(quán)利。但是,這僅僅是對(duì)程序性救濟(jì)措施的規(guī)定,無法及時(shí)為文本與數(shù)據(jù)挖掘的實(shí)施排除不合法的技術(shù)障礙。歐盟允許著作權(quán)人采取適當(dāng)技術(shù)措施,那么,究竟何種措施可被知識(shí)資源平臺(tái)應(yīng)用到其數(shù)據(jù)庫(kù)當(dāng)中而不會(huì)被認(rèn)定為無效,何種措施屬于機(jī)器可讀的“聲明”,《版權(quán)指令》并沒有作出明確的解釋[29]。美國(guó)《禁止規(guī)避版權(quán)技術(shù)保護(hù)措施的例外規(guī)則》允許非營(yíng)利性高等教育機(jī)構(gòu)的相關(guān)人員以學(xué)術(shù)研究和教學(xué)目的規(guī)避技術(shù)保護(hù)措施,也就是說,除此之外的其他情形不得進(jìn)行規(guī)避。
我國(guó)現(xiàn)行著作權(quán)法第50條規(guī)定了合法避開技術(shù)措施的情形,比如,為學(xué)校課堂教學(xué)和科學(xué)研究目的,提供少量已經(jīng)發(fā)表的作品供科研人員使用,在該作品無法通過正常途徑獲取的情況下,可以避開技術(shù)措施??紤]到文本與數(shù)據(jù)挖掘過程需要對(duì)作品進(jìn)行完整的復(fù)制,無法滿足法律規(guī)定的“少量”這一限定條件,所以,有必要在未來修訂著作權(quán)法律制度或者進(jìn)行數(shù)據(jù)產(chǎn)權(quán)專門立法時(shí),將僅僅為教學(xué)和科學(xué)研究目的而實(shí)施的文本與數(shù)據(jù)挖掘,列入可避開技術(shù)措施的法定情形中。
五、結(jié)語(yǔ)
人工智能時(shí)代,文本與數(shù)據(jù)挖掘技術(shù)是一項(xiàng)重要的數(shù)據(jù)利用技術(shù),它幫助人們從海量的文獻(xiàn)中提取關(guān)鍵信息,加快數(shù)據(jù)分析的進(jìn)度,生產(chǎn)出新的知識(shí)與信息。文本與數(shù)據(jù)挖掘的應(yīng)用,不僅關(guān)系到數(shù)據(jù)產(chǎn)業(yè)的創(chuàng)新發(fā)展,而且對(duì)科學(xué)研究活動(dòng)的開展、知識(shí)的共享與傳播也至關(guān)重要。但對(duì)知識(shí)資源平臺(tái)等文本與數(shù)據(jù)挖掘?qū)嵤┱叨?,獲得其使用的海量作品的授權(quán)許可不僅難以實(shí)現(xiàn),而且提升了文本與數(shù)據(jù)挖掘的成本,不利于文本與數(shù)據(jù)挖掘樣本庫(kù)的擴(kuò)充以及文本與數(shù)據(jù)挖掘的實(shí)施。對(duì)于文本與數(shù)據(jù)挖掘過程中的作品使用行為,法律應(yīng)當(dāng)積極應(yīng)對(duì),避免法律的不確定性造成社會(huì)主體交易成本的增加,進(jìn)而使得知識(shí)傳播和技術(shù)發(fā)展的進(jìn)程受阻。
當(dāng)前,國(guó)內(nèi)外各大企業(yè)紛紛投入生成式人工智能產(chǎn)品的研發(fā)進(jìn)程中,如OpenAI公司研發(fā)聊天機(jī)器人ChatGPT。這類產(chǎn)品在對(duì)數(shù)據(jù)進(jìn)行采集和深度學(xué)習(xí)的過程中不可避免地會(huì)涉及對(duì)著作權(quán)法所保護(hù)作品的存儲(chǔ)。在當(dāng)前國(guó)際數(shù)據(jù)產(chǎn)業(yè)競(jìng)爭(zhēng)的大背景下,一些國(guó)家明確將文本與數(shù)據(jù)挖掘作為著作權(quán)法上的一項(xiàng)合理使用情形。我國(guó)現(xiàn)行著作權(quán)法缺乏對(duì)人工智能技術(shù)發(fā)展的回應(yīng),這給相關(guān)版權(quán)作品的使用和人工智能技術(shù)開發(fā)帶來了許多困難[30]。國(guó)家互聯(lián)網(wǎng)信息辦公室正在起草的對(duì)生成式人工智能服務(wù)的管理辦法,擬要求技術(shù)提供者用于生成式人工智能產(chǎn)品的預(yù)訓(xùn)練、優(yōu)化訓(xùn)練數(shù)據(jù)不含有侵犯知識(shí)產(chǎn)權(quán)的內(nèi)容。這為生成式人工智能的發(fā)展增加了版權(quán)合規(guī)成本。我國(guó)有必要盡快將文本與數(shù)據(jù)挖掘過程中的作品使用行為納入合理使用的法定情形,同時(shí)也應(yīng)當(dāng)嚴(yán)格限制文本與數(shù)據(jù)挖掘構(gòu)成合理使用的前提條件。為教學(xué)和科學(xué)研究目的使用通過合法途徑獲得的他人已經(jīng)發(fā)表的作品,不需要經(jīng)過著作權(quán)人的許可,亦不需要支付報(bào)酬;但為教學(xué)和科學(xué)研究之外目的實(shí)施的文本與數(shù)據(jù)挖掘行為,應(yīng)受著作權(quán)人聲明的限制。此外,還有必要將僅僅為教學(xué)和科學(xué)研究目的而實(shí)施的文本與數(shù)據(jù)挖掘,列入可避開版權(quán)技術(shù)保護(hù)措施的法定情形中。
當(dāng)下,我國(guó)《著作權(quán)法實(shí)施條例》的修訂工作已明確被列入立法規(guī)劃,我國(guó)也在醞釀對(duì)數(shù)據(jù)產(chǎn)權(quán)的單獨(dú)立法,此時(shí)應(yīng)為創(chuàng)設(shè)文本與數(shù)據(jù)挖掘合理使用制度的最佳時(shí)機(jī)。在對(duì)數(shù)據(jù)生產(chǎn)者獲取和處理的數(shù)據(jù)進(jìn)行法律保護(hù)時(shí),有必要對(duì)文本與數(shù)據(jù)挖掘行為所涉及的著作權(quán)問題充分考量。通過文本與數(shù)據(jù)挖掘合理使用制度的構(gòu)建,平衡數(shù)據(jù)生產(chǎn)者與著作權(quán)人的利益,只有這樣,方能克服文本與數(shù)據(jù)挖掘?qū)嵤┻^程中著作權(quán)法上的法律障礙,規(guī)制知識(shí)資源利用秩序,助力作品的價(jià)值轉(zhuǎn)化與數(shù)據(jù)產(chǎn)業(yè)的創(chuàng)新發(fā)展。
|參考文獻(xiàn)|
[1]王國(guó)胤,劉群,于洪,等. 大數(shù)據(jù)挖掘及應(yīng)用[M]. 北京:清華大學(xué)出版社,2017.
[2]陶乾. 論著作權(quán)法對(duì)人工智能生成成果的保護(hù):作為鄰接權(quán)的數(shù)據(jù)處理者權(quán)之證立[J]. 法學(xué),2018(4):3-15.
[3]鐘智錦,王童辰. 大數(shù)據(jù)文本與數(shù)據(jù)挖掘技術(shù)在新聞傳播學(xué)科的應(yīng)用[J]. 當(dāng)代傳播,2018(5):12-18.
[4] 張振宇,周莉. “大數(shù)據(jù)出版” 的理念、方法及發(fā)展路徑[J]. 出版發(fā)行研究,2015(1):14-17.
[5]盧炳宏. 表達(dá)型人工智能版權(quán)合理使用制度研究[J]. 現(xiàn)代出版,2019(4):60-63.
[6] 高陽(yáng),胡丹陽(yáng). 機(jī)器學(xué)習(xí)對(duì)著作權(quán)合理使用制度的挑戰(zhàn)與應(yīng)對(duì)[J]. 電子知識(shí)產(chǎn)權(quán),2020(10):13-25.
[7]劉維. 人工智能時(shí)代著作權(quán)法的挑戰(zhàn)和應(yīng)對(duì)[J]. 上海交通大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2021 (2):40-49.
[8]馬治國(guó),趙龍. 文本與數(shù)據(jù)挖掘?qū)χ鳈?quán)例外體系的沖擊與應(yīng)對(duì)[J]. 西北師大學(xué)報(bào)(社會(huì)科學(xué)版),2021 (4):107-115.
[9] 張今,田小軍. 歐盟著作權(quán)法改革與中國(guó)借鑒[J]. 中國(guó)出版,2019(6):61-64.
[10]徐龍. 機(jī)器學(xué)習(xí)的著作權(quán)困境及制度方案[J]. 東南學(xué)術(shù),2022(2):237-245.
[11]吳漢東. 人工智能生成作品的著作權(quán)法之問[J]. 中外法學(xué),2020(3):653-673.
[12]張金平. 人工智能作品合理使用困境及其解決[J]. 環(huán)球法律評(píng)論,2019 (3):120-132.
[13]唐思慧. 大數(shù)據(jù)環(huán)境下文本和數(shù)據(jù)挖掘的版權(quán)例外研究:以歐盟《DSM 版權(quán)指令》提案為視角[J]. 知識(shí)產(chǎn)權(quán),2017 (10):109-116.
[14]黃玉燁. 著作權(quán)合理使用具體情形立法完善之探討[J]. 法商研究,2012 (4):21-24.
[15]李德升. 我國(guó)數(shù)字出版的法律構(gòu)建:以知識(shí)產(chǎn)權(quán)保護(hù)為視角[C]//王京山,等. 數(shù)字出版前沿. 北京:知識(shí)產(chǎn)權(quán)出版社,2018.
[16]SAG M.? The New Legal Landscape for Text Mining and Machine Learning[J]. Copyright Soc'y USA,2018(66):338.
[17]徐小奔,楊依楠. 論人工智能深度學(xué)習(xí)中著作權(quán)的合理使用[J]. 交大法學(xué),2019(3):32-42.
[18]萬勇. 人工智能時(shí)代著作權(quán)法合理使用制度的困境與出路[J]. 社會(huì)科學(xué)輯刊,2021(5):93-102.
[19]茹麗潔,顧立平,田鵬偉. 國(guó)際出版商對(duì)文本和數(shù)據(jù)挖掘限制的正當(dāng)性辨析[J]. 圖書館建設(shè),2016(7):27-33.
[20]梅傲,鄭宇豪. 人工智能作品的困境及求解:以人工智能寫作領(lǐng)域第一案為考察中心[J]. 出版發(fā)行研究,2020(12):50-56.
[21]羅嬌,張曉林. 支持文本與數(shù)據(jù)挖掘的著作權(quán)法律政策建議[J]. 中國(guó)圖書館學(xué)報(bào),2018 (3):21-34.
[22]張潤(rùn),李勁松. 利益平衡視角下人工智能編創(chuàng)使用行為的法律定性與保護(hù)路徑研究[J]. 出版發(fā)行研究,2020(11):72-79.
[23]徐軒,孫益武. 英國(guó)數(shù)據(jù)挖掘著作權(quán)例外條款研究及其啟示[J]. 圖書館建設(shè),2015(9):10-14.
[24]吳高,黃曉斌. 人工智能時(shí)代文本與數(shù)據(jù)挖掘合理使用規(guī)則設(shè)計(jì)研究[J]. 圖書情報(bào)工作,2021 (22):3-13.
[25] HILTY R,MOSCON V. Modernisation of the EU Copyright Rules Position Statement of the Max Planck Institute for Innovation and Competition [J]. Max Planck Institute for Innovation & Competition Research Paper,2017(12):25.
[26] European Copyright Society. General Opinion on the EU Copyright Reform Package[Z]. 2017.
[27] GEIGER C. The Missing Goal-Scorers in the Artificial Intelligence Team:of Big Data,the Fundamental Right to Research and the failed Text and Data Mining Limitations in the CSDM Directive [J]. PIJIP/TLS Research Paper Series,2021 (66):392.
[28]LIU Jiarui. An Empirical Study of Transformative
Use in Copyright Law[J]. Stanford Technology Law Review,2019(22) :169.
[29]焦萍. 歐盟文本與數(shù)據(jù)挖掘版權(quán)例外條款的法律框架評(píng)析[J]. 編輯之友,2017(10): 82-86+112.
[30]林秀芹. 人工智能時(shí)代著作權(quán)合理使用制度的重塑[J]. 法學(xué)研究,2021 (6):170-185.