• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      文本和數(shù)據(jù)挖掘技術(shù)(TDM)與著作權(quán)保護(hù)

      2018-05-30 08:33:37楊博宇
      職工法律天地·上半月 2018年8期
      關(guān)鍵詞:數(shù)據(jù)挖掘文本過(guò)程

      楊博宇 余 萍

      (611130 西南財(cái)經(jīng)大學(xué) 四川 成都)

      一、TDM的定義

      TDM,Text and Data Ming,也被稱(chēng)做Content Mining,是一種基于計(jì)算機(jī)數(shù)據(jù)處理技術(shù)對(duì)數(shù)字化的數(shù)據(jù)進(jìn)行處理并提取隱含信息的過(guò)程。學(xué)界中對(duì)于其定義有諸多討論。

      1.我國(guó)學(xué)者定義

      郝文江(2007)認(rèn)為,文本和數(shù)據(jù)挖掘(TDM),是指通過(guò)運(yùn)用自動(dòng)分析技術(shù)對(duì)現(xiàn)有的文本和數(shù)據(jù)進(jìn)行考察分析,以便從中發(fā)現(xiàn)某種模型、趨勢(shì)或其他有用信息?;亓郑?008)認(rèn)為,數(shù)據(jù)挖掘是指從大量的、不完全的、模糊的、隨機(jī)的應(yīng)用數(shù)據(jù)中,提取隱含在其中的但又是潛在有用的信息和知識(shí)的過(guò)程。宋海艷、邵承瑾等(2014)認(rèn)為數(shù)據(jù)挖掘只是知識(shí)發(fā)現(xiàn)階段即從數(shù)據(jù)集中提取信息階段的一個(gè)關(guān)鍵環(huán)節(jié),整個(gè)知識(shí)發(fā)現(xiàn)階段應(yīng)當(dāng)包括數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段以及結(jié)果解釋與評(píng)價(jià)階段。

      2.國(guó)際上典型的定義

      更為明確的定義可以在英國(guó)知識(shí)產(chǎn)權(quán)辦公室(UK IPO)2012年針對(duì)TDM做的一項(xiàng)影響分析中找到,“文本和數(shù)據(jù)以及數(shù)據(jù)分析方法是從現(xiàn)有的電子信息中提取數(shù)據(jù),建立新的事實(shí)和關(guān)系,以從先前的研究中建立新的科學(xué)發(fā)現(xiàn)。這種方式包括復(fù)制已完成的工作成果,作為提取數(shù)據(jù)過(guò)程的一部分?!眹?guó)際科學(xué)、技術(shù)和醫(yī)學(xué)出版商協(xié)會(huì)(STM)認(rèn)為,“文本和數(shù)據(jù)挖掘意味著對(duì)發(fā)布者的內(nèi)容進(jìn)行廣泛的自動(dòng)化的搜索,其包括對(duì)語(yǔ)言結(jié)構(gòu)的排序、分析、增補(bǔ)或刪除以及選擇和包含,常在行業(yè)索引或者數(shù)據(jù)庫(kù)中用于分類(lèi)或識(shí)別關(guān)系。”

      Jean-Paul Triaille et al (2014)的報(bào)告中將TDM稱(chēng)做數(shù)據(jù)分析(Data Analysis,DA),認(rèn)為這是一種對(duì)于數(shù)字材料的自動(dòng)化處理,包括文本、數(shù)據(jù)、聲音、圖像或其他元素,或這些元素的組合,以便發(fā)現(xiàn)新的知識(shí)或見(jiàn)解。這個(gè)過(guò)程有四個(gè)特點(diǎn):①具有自動(dòng)性:是電腦對(duì)于選擇的電子數(shù)據(jù)進(jìn)行自動(dòng)獲取的過(guò)程(他們認(rèn)為正是這種區(qū)別于人為選擇的技術(shù)性特征使得TDM功能強(qiáng)大且引發(fā)了新的版權(quán)問(wèn)題);②數(shù)據(jù)經(jīng)過(guò)處理:包括提取、復(fù)制、比較、分類(lèi)以及其他數(shù)據(jù)分析過(guò)程;③對(duì)象是數(shù)字化材料,包括文本、數(shù)據(jù)、圖片及其他元素;④是為了發(fā)現(xiàn)新知識(shí)或啟示。

      由上可知,生活中我們所進(jìn)行的數(shù)據(jù)檢索工作、數(shù)據(jù)庫(kù)使用過(guò)程,數(shù)字圖書(shū)館館藏圖書(shū)閱讀等操作,都是在TDM或DA的基礎(chǔ)上,對(duì)我們所選擇的數(shù)據(jù)進(jìn)行處理后所呈現(xiàn)的成果。

      二、TDM的應(yīng)用和價(jià)值

      當(dāng)前,TDM技術(shù)在多個(gè)領(lǐng)域都展現(xiàn)出極強(qiáng)的實(shí)用價(jià)值。出版研究聯(lián)盟針對(duì)期刊文本挖掘技術(shù)適用的一項(xiàng)調(diào)查(2016)表明,文本和數(shù)據(jù)挖掘技術(shù)正在被人們所認(rèn)知和接受,人們普遍認(rèn)為該技術(shù)能夠?qū)γ恳粋€(gè)領(lǐng)域的研究人員產(chǎn)生積極的作用。李鋼(2016)提出,在商業(yè)領(lǐng)域,商家解決信息不對(duì)稱(chēng)問(wèn)題的傳統(tǒng)方式是依賴(lài)統(tǒng)計(jì)數(shù)據(jù)推測(cè)消費(fèi)者偏好,而文本挖掘通過(guò)自然語(yǔ)言分析使商家能夠直接了解消費(fèi)者對(duì)產(chǎn)品的喜好,并對(duì)其市場(chǎng)策略做出相應(yīng)的調(diào)整。孟慶良、展俊平(2014)在一項(xiàng)醫(yī)學(xué)研究中運(yùn)用TDM技術(shù),得出結(jié)論,認(rèn)為T(mén)DM技術(shù)能夠?yàn)橹形麽t(yī)結(jié)合研究提供更直觀的展示,為中醫(yī)臨床研究提供有益參考,更好地指導(dǎo)服務(wù)于臨床。郭金龍、許鑫(2012)從TDM在數(shù)字人文研究中的典型應(yīng)用出發(fā),指出TDM技術(shù)的發(fā)展將對(duì)創(chuàng)新人文科學(xué)的研究方法和研究范式產(chǎn)生深遠(yuǎn)的影響。

      綜上而言,TDM技術(shù)可以被視為廣義上的一種利用“大數(shù)據(jù)”的網(wǎng)絡(luò)背景,對(duì)現(xiàn)有的電子化文本和數(shù)據(jù)進(jìn)行挖掘,處理并提煉出有用信息的過(guò)程,其具有知識(shí)發(fā)現(xiàn)、運(yùn)用廣泛、商業(yè)潛力巨大的特點(diǎn)。

      三、TDM與著作權(quán)保護(hù)的沖突

      全球研究界每年將產(chǎn)生150多萬(wàn)篇新的學(xué)術(shù)文章,這些文章以及其他類(lèi)似文學(xué)、技術(shù)、科學(xué)作品經(jīng)過(guò)發(fā)表和數(shù)據(jù)化處理之后,就形成了一個(gè)極為龐大的全球性的文獻(xiàn)數(shù)據(jù)庫(kù)。由于訪問(wèn)限制等原因,文章的數(shù)據(jù)會(huì)被分類(lèi)儲(chǔ)存到不同的載體或者電子館藏圖書(shū)館中。但是TDM技術(shù)在一定程度上可以突破訪問(wèn)壁壘,在將所能提取到的數(shù)據(jù)整合后,呈獻(xiàn)給訪問(wèn)者一種可視化的數(shù)據(jù)分析后的成果。其結(jié)果可能是根據(jù)關(guān)鍵詞導(dǎo)出的段落化的文獻(xiàn),根據(jù)信息搜索出的碎片化的數(shù)據(jù)信息,或者根據(jù)圖片分類(lèi)檢索功能產(chǎn)生的圖片映像等形式。

      大致來(lái)說(shuō),TDM的應(yīng)用過(guò)程可以分為大致幾個(gè)階段:

      (1)數(shù)據(jù)源的獲取:將所需要的內(nèi)容從外部來(lái)源或內(nèi)部自有數(shù)據(jù)中提取出來(lái),該內(nèi)容可能是受到版權(quán)保護(hù)或者是數(shù)據(jù)庫(kù)通過(guò)一定的技術(shù)手段進(jìn)行防護(hù)的;

      (2)轉(zhuǎn)化內(nèi)容:必要時(shí),將提取出的內(nèi)容轉(zhuǎn)化為所需要的形式;

      (3)加載內(nèi)容:將需要的內(nèi)容加載到數(shù)據(jù)集、存儲(chǔ)庫(kù)或者內(nèi)容集合中;

      (4)數(shù)據(jù)分析:對(duì)內(nèi)容數(shù)據(jù)進(jìn)行挖掘并分析;

      (5)成果展現(xiàn):通過(guò)分析產(chǎn)生挖掘后的結(jié)果。

      在這五個(gè)階段之中,無(wú)論是對(duì)于數(shù)據(jù)的獲取或者轉(zhuǎn)化、復(fù)制、重新加載以及分析,都會(huì)在一定程度上觸碰到法律的邊界。

      I.Hargreaves (2011)在其研究中肯定了TDM的價(jià)值,認(rèn)為對(duì)學(xué)術(shù)文獻(xiàn)和其他數(shù)字化的文本進(jìn)行挖掘和分析為新知識(shí)的發(fā)展和創(chuàng)新提供了一個(gè)真正的機(jī)會(huì)。但Dr. Diane McDonald & Ursula Kelly(2012)指出,為了“被挖掘”,上述數(shù)據(jù)必須被訪問(wèn)、復(fù)制、分析、注釋并與現(xiàn)存的信息和理解所關(guān)聯(lián),這在一定程度上,侵犯了出版商的利益。

      對(duì)于這樣一種使用價(jià)值巨大、前景良好的技術(shù)來(lái)說(shuō),其還需要克服一些法律法規(guī)上的壁壘,尤其是在數(shù)據(jù)處理過(guò)程中所發(fā)生的,對(duì)數(shù)據(jù)進(jìn)行復(fù)制、分析、破解時(shí)的自主技術(shù)性操作和著作權(quán)法中為了保護(hù)版權(quán)所賦予權(quán)利人的權(quán)利價(jià)值之間,所產(chǎn)生的實(shí)踐價(jià)值和法律價(jià)值的沖突選擇。

      四、數(shù)據(jù)的定義和分級(jí)

      首先,我國(guó)著作權(quán)法應(yīng)當(dāng)在法律層面,對(duì)“數(shù)據(jù)”下一個(gè)符合使用目的的定義?,F(xiàn)行《著作權(quán)法》第五條規(guī)定了我國(guó)的版權(quán)客體排除規(guī)則,參照美國(guó)通過(guò)版權(quán)客體排除規(guī)則解決大數(shù)據(jù)產(chǎn)業(yè)排除困境的現(xiàn)行做法,我國(guó)或許可以將“數(shù)據(jù)”納入公有領(lǐng)域范疇,成為版權(quán)保護(hù)的例外性規(guī)定。

      其次,既然TDM是針對(duì)電子化的文本和數(shù)據(jù)進(jìn)行挖掘的技術(shù),則法律應(yīng)當(dāng)從技術(shù)的本源出發(fā),對(duì)其所挖掘的客觀對(duì)象——數(shù)據(jù),進(jìn)行分級(jí)。

      例如,有學(xué)者在將數(shù)據(jù)的獲取和展示分成了四個(gè)級(jí)別:

      級(jí)別 種類(lèi)完全公開(kāi) 網(wǎng)絡(luò)數(shù)據(jù)多方對(duì)多方 社交媒體數(shù)據(jù)一方對(duì)多方 合同/出版商數(shù)據(jù)單方對(duì)單方 保密數(shù)據(jù)

      針對(duì)不同級(jí)別的數(shù)據(jù),使用者需要不同程度的相應(yīng)授權(quán)。授權(quán)內(nèi)容應(yīng)當(dāng)包括使用的目的、使用的形式、使用的時(shí)間等基本的合同性約定。而在處理不同層次的數(shù)據(jù)時(shí),數(shù)據(jù)處理者所承擔(dān)的責(zé)任也應(yīng)當(dāng)是有所區(qū)分的。

      鑒于歐盟并未對(duì)TDM的具體使用模式作出限定,現(xiàn)有的主流立法模式主要有美國(guó)采取的“無(wú)條件例外”的合理使用模式和英國(guó)“版權(quán)例外”的模式。

      許可方式的選擇實(shí)際上是一種對(duì)于傳統(tǒng)版權(quán)產(chǎn)業(yè)與新興大數(shù)據(jù)產(chǎn)業(yè)之間如何激勵(lì)取舍的制度安排問(wèn)題。李國(guó)慶(2016)在審視了谷歌圖書(shū)案之后提出,我國(guó)的合理使用制度應(yīng)當(dāng):①以版權(quán)法目的——信息共享作為價(jià)值訴求;②為實(shí)現(xiàn)合理使用的價(jià)值訴求,合理使用制度應(yīng)當(dāng)具有一定的靈活性。

      美國(guó)采取的“無(wú)條件例外”的“合理使用”許可模式并未對(duì)TDM技術(shù)的使用對(duì)象進(jìn)行限定,英國(guó)的特殊性版權(quán)例外許可允許任何非權(quán)利人按照規(guī)定模式使用,僅歐盟的《草案》將TDM的適用對(duì)象限定在研究機(jī)構(gòu)之上。

      筆者認(rèn)為限制技術(shù)的使用對(duì)象是不適宜的?,F(xiàn)行的TDM技術(shù)的提供者和使用者主要集中在數(shù)據(jù)庫(kù)、數(shù)字型圖書(shū)館、搜索平臺(tái)等以研究機(jī)構(gòu)、高校、公司等集體性組織之上,普通大眾暫時(shí)只作為T(mén)DM技術(shù)的成果接收方和獲益者參與其中。作為成果第三方,普通人應(yīng)當(dāng)不與TDM技術(shù)提供方就TDM操作過(guò)程中可能存在的侵權(quán)事宜承擔(dān)連帶責(zé)任。但在獲取由TDM技術(shù)提供后的信息之后,新知識(shí)的再創(chuàng)建過(guò)程例如科學(xué)研究中利用所獲取的數(shù)據(jù)實(shí)驗(yàn)得出研究成果,經(jīng)濟(jì)學(xué)家通過(guò)搜索到的經(jīng)濟(jì)數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)進(jìn)行重新編排制作觀察報(bào)告的過(guò)程可能涉及到對(duì)原始數(shù)據(jù)的再編排過(guò)程,該行為是否違反《著作權(quán)法》還有待討論。因而,現(xiàn)行立法過(guò)程中不應(yīng)該對(duì)技術(shù)的適用對(duì)象進(jìn)行限制。

      [1]郝文江.基于數(shù)據(jù)挖掘技術(shù)對(duì)公安犯罪分析的改進(jìn).吉林公安高等專(zhuān)科學(xué)院學(xué)報(bào),2007年第3期,第112頁(yè).

      [2]化柏林.數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)關(guān)系探析[J].情報(bào)理論與實(shí)踐 ,2008(4).

      [3]宋海艷,邵承瑾,顧立平,張東榮,潘衛(wèi),黃文麗,蔣麗麗,陳天天,張浩.我國(guó)科研人員對(duì)機(jī)構(gòu)知識(shí)庫(kù)認(rèn)知與使用的現(xiàn)狀調(diào)查與分析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2014,8-16.

      [4]李鋼.大數(shù)據(jù)時(shí)代文本挖掘的版權(quán)例外[J],圖書(shū)館工作與研究,2016,1(3),28-31.

      [5]袁軍鵬,朱東華,李毅,李連宏,黃進(jìn).文本挖掘技術(shù)研究進(jìn)展[J].計(jì)算機(jī)應(yīng)用研究,2006,23(2),1-4.

      [6]UK IPO, An impact assessment for the introduction of the‘exception for coping of works for use by text and data analytics.’[7]The International Association of Scientific, Technical and Medical Publishers.

      [8]STM, Text and Data Mining Sample Subscription,2012.

      [9]Jean-Paul Triaille, Jér?me de Mee?s d’Argenteuil & Amélie de Francquan, Study on the Legal Framework of text and data mining(TDM),2014.

      [10]Text Mining of Journal Literature 2016, Commissioned by Publishing Research Consortium.

      [11]孟慶良,展俊平,郭會(huì)卿,郭洪濤,鄭光,呂愛(ài)平,姜淼.基于文本挖掘技術(shù)析甲氨蝶呤與中醫(yī)治療聯(lián)合應(yīng)用的規(guī)律[J].中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2014.

      [12]郭金龍,許鑫.數(shù)字人文中的文本挖掘研究[J].大學(xué)圖書(shū)館學(xué)報(bào),2012,30(3),11-18.

      [13]M.Ware & M.Mabe, The stm report: An overview of scientific and scholar journal publishing,2009.

      [14]李國(guó)慶.谷歌圖書(shū)館案The Authors Guild, Inc. v Google, Inc.判決述評(píng)——以合理使用制度為視角[J].中國(guó)版權(quán),2016.

      猜你喜歡
      數(shù)據(jù)挖掘文本過(guò)程
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      描寫(xiě)具體 再現(xiàn)過(guò)程
      臨終是個(gè)怎樣的過(guò)程
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識(shí)別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      在這個(gè)學(xué)習(xí)的過(guò)程中收獲最大的是哪些,為什么?
      Coco薇(2015年12期)2015-12-10 03:54:58
      圓滿(mǎn)的過(guò)程
      开封市| 菏泽市| 阿合奇县| 内丘县| 井冈山市| 宁化县| 昭觉县| 丰都县| 襄垣县| 项城市| 台前县| 南岸区| 温宿县| 宜兴市| 西华县| 津南区| 丰城市| 石棉县| 麻江县| 东乡| 赤峰市| 临猗县| 怀远县| 石门县| 玉山县| 巩义市| 霍州市| 尚义县| 宣武区| 英超| 榆林市| 金沙县| 永川市| 鄢陵县| 盐源县| 从化市| 库尔勒市| 鸡西市| 司法| 纳雍县| 米林县|