• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      機(jī)器挖掘文本,允許還是禁止

      2013-04-11 01:30:45陳秀剛編譯
      世界科學(xué) 2013年7期
      關(guān)鍵詞:出版商數(shù)據(jù)挖掘文本

      陳秀剛/編譯

      ●科學(xué)家想要讓機(jī)器讀取學(xué)術(shù)期刊網(wǎng)中的論文,出版商顯然不樂意,兩方正在激烈交鋒。

      科研工作者們在過去的一年里,普遍抱怨出版商不讓他們使用計算機(jī)程序下載和閱讀論文。他們認(rèn)為出版商阻礙了他們的學(xué)術(shù)研究。

      由于擔(dān)心文章內(nèi)容可能會被隨意重新分配,出版商一旦發(fā)現(xiàn)機(jī)器在閱讀全文,通常會立即阻止程序運(yùn)行,就算用戶支付費(fèi)用也不能破例。他們只把權(quán)限給那些在逐案基礎(chǔ)上訪問和使用的協(xié)議客戶?,F(xiàn)在,歐洲委員會(ECC)和出版商財團(tuán)正試圖創(chuàng)建更清晰的規(guī)則。但從不久前出版商給歐洲委員會組的投訴來看,討論文本數(shù)據(jù)挖掘的分歧依然存在。

      “如果數(shù)據(jù)和文本挖掘技術(shù)繼續(xù)受到目前法律的限制,……下一個醫(yī)學(xué)突破將被封殺。”歐盟委員會委員副總裁尼莉 克羅斯(Neelie Kroes)在去年九月的布魯塞爾知識產(chǎn)權(quán)峰會上如是說。

      數(shù)據(jù)挖掘的使用

      ●text2genome項目從300萬篇研究論文中提取出DNA序列鏈接,創(chuàng)造出了在線基因組圖譜,其中每個區(qū)域與一篇研究論文相鏈接。

      ●NeuroSynth網(wǎng)站從近4 400篇研究文章中提取了腦掃描數(shù)據(jù),允許用戶將人類大腦中的位置與相關(guān)研究術(shù)語和主題相鏈接。

      ●化學(xué)數(shù)據(jù)。SureChem網(wǎng)站成功從約20萬項專利中提取免費(fèi)的分子數(shù)據(jù)。

      ●研究人員在論文數(shù)據(jù)庫中從兩千余萬篇文章中搜查摘要,發(fā)現(xiàn)了上皮細(xì)胞鈣粘蛋白(細(xì)胞粘附分子)和帕金森氏癥之間的間接聯(lián)系。

      出版商說,到目前為止,幾乎沒有研究人員提出挖掘文件的要求。盡管如此,阿姆斯特丹的出版商愛思唯爾說,2012年,電腦機(jī)器人在其SCIENCEDIRECT網(wǎng)站平臺上爬行的流量占據(jù)網(wǎng)絡(luò)總流量的4%,幾乎是2011年的兩倍。不管初衷是什么,這一數(shù)字表明,不只是人類,機(jī)器也越來越會閱讀文章。

      勞爾·羅德里格斯·埃斯特班,是康涅狄格州里奇菲爾德市勃林格殷格翰制藥公司的一名計算生物學(xué)家,他說,他在2012年進(jìn)行了160項文本挖掘查詢。在其中一項里,他搜索了23 000余篇文章,挑選出數(shù)百蛋白質(zhì),可以減輕多發(fā)性硬化癥的小鼠模型。然后,他勾勒出網(wǎng)絡(luò)中相關(guān)的其他蛋白質(zhì),并發(fā)現(xiàn)了新的潛在的藥物目標(biāo)。學(xué)術(shù)研究人員希望能獲得這種能力,但需要數(shù)月或數(shù)年談判協(xié)議才能獲得。位于加利福尼亞州的圣克魯斯大學(xué)的馬克思·霍伊斯勒(Max Haeussler),花了三年時間獲得下載3萬篇文章的權(quán)利,他從這些文章中提取DNA數(shù)據(jù),并在人類基因組在線地圖中進(jìn)行了標(biāo)注。

      今年下半年,英國將在非商業(yè)用途方面豁免文本挖掘的版權(quán),從而使科學(xué)家在挖掘之前獲取他們需要付費(fèi)的任何內(nèi)容。文本挖掘人員希望歐盟也能這樣做?!澳壳坝脩糸g熱傳的口號是:‘我們應(yīng)該有閱讀的權(quán)利’”英國曼徹斯特大學(xué)國家中心文本挖掘副主任約翰·麥克諾特說道。

      但歐共體的工作組在今年討論文本和數(shù)據(jù)挖掘時產(chǎn)生了分歧。今年2月4日會后,研究人員和圖書館管理員都抱怨說,歐共體小組討論的只是如何在有文本挖掘許可證的情況下進(jìn)行數(shù)據(jù)挖掘,而不是如何豁免文本挖掘版權(quán)。“只會提高采用這種技術(shù)的壁壘,并使得計算機(jī)基礎(chǔ)研究在很多情況下無法進(jìn)行?!彼麄冊?月26日給克羅斯和其他三位歐盟專員的信中這樣寫道,但這封信至今尚未得到答復(fù)。

      英國巴斯大學(xué)的羅斯莫斯,目前正在使用文本挖掘從文獻(xiàn)中提取進(jìn)化關(guān)聯(lián)的樹狀圖。他說,3月8日的第二次會議,歐盟也很難保證會認(rèn)真考慮文本挖掘的豁免權(quán)事宜。歐共體工作組希望在年底能得出一致的結(jié)論和觀點。

      ●相關(guān)鏈接●

      文本挖掘有時也被稱為文字探勘、文本數(shù)據(jù)挖掘等,大致相當(dāng)于文字分析,一般指文本處理過程中產(chǎn)生高質(zhì)量的信息。高質(zhì)量的信息通常通過分類和預(yù)測來產(chǎn)生,如模式識別。文本挖掘通常涉及輸入文本的處理過程(分析,同時加上一些衍生語言特征以及消除雜音,隨后插入到數(shù)據(jù)庫中),產(chǎn)生結(jié)構(gòu)化數(shù)據(jù),并最終評價和解釋輸出。典型的文本挖掘方法包括文本分類,文本聚類,概念/實體挖掘,生產(chǎn)精確分類,觀點分析,文檔摘要和實體關(guān)系模型。 [摘自維基百科]

      美國的情況比較明朗,一些律師認(rèn)為文本挖掘在 “合理使用”的情況下可以被允許進(jìn)行,能夠自由復(fù)制一些文字片段。但是,沒有人對此了解的很確切,許多研究人員擔(dān)心這是對法律的灰色地帶的邊緣性挑戰(zhàn)。

      一些出版商認(rèn)為,無限制的文本挖掘會使他們的服務(wù)器使用過度,何時及如何下載文章還需再著重研究一下。 CrossRef網(wǎng)站是個非盈利組織,它擁有數(shù)以千計的學(xué)術(shù)出版物,目前他們正在開發(fā)一個系統(tǒng),在這個系統(tǒng)里,研究人員可以點擊出版商網(wǎng)站的按鈕,以示同意標(biāo)準(zhǔn)文本挖掘條款。CrossRef的杰夫比德爾表示該系統(tǒng)有望在今年年底推出。

      馬薩諸塞州丹弗斯的版權(quán)結(jié)算中心(CCC)的主要工作就是與出版商協(xié)商版權(quán)問題,目前它正努力為用戶尋求更多利益。版權(quán)結(jié)算中心的研究人員羅伊·考夫曼說,版權(quán)結(jié)算中心作為中介,會收集出版商的條款內(nèi)容,并將其存儲在網(wǎng)站上。目前他們正與六個出版商(包括《自然》出版集團(tuán))及急于挖掘文獻(xiàn)的藥物化學(xué)品公司進(jìn)行合作。

      希瑟布魯爾達(dá)勒姆來自北卡羅萊納州的國家進(jìn)化綜合中心,專門研究搜索人員如何使用數(shù)據(jù),他認(rèn)為,只允許像谷歌這樣的大企業(yè)挖掘文本內(nèi)容是不公平的——然而迄今為止,科學(xué)家們都沒有權(quán)限使用數(shù)據(jù)?!肮雀柚浪谧鍪裁矗覀兤溆嗟娜藚s沒有信用等級去挖掘數(shù)據(jù),這說法是站不住腳的,”她在博客中寫道,“我肯定不希望是這樣的結(jié)局?!?/p>

      猜你喜歡
      出版商數(shù)據(jù)挖掘文本
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      在808DA上文本顯示的改善
      基于doc2vec和TF-IDF的相似文本識別
      電子制作(2018年18期)2018-11-14 01:48:06
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      歐盟對谷歌新聞?wù)鞫惡翢o意義
      世界知識(2016年22期)2016-12-03 08:01:08
      文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      七成軟件出版商轉(zhuǎn)向云服務(wù)
      如何快速走進(jìn)文本
      語文知識(2014年1期)2014-02-28 21:59:13
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      梨树县| 长丰县| 松桃| 铁岭县| 佳木斯市| 嘉祥县| 会宁县| 两当县| 松桃| 锡林郭勒盟| 阿尔山市| 榆林市| 洪泽县| 黔南| 邵东县| 澳门| 金寨县| 晴隆县| 龙州县| 株洲市| 阿尔山市| 武夷山市| 双鸭山市| 利川市| 永宁县| 定结县| 酉阳| 深圳市| 嘉黎县| 海晏县| 河东区| 昭平县| 乌鲁木齐县| 康平县| 酒泉市| 政和县| 台东县| 峨山| 建阳市| 上思县| 富锦市|