• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于眾包的數(shù)據(jù)優(yōu)化
      ——以數(shù)字方志特藏資源建設(shè)為例*

      2019-01-17 12:04:00于亞秀
      圖書館論壇 2019年2期
      關(guān)鍵詞:方志工人資源

      李 欣,于亞秀,程 靜

      0 引言

      眾包是基于互聯(lián)網(wǎng)的新型社會化協(xié)作機制,直接將問題發(fā)布到互聯(lián)網(wǎng)上,利用網(wǎng)絡(luò)大眾的群體智慧來產(chǎn)生超越個體智慧的成果,在許多領(lǐng)域中得到應(yīng)用[1]。很多計算機不擅長的、難以有效解決的問題,如復(fù)雜的圖片標注、文字識別、軟件開發(fā)、語言翻譯、工業(yè)設(shè)計等都可以通過眾包得以解決。這些任務(wù)都是簡單且相對獨立的小型任務(wù),甚至是決策任務(wù),通??梢元毩⑼瓿?。

      隨著Web2.0參與、互動與分享理念深入人心,很多圖書館OPAC系統(tǒng)嵌入為館藏添加標簽和評論的功能,這是典型的利用網(wǎng)絡(luò)大眾群體智慧來提升資源發(fā)現(xiàn)能力的例子。用戶所添加的標簽和評論通常由圖書館員來確定是否采用,帶有主觀色彩。有學(xué)者[2-4]在圖書館特藏資源建設(shè)、參考咨詢問答服務(wù)以及資源采購與讀者薦購等方面探討了應(yīng)用眾包的可行性;也有學(xué)者探討了建立眾包激勵機制以提高用戶參與意愿的方法[5-6]。近年圖書館對眾包的關(guān)注度越來越高。本文在分析方志數(shù)據(jù)特點的基礎(chǔ)上,從眾包功能實現(xiàn)方式、特點及如何通過整合眾包結(jié)果得到問題最優(yōu)答案的方面,探討眾包技術(shù)在圖書館的應(yīng)用。

      1 眾包概述

      1.1 概念與模型

      眾包概念由美國《連線》雜志記者杰夫·豪(Jeff Howe)2006年6月提出[7]。杰夫·豪對眾包的定義是:一個公司或機構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法[8]。眾包的基礎(chǔ)模型由任務(wù)發(fā)布方、任務(wù)完成方、眾包任務(wù)和眾包平臺組成,如圖1所示。眾包的核心思想為充分利用公眾的力量,收集群眾的智慧來解決大問題。眾包的優(yōu)勢在于,它能聚集眾多不同背景的人,能聚集眾多的算法,這些人或者算法在巨大的空間里相對均勻地從不同的點開始搜索、開始研究,這樣的話效率會變得很高[9]。之所以稱為基礎(chǔ)模型,是因為只針對提供眾包任務(wù)解決方案的“任務(wù)完成方”而言。對于“任務(wù)發(fā)布方”,收到眾多解決方案,并不意味著任務(wù)完成,采納解決方案的過程相當復(fù)雜,它直接決定眾包的效果。

      圖1 眾包基礎(chǔ)模型

      1.2 典型應(yīng)用

      眾包應(yīng)用主要集中在創(chuàng)作和服務(wù)領(lǐng)域??▋?nèi)基梅隆大學(xué)LuisVonAhn教授研發(fā)的reCAPTCHA系統(tǒng)[10]是一個成功的眾包案例。reCAPTCHA主要針對年代久遠、字跡模糊、褪色、污損且OCR無法識別的文獻內(nèi)容,這些內(nèi)容由人工辨認。reCAPTCHA系統(tǒng)中,驗證碼由兩個單詞組成,一是系統(tǒng)設(shè)定并有明確答案的“control word”(對照詞),二是來源于 OCR無法識別的“unknow word”(未知詞)。前一個用于驗證用戶是否有能力識別這些文字,如果答案正確,就認為用戶對“unknown word”部分的回答也是可信的。為增強可信度,同一個“unknown word”會被分配給多個用戶,然后綜合這些用戶的回答來判定這個疑難字符是否被正確識別。reCAPTCHA系統(tǒng)以免費服務(wù)的形式提供給各網(wǎng)站,以加快文獻數(shù)字化進度[11]。該系統(tǒng)巧妙地采用網(wǎng)絡(luò)驗證碼的形式匯聚億萬網(wǎng)民的智慧,對計算機無法識別的文字進行辨識,在不知不覺中完成了1300萬份《紐約時報》檔案資料的數(shù)字化[12]。

      1.3 實現(xiàn)方式

      1.3.1 平臺/系統(tǒng)

      (1)公共眾包平臺。AmazonMechanicalTurks(AMT)、CrowdFlower、豬八戒網(wǎng)、大學(xué)士等公共眾包平臺利用成熟的商業(yè)眾包形式發(fā)布眾包任務(wù)。公共眾包平臺適合發(fā)布可分解成微任務(wù)的復(fù)雜任務(wù)。該類平臺的優(yōu)點是用戶不用開發(fā)平臺,只要組織好任務(wù)即可通過公共眾包平臺進行發(fā)布,實現(xiàn)速度快;缺點是針對性弱,專業(yè)性差。公共眾包平臺一般都是商業(yè)化的,需要收取費用。

      (2)專業(yè)眾包平臺。由發(fā)布眾包任務(wù)的主體開發(fā)專門的眾包平臺。例如,上海圖書館歷史文獻眾包平臺,專門針對上海圖書館收藏的大量手寫資料中的人、地、時、事等內(nèi)容特征進行深度標引,同時對無法采用OCR處理的全文進行抄錄。該平臺只發(fā)布上海圖書館的特定眾包任務(wù),并不向普通大眾開放。專業(yè)眾包平臺專業(yè)性強、管理簡單,隨著時間的推移能逐漸聚集相對專業(yè)的任務(wù)完成方群體,但需要開發(fā)系統(tǒng),人員和資金投入較大。

      (3)社交網(wǎng)絡(luò)平臺。部分社交網(wǎng)絡(luò)平臺也提供眾包功能,如Facebook、Twitter、微博、微信。任務(wù)請求方在社交平臺上嵌入自己的應(yīng)用來實現(xiàn)眾包任務(wù)的發(fā)布,并利用社交網(wǎng)絡(luò)平臺用戶關(guān)注度高的特點來完成眾包任務(wù)。此方式優(yōu)點在于能利用社交網(wǎng)絡(luò)用戶隨時隨地在線的特點以及碎片化時間來取得眾包任務(wù)的及時反饋;缺點是持久性差,發(fā)布的任務(wù)很快會淹沒在海量的信息中。

      (4)嵌入應(yīng)用系統(tǒng)。比如,圖書館及亞馬遜書店的圖書評分。這種方式能聚集專業(yè)/使用人員在系統(tǒng)使用的過程中完成數(shù)據(jù)優(yōu)化。由于應(yīng)用面窄,一般選取與眾包任務(wù)性質(zhì)相近的系統(tǒng)進行任務(wù)嵌入。此方式優(yōu)點在于針對性強,因為系統(tǒng)訪問者也就是眾包工人,可以很好地聚類工人;缺點是需要在應(yīng)用系統(tǒng)開發(fā)以及運行過程中考慮眾包任務(wù)接口嵌入,同時應(yīng)用系統(tǒng)需具有一定的開放性以滿足接口嵌入。

      1.3.2 活動方式

      活動方式指依賴組織活動實現(xiàn)眾包。上海圖書館2016年首次主辦面向家譜開放數(shù)據(jù)的數(shù)據(jù)應(yīng)用開發(fā)競賽,激發(fā)數(shù)據(jù)創(chuàng)新活力和潛在價值。2017年圍繞名人手稿和檔案開放數(shù)據(jù),上海圖書館通過移動應(yīng)用及服務(wù)創(chuàng)意進一步釋放開放數(shù)據(jù)的價值,挖掘數(shù)據(jù)背后的應(yīng)用潛力。2017年北京大學(xué)舉辦基于開放研究數(shù)據(jù)平臺的“首屆全國高校數(shù)據(jù)驅(qū)動創(chuàng)新研究大賽”,基于給定的數(shù)據(jù)集和數(shù)據(jù)空間,挖掘創(chuàng)新應(yīng)用案例?;顒油ǔ0▓竺?、特定應(yīng)用場景培訓(xùn)、提交作品、組織評審、結(jié)果發(fā)布及頒獎等環(huán)節(jié),基于特定場景,以數(shù)據(jù)眾包居多。此類活動優(yōu)點在于參賽者范圍廣、多樣化,有不同的技巧和視野[9],通過較少投入獲得較大的收益。

      1.4 功能特點

      1.4.1 數(shù)據(jù)庫管理功能

      在數(shù)據(jù)庫應(yīng)用領(lǐng)域,眾包工人管理功能并非指簡單的人員注冊管理。該功能不僅通過注冊信息劃分地區(qū)、專業(yè)與領(lǐng)域,更通過眾包行為的歷史記錄,包括登錄次數(shù)、物理位置、完成任務(wù)數(shù)量、任務(wù)類別、任務(wù)被采納情況等,自動實現(xiàn)聚類與交叉智能管理,為眾包任務(wù)的合理分配與任務(wù)智能推送提供科學(xué)的量化分析數(shù)據(jù)。

      1.4.2 人機交互功能

      (1)任務(wù)列表功能。這是最簡單、最常用的任務(wù)發(fā)布方式,一般以時間順序顯示任務(wù),特別適合在任務(wù)量較少或任務(wù)發(fā)布周期較長的系統(tǒng)中應(yīng)用。工人只能通過瀏覽任務(wù)頁面來獲取感興趣的信息。當任務(wù)量逐漸增多或發(fā)布周期較短時,隨著任務(wù)列表的快速更新,舊任務(wù)很快被新任務(wù)覆蓋。工人往往只關(guān)注前幾頁任務(wù)列表,使得早期的眾包任務(wù)不能被發(fā)現(xiàn)。

      (2)任務(wù)搜索功能。一般系統(tǒng)的搜索功能基本建立在任務(wù)描述的主要元數(shù)據(jù)基礎(chǔ)上。但要精準定位任務(wù),僅僅依靠任務(wù)的元數(shù)據(jù)檢索功能是不夠的,需要從發(fā)布時間、地域特征、類別以及任務(wù)摘要關(guān)鍵詞提取等方面綜合考慮,設(shè)計任務(wù)搜索功能,幫助工人便捷地查找感興趣的任務(wù)。任務(wù)搜索功能需要豐富的眾包任務(wù)描述元數(shù)據(jù)以及摘要的文本關(guān)鍵詞拆分處理配合實現(xiàn)。

      (3)任務(wù)推送功能。根據(jù)興趣愛好把相關(guān)任務(wù)發(fā)送給相關(guān)工人,不需要工人主動搜索。任務(wù)推送要與眾包工人管理相結(jié)合,根據(jù)管理平臺上的工人歷史信息構(gòu)建工人偏好模型,進行任務(wù)推薦。針對方志數(shù)據(jù),從地理位置特征考慮,任務(wù)推送目標群體的地理位置是需要考慮的因素。

      圖形化界面設(shè)計是眾包平臺人機交互功能的重要方面。比如,標簽云檢索功能在形象化聚類眾包任務(wù)的同時,可以在有限界面內(nèi)承載更多的任務(wù)類別,讓工人在眾多任務(wù)中方便地找到自己感興趣的任務(wù)。特別是那些往往不能第一時間被認領(lǐng)的小眾任務(wù),在按時間排列的普通眾包任務(wù)列表中會排在后面,關(guān)鍵詞/類別標簽云功能可以較好地解決任務(wù)列表功能的不足。

      1.5 眾包工作流程及關(guān)鍵技術(shù)

      從時間順序來描述,眾包工作流程主要包括任務(wù)準備、任務(wù)執(zhí)行、結(jié)果整合三部分,并通過平臺來管理任務(wù)的全過程(見圖2)。

      1.5.1 任務(wù)準備

      將復(fù)雜任務(wù)分解成較小的子任務(wù),每個子任務(wù)要具有相對獨立性且適應(yīng)特殊需求或具備某種特點,以方便將其分配給合適的工人群體。對工人群體需要進行適當?shù)募?、選擇和組織,從而使任務(wù)分配更具針對性,包括確定任務(wù)的合理價格,設(shè)計任務(wù)發(fā)布界面等。

      圖2 眾包工作流程[13]

      1.5.2 任務(wù)執(zhí)行

      眾包任務(wù)通常以達到某種優(yōu)化為目的。因此,任務(wù)的自然認領(lǐng)與有效結(jié)合工人因素的針對性任務(wù)推送需要關(guān)聯(lián)起來,平衡任務(wù)自然選擇與針對性推送的數(shù)量。選擇什么樣的工人來承擔任務(wù)對結(jié)果非常重要,任務(wù)在執(zhí)行過程中需要不斷調(diào)整,如得到正確結(jié)果后及時終止任務(wù)以節(jié)省費用,在有效時間內(nèi)收不到正確結(jié)果則需要重新組織與發(fā)布任務(wù)。

      1.5.3 結(jié)果整合

      任務(wù)結(jié)果整合是眾包工作流程的重要步驟,大部分眾包應(yīng)用都要通過整合來獲取任務(wù)的最終結(jié)果。因此,任務(wù)答案整合是眾包質(zhì)量控制的核心內(nèi)容。對于眾包任務(wù),由于任務(wù)量小,而工人文化層次多樣、能力參差不齊,一般以冗余的方式發(fā)放。當所有的任務(wù)均收到答案,再進行結(jié)果的比較分析、推理整合,剔除眾多結(jié)果中的無用信息和錯誤信息,匯聚出最合適的答案[14-15]。眾包結(jié)果整合主要采用投票、數(shù)學(xué)模型推斷和二次眾包結(jié)果協(xié)同等方式進行[14]。

      (1)投票方式。在工人提交答案后,可通過各種算法來保證結(jié)果的質(zhì)量。最簡單的辦法是把一個任務(wù)分配給多個(奇數(shù))工人來完成,然后通過多數(shù)投票原則(少數(shù)服從多數(shù))來獲取最終結(jié)果[16-19]。多數(shù)投票原則假定每個工人的答案準確率是一致的,沒有考慮工人的多樣性。但是,不同工人的答案準確率通常差異較大,因此采用這種方法得到的最終結(jié)果往往不夠準確[8]。投票方式的變種——加權(quán)投票方式的核心思想是,給每個工人標注一定的投票權(quán)重。以方志數(shù)據(jù)眾包為例,鑒于方志數(shù)據(jù)的時間、空間特性,眾包結(jié)果匯聚時,空間服務(wù)范圍對匯聚結(jié)果的影響是需要重點考慮的,應(yīng)提高其權(quán)重。比如,來自任務(wù)發(fā)布地的工人結(jié)果,其可信度權(quán)重應(yīng)高于其他地理位置的工人結(jié)果。

      (2)基于數(shù)學(xué)模型的方式。構(gòu)建數(shù)學(xué)模型來推斷眾包結(jié)果是常用的整合方式。有學(xué)者[20-24]將工人答題質(zhì)量、結(jié)果推理過程構(gòu)建成數(shù)學(xué)模型來實現(xiàn)眾包結(jié)果推斷,其中經(jīng)常使用基于概率模型的推斷方法[20-22]。假設(shè)眾包任務(wù)是判斷“ibm”與“big blue”是否等價,如果三個工人w1、w2、w3的答案分別為yes、yes和no,且三個工人回答的準確率分別為0.2、0.6和0.9(該準確率根據(jù)工人答題的歷史數(shù)據(jù)給出);那么通過貝葉斯公式[25]來計算答案(ans)yes的概率為:P(ans=yes|w1=yes,w2=yes,w3=no)∝(正 比于)P(w1=yes|ans=yes)*P(w2=yes|ans=yes)*P(w3=no|ans=yes)*P(ans=yes)。其中,P(w1=yes|ans=yes)表示正確結(jié)果是yes,而w1給出回答為yes的概率,即為工人w1的準確率,等于0.2。假定在沒有任何回答的前提下,答案為yes或no的先驗概率相同,即P(ans=yes)=P(ans=no)=0.5;那么結(jié)果P(ans=yes|w1=yes,w2=yes,w3=no)∝0.2*0.6*(1-0.9)=0.012。類似地,結(jié)果為no的概率P(ans=no|w1=yes,w2=yes,w3=no)∝(1-0.2)*(1-0.6)*0.9=0.288。歸一化后得到答案為yes或者no是真實結(jié)果的概率分布為=(4%,96%),也就是說no是真實結(jié)果的概率較高,因此根據(jù)概率推斷將返回no作為結(jié)果。Ipeirotis,Dawid,Venanzi[22-23]等將工人質(zhì)量及推斷過程表征為更復(fù)雜的數(shù)學(xué)模型,通過將結(jié)果融入到某一優(yōu)化目標,再最優(yōu)化這一目標公式來推斷求解結(jié)果。構(gòu)建數(shù)學(xué)模型來進行結(jié)果整合,其應(yīng)用一般建立在工人數(shù)據(jù)精準管理的基礎(chǔ)上。比如,根據(jù)工人過往完成任務(wù)情況,得出工人完成某類任務(wù)的正確性概率。

      (3)基于二次眾包的結(jié)果協(xié)同。大部分眾包結(jié)果可通過算法和數(shù)據(jù)模型進行推斷,但有時因任務(wù)的主觀性強,結(jié)果的判斷相對復(fù)雜,如手寫體識別、創(chuàng)意設(shè)計。當結(jié)果的優(yōu)劣很難通過算法加以判斷時,可通過第二次眾包來判斷先前得到的眾包結(jié)果的優(yōu)劣,即通過眾包過程去驗證眾包結(jié)果的判斷,以此完成眾包結(jié)果的協(xié)同。

      2 數(shù)字方志特藏資源建設(shè)眾包設(shè)計

      數(shù)字方志特藏資源建設(shè)引入眾包模式,主要從稀缺資源收集和數(shù)據(jù)優(yōu)化兩方面開展。方志資源作為相對專業(yè)的資源類型,在眾包設(shè)計時需考慮其與常規(guī)眾包不同的特征。筆者認為在眾包設(shè)計流程上依然要遵循眾包基本流程,但在技術(shù)特征上對眾包結(jié)果整合環(huán)節(jié)要求更高,實現(xiàn)方式應(yīng)以專業(yè)平臺為主。

      2.1 數(shù)據(jù)新特征

      方志特藏資源作為人文研究的重要數(shù)據(jù)來源,具有資料性、真實性、區(qū)域性、時限性和傳承性的特征[26]。面對形式復(fù)雜多樣的圖像、語音、視頻和文本等非結(jié)構(gòu)化數(shù)據(jù),方志特藏資源數(shù)字化從簡單的紙質(zhì)文獻全文掃描與描述性元數(shù)據(jù)加工,向紙質(zhì)文獻的OCR識別、多媒體資源的文本數(shù)據(jù)抽取與描述、全文標注以及相應(yīng)的元數(shù)據(jù)加工、拆分、關(guān)聯(lián)、存儲等方向轉(zhuǎn)變。這種資源的深度挖掘主要用以產(chǎn)生量化和關(guān)聯(lián)關(guān)系等輔助研究結(jié)果,是隨著人文研究方式的不斷拓展和深入而產(chǎn)生的新需求。

      2.1.1 非結(jié)構(gòu)化內(nèi)容數(shù)據(jù)

      (1)音視頻數(shù)據(jù)處理。音視頻數(shù)據(jù)可以拆分成視頻和音頻數(shù)據(jù),然后通過自動語音識別系統(tǒng)“提取”語音中所包含的文字信息,將音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),從而使大量音頻以文本數(shù)據(jù)方式存儲,這樣通過文本數(shù)據(jù)最終實現(xiàn)音視頻的檢索。在音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)方面,科大訊飛開放平臺、百度語音識別、云知聲、IBM WATSON等系統(tǒng)有廣泛應(yīng)用。近年音頻識別技術(shù)發(fā)展迅速,應(yīng)用場景走向大型會議。講演者的音頻數(shù)據(jù)通過轉(zhuǎn)換軟件系統(tǒng)處理,可在大屏幕上同步顯示所轉(zhuǎn)換的文本。新技術(shù)為多媒體資源的文本化提供了可行性。

      (2)文本數(shù)據(jù)處理。文本數(shù)據(jù)的細粒度化主要通過全文、題名、自然語言關(guān)鍵詞、摘要等描述性元數(shù)據(jù)的分詞以及規(guī)范主題詞處理,形成標簽數(shù)據(jù),用于文本深度分析和可視化,進而結(jié)合特定屬性(時間、地點、人物等)的全文標注來實現(xiàn)知識關(guān)聯(lián)。實現(xiàn)上述文本數(shù)據(jù)的細粒度化,涉及自動分詞/自然語言處理(Natural Language Processing,NLP)技術(shù)、標注技術(shù)。自動分詞和屬性標注應(yīng)用于專有名詞和特有需求甚多的垂直領(lǐng)域時,要提升文本數(shù)據(jù)細粒度化處理的精準度,往往需要大型語料庫的支撐。然而,在中文垂直領(lǐng)域語料庫很少,很難將比較通用的(如在Wikipedia上訓(xùn)練的)模型直接拿過來使用[19]。

      (3)圖像/圖形化數(shù)據(jù)處理。一方面,通過OCR識別圖像中的文字,實現(xiàn)對圖像的描述。另一方面,從特藏資源的數(shù)據(jù)形式角度,本文的圖像/圖形化數(shù)據(jù)通常指文獻資源的一種存在形式,處理方式依賴于對其進行不同角度的標注,以更精細化地描述圖像/圖形化數(shù)據(jù)的內(nèi)容。比如,對一本書的數(shù)據(jù)化,其中的圖片不僅單獨以圖形化數(shù)據(jù)方式存儲,還要對其進行多角度、全方位描述,通過時間、地點、人物、事件等元數(shù)據(jù)實現(xiàn)圖形化數(shù)據(jù)的精準描述。

      依據(jù)上述非結(jié)構(gòu)化方志數(shù)據(jù)的特點及其轉(zhuǎn)換的實現(xiàn)技術(shù)分析可知,信息技術(shù)只能進行有規(guī)律性的數(shù)據(jù)處理,如多媒體資源數(shù)據(jù)提取、文本細粒度加工、OCR圖像識別以及相關(guān)的行業(yè)語料庫建設(shè)等。隨著人工智能和機器學(xué)習(xí)技術(shù)的不斷發(fā)展,相關(guān)的技術(shù)方法會不斷成熟,數(shù)據(jù)處理精度會越來越高。但是,依然有無法處理部分,眾包成為數(shù)據(jù)優(yōu)化必不可少的手段。

      2.1.2 領(lǐng)域規(guī)范數(shù)據(jù)

      非結(jié)構(gòu)化數(shù)據(jù)經(jīng)細粒度加工、結(jié)構(gòu)化處理后,還要通過融合來解決數(shù)據(jù)孤島問題,以激活數(shù)據(jù)的關(guān)聯(lián)價值。一方面,方志數(shù)據(jù)的歷史、地理特征決定,在數(shù)字方志建設(shè)過程中,方志歷史、地理信息與當今年代與地名的對照、人名規(guī)范等數(shù)據(jù)處理,都需要相關(guān)規(guī)范數(shù)據(jù)庫的支撐;另一方面,文本數(shù)據(jù)細粒度加工所需的相關(guān)行業(yè)語料庫等,也為數(shù)字方志特藏資源建設(shè)的可視化應(yīng)用奠定基礎(chǔ)。圖書館擁有的豐富資源,為規(guī)范數(shù)據(jù)庫和行業(yè)語料庫建設(shè)提供了得天獨厚的條件,有很多成功案例,如上海圖書館的人名規(guī)范庫建設(shè)等。但規(guī)范數(shù)據(jù)庫和行業(yè)語料庫建設(shè)是一個長期、不斷積累和多方佐證的過程,依靠單個圖書館或少數(shù)人很難完成。

      2.1.3 數(shù)據(jù)保存民間特性

      從方志資源傳承性特點考慮,很多資源散落在民間,這些資源往往具有極強的地域特征,包含地域生態(tài)、地域經(jīng)濟、地域文化等內(nèi)容。這部分資源的收集能夠更準確地體現(xiàn)方志資源建設(shè)的特色,但僅依靠圖書館采購和館員的力量,很難實現(xiàn)全面收集。

      2.2 眾包特點

      2.2.1 專業(yè)性

      從方志數(shù)據(jù)特點考慮,數(shù)據(jù)眾包應(yīng)建立在專業(yè)平臺基礎(chǔ)上。方志資源數(shù)據(jù)以及方志語料庫數(shù)據(jù)均不屬于大眾化范疇,若將其在公共眾包平臺發(fā)布,針對性較差。依托圖書館、方志館構(gòu)建眾包平臺,一方面可以有效提升方志數(shù)據(jù)眾包的準確性;另一方面能夠更有效地聚集專業(yè)人員。而組織開展基于專業(yè)方志數(shù)據(jù)集的活動或競賽,更可讓數(shù)據(jù)在應(yīng)用層面發(fā)揮更大作用。從上海圖書館和北京大學(xué)組織的基于數(shù)據(jù)集的競賽活動效果可知,這種方式在提升數(shù)據(jù)可用性和拓展基于數(shù)據(jù)的系統(tǒng)功能方面,收到超乎想象的效果。

      2.2.2 結(jié)果整合

      方志數(shù)據(jù)眾包與目前圖書館書目系統(tǒng)的關(guān)鍵詞眾包有很大區(qū)別。關(guān)鍵詞用于描述資源,起到豐富資源元數(shù)據(jù)的作用,主要用于資源的多角度發(fā)現(xiàn),其準確性要求并不特別高。而方志數(shù)據(jù)的眾包不僅用于收集奇缺資源,更重要的是,通過眾包解決數(shù)據(jù)中的不確定性問題,如圖片識別、文本數(shù)據(jù)深度挖掘、多媒體文本處理等,因此對眾包結(jié)果整合要求較高。眾包結(jié)果整合雖然有多種方式,但筆者認為基于數(shù)學(xué)模型的結(jié)果整合方法更科學(xué)。這種結(jié)果整合方法對眾包工人的管理有更高要求。為此,方志數(shù)據(jù)的眾包系統(tǒng)建設(shè),無論在資金投入還是技術(shù)性能方面,都會有更高的要求。

      2.2.3 資源收集與整理

      與通常意義上的眾包任務(wù)不同,這一功能設(shè)計主要針對方志數(shù)據(jù)的民間保存特性。因此,系統(tǒng)應(yīng)具有提交完整方志數(shù)字資源以及接受印刷型資源的功能,并通過數(shù)字化與實體資源構(gòu)成相互制約的矯正機制。大英圖書館、牛津大學(xué)等機構(gòu)參與建設(shè)的“歐洲1914-1918”數(shù)字館藏建設(shè)項目,就是一個典型代表。該項目的特點在于允許公眾自行進行數(shù)字化處理并提交結(jié)果,也提供提交非數(shù)字化版本的通道[27]。

      3 結(jié)語

      數(shù)字方志資源建設(shè)引入眾包模式是圖書館資源建設(shè)的新嘗試,目前在圖書館界還不多見,上海圖書館的“歷史文獻眾包平臺”也才剛剛上線。與成熟的商業(yè)眾包平臺相比,方志資源眾包在功能、管理以及發(fā)布內(nèi)容等方面都有待優(yōu)化。眾包這種成熟的基于互聯(lián)網(wǎng)的新型社會化協(xié)作機制,在圖書館行業(yè)內(nèi)還沒有成為一種新的資源建設(shè)模式。隨著圖書館特藏資源建設(shè)的深入,眾包需求隨之會增多。本文只從技術(shù)層面對眾包在數(shù)據(jù)優(yōu)化方面進行了一些嘗試性探討,希望對眾包的應(yīng)用有所借鑒。圖書館轉(zhuǎn)型發(fā)展不僅需要在服務(wù)模式上以用戶為中心,在資源建設(shè)上也要引入互聯(lián)網(wǎng)的開放、共享和用戶參與機制。因此,如何在圖書館引入眾包,使眾包成為資源建設(shè)的輔助和拓展模式,還有很多因素需要考慮。

      (1)數(shù)據(jù)安全與隱私保護。眾包多應(yīng)用于一個復(fù)雜任務(wù)被分解成多個相對獨立、較小的子任務(wù)的情況之上,其數(shù)據(jù)安全和隱私保護并沒有引起業(yè)界重視。以信息識別眾包任務(wù)為例,分解后的子任務(wù)雖然僅為完整任務(wù)的一部分,但依然存在信息泄露的數(shù)據(jù)安全風(fēng)險。眾包任務(wù)內(nèi)容以及個人信息的數(shù)據(jù)安全問題都會制約著眾包的可用性。出于數(shù)據(jù)安全的考慮,相關(guān)機構(gòu)有可能會拒絕使用眾包來完成任務(wù)[8]。

      (2)用戶激勵和利益分配。眾包不意味著免費,觀念必須轉(zhuǎn)變??茖W(xué)的用戶激勵和利益分配是保證眾包任務(wù)順利完成的關(guān)鍵。如何實現(xiàn)用戶參與最大化與利益分配合理化之間的平衡關(guān)系到眾包能否持久開展。

      (3)正確利用社交網(wǎng)絡(luò)。利用社交網(wǎng)絡(luò)平臺的廣泛關(guān)注度和人氣,充分發(fā)揮社交網(wǎng)絡(luò)發(fā)布、交流、傳播信息的特性,是眾包聚集工人的有效手段。但通過社交網(wǎng)絡(luò)發(fā)布眾包信息時,如何減少對用戶使用社交網(wǎng)絡(luò)基本功能的影響,特別是如何避免讓用戶產(chǎn)生被廣告的效應(yīng),仍有待深入研究。

      猜你喜歡
      方志工人資源
      為了不吃預(yù)制菜,打工人有多努力
      Effects of O2 addition on the plasma uniformity and reactivity of Ar DBD excited by ns pulsed and AC power supplies
      基礎(chǔ)教育資源展示
      一樣的資源,不一樣的收獲
      黑龍江民國方志所刊名家墨跡選
      書法賞評(2019年2期)2019-07-02 12:10:50
      資源回收
      嘉絨藏族地區(qū)的舊方志編纂
      西藏研究(2017年1期)2017-06-05 09:26:11
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      調(diào)配工人
      讀寫算(下)(2015年11期)2015-11-07 07:21:09
      基層關(guān)工人的夢
      中國火炬(2015年11期)2015-07-31 17:28:41
      东方市| 平邑县| 稷山县| 永德县| 共和县| 日喀则市| 青神县| 吴桥县| 四平市| 高州市| 常州市| 平度市| 永寿县| 昭平县| 江都市| 铅山县| 鄱阳县| 乌什县| 天峨县| 绥芬河市| 日土县| 来凤县| 威海市| 宁强县| 阜宁县| 五寨县| 楚雄市| 崇阳县| 扶余县| 西乡县| 婺源县| 炎陵县| 元朗区| 绥滨县| 桐柏县| 汉川市| 蕲春县| 金平| 梁河县| 保山市| 安远县|