賀晨芝,張 磊
隨著新技術(shù)的滲透,圖書館除提供紙質(zhì)文獻(xiàn)保存與服務(wù)外,還嘗試將信息技術(shù)融入傳統(tǒng)服務(wù),提供全面、精準(zhǔn)、智能的知識服務(wù)。數(shù)字人文作為一門將關(guān)聯(lián)數(shù)據(jù)、文本分析、機(jī)器學(xué)習(xí)、UGC(用戶生成內(nèi)容)、數(shù)據(jù)可視化等新興技術(shù)應(yīng)用于傳統(tǒng)人文研究的計算與人文交叉學(xué)科,契合圖書館發(fā)展方向,是圖書館發(fā)展趨勢之一[1]。在數(shù)字人文研究中,圖書館因擁有豐富的館藏資源和元數(shù)據(jù),以及其知識收集、存儲、服務(wù)的職能,主要承擔(dān)資源的管理和組織角色,為人文研究提供大規(guī)模高質(zhì)量的數(shù)據(jù)[2]。
“眾包”(crowd sourcing)概念由美國《連線》雜志記者杰夫·豪(Jeff Howe)于2006年提出[3],核心思想是利用用戶的知識盈余來共創(chuàng)價值。隨著Web2.0技術(shù)的發(fā)展,基于用戶貢獻(xiàn)的眾包理念被應(yīng)用于各領(lǐng)域,數(shù)字人文領(lǐng)域也在不斷嘗試各類眾包應(yīng)用模式。Terras Melissa 指出,眾包模式在數(shù)字人文中的應(yīng)用,在利用民眾知識盈余來建立可應(yīng)用于數(shù)字人文研究的數(shù)據(jù)集的同時,將大眾融入人文研究領(lǐng)域,為人文學(xué)科與公眾建立了更緊密的關(guān)聯(lián)[4]31。趙宇翔提出,眾包模式在數(shù)字人文中的應(yīng)用不僅能夠促進(jìn)數(shù)字人文研究的深化和突破,也能提高民眾的人文素養(yǎng)[5]。圖書館數(shù)字人文眾包項目是請大眾為機(jī)構(gòu)工作,更是為用戶提供深入?yún)⑴c公眾記憶建設(shè)的機(jī)會[6]。用戶和數(shù)字人文研究機(jī)構(gòu)的雙贏局面使眾包成為數(shù)字人文研究發(fā)展的趨勢。
上海圖書館(以下簡稱“上圖”)自2016年開始嘗試在數(shù)字人文項目中融入眾包模式,試圖利用共創(chuàng)價值理念,吸納用戶盈余知識,以較低成本收集資源,實現(xiàn)資源文本化,從而為用戶提供更豐富精準(zhǔn)的知識服務(wù),加強(qiáng)人文知識大眾化和普及化。通過分析已有數(shù)字人文眾包項目,結(jié)合本館實際需求,上圖有選擇性地開發(fā)建設(shè)數(shù)字人文眾包項目,先后推出歷史文獻(xiàn)眾包平臺、驗證碼項目,并在家譜、上海年華之從武康路出發(fā)、文化名人手稿等數(shù)字人文項目中加入在線識譜、上傳家譜、上傳照片、標(biāo)識留言等功能,不斷嘗試將眾包模式應(yīng)用于數(shù)字人文項目,取得了初步成效。本文以上圖數(shù)字人文眾包項目為例,從建設(shè)需求、用戶對象、眾包形態(tài)3個方面入手,結(jié)合應(yīng)用現(xiàn)狀分析,為圖書館數(shù)字人文眾包項目建設(shè)提供參考。
澳大利亞國家圖書館2008年推出澳大利亞報紙數(shù)字化項目,項目開發(fā)的Trove網(wǎng)站為民眾提供了對澳大利亞報紙OCR 文本化結(jié)果進(jìn)行校對的平臺,是最早的具有廣泛影響力的數(shù)字人文眾包實踐項目[7]。隨后,一些圖書館和大學(xué)紛紛推出各類數(shù)字人文眾包項目,包括:卡耐基梅隆大學(xué)的“reCAPTCHA”系統(tǒng)以O(shè)CR軟件無法識別的文字掃描圖代替原來的驗證碼圖片,借助用戶登錄進(jìn)行文字識別,為紐約時報、Google 圖書等完成文字識別工作[8];芬蘭國家圖書館digitalkoot項目中的Mole Hunt游戲吸引用戶在玩游戲的同時,對影像圖片文本化結(jié)果進(jìn)行核對,已完成超過650萬次校驗工作[9];愛爾蘭美奴斯大學(xué)“Letters 1916-1923”項目向用戶征集信件,并為用戶提供信件內(nèi)容的抄錄平臺,2018年該項目將由大眾捐獻(xiàn)、抄錄的3,000余封信件建設(shè)成知識庫供用戶查詢[10];美國國會圖書館“By the People”平臺邀請大眾標(biāo)引、抄錄、審核圖書館館藏資源[11];中華書局的數(shù)字化整理平臺為在線用戶提供共同參與古籍審校的工作機(jī)會[12];倫敦大學(xué)學(xué)院發(fā)起的邊沁手稿抄錄項目將已有邊沁手稿發(fā)布于平臺,通過收集用戶抄錄的手稿全文數(shù)據(jù),建設(shè)可全文搜索的邊沁文集知識庫[13]。
學(xué)者對諸多數(shù)字人文眾包項目進(jìn)行綜合分析,提出相關(guān)分類方法。分類角度主要有建設(shè)需求、用戶對象、眾包形態(tài)3個方向。這3個方向恰好是建設(shè)數(shù)字人文眾包項目需要重點思考的內(nèi)容。
數(shù)字人文眾包項目建設(shè)綜合考慮了數(shù)字人文研究的需求及眾包模式的特色。劉煒等指出,數(shù)字人文研究的內(nèi)容是基于數(shù)據(jù)的、細(xì)粒度的、可分析的文本資源,是數(shù)字人文項目建設(shè)的基礎(chǔ)之一[14]。數(shù)字人文眾包項目以聚集大眾智慧為數(shù)字人文研究提供可分析資源為目標(biāo)。Oomen等借鑒新西蘭國家圖書館有關(guān)電子產(chǎn)物生命周期“描述、管理、揭示、利用/再利用、創(chuàng)造”的概念,將數(shù)字人文眾包項目從內(nèi)容上分為:文本糾錯/抄錄與分類(對資源進(jìn)行文本化、分類等描述工作);內(nèi)容補(bǔ)充(對已有資源進(jìn)行注解、知識補(bǔ)充);共策(非專業(yè)大眾與專家共同策劃展示內(nèi)容);資源征集(向公眾收集主題資源);眾籌(籌集資金購買資源或加工資源)[15]。Carletti等將該分類進(jìn)一步歸納為已有資源擴(kuò)充深化(如抄錄、標(biāo)引、分類、校對)和新資源收集,分別針對有明確主題的數(shù)字人文項目及籌建中的數(shù)字人文項目[16]。
在用戶方面,邊沁手稿抄錄項目負(fù)責(zé)人Terras Melissa指出,與一般商業(yè)化眾包模式不同,人文領(lǐng)域的眾包項目并非面向任意大眾群體,而是針對具有一定人文領(lǐng)域知識、極具熱情并愿意貢獻(xiàn)知識的群體[4]7。Claude等將眾包按用戶動機(jī)分為3類:自愿、有償、無參與者[17]。自愿類項目吸引用戶自愿開展眾包工作,是數(shù)字人文眾包項目中最常見的類型。有償類項目是指用戶在完成眾包任務(wù)后會獲得一定報酬,如亞馬遜的土耳其機(jī)器人。無參與者類項目是令用戶在無意識中開展眾包工作,如驗證碼項目(reCAPTCHA)。同樣從用戶維度來分類,Bonney等的分析側(cè)重點為用戶與項目組織方的關(guān)系,將數(shù)字人文眾包項目分為貢獻(xiàn)、協(xié)作、共創(chuàng)3類[18]。Simon在這一分類的基礎(chǔ)上再添加“自主創(chuàng)建”類,特指由機(jī)構(gòu)提供數(shù)據(jù)資源、用戶利用資源自主開發(fā)的數(shù)字人文項目[19]。
眾包在數(shù)字人文項目中的應(yīng)用旨在為用戶提供一個可以貢獻(xiàn)盈余知識的平臺和入口,多以網(wǎng)站平臺形式出現(xiàn),包括自建平臺、使用第三方平臺、以功能形式融入網(wǎng)站,以及游戲等。Andro等將數(shù)字人文眾包項目從形態(tài)上分為3類:顯性式、游戲式、隱性式[20]。顯性式眾包泛指傳統(tǒng)的任務(wù)發(fā)布及領(lǐng)取模式。游戲式眾包是指將眾包任務(wù)融入游戲,令用戶在娛樂中開展文本化糾錯等眾包工作。隱性式眾包特指驗證碼項目(reCAPTCHA),取其沒有明顯的形態(tài)、巧妙融入眾包任務(wù)之意。
通過對照自身的需求以及上述各維度眾包分類,上圖分析建設(shè)需求、定位用戶群體、選擇眾包形態(tài),創(chuàng)建了符合上圖特色的數(shù)字人文眾包項目。部分項目已投入使用,取得了初步成效。
上圖2014年開始探索數(shù)字人文項目,依托各類特色館藏資源(如家譜、盛宣懷檔案、上海年華、手稿)建設(shè)了一系列特色主題文獻(xiàn)知識庫及服務(wù)平臺,取得了較好的成效,也遇到了可分析資源不足瓶頸。上圖數(shù)字人文項目主要是基于各類特色館藏資源的元數(shù)據(jù)分析、關(guān)聯(lián)與展示,而對于蘊(yùn)藏最多知識信息的資源文本內(nèi)容,由于資源數(shù)量龐大且具有專業(yè)性,文本化的時間成本與資金成本對圖書館都具有很大壓力,從而造成文本資源不足,無法進(jìn)行深入挖掘與分析。此外,圖書館對民眾愿意分享的民間資源,由于沒有便捷的收集入口,無法進(jìn)行有效征集,錯失了豐富館藏的機(jī)會。基于以上問題,眾包在數(shù)字人文項目中的應(yīng)用需求可以分為兩大類:影像圖片文本化、資源征集。
上圖擁有大量特色館藏資源,大部分已完成了數(shù)字化、影像化工作。目前市場上主流的圖片文本化技術(shù)OCR(光學(xué)字符識別)對印刷品中的中文識別效率非常高,但手稿、古籍、家譜等由于書寫筆跡凌亂、風(fēng)格迥異、形式復(fù)雜,OCR識別正確率低下,文本化成本極高。因此,影像圖片文本化是上圖數(shù)字人文眾包的最大需求。面對這一問題,上圖根據(jù)不同的抄錄需求,分別建設(shè)了提供元數(shù)據(jù)深度標(biāo)引和全文著錄的“歷史文獻(xiàn)眾包平臺”,將難度較低的抄錄內(nèi)容切割成單字作為驗證碼的“驗證碼項目”,以及專門針對家譜世系圖形式的家譜抄錄“在線識譜”功能。
眾包在數(shù)字人文項目資源拓展上的助力主要表現(xiàn)為:向公眾收集各類資源,從數(shù)量和形式上豐富館藏。該類需求主要出現(xiàn)在已確定的數(shù)字人文項目中,針對某一特定主題,向公眾征集資源,對征集到的資源進(jìn)行再加工、展示,從而更好地服務(wù)大眾。針對該類需求,上圖在“家譜知識服務(wù)平臺”增加“上傳家譜、在線修譜”功能,向公眾征集家譜資源;在“上海年華之從武康路出發(fā)”(簡稱“武康路項目”)中開發(fā)分享空間,提供上傳照片入口,收集武康路老照片、用戶自拍照片;在“名人手稿檔案庫”(又稱“文化名人手稿項目”)中設(shè)計“標(biāo)注、留言”功能,獲取用戶對手稿的見解,收集手稿背后的故事。
上圖作為非盈利機(jī)構(gòu),無法開展有償?shù)谋姲椖浚饕揽坑脩糇栽富驘o意識地參與眾包,因此眾包需求明確,項目多為完全由機(jī)構(gòu)指定的“用戶貢獻(xiàn)”類型。此外,為了解、吸納大眾對數(shù)字人文的想法與創(chuàng)意,上圖連續(xù)多年推出開放數(shù)據(jù)開發(fā)競賽,為參賽團(tuán)隊提供海量數(shù)據(jù),由參賽者自主開發(fā)數(shù)字人文項目,屬于賦予用戶最大自由度的“自主創(chuàng)建”眾包類型。
不同主題的數(shù)字人文眾包項目,其眾包需求和用戶群體各有不同。歷史文獻(xiàn)眾包平臺作為一個文本抄錄及元數(shù)據(jù)深度標(biāo)引平臺,目前推出的任務(wù)主要針對上圖特藏檔案資源,需要用戶在繁體字識別、手寫字跡辨認(rèn)、人文歷史背景上具有一定的知識儲備;在冷啟動階段,上圖與高校合作舉辦文獻(xiàn)招錄競賽,邀請歷史、中文、藝術(shù)等專業(yè)的大學(xué)生參與平臺的試用。家譜作為上圖最早推出的數(shù)字人文項目,已聚集比較穩(wěn)定的用戶群體,這一成熟的用戶群體也是在線識譜、家譜上傳、在線修譜等眾包任務(wù)的主要目標(biāo)群體。武康路項目旨在通過用戶收集更多建筑及馬路照片,因此將主要用戶群定位為武康路游客,該項目與“老洋房閱讀之旅——行走武康”活動合作,供游客使用。文化名人手稿項目中的標(biāo)注及留言功能,主要面向具有專業(yè)知識或歷史淵源的用戶,希望用戶能夠提供手稿背后的故事以及關(guān)于手稿的獨到見解,依賴他們的知識積累,豐富上圖已有資源。驗證碼(項目)嵌入上圖主頁和上圖數(shù)字人文項目登錄界面,面向上圖所有線上用戶。開放數(shù)據(jù)開發(fā)競賽具有一定的開發(fā)技能要求,目標(biāo)用戶主要為具有開發(fā)能力、對上圖特藏數(shù)字資源感興趣、有獨到見解的群體。
在數(shù)字人文眾包項目群體定位時發(fā)現(xiàn)數(shù)字人文具有較強(qiáng)的領(lǐng)域性。不同主題的眾包項目,其目標(biāo)群體需要具有相應(yīng)的人文領(lǐng)域知識,對用戶的人文素養(yǎng)要求較高,在推廣使用上面臨的難度要高于一般眾包項目。為此,需進(jìn)行定點推廣,并配以具有吸引力的激勵機(jī)制。
參照顯性式、游戲式、隱性式等眾包形態(tài)特征,上圖選擇了顯性式與隱性式這兩種較易實現(xiàn)的眾包形式。游戲式眾包需要進(jìn)行專業(yè)的游戲化設(shè)計,開發(fā)成本高,且市場上的游戲式眾包多用在文本識別糾錯及資源分類上,上圖尚無這方面需求。對于顯性式眾包,上圖分別開發(fā)了綜合性開放眾包平臺以及嵌入已有數(shù)字人文項目的眾包功能來滿足不同的需求;對于隱性式眾包,上圖借鑒reCAPTCHA項目,開發(fā)了驗證碼項目。
2.3.1 綜合性開放眾包平臺
文本資料是數(shù)字人文研究的必要素材,影像圖片文本化是通用于所有數(shù)字人文項目的基本需求。面對包括古籍書本、創(chuàng)作手稿、信函電報等在內(nèi)的種類繁多的文獻(xiàn)文本化需求,上圖建設(shè)了綜合性開放眾包平臺——“歷史文獻(xiàn)眾包平臺”(見圖1),在支持用戶對文獻(xiàn)影像圖片進(jìn)行全文抄錄的同時,還允許其對文獻(xiàn)中的人、地、時、事等的內(nèi)容特征進(jìn)行深度標(biāo)引。館藏文獻(xiàn)在收集、數(shù)字化的過程中由館員進(jìn)行元數(shù)據(jù)著錄,豐富的元數(shù)據(jù)信息可以幫助用戶更好地理解文獻(xiàn)。由于不同類型文獻(xiàn)的元數(shù)據(jù)字段組成不同,平臺特別建立了靈活的元素集管理機(jī)制,允許發(fā)包方在導(dǎo)入待抄錄文獻(xiàn)圖片的同時,導(dǎo)入相匹配的元數(shù)據(jù)信息并顯示在抄錄界面上,方便用戶抄錄。
圖1 上海圖書館歷史文獻(xiàn)眾包平臺主頁
開放性是該平臺的一大特色。文本化資源的匱乏不僅是上圖面臨的問題,更是業(yè)界普遍存在的現(xiàn)象。對此,上圖選擇建設(shè)一個能夠支持不同機(jī)構(gòu)及個人發(fā)包的開放性平臺,將發(fā)包過程功能化、流程化,向可信賴的機(jī)構(gòu)、個人開放;再結(jié)合可發(fā)布不同元數(shù)據(jù)結(jié)構(gòu)類型文獻(xiàn)的特色,為暫無獨立開發(fā)眾包抄錄平臺計劃但想進(jìn)行眾包嘗試的個人或機(jī)構(gòu)提供便捷的任務(wù)發(fā)布渠道,也不失為一種避免重復(fù)建設(shè)平臺而造成資源浪費(fèi)的方式。
2.3.2 嵌入式眾包功能
對已有數(shù)字人文項目,考慮到其眾包需求主要針對某一主題,且網(wǎng)站已聚攏了相當(dāng)數(shù)量的用戶群體,上圖以在已有平臺基礎(chǔ)上增加新功能的方式進(jìn)行任務(wù)眾包。(1)家譜二期項目中的在線識譜,是專門針對家譜這一特殊形態(tài)文獻(xiàn)的抄錄平臺。家譜中的世系圖形式多變,蘊(yùn)含了大量的關(guān)系信息,普通的抄錄平臺無法滿足這一需求。因此,上圖特意設(shè)計能夠揭示家譜知識的在線識譜功能,并能可視化展示識譜結(jié)果。(2)武康路項目需要大量關(guān)于建筑及馬路的照片,通過在項目中加入“分享空間”的方式,讓用戶在分享觀賞感受的同時豐富上圖的館藏資源。(3)文化名人手稿項目的眾包重點是收集用戶對手稿的標(biāo)注。手稿的珍貴之處除了其蘊(yùn)藏的內(nèi)容外,其展示形式也值得研究。該項目融入標(biāo)注功能,并為用戶提供圈劃功能(見圖2),令用戶能夠準(zhǔn)確表達(dá)對手稿每一處的見解,這是簡單的文字描述所不能替代的。
圖2 文化名人手稿項目用戶圈畫、標(biāo)注、展現(xiàn)界面
2.3.3 隱形式眾包工具
驗證碼項目借鑒了卡耐基梅隆大學(xué)reCAPTCHA項目的理念,在驗證碼中融入待識別文字,將繁復(fù)的文獻(xiàn)抄錄眾包任務(wù)分劃為單字識別微任務(wù),讓用戶在登錄過程中輸入圖片內(nèi)的文字,無意識地完成文本化抄錄。這種去任務(wù)化、碎片化的眾包形態(tài)能最大化地利用大眾智慧,令網(wǎng)絡(luò)用戶在日常操作中“主動”貢獻(xiàn)認(rèn)知盈余。對發(fā)包方而言,需把待識別的文字圖片導(dǎo)入驗證碼項目操作平臺,配置驗證碼形式,然后通過調(diào)用接口將驗證碼嵌入網(wǎng)站(見圖3)。
圖3 上海圖書館門戶網(wǎng)站登陸界面
在上圖多個數(shù)字人文眾包項目中,歷史文獻(xiàn)眾包平臺、驗證碼項目、武康路微站已投入使用,并進(jìn)行了適當(dāng)推廣;家譜、手稿等項目僅在平臺中添加眾包功能,尚未正式推廣使用。下文從質(zhì)量保障機(jī)制、用戶激勵機(jī)制、平臺/系統(tǒng)使用情況等方面探討上圖眾包項目的管理、使用和成效。
數(shù)字人文眾包項目旨在為數(shù)字人文研究提供可分析的數(shù)據(jù),因此眾包所得數(shù)據(jù)需在質(zhì)量上得到保障。上圖眾包項目中的抄錄任務(wù)(如歷史文獻(xiàn)眾包平臺、家譜在線識譜功能)采用專家審核制度進(jìn)行質(zhì)量管控。其中,歷史文獻(xiàn)眾包平臺還支持多人抄錄,即同一份任務(wù)由多人分頭開展,通過綜合多份抄錄結(jié)果,進(jìn)一步保證抄錄質(zhì)量。驗證碼項目則是每次在驗證碼中放入多個字,其中包含至少1個已知值的字用于判斷抄錄結(jié)果正確與否,當(dāng)待抄錄字被抄錄為同一值的次數(shù)超過設(shè)置的閾值時,判定該值為正確答案。通過后期人工抽驗,驗證碼項目準(zhǔn)確率介于80%~90%;準(zhǔn)確率可通過調(diào)高閾值來提升,但相應(yīng)地會降低抄錄效率。對資源擴(kuò)充類眾包任務(wù),以手稿為例,由于尚未找到合適的判斷內(nèi)容準(zhǔn)確性的審核機(jī)制,僅將標(biāo)注內(nèi)容以彈幕形式展示在手稿中以豐富手稿內(nèi)容,暫不納入可研究的范圍。現(xiàn)有質(zhì)量保障機(jī)制對人力投入要求較高,未來或可考慮引入自動對比、機(jī)器學(xué)習(xí)等元素以提高審核效率;亦可借鑒國外項目經(jīng)驗,增加糾錯類眾包任務(wù),以游戲化形態(tài)展示,讓用戶來審核抄錄結(jié)果。
驗證碼項目作為用戶無意識參與的眾包形式,無需激勵措施。與現(xiàn)有數(shù)字人文項目相結(jié)合的眾包功能由于項目前期已具有一定的用戶積累,且原有系統(tǒng)沒有用戶激勵需求,因此尚未匹配相應(yīng)的激勵機(jī)制。唯有歷史文獻(xiàn)眾包平臺,作為一個從零開始的眾包項目,發(fā)布內(nèi)容難度高,在開發(fā)過程中設(shè)計了積分排行榜進(jìn)行用戶激勵;該項目冷啟動階段開展的抄錄競賽設(shè)有獎金及證書,以激勵大家參賽。當(dāng)用戶積分達(dá)到一定額度后,管理員會視其專業(yè)水準(zhǔn)賦予專家頭銜及相應(yīng)的任務(wù)審核權(quán)限,以茲鼓勵。
上圖與南京大學(xué)聯(lián)合舉辦“文化遺產(chǎn)數(shù)字化”競賽,對上圖發(fā)布的“盛宣懷檔案”主題資源進(jìn)行抄錄比拼,作為歷史文獻(xiàn)眾包平臺的冷啟動。共有來自南京大學(xué)、復(fù)旦大學(xué)等多間高校的60余人參賽,歷時3個月,完成抄錄任務(wù)200余件。競賽結(jié)束后,由于沒有后繼推廣活動,平臺用戶活躍度明顯下降,每月抄錄任務(wù)僅5~10份。目前平臺用戶171人,共計完成任務(wù)346項。
驗證碼項目應(yīng)用于上圖主頁(https://library.sh.cn/#/index)和各數(shù)字人文平臺的登錄界面。以上圖首頁登錄界面為例,2018年11月-2019年7月,用戶登錄達(dá)50余萬次,輸入字?jǐn)?shù)152,315個(用戶多次刷新驗證碼均失敗后,會轉(zhuǎn)入常規(guī)驗證碼登錄方式),其中正確驗證了109,228 字,約為網(wǎng)站用戶登錄量20%。在使用中,部分用戶反饋驗證碼難度不合理;目前設(shè)定3次刷新后出現(xiàn)常規(guī)驗證碼,刷新率為40.92%。
“上海年華之從武康路出發(fā)”與上海“老洋房閱讀之旅——行走武康”活動項目合作,作為武康路的導(dǎo)覽平臺,活動期間(2018年6-11月)網(wǎng)站瀏覽量達(dá)1萬余次。但由于平臺缺乏指向性引導(dǎo),鮮有用戶使用“分享空間”上傳照片。
上圖形式多樣的眾包項目為數(shù)字人文研究提供了更多的可分析數(shù)據(jù),歷史文獻(xiàn)眾包平臺豐富了上圖館藏資源中的文本化數(shù)據(jù),驗證碼項目已對家譜、古籍、信函等多種類型的資源完成抄錄。在建設(shè)與使用過程中,遇到缺乏活躍用戶、質(zhì)量保障成本過高等問題。結(jié)合上圖數(shù)字人文眾包項目建設(shè)經(jīng)驗,對眾包在數(shù)字人文領(lǐng)域中的應(yīng)用提出4個建議:
(1)加強(qiáng)機(jī)構(gòu)間的合作力度,擴(kuò)大眾包平臺用戶群體。通過與南京大學(xué)的合作,上圖歷史文獻(xiàn)眾包平臺成功啟動,并完成了一定數(shù)量的抄錄任務(wù)。該平臺具有開放性,可以供其他有需求的高?;驒C(jī)構(gòu)發(fā)布任務(wù)、開展活動。而此類機(jī)構(gòu)本身就具有一定的用戶群,與其建立穩(wěn)定的合作關(guān)系,能為上圖眾包平臺帶來大量活躍的用戶。
(2)定向推廣眾包項目,提高用戶活躍度、粘合度。由于數(shù)字人文眾包內(nèi)容具有特殊性,參與群體需要具備相關(guān)人文領(lǐng)域的知識,而不同主題的眾包項目面向的群體也有所不同。因此,項目應(yīng)在特定的用戶群體中進(jìn)行推廣,如在已有數(shù)字人文項目中加入眾包功能或?qū)崿F(xiàn)跳轉(zhuǎn)引導(dǎo),以形成或加入相關(guān)人文主題社區(qū),獲取更多活躍、有粘合度的使用者。
(3)細(xì)化眾包任務(wù)顆粒度,增強(qiáng)任務(wù)可完成性。同為抄錄類眾包項目,驗證碼項目將任務(wù)碎片化,讓每一個登陸用戶無意識地參與抄錄工作,抄錄量遠(yuǎn)遠(yuǎn)高于其他眾包平臺或項目。而在眾包領(lǐng)域,現(xiàn)有的所有游戲式眾包項目皆為細(xì)粒度的眾包任務(wù)。由此可見,細(xì)粒度、簡易化的任務(wù)呈現(xiàn)形態(tài)更豐富、有趣,更容易為大眾所接受。
(4)引入自動審核功能,優(yōu)化質(zhì)量保障機(jī)制。為了在保障質(zhì)量的前提下降低審核成本,建議引入自動化審核功能。比如,歷史文獻(xiàn)眾包平臺支持多人抄錄同一份任務(wù),未來可考慮引入機(jī)器自動對比合并功能,減輕專家工作量,提高審核效率;對驗證碼項目而言,可考慮將前期成果數(shù)據(jù)作為機(jī)器學(xué)習(xí)訓(xùn)練集,用以提高OCR(文字識別)準(zhǔn)確率;未來可在審核前先進(jìn)行自動識別,將識別結(jié)果作為參考答案供專家審核時作對比。
眾包是圖書館開展數(shù)字人文研究的必經(jīng)之路。上圖結(jié)合國內(nèi)外已有項目的經(jīng)驗,根據(jù)自身研究需求,針對不同用戶群體,嘗試開發(fā)上海圖書館歷史文獻(xiàn)眾包平臺、驗證碼項目、家譜在線識譜、名人手稿標(biāo)注留言等不同形態(tài)、不同內(nèi)容的數(shù)字人文眾包應(yīng)用及功能。經(jīng)過觀察和分析各項目的測試和使用情況,發(fā)現(xiàn)若要作為成熟應(yīng)用向大眾推廣,將面臨使用群體小眾及質(zhì)量保障成本高昂兩大阻礙。本文結(jié)合所有項目的使用現(xiàn)狀,借鑒國內(nèi)外數(shù)字人文眾包的應(yīng)用經(jīng)驗,提出4 點建議,作為上圖數(shù)字人文眾包項目的改進(jìn)方向:加強(qiáng)機(jī)構(gòu)間的合作力度,擴(kuò)大眾包平臺用戶群體;定向推廣眾包項目,提高用戶活躍度、粘合度;細(xì)化眾包任務(wù)顆粒度,增強(qiáng)任務(wù)可完成性;引入自動審核功能,優(yōu)化質(zhì)量保障機(jī)制。