顏運(yùn)梅
(廣州圖書館,廣東廣州510623)
眾包在國內(nèi)古籍?dāng)?shù)據(jù)庫建設(shè)中的應(yīng)用研究
顏運(yùn)梅
(廣州圖書館,廣東廣州510623)
元數(shù)據(jù)眾包和文本建設(shè)眾包是國外圖書館界眾包項(xiàng)目的主要模式。以國內(nèi)CADAL數(shù)據(jù)庫和《廣州大典》數(shù)據(jù)庫為例,闡述了元數(shù)據(jù)眾包和文本建設(shè)兩種眾包模式在國內(nèi)古籍?dāng)?shù)據(jù)庫中的應(yīng)用,提出這兩種模式存在的問題,并結(jié)合《廣州大典》數(shù)據(jù)庫的文本建設(shè)的眾包功能,提出優(yōu)化改進(jìn)措施。
眾包;CADAL;廣州大典;文本建設(shè)
在知識(shí)創(chuàng)新時(shí)代,圖書館的用戶,既是資源的使用者,也是資源的創(chuàng)造者。圖書館的未來定位,不僅僅是存儲(chǔ)知識(shí)的機(jī)構(gòu),還應(yīng)當(dāng)成為促進(jìn)知識(shí)創(chuàng)新、幫助創(chuàng)造知識(shí)的主體,積極鼓勵(lì)用戶參與知識(shí)的生產(chǎn)與創(chuàng)新。
澳大利亞國家圖書館在《2015-2019年規(guī)劃》中明確提出將“促使和參與知識(shí)的創(chuàng)造”,在規(guī)劃期內(nèi)將通過第三方服務(wù)如Flickr平臺(tái)增加數(shù)字內(nèi)容,繼續(xù)豐富Trove的資源[1]。
眾包這一概念由杰夫·豪(Jeff Howe)于2006年6月《連線雜志》首次提出后[2],國外圖書館界已將眾包模式大量地引入圖書館建設(shè)中,并通過實(shí)踐發(fā)現(xiàn),眾包可以提升資源的使用率、豐富資源,減輕圖書館的人力負(fù)擔(dān),擴(kuò)大共建共享的邊際,同時(shí)提高資源的可發(fā)現(xiàn)性。眾包因此成為國外圖書館鼓勵(lì)用戶參與知識(shí)共建共享的主要模式。國內(nèi)圖書館界對(duì)眾包的研究頗多,但實(shí)際應(yīng)用并不多,尤其是在古籍?dāng)?shù)據(jù)庫的建設(shè)方面。
自上個(gè)世紀(jì)80年代以來,古籍?dāng)?shù)據(jù)庫建設(shè)經(jīng)歷了30年的發(fā)展,成績斐然,據(jù)2010年統(tǒng)計(jì),古籍?dāng)?shù)據(jù)庫數(shù)量就達(dá)到580余種[3]。國內(nèi)大型的古籍?dāng)?shù)據(jù)庫大部分由于建設(shè)較早,用戶參與程度低。古籍?dāng)?shù)字化產(chǎn)品提供商和用戶、用戶與用戶之間交流的渠道少。
數(shù)字技術(shù)、社交媒體的快速發(fā)展使得古籍?dāng)?shù)據(jù)庫的一些功能得到拓展,古籍閱讀作為古籍全文數(shù)據(jù)庫的核心功能不再那么重要,用戶更注重與其他用戶就古籍相關(guān)內(nèi)容進(jìn)行交流和學(xué)習(xí)等功能,古籍研究者更注重在線古籍研究的功能。交互設(shè)計(jì),成為古籍服務(wù)平臺(tái)新的重要建設(shè)理念。近幾年建成使用的國內(nèi)古籍?dāng)?shù)據(jù)庫也相應(yīng)地增加了用戶互動(dòng)和參與的功能,增設(shè)了交互模塊、共建模塊,提高了用戶參與的積極性,提升了資源的使用率。這些模塊包含糾錯(cuò)、論壇、書評(píng)和社交。如國內(nèi)大型的CADAL平臺(tái)有專門的網(wǎng)絡(luò)用戶社區(qū),用戶可以根據(jù)喜好建立群組,在群組里討論、寫書評(píng)、聊天等[4]。
國內(nèi)的古籍?dāng)?shù)據(jù)庫中除了這些交互和開放功能,采用眾包模式建設(shè)的古籍?dāng)?shù)據(jù)庫還比較少。據(jù)筆者調(diào)研,CADAL古籍?dāng)?shù)據(jù)庫的元數(shù)據(jù)眾包模式較為成熟,2015年底上線的《廣州大典》影像全文數(shù)據(jù)庫平臺(tái)也開發(fā)了文本建設(shè)的眾包,這兩者的模式較有代表性,本文以這兩個(gè)數(shù)據(jù)庫為例,討論國內(nèi)古籍?dāng)?shù)據(jù)庫的眾包模式。
大學(xué)數(shù)字圖書館國際合作計(jì)劃(China Academic Digital Associative Library,簡稱為CADAL)數(shù)據(jù)庫中的古籍和民國期刊的元數(shù)據(jù)建設(shè)采取了眾包的模式。用戶在平臺(tái)注冊(cè)、登錄之后,即可參與元數(shù)據(jù)的眾包,CADAL眾包功能包括三個(gè)方面。
3.1 確定電子書元數(shù)據(jù)的質(zhì)量
在古籍電子書的元數(shù)據(jù)頁面有個(gè)評(píng)價(jià)功能,用戶可以對(duì)這些圖書的元數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià),評(píng)價(jià)共分為四個(gè)等級(jí),包括:很好,較好,較差、很差。用戶對(duì)同一本電子書只能提交一次選項(xiàng),不能重復(fù)提交。
3.2 修改圖書元數(shù)據(jù)信息
用戶可以在古籍電子圖書的詳情頁面對(duì)圖書的信息作修改。對(duì)圖書的元數(shù)據(jù),如出版社、出版日期、關(guān)鍵字等信息進(jìn)行編輯,在此頁面上還可以查看某個(gè)字段的編輯歷史。
3.3 補(bǔ)充電子期刊的元數(shù)據(jù)
某些民國電子期刊的元數(shù)據(jù),可能缺乏期刊名稱、出版社、關(guān)鍵詞等信息,用戶可以在這些期刊的詳細(xì)頁面新增、修改這些元數(shù)據(jù)。同時(shí)某種期刊可能包含多種刊物內(nèi)容,用戶也可以協(xié)助找出每一種刊物所對(duì)應(yīng)的起始頁。
3.4 CADAL的獎(jiǎng)懲制度
為了吸引用戶積極參與眾包功能,CADAL數(shù)據(jù)庫采用了一些獎(jiǎng)懲制度,包括積分、閱讀扣分規(guī)則,詳見表1。平臺(tái)根據(jù)用戶貢獻(xiàn)的程度,獎(jiǎng)勵(lì)讀者獲得限量圖書的全球訪問,無需受到所在學(xué)校IP的限制。這種利用特色資源吸引用戶參與眾包的方式具有一定的吸引力。同時(shí)扣分規(guī)則可以有效地遏制一些用戶的惡意編輯數(shù)據(jù),降低網(wǎng)站管理者在后臺(tái)的審核成本。
表1 CADAL的獎(jiǎng)懲規(guī)則
4.1 數(shù)據(jù)庫介紹
《廣州大典》影像數(shù)據(jù)庫是廣州市重要的歷史文獻(xiàn)全文數(shù)據(jù)庫,是由中共廣州市委宣傳部、廣東省文化廳策劃并組織研究編纂的大型地方文獻(xiàn)叢書,大體依經(jīng)、史、子、集、叢五部分類,收錄廣州人士(含寓賢)著述、有關(guān)廣州歷史文化的著述及廣州版叢書。所收文獻(xiàn)下限為1911年,個(gè)別門類延至民國?!稄V州大典》收錄4 064種文獻(xiàn),編成520冊(cè)。珍本、善本等稀見文獻(xiàn)眾多,收有稿抄本462種,清乾隆以前刻本357種[5]?!稄V州大典》根據(jù)古籍原文影印出版。數(shù)據(jù)庫是根據(jù)原版影像建成、基于PDF格式的影像全文數(shù)據(jù)庫。這種古籍影像數(shù)據(jù)庫,用戶無法進(jìn)行全文搜索,目前僅僅能通過古籍的題名、著者、版本項(xiàng)進(jìn)行搜索,使用不便,資源無法被深入挖掘與發(fā)現(xiàn),無法滿足學(xué)術(shù)研究群體的高層次需求,僅能滿足一般程度的閱讀與使用推廣。提供《廣州大典》全文文本數(shù)據(jù)和實(shí)現(xiàn)全文搜索是數(shù)據(jù)庫建設(shè)的二期任務(wù)。目前數(shù)據(jù)庫平臺(tái)開發(fā)試用的文本眾包功能,為二期文本建設(shè)提供了基礎(chǔ)。
《廣州大典》文本建設(shè)的眾包模式,包括對(duì)文本進(jìn)行錄入和糾錯(cuò)兩個(gè)重要的功能模塊。錄入指網(wǎng)絡(luò)志愿者利用人工手段,錄入《廣州大典》影像的文本,文本糾錯(cuò)指志愿者可以對(duì)其他用戶錄入的文本或通過OCR識(shí)別的文本進(jìn)行審校和糾誤(糾錯(cuò)功能暫未開通)。
4.2 眾包的流程
4.2.1 注冊(cè)登錄
用戶要參與《廣州大典》的文本眾包,必須先注冊(cè)成為廣州數(shù)字圖書館的用戶或者訪客?!稄V州大典》數(shù)據(jù)庫由廣州圖書館建設(shè),主要面向廣州市的用戶開放。非廣州市的用戶,只需要在廣州數(shù)字圖書館平臺(tái)上注冊(cè)成為訪客身份即可參與眾包。
4.2.2 領(lǐng)取任務(wù)
《廣州大典》全文頁面的右上角有“未加工頁”下拉菜單,注冊(cè)用戶在此選取未被錄入或者未被領(lǐng)取錄入的任務(wù)頁碼。用戶選擇頁碼后,頁面直接跳轉(zhuǎn)鏈接到相對(duì)應(yīng)頁面,在“文本建設(shè)”框即可錄入文字。
4.2.3 加工提交
在文本加工頁面有說明文字提醒用戶:在錄入文本時(shí)必須忠實(shí)于原文,不必糾正原文錯(cuò)誤;對(duì)于無法輸入的文字或符號(hào),使用X代替;以原文語種(漢語繁體)加工文本。錄入完畢可點(diǎn)擊提交按鈕,數(shù)據(jù)提交到后臺(tái),如果未錄入完畢,則可先保存留待繼續(xù)錄入。
4.2.4 后臺(tái)審核
用戶加工文字、錄入完畢提交數(shù)據(jù)到后臺(tái),由管理員進(jìn)行審核,審核反饋意見為通過、不通過。通過審核后文本內(nèi)容則可由管理員保存,同時(shí)前臺(tái)的任務(wù)頁面則不能再領(lǐng)取任務(wù)。如果審核不通過,則由管理員釋放任務(wù),在前臺(tái)可以重新被領(lǐng)取加工。
4.3 眾包的后臺(tái)管理
《廣州大典》文本眾包的后臺(tái)管理模塊包括表2中的功能:
表2 眾包的后臺(tái)管理功能模塊
5.1 元數(shù)據(jù)的眾包與文本的眾包
國外特色數(shù)據(jù)庫建設(shè)的眾包模式較多,其中,資源的標(biāo)引以及文字錄入、糾錯(cuò)是其主要的兩種方式。資源標(biāo)引又主要包括給資源設(shè)TAG標(biāo)簽和元數(shù)據(jù)標(biāo)引。
CADAL古籍?dāng)?shù)據(jù)庫和《廣州大典》數(shù)據(jù)庫的眾包模式是兩種不同的模式。CADAL古籍?dāng)?shù)據(jù)庫的眾包功能主要在于圖書的元數(shù)據(jù)標(biāo)引、補(bǔ)充和糾錯(cuò)。CADAL項(xiàng)目二期提出了“多維度標(biāo)簽分類實(shí)踐”,標(biāo)簽的生成包括其中一項(xiàng)是“讓用戶為文獻(xiàn)添加標(biāo)簽”[6]。相對(duì)于《廣州大典》的全文文本錄入來說,CADAL古籍庫的眾包項(xiàng)目的難度和工作量都較小。《廣州大典》數(shù)據(jù)庫的元數(shù)據(jù)由《廣州大典》編輯部提供,是完整和準(zhǔn)確無誤的,沒有必要對(duì)這方面的數(shù)據(jù)進(jìn)行眾包?!稄V州大典》的二期建設(shè)任務(wù)是要提供《廣州大典》的全文文本數(shù)據(jù),其前提條件是必須有古籍?dāng)?shù)據(jù)的文本內(nèi)容。如果對(duì)影像版的古籍進(jìn)行OCR識(shí)別,底本、手抄本、手稿等字體較難識(shí)別,識(shí)別率較低。如果圖書館負(fù)責(zé)全部文本錄入,又將花費(fèi)大量的人力?!稄V州大典》建設(shè)方原計(jì)劃招聘志愿者協(xié)助完成文本錄入的工作,并給予一定的報(bào)酬。但經(jīng)過大量的調(diào)研之后,決定將數(shù)據(jù)開放在網(wǎng)站上進(jìn)行文本眾包,這是國內(nèi)大型古籍?dāng)?shù)據(jù)庫對(duì)文本眾包建設(shè)模式的大膽嘗試。
5.2 眾包的效果
CADAL數(shù)據(jù)庫于2011年上線至今,以《民國匯報(bào)》為例,其目次頁面的貢獻(xiàn)人(次數(shù))有5人8次,說明還是有用戶關(guān)注、嘗試眾包功能?!稄V州大典》數(shù)據(jù)庫的眾包參與度、效益和影響都不甚理想。2015年12月平臺(tái)正式上線,推出眾包功能至今半年多,暫未收到用戶有用的參與數(shù)據(jù)。
相較而言,CADAL眾包項(xiàng)目的管理體制比《廣州大典》數(shù)據(jù)庫成熟,平臺(tái)設(shè)計(jì)也更便于用戶操作,單個(gè)任務(wù)不用耗費(fèi)用戶大量的時(shí)間,用戶可以隨時(shí)退出任務(wù)而不至于對(duì)任務(wù)和對(duì)其他用戶造成影響。同時(shí)制定了嚴(yán)格的獎(jiǎng)懲制度,有效地遏制了用戶的惡意數(shù)據(jù)。而《廣州大典》數(shù)據(jù)庫的用戶在前臺(tái)領(lǐng)取了文本錄入任務(wù),如果用戶在規(guī)定時(shí)間內(nèi)沒有完成任務(wù),系統(tǒng)必須將這些任務(wù)重新釋放出來供其他用戶重新領(lǐng)取錄入。另外,也沒有制定嚴(yán)格的獎(jiǎng)懲制度。
5.3 眾包存在的問題
5.3.1 項(xiàng)目工作量大,過于專業(yè)
《廣州大典》影像數(shù)據(jù)庫的用戶只需要簡單注冊(cè)后即可參與眾包。與商業(yè)性質(zhì)的眾包不同,公共圖書館由于其公益性而更易于獲得志愿者支持[7]。但是眾包的實(shí)際效果,與眾包任務(wù)本身的特性有密切關(guān)系。如Holley提出的圖書館實(shí)施眾包的六項(xiàng)原則,其中一項(xiàng)是:“眾包項(xiàng)目的活動(dòng)應(yīng)簡單有趣”[8];李書寧與曾姍在對(duì)國外圖書館眾包項(xiàng)目調(diào)查后也認(rèn)為:“具有無版權(quán)、工作任務(wù)簡單、單個(gè)任務(wù)耗時(shí)短、內(nèi)容有趣、數(shù)據(jù)量極大等特點(diǎn)的資源更適合應(yīng)用眾包理念”[9]。美國國會(huì)圖書館、大英圖書館和丹麥國家圖書館都以館藏照片作為眾包內(nèi)容,因?yàn)閷?duì)普通大眾來說,圖片比文字更具吸引力。另外,澳大利亞國家圖書館和芬蘭國家圖書館報(bào)紙數(shù)字化項(xiàng)目,也是由于報(bào)紙內(nèi)容通俗易懂,具有吸引力。此外,國外圖書館在開展眾包項(xiàng)目時(shí)還注重對(duì)任務(wù)進(jìn)行分解,把龐大的工作分解成細(xì)小的任務(wù),將數(shù)據(jù)庫建設(shè)分解成收集、整理、組織、描述、審校、糾錯(cuò)等小任務(wù),參與者只需完成自己的一部分即可,互不干涉,隨時(shí)參與,隨時(shí)退出[10]。
國內(nèi)外圖書館眾包項(xiàng)目效果差異的原因在于眾包任務(wù)本身的差異性,同時(shí)也與中英文字體的差異性和文字本身的構(gòu)成有關(guān)。英文單詞,無論古今,都是由26個(gè)字母的組合,在校對(duì)錄入過程中,字體辨認(rèn)的難度不大,即使有誤差,也不會(huì)錯(cuò)得太離譜。手稿錄入、校對(duì)的難度也較漢字繁體字的錄入、審校容易。
漢字的古籍?dāng)?shù)字化是個(gè)慢工出細(xì)活的工作,按照程序,一般先要根據(jù)掃描書頁影像交由電腦OCR系統(tǒng)自動(dòng)識(shí)別為文字,其中不少集外字、模糊字、通假字、異體字極易產(chǎn)生識(shí)別錯(cuò)誤,這些問題只能靠人工進(jìn)行校對(duì)更正,許多都要根據(jù)上下文意進(jìn)行判斷,由錄入校對(duì)者在空缺的位置補(bǔ)錄上正確的文字。所以錄校人員不僅需要古漢語知識(shí),同時(shí)也要具備一定歷史常識(shí)的儲(chǔ)備,而不僅僅是單純的錄入工作。
《廣州大典》一共520冊(cè),國際大16開本,每冊(cè)約850頁,共有約44 200張書頁。眾包項(xiàng)目將所有書頁都放出來供用戶錄入校對(duì),工作量過于龐大。Martin Moyle在總結(jié)倫敦大學(xué)學(xué)院J.Bentham手稿錄入項(xiàng)目時(shí)認(rèn)為,文本加工是一項(xiàng)非常復(fù)雜的工作,難度不亞于、甚至超過其它眾包項(xiàng)目[11]。《廣州大典》數(shù)據(jù)庫文本建設(shè)如此龐大的工作量由眾包來完成,難度可想而知。
5.3.2 用戶體驗(yàn)不佳
CADAL的古籍頁面因?yàn)榭梢葬槍?duì)元數(shù)據(jù)進(jìn)行糾錯(cuò)和補(bǔ)充,導(dǎo)致頁面不整潔和紊亂。在使用數(shù)據(jù)信息時(shí),用戶體驗(yàn)不佳,同時(shí)也給人不夠?qū)I(yè)的印象?!稄V州大典》數(shù)據(jù)庫典籍版面是豎排,而文本錄入頁面是橫排,在“保真”還原效果上差一些。
5.3.3 數(shù)據(jù)質(zhì)量差
CADAL的元數(shù)據(jù)眾包,有可能導(dǎo)致本來是應(yīng)該比較權(quán)威的元數(shù)據(jù)被用戶改得不夠?qū)I(yè),增加了后臺(tái)審核的難度和人力?!稄V州大典》的后臺(tái)收到一些用戶眾包的數(shù)據(jù),質(zhì)量低下,完全無法使用。
5.3.4 人力成本高
用戶錄入文本、提交到后臺(tái)的數(shù)據(jù),需要專業(yè)館員負(fù)責(zé)審核,如果數(shù)據(jù)質(zhì)量不佳,人力成本就會(huì)隨之增加。
在國內(nèi)圖書館界,眾包還是“摸著石頭過河”,在實(shí)踐中不斷地修正和改進(jìn)。較之CADAL數(shù)據(jù)庫的眾包,《廣州大典》網(wǎng)絡(luò)服務(wù)平臺(tái)的眾包項(xiàng)目,對(duì)用戶而言更為專業(yè)和艱深,不是公共圖書館的一般用戶可以勝任的。為了避免產(chǎn)生大量無用數(shù)據(jù),平臺(tái)可以對(duì)眾包的流程做一些改動(dòng),優(yōu)化項(xiàng)目難度較大的工作流程,達(dá)到更加理想的狀態(tài)。
6.1 資源篩選
首先,對(duì)《廣州大典》的數(shù)據(jù)進(jìn)行篩選。對(duì)一些經(jīng)典傳世之作,特別是已出版印刷、有文字版的資源進(jìn)行篩選,這一部分?jǐn)?shù)據(jù)不再釋放出來錄入。而目前《廣州大典》眾包的做法是將所有古籍的影像版全部釋放出來供用戶選擇進(jìn)行文本錄入、內(nèi)容建設(shè),這必將造成重復(fù)建設(shè)。
6.2 優(yōu)化程序
資源去重之后,對(duì)剩下的資源,特別是識(shí)別度較高的文本先進(jìn)行OCR識(shí)別,然后組織人力對(duì)其進(jìn)行校對(duì)錄入。對(duì)一些難度較高、識(shí)別率低的古籍專門組織人力進(jìn)行校對(duì)錄入,而不是對(duì)所有的資源率先進(jìn)行文本的眾包錄入校對(duì)。
6.3 尋找合適的志愿者
古籍?dāng)?shù)字化的真實(shí)再現(xiàn),是建立在正確理解原文基礎(chǔ)上的文字轉(zhuǎn)化,這對(duì)從業(yè)人員提出了較高的要求。從業(yè)者必須是文理兼?zhèn)涞娜瞬?,既要掌握?jì)算機(jī)技術(shù),又必須有深厚的國學(xué)功底。其中涉及的國學(xué)知識(shí),包括古籍中異體字關(guān)聯(lián)、簡繁體關(guān)系,正體異體關(guān)系,正字訛(偽)字關(guān)系,通假被通假關(guān)系,古今字關(guān)系,新舊字形關(guān)系,形近異義字,避諱字等。如果對(duì)參與眾包的用戶資格進(jìn)行審核,會(huì)提高數(shù)據(jù)的質(zhì)量,減少審核的人力成本和難度。
平臺(tái)可以對(duì)申請(qǐng)參與眾包的用戶進(jìn)行篩選、審核。對(duì)具備一定專業(yè)水準(zhǔn)的用戶開放權(quán)限。同時(shí)采用適當(dāng)?shù)募?lì)機(jī)制,對(duì)積極參與或者數(shù)據(jù)質(zhì)量較高的用戶給予一定的獎(jiǎng)勵(lì)。《廣州大典》數(shù)據(jù)庫眾包功能目前還沒有出臺(tái)相對(duì)應(yīng)的獎(jiǎng)懲措施。制定獎(jiǎng)懲制度,或者是適量的現(xiàn)金獎(jiǎng)勵(lì)模式可以吸引更多用戶參與。沒有獎(jiǎng)勵(lì),難以吸引穩(wěn)定、有粘性的用戶參與這項(xiàng)專業(yè)工作。同時(shí)設(shè)置用戶黑名單功能,如果發(fā)現(xiàn)有用戶大量提交惡意無效數(shù)據(jù),管理員可以將其加入黑名單,限制其參與眾包的功能,有效地減少無效、低質(zhì)量數(shù)據(jù)。
6.4 開發(fā)易用的平臺(tái)
建設(shè)方應(yīng)該完善眾包功能,優(yōu)化平臺(tái)的用戶體驗(yàn),促使資源的發(fā)現(xiàn)、使用、交流。平臺(tái)的操作程序要簡潔易用,不要過于復(fù)雜。在此基礎(chǔ)上,征集專家與用戶的意見,持續(xù)完善與改進(jìn)眾包的功能模塊,使之更具操作性。
6.5 眾包的宣傳推廣
對(duì)眾包模式進(jìn)行宣傳推廣,使圖書館界與用戶知道、了解、接受、參與這一模式。在2015年全國圖書館年會(huì)會(huì)議上,廣州圖書館對(duì)《廣州大典》影像數(shù)據(jù)庫做了專場(chǎng)報(bào)告,尤其對(duì)數(shù)據(jù)庫的眾包功能做了重點(diǎn)介紹,古籍?dāng)?shù)據(jù)庫的眾包模式已經(jīng)引起國內(nèi)圖書館的關(guān)注。
眾包在國內(nèi)特色數(shù)據(jù)庫中的應(yīng)用雖然已經(jīng)引起了關(guān)注,但還不普遍,也不成熟。對(duì)于項(xiàng)目的難度把握還不是很好。國內(nèi)圖書館可以考慮將一些非專業(yè)化且工作量不是特別大的項(xiàng)目眾包,讓用戶參與,吸引用戶參與建設(shè)、豐富資源。期望圖書館界的專家學(xué)者共同探討眾包在中國古籍?dāng)?shù)據(jù)庫中應(yīng)用的理論與實(shí)踐。
[1]National Library of Australia.Corporate Plan 2015-2019 [EB/OL].[2016-05-20].http://www.nla.gov.au/corporatedocuments/corporate-plan-2015-2019.
[2]SAXTON G D,OH O,KISHORE R.Rules of crowdsourcing:Models,issues and systems of control[J].Information Systems Management,2013(1):2-20.
[3]李明杰.中文古籍?dāng)?shù)字化實(shí)踐及研究[M].武漢:武漢大學(xué)出版社,2010.
[4]CADAL數(shù)據(jù)庫[EB/OL].[2016-05-20].http://www.cadal. zju.edu.cn/index.
[5]廣州大典網(wǎng)絡(luò)服務(wù)平臺(tái)[EB/OL].[2016-05-20].http:// gzdd.gzlib.gov.cn/HRCanton/.
[6]劉翔,黃晨.共享的邊界:CADLIS創(chuàng)新模式再析[J].大學(xué)圖書館學(xué)報(bào),2014(1):41-43,40.
[7]HOLLEY R.Crowdsourcing:How and Why Should Libraries Do It[J/OL].D-Lib Magazine,2010(3/4)(16):[2016-05-07]. http://www.dlib.org/dlib/march10/holley/03holley.html.
[8]HOLLEY R.Tagging full text searchable articles:An overview of social tagging activity in historic Australian newspapers,August 2008-August 2009[J/OL].D-Lib Magazine,2010(1/2)(16):[2016-05-07].http://www.dlib.org/ dlib/january10/holley/01holley.html.
[9]李書寧,曾姍.國外圖書館數(shù)字館藏眾包建設(shè)實(shí)踐調(diào)查與分析[J].圖書情報(bào)工作,2014(12):83-90.
[10]關(guān)富英,李書寧.眾包——圖書館特色資源建設(shè)路徑新選擇[J].圖書館雜志,2015(2):58-62,93.
[11]MOYLE M.Manuscript transcription by crowdsourcing: Transcribe Bentham[J].Liber Quarterly,2011(3/4):347-356.
(編發(fā):王域鋮)
Application Research on Crowdsourcing in the Construction of Ancient Books Database in China
YAN Yun-mei
(Guangzhou Library,Guangzhou 510623,China)
Crowdsourcing metadata and text construction are two main models crowdsourcing projects in the libraries.Taking CADAL database and Guangzhou Encyclopedia Database for example,this article describes the application of the two models in domestic ancient database,puts forward existing problems and the optimization measures.
crowdsourcing;CADAL;Guangzhou Encyclopedia;text construction
G250
G250
A
2095-5197(2016)05-0030-05
顏運(yùn)梅(1979-),女,副研究館員,碩士,研究方向:圖書館數(shù)字資源建設(shè)、網(wǎng)站建設(shè)。
2016-05-24