楊寒淋, 周婭鵑, 趙 豐, 徐 蓉, 安薇竹, 翁正秋, 寧靈艦, 金 宇
(1.中國絲綢博物館 國際交流部,杭州 310002; 2.溫州職業(yè)技術學院 人工智能學院,浙江 溫州 325006;3.浙江理工大學 紡織科學與工程(國際絲綢學院),杭州 310018; 4.同方知網(wǎng)(北京)技術有限公司 浙江分公司,杭州 310018)
絲綢是絲綢之路的原動力,在跨文化傳播中發(fā)揮著重要作用;絲綢之路是溝通中國與世界其他地區(qū)的交通路線,為世界文明的發(fā)展做出了巨大貢獻。廣義上的絲綢之路東達韓國、日本,西至地中海各國,通過海路途徑柬埔寨、泰國,連通意大利、埃及等國家。2019年,在第二屆“一帶一路”國際合作高峰論壇上,習近平總書記提出要積極架設不同文明互學互鑒的橋梁,深入開展各領域人文合作,形成多元互動的人文交流格局。鑒于此,深入研究絲路文化遺產,弘揚絲路文化精神,能夠更好地促進各國各地的文化、政治和經(jīng)濟交流。然而,現(xiàn)有絲路文化遺產呈現(xiàn)多源異構特征——地域廣泛化、語言多元化、成果多樣化,在互聯(lián)網(wǎng)上表現(xiàn)為數(shù)據(jù)大量膨脹、分布極為零散、語言繁雜多樣,使得當前文博領域利用傳統(tǒng)的研究技術手段無法適應海量絲路文化遺產數(shù)據(jù)的智能研究,故利用人工智能手段挖掘絲路文化遺產愈發(fā)重要??傮w而言,要對絲路文化遺產數(shù)據(jù)進行全面細致的統(tǒng)計和分析,面臨著如下挑戰(zhàn):
1) 數(shù)據(jù)采集。需要采集的絲路文化遺產數(shù)據(jù)往往有不同的來源和模態(tài),各數(shù)據(jù)之間的語言組成、平臺架構、文檔結構等因素,導致數(shù)據(jù)的格式差別巨大,呈現(xiàn)多源異構的特性,對數(shù)據(jù)采集效率和覆蓋率都是極大的挑戰(zhàn)。
2) 信息挖掘。在多源異構的復雜數(shù)據(jù)中,對爬取到的文本內容手動進行文章的語義提取與分類是不切實際的,需要智能化地進行自動標引、提取文摘與文本分類。
3) 數(shù)據(jù)清洗。由于挖掘得到的數(shù)據(jù)中含有大量相似的成分,冗余的信息會使得提取數(shù)據(jù)分析的精度和效率大幅降低。此外,部分文本內容僅提到了絲路,實質內容卻與絲路無關,使得該部分信息作為噪聲去除時極為困難。
針對上述挑戰(zhàn),本文提出面向多源異構絲路文化遺產數(shù)據(jù)的智能挖掘技術。首先,構建高覆蓋率與高效的數(shù)據(jù)采集系統(tǒng)。其次,設計針對多源異構絲路文化遺產數(shù)據(jù)的自動標引、自動文摘與數(shù)據(jù)分類方法。然后,采用多維度融合聚類的數(shù)據(jù)清洗方法去除冗余和噪聲數(shù)據(jù)。最后,整合所提出的關鍵技術形成《絲綢之路文化遺產年報》并進行開源發(fā)布(https://github.com/CarolineYeung/SilkRoadReport/)。本成果旨在向公眾宣揚絲路文化遺產價值,激發(fā)大眾對絲綢之路的關注度和興趣,喚醒全社會對文化遺產的保護理念與意識,并有望為多源異構絲路文化遺產數(shù)據(jù)的智能挖掘提供理論與技術支撐。
對于絲路文化遺產數(shù)據(jù)有效信息的獲取,現(xiàn)有的采集策略可分為以下3種:人工采集、文博機構提供和基于互聯(lián)網(wǎng)的大數(shù)據(jù)信息采集。
人工采集是有目的地對相關領域信息進行手動查詢,并從中獲得參考數(shù)據(jù)和研究數(shù)據(jù)的方式。絲路文化遺產信息根據(jù)存儲形態(tài),可分為數(shù)字化信息與非數(shù)字化信息。對于可檢索的數(shù)字化信息,一般會從搜索主題詞、關鍵詞入手,按照研究問題的操作化指標對收集到的相關信息進行人工錄入標注、摘錄,并建立表格進行數(shù)據(jù)管理。對于非數(shù)字化的信息,采集者首先從相關領域資料入手,利用滾雪球的方法,逐步積累、深化和細化。龍博等[1]結合歷史文獻人工調研和民間調查對多綜提花裝置的發(fā)展過程、提花原理和社會地位進行了綜合詳盡的分析。張曉斌等[2]利用互聯(lián)網(wǎng)手動提取廣東海上絲綢之路的時間架構,并在文化層面對廣東海上絲綢之路的整體價值做出評估。程金城等[3]人工采集并分析“基質”“斑塊”和“廊道”等景觀生態(tài)學的數(shù)據(jù),對絲路文化遺產中文學要素進行再發(fā)現(xiàn)。劉運娟等[4]采用人工田野調查法和傳世實物分析法對泉州金蒼繡進行了研究,為增強海上絲綢之路沿線國家的文化認同感做出了貢獻。雖然人工采集數(shù)據(jù)在一定程度上可以獲取到絲路文化遺產數(shù)據(jù),但它只能獲取極其有限的信息數(shù)量,其信息有效性和專業(yè)性仍有待考證,并且會耗費大量時間。在當今互聯(lián)網(wǎng)信息的時代下,人工采集的方式或許過于保守,且缺乏數(shù)據(jù)信息的完整性與多樣性。
文博機構提供相關信息資源是獲取絲路文化遺產數(shù)據(jù)的另一種渠道,博物館、圖書館、科研所、研究中心等機構通過建立合作交流平臺[5-8]的方式提供領域相關數(shù)據(jù),由研究人員對這些數(shù)據(jù)進行梳理與整合[9-12]。于鳳靜等[9]聯(lián)合博物館和研究中心,探索中國海洋文化理念里的中國傳統(tǒng)文化精髓,實現(xiàn)與絲路精神的相契相合。馬建春等[10]通過與文博機構的合作,建設相應的文化創(chuàng)新區(qū)與數(shù)據(jù)庫,挖掘海上絲綢之路歷史資源,梳理文化遺產。吳婭妮[11]是在絲綢之路背景下,探索圖文傳播與雕版印刷之間的關系及對社會文化發(fā)展起到的推動作用,其中引用了諸多博物館中的記載文獻。柴冬冬[12]則是列舉相關文博領域中的文獻資料,通過文化間性的置入,探究絲路文化在時間和空間的多維認同度。相較于傳統(tǒng)人工采集的模式,上述方法能更加有效地獲取專業(yè)信息。然而,此類多渠道多途徑匯總的原始數(shù)據(jù)量龐大,并且有較高的重復率,增加了后續(xù)分析的困難度。此外,特定文博機構提供的絲路文化遺產數(shù)據(jù)在廣度與深度上也有局限,不能保證覆蓋所有的信息。
盡管人工采集與相關文博機構提供的方式對數(shù)據(jù)獲取有所幫助,但無法確保其完整性和有效性,故亟須利用大數(shù)據(jù)技術從多源異構數(shù)據(jù)中提取關鍵信息。然而,目前的相關工作僅利用大數(shù)據(jù)技術來進行絲綢文化變遷的相關研究,缺少對自動高效獲取準確絲路文化遺產數(shù)據(jù)方面的探討。例如,王鏡等[13]研究了絲綢之路與重游意愿影響關系,通過大數(shù)據(jù)查詢來獲取旅游地區(qū)歷年游客數(shù)量,并將其設置為調節(jié)變量進行分析。海波[14]則是以絲綢之路為視閾,研究河西走廊附近的佛教文化,其中應用到了基于互聯(lián)網(wǎng)的數(shù)據(jù)采集技術。若要全面采集并分析絲路文化遺產領域的專業(yè)資訊信息,需要結合數(shù)據(jù)挖掘技術,主動發(fā)掘相似數(shù)據(jù)之間的內在聯(lián)系,并做出快速精準的響應。本文利用數(shù)據(jù)挖掘技術對絲路文化遺產數(shù)據(jù)進行自動化搜索和采集,并對其進行分類、排重、去噪等挖掘處理,確保數(shù)據(jù)采集的完整性和數(shù)據(jù)分析的高效性。
本文提出的研究方法有別于文化領域的傳統(tǒng)研究方法。它通過數(shù)據(jù)采集、數(shù)據(jù)整理方面具體技術的應用,實現(xiàn)更全面的數(shù)據(jù)研究;同時依靠大數(shù)據(jù)智能分析技術,實現(xiàn)對過去一年絲路文化遺產數(shù)據(jù)的統(tǒng)計和多維度分析。流程主要分為3部分:數(shù)據(jù)采集、信息挖掘分析,以及數(shù)據(jù)清洗與數(shù)據(jù)審核,如圖1所示。
圖1 面向多源異構絲路文化遺產數(shù)據(jù)的智能挖掘技術流程Fig.1 Intelligent mining technology process for multi-source heterogeneous Silk Roads cultural heritage data
在數(shù)據(jù)采集方面,本文提出一個集網(wǎng)絡數(shù)據(jù)采集、分析、存儲、管理功能于一體的網(wǎng)絡信息資源整合系統(tǒng)——垂直搜索引擎系統(tǒng)。通過預先設定的站點及可變的關鍵詞進行定向數(shù)據(jù)采集,目的是收集網(wǎng)絡上分散的ppt、word、pdf等各類形式的文檔。利用垂直搜索引擎對各種文獻、資訊進行閱讀,并理解其基本涵義,然后進行核心知識點摘取,保存為統(tǒng)一格式的摘要數(shù)據(jù)后轉存至數(shù)據(jù)庫中,其過程共包含以下4個步驟。
2.2.1 智能代理系統(tǒng)建設
本文采用集成多種智能信息處理算法,基于先進的語義規(guī)則技術進行淺層語義分析,從信息海洋中準確、及時地篩選出研究者所需的信息,并自動分類;運用自定義分類體系,為研究者提供多種方式定制所需的主題。
2.2.2 自動多線程高效采集
為了快速、全面、準確地從Internet及專業(yè)數(shù)據(jù)庫中獲取數(shù)據(jù),本文對所有腳本進行多線程并行采集,實時動態(tài)監(jiān)控特定目標,靈活定制采集策略,確保信息全面采集。對于采集規(guī)模較大的時間段,采用集群式蜘蛛[15]來抓取,確保抓取速度。同時為了實現(xiàn)各個模塊的解耦合、子模塊的獨立性,在本系統(tǒng)中使用了蜘蛛集群與智能代理集群,同時對服務器進行智能調度,從而子系統(tǒng)可以隨時斷開與連接,且不會影響到整個系統(tǒng)運行。
2.2.3 海量數(shù)據(jù)存儲和全文檢索
建設支持海量非結構化數(shù)據(jù)存儲管理的系統(tǒng),以及成熟的全文檢索技術。與此同時,運用智能相似檢索系統(tǒng),以百萬級文獻量毫秒級響應速度實施數(shù)據(jù)檢索工作。
2.2.4 主流中文編碼識別和跨國語言支持
對主流中文編碼進行精準識別,系統(tǒng)在不同編碼之間自動轉換,持續(xù)運行;同時支持中文、英文、俄文、法文、日文5國語言。由應用服務器、蜘蛛、智能代理、轉存器、發(fā)布系統(tǒng)、規(guī)則編輯器、圖片Web服務器組成的7個分布式子系統(tǒng),能夠同時各自獨立運行數(shù)據(jù)處理工作。
2.3.1 自動標引
利用詞頻-逆向文件頻率(TF-IDF)[16]從文本中自動抽取能夠高度有效表達文本主題和內容的詞匯。主要過程如下:1) 統(tǒng)計分析文本標題、摘要、正文等部分;2) 對照禁用詞表或者統(tǒng)計的詞分布規(guī)律表,刪除高頻的語法功能詞和低頻詞匯;3) 對保留候選詞匯進行加工,英文詞匯要去掉后綴(或前綴),將每個詞還原到其詞根;4) 利用TF-IDF計算候選詞匯的權重;5) 選擇權值大于特定閾值的詞作為標引的關鍵詞。
2.3.2 自動文摘
根據(jù)目前國際前沿的自然語言處理思想,通常將詞的線性序列組成句子,將句子的線性序列組成文本。其中具體流程分4個步驟進行:1) 計算詞的權值;2) 計算句子的權值;3) 對所有句子按權值高低降序排列,權值最高的若干句子被確定為文摘句;4) 將文摘句按照它們在原文中的出現(xiàn)順序輸出。計算權值的依據(jù)是文本的6種特征:詞頻、標題、位置、句法結構、線索詞和指示詞短語。
2.3.3 數(shù)據(jù)分類
數(shù)據(jù)分類的關鍵在于在向量空間中找到一個具有最大邊界的決策平面,這個決策平面能夠在某種評價指標上最好地分割兩個類別的數(shù)據(jù)點。決策平面可以寫作g(x)=ω·x+b=0,其中x是要分類的任意數(shù)據(jù)點,ω和常數(shù)b通過訓練獲得。支持向量機(SVM)[17]可以在高維空間找到離各類別數(shù)據(jù)距離最大的決策面,本文采用SVM來進行數(shù)據(jù)的分類。
2.4.1 數(shù)據(jù)清洗
利用文本聚類技術對數(shù)據(jù)內容進行自動分類和指紋索引,通過基于數(shù)據(jù)內容的相似度計算(Profile模板差異計算方法[18]),將相似度超過臨界值的內容進行自動刪除,僅保留路徑初始版本或權威來源版本,并根據(jù)聚類得到的離群點進行二次分析,以便去除無關的噪聲文本。
2.4.2 數(shù)據(jù)審核
在專家指導下,對全部數(shù)據(jù)進行審核,確保數(shù)據(jù)關鍵要素(時間、地點、參與人、摘要)的正確性。審核完成后進行數(shù)據(jù)發(fā)布。
本文從絲路文化遺產入手,以中國知網(wǎng)海量與“絲路文化遺產”相關文獻為樣本進行文本挖掘,按照陳列展覽、考古發(fā)現(xiàn)、文化事件、學術成果4個維度,利用數(shù)據(jù)智能挖掘技術、機器學習技術和數(shù)據(jù)清洗技術,進行數(shù)據(jù)的深層次搜集和處理。將采集到的13.4萬條絲路文化遺產機器數(shù)據(jù)作為實驗測試樣本,進行分類、排重、去噪及整理。
3.2.1 關鍵詞梳理
本文利用文本挖掘技術,在中國知網(wǎng)海量文獻庫中分析與絲路文化遺產相關文獻,以文獻中與絲路文化遺產相關關鍵詞出現(xiàn)的“頻次”“突現(xiàn)率”“節(jié)點度”和“中心度”等維度智能推薦關鍵詞,并輔助以人工對關鍵詞進行篩選,共形成關鍵詞346個(每個關鍵詞包含中、英、俄、法、日5國語言)。將各個關鍵詞進行不同組合,利用布爾檢索關系的檢索式,對互聯(lián)網(wǎng)和數(shù)據(jù)庫進行信息搜索。截取部分關鍵詞,如表1所示。
表1 “絲路文化遺產”關鍵詞表部分截取Tab.1 Partial interception of the keyword table of “Silk Roads Cultural Heritage”
3.2.2 站點搜集及整理
通過互聯(lián)網(wǎng)信息采集軟件分析出與“絲路文化遺產”高度相關的網(wǎng)站(包括國內和國外),并對這些站點進行統(tǒng)一資源定位器分析,形成初始信息來源網(wǎng)站清單,由相關領域專家人工補充并完善與“絲路文化遺產”相關信息的網(wǎng)站,形成包含漢語、英語、俄語、法語、日語5種語言的信息來源網(wǎng)站清單。最終整理得到符合本文檢索范圍的網(wǎng)站站點,主要有:聯(lián)合國教科文組織絲綢之路網(wǎng)站、世界十大博物館網(wǎng)站、絲路沿線全部國家的國家博物館網(wǎng)站、中國全部省級及以上級別博物館網(wǎng)站、中國全部省級及以上文物局網(wǎng)站、SCI數(shù)據(jù)庫、中國知網(wǎng)數(shù)據(jù)庫、百度搜索、谷歌搜索等知名公共搜索引擎等,包括368個中文站點,373個外文站點,共計741個站點。截取部分網(wǎng)站站點數(shù)據(jù)來源,如表2所示。
表2 網(wǎng)站站點數(shù)據(jù)來源部分截取Tab.2 Partial interception of the website data source
3.2.3 互聯(lián)網(wǎng)信息定向抓取與分類
本文利用表2所示網(wǎng)站站點頻道信息,以及事先設置的關鍵詞(表1),結合智能代理、自動多線程、海量數(shù)據(jù)存儲和編碼識別等方式對網(wǎng)站站點進行定向信息抓取。隨后,將篩選得到的數(shù)據(jù)通過自動標引、自動文摘得到某報道/文獻的摘要,最后利用機器學習技術(SVM)對文摘進行自動分類,分為陳列展覽、考古發(fā)現(xiàn)、文化事件、學術成果4大類。在SVM中,訓練樣本為1 000條人工標注的4大類文摘(其中800條用于訓練,200條用于測試,模型準確度達到99%),訓練好的模型能夠自動對剩余的數(shù)據(jù)進行分類。
對本次741個站點進行數(shù)據(jù)采集,共采集絲路文化遺產相關數(shù)據(jù)13.40萬條,機器對采集得到的全文進行分類,共得到:“絲綢之路陳列展覽”數(shù)據(jù)約4.10萬條,“絲綢之路考古發(fā)現(xiàn)”數(shù)據(jù)約0.40萬條,“絲綢之路文化事件”數(shù)據(jù)約7.40萬條,“絲綢之路學術成果”數(shù)據(jù)約1.50萬條。
本次數(shù)據(jù)采集工作網(wǎng)站配置與數(shù)據(jù)采集共耗時約15 d,采集數(shù)據(jù)大小約為110 GB。
3.2.4 數(shù)據(jù)整理
對采集和分類后的數(shù)據(jù)進行整理,包括數(shù)據(jù)清洗與數(shù)據(jù)審核。為確保質量,數(shù)據(jù)整理工作通過人機結合的方式實施,對打上分類標簽的數(shù)據(jù)進行人工篩選審核,將篩選后的數(shù)據(jù)規(guī)范化,并提供中英2種語言的評審材料,以確保信息的準確度,即不能出現(xiàn)任何絲綢之路相關事件發(fā)生日期、發(fā)生地點、主要內容的錯誤。對于專業(yè)程度較高的工作內容,由本專業(yè)領域的專家指導完成。
數(shù)據(jù)挖掘結果如表3所示,顯示的所有數(shù)據(jù)條數(shù)均為相關步驟處理完成之后的數(shù)量。由前文分析可知,在經(jīng)過數(shù)據(jù)采集和機器學習分類之后,共得到絲路文化遺產相關數(shù)據(jù)13.40萬條。由于分類后的數(shù)據(jù)中會包含重復數(shù)據(jù)和噪聲數(shù)據(jù),需要對其進行清洗:包括數(shù)據(jù)排重,即對全文內容重復率高于90%的條目進行去重,僅保留最早發(fā)布的文章;去噪,即剔除與絲綢之路文化不相關數(shù)據(jù)。清洗后剩余數(shù)據(jù)約1.10萬條,其中:“絲綢之路陳列展覽”相關數(shù)據(jù)約0.30萬條,“絲綢之路考古發(fā)現(xiàn)”相關數(shù)據(jù)約0.10萬條,“絲綢之路文化事件”相關數(shù)據(jù)約0.60萬條,“絲綢之路學術成果”相關數(shù)據(jù)約0.10萬條。在數(shù)據(jù)清洗之后,需要利用人工對摘要內容進行審核以進一步去除無關的信息、并修改誤分類的內容所屬標簽及摘要內容,處理完成后得到數(shù)據(jù)約0.37萬條,其中:“絲綢之路陳列展覽”相關數(shù)據(jù)約0.11萬條,“絲綢之路考古發(fā)現(xiàn)”相關數(shù)據(jù)約0.08萬條,“絲綢之路文化事件”相關數(shù)據(jù)約0.09萬條,“絲綢之路學術成果”相關數(shù)據(jù)約0.09萬條。
表3 絲綢之路相關的數(shù)據(jù)挖掘結果Tab.3 Data mining results related to the Silk Roads piece
人工校驗審核之后的數(shù)據(jù)已經(jīng)較為純凈,為提高數(shù)據(jù)質量,邀請聯(lián)合國教科文組織世界遺產中心、中國古代史研究中心、中國社會科學院考古研究所等領域專家進行篩選,如表4所示。篩選完成后剩余數(shù)據(jù)426條,其中:“絲綢之路陳列展覽”相關數(shù)據(jù)100條,“絲綢之路考古發(fā)現(xiàn)”相關數(shù)據(jù)100條,“絲綢之路文化事件”相關數(shù)據(jù)125條,“絲綢之路學術成果”相關數(shù)據(jù)101條。
表4 領域專家篩選與投票Tab.4 Domain expert screening and voting piece
最后,特邀文博、考古、歷史等領域的40位國內外權威專家分別對陳列展覽、考古發(fā)現(xiàn)、文化事件、學術成果中的“十大”進行投票,形成《絲綢之路文化遺產年報》1份,年報內容包括:“絲路文化遺產十大陳列展覽”“絲路文化遺產十大考古發(fā)現(xiàn)”“絲路文化遺產十大文化事件”和“絲路文化遺產十大學術成果”。
本文采用數(shù)據(jù)挖掘、機器學習、數(shù)據(jù)清洗等技術對多源異構絲路文化遺產數(shù)據(jù)進行智能分析和處理。在數(shù)據(jù)采集方面,使用智能代理、自動多線程、海量數(shù)據(jù)存儲和編碼識別構建高覆蓋率與高效的數(shù)據(jù)采集系統(tǒng);在信息挖掘方面,使用自動標引、自動文摘和支持向量機快速、精確地完成文本分類工作;在數(shù)據(jù)清洗方面,采用數(shù)據(jù)篩選、數(shù)據(jù)校對和專家審核對數(shù)據(jù)信息進行去重、去噪等清洗作業(yè)。最后,整合這些研究成果形成《絲綢之路文化遺產年報》并進行開源發(fā)布。實驗結果表明,利用人工智能數(shù)據(jù)挖掘技術進行絲路文化遺產的數(shù)據(jù)研究能夠有效保證數(shù)據(jù)的全面性、多維性和高效性,其成果對弘揚和傳播絲路文化有著重要的現(xiàn)實意義與理論價值。
《絲綢》官網(wǎng)下載
中國知網(wǎng)下載