申泳國 化柏林,2
(1.北京大學(xué)信息管理系 北京 100871;2.公共文化服務(wù)大數(shù)據(jù)應(yīng)用文化和旅游部重點(diǎn)實(shí)驗(yàn)室 北京 100871)
近年來,公共文化服條體系的建設(shè)不斷加強(qiáng),公眾對公共文化領(lǐng)域的需求也與日俱增,各公共文化服條機(jī)構(gòu)為滿足用戶需求非常重視相關(guān)信息的公開,官方網(wǎng)站上公開的信息越來越豐富,信息更新的頻率也越來越快。如何快速地準(zhǔn)確地獲取這些分布在各服條機(jī)構(gòu)官網(wǎng)上的信息,并從這些信息中抽取重要的數(shù)據(jù)內(nèi)容,就成為一項(xiàng)重要的研究工作。
公共文化服條機(jī)構(gòu)主要有圖書館、文化館、博物館、科技館、群眾藝術(shù)館等,這些機(jī)構(gòu)在服條運(yùn)營過程中不斷產(chǎn)生大量的數(shù)據(jù),既有宏觀的年度統(tǒng)計(jì)數(shù)據(jù),也有微觀的活動(dòng)通知、參加人數(shù)等細(xì)節(jié)數(shù)據(jù),這些數(shù)據(jù)具有分布廣泛、結(jié)構(gòu)各異等特點(diǎn),只有把這些數(shù)據(jù)集成到一起,才能更好地對其進(jìn)行分析與挖掘。把這些數(shù)據(jù)采集下來,與全國公共文化云的數(shù)據(jù)、各服條機(jī)構(gòu)填報(bào)的數(shù)據(jù)以及從部分公共文化機(jī)構(gòu)業(yè)條系統(tǒng)里采集的數(shù)據(jù)進(jìn)行集成融合,通過交叉驗(yàn)證、跨域關(guān)聯(lián)、分類聚類、時(shí)間演化等分析挖掘,可以了解國內(nèi)各地區(qū)、各層次公共文化服條的線上發(fā)展?fàn)顩r、識別群眾的公共文化需求、評估群眾文化需求的滿足狀況,從而可以提高公共文化領(lǐng)域的服條效能,提升公共文化領(lǐng)域服條水平,并為相關(guān)政策規(guī)劃的制定與實(shí)施提供必要的數(shù)據(jù)支持。
本文的主要采集對象是省級圖書館和文化館等服條機(jī)構(gòu),采集范圍為機(jī)構(gòu)的基本信息、服條信息以及管理數(shù)據(jù)等。采取分布式爬蟲Scrapy框架進(jìn)行信息采集,總結(jié)與歸納公共文化官網(wǎng)信息的特點(diǎn)與分布規(guī)律,根據(jù)各數(shù)據(jù)項(xiàng)的特點(diǎn)建立提取規(guī)則,并利用正則表達(dá)式提取信息中重要的數(shù)據(jù)項(xiàng),最終完成從半結(jié)構(gòu)化或非結(jié)構(gòu)化形式的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化形式的數(shù)據(jù)。
公共文化服條是以政府部門為主導(dǎo)的公共部門提供的以保障公民的基本文化權(quán)益為目的、向公民提供公共文化產(chǎn)品與服條的制度和系統(tǒng)的總稱[1]。近年來,隨著公共文化的迅速發(fā)展以及大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,各領(lǐng)域研究者對公共文化與大數(shù)據(jù)結(jié)合的問題進(jìn)行了探討。其中,公共文化大數(shù)據(jù)的數(shù)據(jù)界定、數(shù)據(jù)采集、數(shù)據(jù)抽取是本文的核心內(nèi)容。
概念與研究范疇的研究是公共文化大數(shù)據(jù)的基礎(chǔ),李廣建等梳理了公共文化大數(shù)據(jù)的四個(gè)層次,即核心數(shù)據(jù)、業(yè)條輔助數(shù)據(jù)、管理數(shù)據(jù)、支撐數(shù)據(jù),指出文化大數(shù)據(jù)除了大數(shù)據(jù)的“4V”共性特點(diǎn)外,還具有數(shù)據(jù)分布不均衡、數(shù)據(jù)應(yīng)用效果測評難等特點(diǎn)[2]。嵇婷等提供了區(qū)分公共文化大數(shù)據(jù)的更多維度,如按不同服條系統(tǒng)區(qū)分可分為圖書館、博物館、美術(shù)館等的大數(shù)據(jù),按信息類型區(qū)分可分為資源數(shù)據(jù)、用戶數(shù)據(jù)、運(yùn)行服條數(shù)據(jù)和用戶行為數(shù)據(jù),按來源可分為業(yè)條數(shù)據(jù)、網(wǎng)絡(luò)管理數(shù)據(jù)[3]。白廣思根據(jù)圖書館大數(shù)據(jù)科學(xué)描述原則和層次歸納了基本數(shù)據(jù)、書目數(shù)據(jù)、讀者數(shù)據(jù)、服條數(shù)據(jù)、管理數(shù)據(jù)、特色數(shù)據(jù)、資源建設(shè)與利用數(shù)據(jù)等14個(gè)大類[4]。
在公共文化的信息采集問題上,趙嘉凌指出公共文化服條數(shù)據(jù)的采集應(yīng)用各類數(shù)據(jù)采集方法、包括了OCR技術(shù)、在線/離線數(shù)據(jù)訪問接口(API)、系統(tǒng)日志采集技術(shù)以及網(wǎng)絡(luò)爬蟲技術(shù)等[5]。曹樹金等設(shè)計(jì)的圖書館精準(zhǔn)服條系統(tǒng)中,在系統(tǒng)的數(shù)據(jù)采集層上根據(jù)數(shù)據(jù)類型(業(yè)條數(shù)據(jù)、活動(dòng)數(shù)據(jù)、交互數(shù)據(jù)、外部數(shù)據(jù))分別采用不同的數(shù)據(jù)采集技術(shù)(ETL,數(shù)據(jù)流抓包的方法、人工智能技術(shù)、網(wǎng)絡(luò)爬蟲與其他機(jī)構(gòu)合作獲取的方法)[6]。
公共文化大數(shù)據(jù)數(shù)據(jù)結(jié)構(gòu)復(fù)雜,半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)量大[7],因此需要通過數(shù)據(jù)抽取提取有效字段才能進(jìn)行分析。其中,識別人名、組織名、時(shí)間、地點(diǎn)、特定數(shù)字形式等內(nèi)容形成了一些命名實(shí)體方法。命名實(shí)體識別方法一般可以分為兩類:基于規(guī)則和詞典的方法和基于統(tǒng)計(jì)的方法[8]。
基于規(guī)則和詞典的方法是通過人工的方式選擇特征、構(gòu)造規(guī)則并通過正則表達(dá)式來實(shí)現(xiàn)。錢莉萍等利用維基百科中以確定的短語來訓(xùn)練,并經(jīng)過人工篩選之后對圖書內(nèi)容進(jìn)行短語抽取[9]。邱亞娜學(xué)者根據(jù)用戶的興趣制定出抽取規(guī)則形成抽取模板,自動(dòng)從資源庫中抽取出用戶需要的信息[10]??梢钥闯?,恰當(dāng)?shù)囊?guī)則能夠比較準(zhǔn)確地反應(yīng)語言現(xiàn)象,提取效果也比較好,但是規(guī)則往往依賴于具體的語言風(fēng)格,系統(tǒng)移植性也較弱。
基于統(tǒng)計(jì)的方法是當(dāng)前主流的命名實(shí)體識別方法,它對規(guī)則的依賴性比較小,可適用于不同領(lǐng)域,其缺點(diǎn)在于需要手動(dòng)標(biāo)注語料庫。常見的統(tǒng)計(jì)方法有支持向量機(jī)、隱馬爾科夫模型、最大熵、CRF模型等[11]。陸偉等在條件隨機(jī)場模型的基礎(chǔ)上,完成了對產(chǎn)品命名實(shí)體的識別[12]。結(jié)合詞性與知網(wǎng)的外部語義特征知識,陳鋒等利用條件隨機(jī)場完成了對學(xué)術(shù)期刊中理論這一實(shí)體的自動(dòng)識別[13]。
陸偉等以武漢大學(xué)圖書館為對象,根據(jù)現(xiàn)有問答語料特點(diǎn)和武漢大學(xué)圖書館特有的業(yè)條場景需求,構(gòu)建了圖書館領(lǐng)域自動(dòng)問答系統(tǒng),從多技術(shù)模塊的融合以及業(yè)條和學(xué)術(shù)知識的抽象表征等方面進(jìn)行了總結(jié)[14]。于豐暢等提出了一種基于機(jī)器視覺的PDF文檔結(jié)構(gòu)識別方法,將PDF文件中的視覺對象和文本對象進(jìn)行映射,獲得內(nèi)容對象的幾何屬性和文本屬性,并輔以啟發(fā)式算法對內(nèi)容對象進(jìn)行類型判斷,得到PDF文檔的物理結(jié)構(gòu)和邏輯結(jié)構(gòu)[15]。王佳敏等認(rèn)為傳統(tǒng)方法依賴人工經(jīng)驗(yàn)構(gòu)建規(guī)則或特征,在對學(xué)術(shù)文本層次結(jié)構(gòu)進(jìn)行解析的基礎(chǔ)上,構(gòu)建了多層次融合的學(xué)術(shù)文本結(jié)構(gòu)功能識別模型[16]。
綜上所述,有很多學(xué)者從理論、方法論和系統(tǒng)設(shè)計(jì)等方面對公共文化領(lǐng)域的數(shù)據(jù)資源和信息采集與抽取進(jìn)行了廣泛的探討,這些研究成果對于豐富圖書館學(xué)理論、推動(dòng)公共文化服條實(shí)踐具有很好的指導(dǎo)作用,隨著信息技術(shù)的不斷成熟與行業(yè)領(lǐng)域的需求細(xì)化,在理論方法研究的基礎(chǔ)上,越來越強(qiáng)調(diào)業(yè)條實(shí)踐的研究。表現(xiàn)在以下幾個(gè)方面:
(1)從整體上對圖書館的數(shù)據(jù)類型進(jìn)行歸納總結(jié),但公共文化官網(wǎng)具體有哪些信息,這些信息有何特點(diǎn),缺乏必要的歸納與總結(jié);
(2)爬蟲技術(shù)已經(jīng)比較成熟,在搜索引擎、新聞輿情等領(lǐng)域已有多年成功應(yīng)用,但在公共文化領(lǐng)域的研究與應(yīng)用還不充分。
(3)信息抽取技術(shù)在新聞、醫(yī)藥、商條等領(lǐng)域的研究與實(shí)踐比較多,而在公共文化領(lǐng)域針對基本描述、活動(dòng)報(bào)道等方面的抽取實(shí)踐研究還不多見。
因此,本文在借鑒前人研究成果的基礎(chǔ)上,歸納公共文化開放信息的數(shù)據(jù)域,通過scrapy爬蟲框架采集省級圖書館和文化館數(shù)據(jù)。
公共文化大數(shù)據(jù)包括內(nèi)部數(shù)據(jù)與外部數(shù)據(jù)。內(nèi)部數(shù)據(jù)包括館情數(shù)據(jù)、資源數(shù)據(jù)、用戶數(shù)據(jù)、使用數(shù)據(jù)等。館情數(shù)據(jù)是各公共文化服條機(jī)構(gòu)的基本數(shù)據(jù),包括資源數(shù)據(jù)量、人員數(shù)據(jù)、場館面積等基本描述;資源數(shù)據(jù)主要來源于各業(yè)條系統(tǒng),包括借閱系統(tǒng)、電子閱覽室管理系統(tǒng)、藏品展示系統(tǒng)等;用戶數(shù)據(jù)包括用戶年齡、學(xué)歷、住址、聯(lián)系方式等基本屬性的靜態(tài)數(shù)據(jù)與用戶參觀、瀏覽、借閱等行為的動(dòng)態(tài)數(shù)據(jù);使用數(shù)據(jù)主要反映用戶的使用情況與資源利用情況。
內(nèi)部數(shù)據(jù)是公共文化服條機(jī)構(gòu)的核心數(shù)據(jù),但在業(yè)條發(fā)展過程中,特別是支撐公共文化服條智慧化的新要求,僅靠館內(nèi)數(shù)據(jù)是不夠的,有時(shí)候需要借助一些外部數(shù)據(jù)。外部數(shù)據(jù)包括上下游數(shù)據(jù)、地方政府交換共享數(shù)據(jù)、跨領(lǐng)域合作數(shù)據(jù)、互聯(lián)網(wǎng)公采數(shù)據(jù)以及地圖數(shù)據(jù)等。當(dāng)然,內(nèi)外數(shù)據(jù)的劃分也不是絕對的,有些數(shù)據(jù)是雙跨的或者是可以相互轉(zhuǎn)換的,比如,以場館導(dǎo)航為主的地圖數(shù)據(jù),既有以通用電子地圖為基礎(chǔ)的數(shù)據(jù),也有專門繪制的文化地圖數(shù)據(jù)。
對于公共文化服條機(jī)構(gòu),館藏資源、數(shù)字展品、年度報(bào)告等都是非結(jié)構(gòu)化數(shù)據(jù);系統(tǒng)數(shù)據(jù)是各服條機(jī)構(gòu)提供的來自門戶網(wǎng)站、管理系統(tǒng)、業(yè)條系統(tǒng)的關(guān)系型數(shù)據(jù)庫的數(shù)據(jù),為結(jié)構(gòu)化數(shù)據(jù);關(guān)于資源的描述數(shù)據(jù),如MARC數(shù)據(jù)、展品目錄與描述數(shù)據(jù)等大都為半結(jié)構(gòu)化數(shù)據(jù)。文化云上的數(shù)據(jù)類型豐富,既有結(jié)構(gòu)化數(shù)據(jù)又有非結(jié)構(gòu)化數(shù)據(jù),前者包括文化云的基礎(chǔ)數(shù)據(jù)、資源目錄數(shù)據(jù)、用戶基本數(shù)據(jù)和活動(dòng)基本數(shù)據(jù);后者包括活動(dòng)通知、用戶評論等文本數(shù)據(jù),講座、文化演出、在線展覽等音視頻數(shù)據(jù),帖子、微博、微信等自媒體數(shù)據(jù)[17]。
圖書館與文化館是公共文化服條最基本的兩種類型,通常簡稱為圖文兩館,對圖書館與文本館的官網(wǎng)信息進(jìn)行采集,能夠較大程度上代表公共文化服條的情況。
本文選取中國大陸31個(gè)省、自治區(qū)、直轄市和15個(gè)副省級城市的圖書館、文化館的官方網(wǎng)站,作為信息采集的對象,從網(wǎng)絡(luò)信息中抽取公共文化相關(guān)的基本數(shù)據(jù)、服條數(shù)據(jù)、管理數(shù)據(jù)等。通過調(diào)研發(fā)現(xiàn),原目標(biāo)的92個(gè)圖書館和文化館的官網(wǎng)中,有18個(gè)公共文化機(jī)構(gòu)的網(wǎng)址不存在或者近兩年之內(nèi)沒有維護(hù)網(wǎng)站的數(shù)據(jù)。剔除這些網(wǎng)站之后,最終篩選出42個(gè)圖書館和32個(gè)文化館的官方網(wǎng)站作為本文的信息采集對象。
在調(diào)研圖書館和文化館的具體網(wǎng)站過程中發(fā)現(xiàn),公共文化服條機(jī)構(gòu)官方網(wǎng)站數(shù)據(jù)主要可分為三種類型:基礎(chǔ)數(shù)據(jù)、服條數(shù)據(jù)、機(jī)構(gòu)動(dòng)態(tài)數(shù)據(jù)。
基礎(chǔ)數(shù)據(jù)是指圖書館和文化館的介紹性數(shù)據(jù),這些數(shù)據(jù)一般分布在名為“機(jī)構(gòu)介紹”、“機(jī)構(gòu)概況”等頁面,從中可以提取出場館名稱、地區(qū)、面積、活動(dòng)數(shù)量、場館介紹等信息,這些是圖書館和文化館共有的數(shù)據(jù)項(xiàng),其中,圖書館還有館藏量和分館數(shù)量這兩個(gè)數(shù)據(jù)項(xiàng)。服條數(shù)據(jù)是指講座、展覽、培訓(xùn)等,為用戶提供的活動(dòng)相關(guān)信息。本文把這些活動(dòng)中可提取的數(shù)據(jù)都定義為服條數(shù)據(jù)的數(shù)據(jù)項(xiàng),其中包括:活動(dòng)標(biāo)題、活動(dòng)類型、活動(dòng)時(shí)間、活動(dòng)地點(diǎn)、主講人、主辦方、主講人介紹、點(diǎn)擊量、文章來源、活動(dòng)介紹、URL。機(jī)構(gòu)動(dòng)態(tài)數(shù)據(jù)是指圖書館和文化館發(fā)布在官網(wǎng)上、與本館相關(guān)的新聞數(shù)據(jù)。從中可以提取新聞?lì)}目、發(fā)布時(shí)間、新聞內(nèi)容、新聞URL等數(shù)據(jù)項(xiàng)。
通過上述調(diào)研和分析的結(jié)果,本文設(shè)計(jì)的數(shù)據(jù)庫E-R圖如圖1所示,由于文化館和圖書館的數(shù)據(jù)項(xiàng)十分類似,因此把兩類機(jī)構(gòu)的數(shù)據(jù)庫設(shè)計(jì)成相同的結(jié)構(gòu)。
圖1 公共文化服務(wù)機(jī)構(gòu)典型數(shù)據(jù)E-R圖
網(wǎng)絡(luò)采集大致可分為通用采集和定向采集兩種。通用網(wǎng)絡(luò)采集主要以抓取整個(gè)互聯(lián)網(wǎng)的資源為主,是搜索引擎的核心部件,其工作流程是
從特定數(shù)目的起始網(wǎng)頁URL 開始,逐層析取網(wǎng)頁里的URL 鏈接地址,并抓取網(wǎng)頁,由于是全網(wǎng)采集,也以不需要加內(nèi)容過濾規(guī)則。定向采集以抓取網(wǎng)站網(wǎng)頁的特定信息為主,與通用爬蟲相比,需要構(gòu)建相應(yīng)的URL列表,編寫 主題詞表等篩選與過濾規(guī)則。公共文化機(jī)構(gòu)的信息采集是有針對性地提取網(wǎng)頁頁面中的信息,屬于定向采集。設(shè)計(jì)定向采集需解決網(wǎng)絡(luò)連接、爬蟲規(guī)則、數(shù)據(jù)存儲(chǔ)等多方面的問題,開發(fā)過程相對復(fù)雜,為了簡化信息采集設(shè)計(jì)工作,涌現(xiàn)出許多優(yōu)秀的爬蟲框架,其中最具代表性是Scrapy框架。
Scrapy 是一款基于Python 語言編寫的開源框架,使用了twisted 異步網(wǎng)絡(luò)庫來處理網(wǎng)絡(luò)通訊,極大地提高了爬取效率。Scrapy提供基礎(chǔ)組件的同時(shí)還提供了自定義接口,兼具方便、靈活的特點(diǎn)。Scrapy框架由引擎、調(diào)度器、下載器、爬蟲、管道及一些中間組件構(gòu)成。
雖然爬蟲技術(shù)已比較成熟,但對公共文化官網(wǎng)公開信息的特點(diǎn)進(jìn)行歸納與總結(jié),并進(jìn)行批量獲取的實(shí)踐并不充分。本文選擇Scrapy作為爬蟲工具,對公共文化官網(wǎng)進(jìn)行信息采集,并對公共文化服條的信息特點(diǎn)與采集過程進(jìn)行歸納與總結(jié)。
首先將各館的基本信息、服條數(shù)據(jù)、動(dòng)態(tài)數(shù)據(jù)所在的URL信息輸入到Scrapy模型中,然后通過BeautifulSoup和Re庫來解析網(wǎng)頁的結(jié)構(gòu),如果是介紹性的基礎(chǔ)數(shù)據(jù)和動(dòng)態(tài)新聞數(shù)據(jù),那么把通過BeautifulSoup解析出來的目標(biāo)數(shù)據(jù)項(xiàng)直接存儲(chǔ)到數(shù)據(jù)庫中;如果是服條數(shù)據(jù),則爬取服條數(shù)據(jù)的正文,然后再次判斷其文本類型,對于半結(jié)構(gòu)化形式的數(shù)據(jù),通過半結(jié)構(gòu)化文本提取規(guī)則來抽取活動(dòng)數(shù)據(jù)項(xiàng),否則通過非結(jié)構(gòu)化文本提取規(guī)則來抽取活動(dòng)數(shù)據(jù)項(xiàng),最終將抽取出來的目標(biāo)數(shù)據(jù)項(xiàng)存儲(chǔ)到數(shù)據(jù)庫中,其信息采集工作流程如圖2所示。
圖2 信息采集過程
通過網(wǎng)絡(luò)爬蟲的信息采集技術(shù),可以獲取機(jī)構(gòu)的基本信息、服條信息、動(dòng)態(tài)信息,但是對于服條數(shù)據(jù)來講,活動(dòng)標(biāo)題、活動(dòng)類型、URL、點(diǎn)擊量、文章來源等數(shù)據(jù)項(xiàng)之外,活動(dòng)時(shí)間、活動(dòng)地點(diǎn)、主講人、活動(dòng)介紹等信息都需要在活動(dòng)頁面的正文中通過命名實(shí)體識別等技術(shù)進(jìn)行抽取。本文將活動(dòng)頁面的正文信息按照活動(dòng)描述的規(guī)范化程度分為半結(jié)構(gòu)化和非結(jié)構(gòu)化,分別采用不同的規(guī)則來抽取目標(biāo)數(shù)據(jù)項(xiàng)。
本文中的半結(jié)構(gòu)化文本是指活動(dòng)頁面的正文中,目標(biāo)數(shù)據(jù)項(xiàng)被特殊符號分割開的文本。如圖3所示,在此正文信息中,主講嘉賓的信息在一行中,以“:”分割的鍵值對形式存在。主辦單位、講座時(shí)間、講座地點(diǎn)的數(shù)據(jù)項(xiàng)也是以同樣的形式存在。此外還有主講嘉賓簡介、講座內(nèi)容概要,這些數(shù)據(jù)項(xiàng)的介紹型數(shù)據(jù)項(xiàng)一般占據(jù)多行空間,因此先用冒號來確定數(shù)據(jù)項(xiàng)名稱,數(shù)據(jù)項(xiàng)的值由換行符來確定。
圖3 半結(jié)構(gòu)化文本例子
在半結(jié)構(gòu)化形式的數(shù)據(jù)格式,大部分與圖3例子中的數(shù)據(jù)形態(tài)非常類似,但是同樣的數(shù)據(jù)項(xiàng)表述的語言可能不同,如主講人的數(shù)據(jù)項(xiàng)在圖3中由“主講嘉賓”標(biāo)識,在其他數(shù)據(jù)中由“主講人”來標(biāo)識。同樣,“講座時(shí)間”和“時(shí)間”、“講座地點(diǎn)”和“地點(diǎn)是”、“主講嘉賓介紹”與“主講人簡介”都具有相同的含義。因此在抽取這些數(shù)據(jù)項(xiàng)的時(shí)候,首先建立數(shù)據(jù)項(xiàng)的同義詞表,其次需要?dú)w納文本的展現(xiàn)形式。
非結(jié)構(gòu)化數(shù)據(jù)項(xiàng)是指在活動(dòng)頁面的正文中沒有指代詞,被包含在一段描述性文本中的數(shù)據(jù)項(xiàng)。如圖4所示,在這段例子中,可以看出有活動(dòng)時(shí)間、主辦單位、活動(dòng)地點(diǎn)、主講人、主講人介紹、活動(dòng)介紹等數(shù)據(jù)項(xiàng)。這類文本中沒有具體指代詞指明,因此需要一些規(guī)則來提取這些數(shù)據(jù)項(xiàng)。
圖4 非結(jié)構(gòu)化文本示例
活動(dòng)時(shí)間由XXXX年X月XX日-X月XX日的形式表示,可以通過正則表達(dá)式抽取年月日信息。主辦單位的數(shù)據(jù)項(xiàng)可以通過“由(目標(biāo)數(shù)據(jù)項(xiàng))主辦”形式識別,活動(dòng)地點(diǎn)可以通過“在(目標(biāo)數(shù)據(jù)項(xiàng))(廳)”識別。因此部分?jǐn)?shù)據(jù)項(xiàng)可以通過數(shù)據(jù)項(xiàng)本身的特征以及緊密的上下文詞來進(jìn)行抽取。但是非結(jié)構(gòu)化文本的數(shù)據(jù)項(xiàng)的形式繁雜,在語義識別上存在一定問題。
按照半結(jié)構(gòu)化及非結(jié)構(gòu)化文本的不同特點(diǎn),建立抽取數(shù)據(jù)項(xiàng)的規(guī)則模板。關(guān)于“活動(dòng)”的規(guī)則模板分別為表2、表3、表4,其中表2規(guī)則可以適用于半結(jié)構(gòu)化和非結(jié)構(gòu)化的活動(dòng)內(nèi)容,包含“活動(dòng)類型”和“活動(dòng)時(shí)間”數(shù)據(jù)項(xiàng)抽取規(guī)則,表3的規(guī)則可適用于半結(jié)構(gòu)化的活動(dòng)內(nèi)容,包含“活動(dòng)地點(diǎn)”、“主辦方”、“主講人介紹”、“活動(dòng)介紹”、“聯(lián)系方式”數(shù)據(jù)項(xiàng)的抽取規(guī)則,最后表4的規(guī)則模板可適用在抽取非結(jié)構(gòu)化的活動(dòng)內(nèi)容,針對抽取“活動(dòng)地點(diǎn)”、“主辦方”、“主講人”、“聯(lián)系方式”數(shù)據(jù)項(xiàng)時(shí)使用。
表2 共同抽取規(guī)則
表3 半結(jié)構(gòu)化抽取規(guī)則
表4 非結(jié)構(gòu)化抽取規(guī)則
基于Scrapy框架設(shè)計(jì),在深入分析網(wǎng)頁架構(gòu)的基礎(chǔ)上,獲取了公共文化機(jī)構(gòu)的基礎(chǔ)信息、活動(dòng)信息、動(dòng)態(tài)信息,在信息采集過程中,有些官網(wǎng)有權(quán)限才能訪問數(shù)據(jù)所在的頁面以及復(fù)雜的反爬措施,所以有部分網(wǎng)站信息未能抓取。
從機(jī)構(gòu)的介紹頁面獲取機(jī)構(gòu)的基礎(chǔ)數(shù)據(jù),得到35個(gè)圖書館和文化館的基礎(chǔ)信息。包括場館名稱、場館介紹、分館數(shù)量、館藏量、地區(qū)、面積、工作人員數(shù)量、活動(dòng)數(shù)量等共8個(gè)數(shù)據(jù)項(xiàng)。機(jī)構(gòu)基礎(chǔ)信息的部分?jǐn)?shù)據(jù)如圖5所示。
圖5 基礎(chǔ)信息的爬取結(jié)果
機(jī)構(gòu)基本信息的抽取結(jié)果,分館數(shù)量、工作人員數(shù)量、訪問數(shù)量、活動(dòng)數(shù)量缺失程度比較嚴(yán)重, 這是由于各場館描述有所不同,各別數(shù)據(jù)項(xiàng)在介紹頁沒有提及而無法抽取導(dǎo)致的。但是這些數(shù)據(jù)項(xiàng)的缺失值可由其他方法替代,如活動(dòng)數(shù)量可以通過機(jī)構(gòu)活動(dòng)數(shù)據(jù)所統(tǒng)計(jì)出的結(jié)果來補(bǔ)全。
從官網(wǎng)的動(dòng)態(tài)信息頁面和新聞頁面中獲取機(jī)構(gòu)動(dòng)態(tài)數(shù)據(jù),由于有些官網(wǎng)缺少動(dòng)態(tài)新聞信息或者存在反爬措施,最終本文選取了30個(gè)場館,共獲取41 735條數(shù)據(jù)記錄,其中包括場館名、動(dòng)態(tài)新聞?lì)}目、發(fā)布時(shí)間、內(nèi)容、URL等5個(gè)數(shù)據(jù)項(xiàng)。
對于爬取結(jié)果,除了寧波圖書館和天津圖書館,大部分場館的信息量都在1 000條以下。此外,在實(shí)際信息采集過程中,杭州文化館的動(dòng)態(tài)信息數(shù)量最多,為21 814條,但是杭州文化館的動(dòng)態(tài)信息包含大量的非本館動(dòng)態(tài)信息,除杭州文化館以外其他館的動(dòng)態(tài)信息發(fā)布數(shù)量,如圖6所示。
圖6 館動(dòng)態(tài)信息數(shù)量
從網(wǎng)頁長度來看,機(jī)構(gòu)的動(dòng)態(tài)信息平均字?jǐn)?shù)為516字,大部分在1 000字以內(nèi)。其中,主要以機(jī)構(gòu)政策、舉辦活動(dòng)、通知類的公告等內(nèi)容為主。
從活動(dòng)預(yù)告或者活動(dòng)報(bào)道中獲取機(jī)構(gòu)活動(dòng)數(shù)據(jù),由于有些官網(wǎng)缺少活動(dòng)信息或者存在反爬措施,最終從18個(gè)場館中,獲取100 089條數(shù)據(jù)記錄,其中包括場館名、活動(dòng)類型、活動(dòng)介紹、活動(dòng)標(biāo)題、活動(dòng)時(shí)間、主辦方、主講人等16個(gè)數(shù)據(jù)項(xiàng)。在這些場館中,首都圖書館、杭州文化館、杭州圖書館、重慶群眾文化館、武漢圖書館相比于其他場館在舉辦活動(dòng)的數(shù)量上明顯較高,如圖7所示。
圖7 場館活動(dòng)信息數(shù)量
為了檢驗(yàn)規(guī)則模板的有效性,對活動(dòng)信息進(jìn)行統(tǒng)計(jì),在活動(dòng)信息中每個(gè)數(shù)據(jù)項(xiàng)的空缺值比例為:場館名(pav_name:0%)、活動(dòng)標(biāo)題(activity_name:1.5%)、活動(dòng)類型(活動(dòng)類型:26.4%)、活動(dòng)時(shí)間(activity_time:1.5%)、活動(dòng)地點(diǎn)(place:48%)、相關(guān)網(wǎng)址(url:0%)、主講人(presenter:77%)、主講人介紹(presenter_introduction:86%)、主辦方(organizer:83%)、年齡限制(age_limit:95%)、參加人數(shù)(participation_number:96%)、點(diǎn)擊量(click_number:65%)、來源(source:63%)、聯(lián)系方式(contact:86%)、備注(reamrk:19%)。
在活動(dòng)信息中,通過模板抽取出的結(jié)果中存在一些空缺值,這是由于各官網(wǎng)對活動(dòng)信息的描述不同而每個(gè)活動(dòng)信息中可獲取到的數(shù)據(jù)項(xiàng)不全而導(dǎo)致的,為了檢驗(yàn)規(guī)則模板的有效性,本文隨機(jī)抽取1 000個(gè)樣本進(jìn)行驗(yàn)證。
表5 樣本測試結(jié)果
從表5中可以看出,本文設(shè)計(jì)的規(guī)則模板在公共文化官網(wǎng)信息抽取上,表現(xiàn)出一定的有效性。對于規(guī)則相對簡單的“活動(dòng)時(shí)間”、“聯(lián)系方式”等數(shù)據(jù)項(xiàng)表現(xiàn)出90%以上的抽取準(zhǔn)確率,具有一定線索詞的“活動(dòng)類型”、“活動(dòng)地點(diǎn)”、“主辦方”、“主講人”、“年齡限制”項(xiàng)的準(zhǔn)確率也大概60%~70%左右的準(zhǔn)確率,但是由于“主講人介紹”、“活動(dòng)介紹”項(xiàng)在非結(jié)構(gòu)化文本中分布規(guī)則不太明顯,因此整體的抽取準(zhǔn)確率比較低的結(jié)果。
本文研究公共文化服條機(jī)構(gòu)的信息采集方法,包括數(shù)據(jù)范圍的界定、爬蟲框架的搭建以及文本抽取的問題,可以有效地支撐后續(xù)的信息的集成、管理、分析挖掘。在數(shù)據(jù)范圍上,主要分為基礎(chǔ)信息、動(dòng)態(tài)信息、服條信息以及具體數(shù)據(jù)項(xiàng)。在爬蟲框架的搭建上,采用目前比較成熟的Scrapy爬蟲框架,構(gòu)造分布式爬蟲。基于規(guī)則的方法,從非結(jié)構(gòu)化的自由文本中提取數(shù)據(jù)中的特征項(xiàng)。
本文研究也存在一些局限和不足,基于規(guī)則的方法需要人工編寫模板,工作量較大的同時(shí)也難以覆蓋所有的情況。其次,由于各機(jī)構(gòu)的信息內(nèi)容存在一定的差異,這導(dǎo)致了一些數(shù)據(jù)項(xiàng)的缺失,需要研究這些缺失值的補(bǔ)全方法。后續(xù)工作可以從這些角度入手,進(jìn)一步提升公共文化服條機(jī)構(gòu)的信息采集與抽取效果。
以深度學(xué)習(xí)技術(shù)為代表的大數(shù)據(jù)技術(shù)在圖像識別、語音對話、人機(jī)對弈、機(jī)器翻譯等領(lǐng)域得了較大的成功,這與領(lǐng)域內(nèi)形成了大量的標(biāo)注數(shù)據(jù)供機(jī)器學(xué)習(xí)與訓(xùn)練。在圖書館等領(lǐng)域,已經(jīng)有圖書分類、規(guī)范關(guān)鍵詞、引文索引等標(biāo)注數(shù)據(jù),把這些標(biāo)注數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換與集成,形成圖書館領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集將有助于圖書館大數(shù)據(jù)的落地與實(shí)現(xiàn)。同時(shí)也要在文化館、博物館等領(lǐng)域形成一些關(guān)于館情介紹、文化活動(dòng)、展品標(biāo)識、解說詞等方面形成一些規(guī)范數(shù)據(jù)集,為深度學(xué)習(xí)等技術(shù)在公共文化領(lǐng)域的全面運(yùn)用奠定基礎(chǔ)。有了足夠的訓(xùn)練數(shù)據(jù),運(yùn)用深度學(xué)習(xí)等技術(shù),結(jié)合一些領(lǐng)域詞表或知識圖譜,識別公共文化信息內(nèi)容與特征,進(jìn)行公共文化信息的自適應(yīng)采集與全自動(dòng)抽取也就指日可待。