嵇 婷 吳 政?。暇﹫D書館 江蘇 南京 210018)
公共文化服務大數(shù)據(jù)的來源、采集與分析研究*
嵇婷吳政(南京圖書館 江蘇 南京 210018)
2015年國務院《關于加快構建現(xiàn)代公共文化服務體系的意見》中提出了加快推進公共文化服務數(shù)字化建設與現(xiàn)代傳播能力的要求,并明確提出加強公共文化大數(shù)據(jù)采集、存儲和分析處理的意見。以公共圖書館、博物館、文化館、科技館等為代表的公共文化服務機構,通過信息化系統(tǒng)與數(shù)字服務平臺產生了包括業(yè)務數(shù)據(jù)、網絡數(shù)據(jù)、管理數(shù)據(jù)在內的公共文化大數(shù)據(jù)。確定公共文化服務大數(shù)據(jù)的來源與采集方案,挖掘大數(shù)據(jù)在公共文化服務中的應用價值是十分值得研究的課題。
公共文化服務大數(shù)據(jù)來源大數(shù)據(jù)分析
1.1大數(shù)據(jù)的概念與理解
2012年,《紐約時報》稱“大數(shù)據(jù)”時代已經來臨,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,并帶來了人類“生活、工作與思維的大變革”[1]。大數(shù)據(jù)目前沒有統(tǒng)一的定義,維基百科從數(shù)據(jù)處理的角度將大數(shù)據(jù)定義為“難以用現(xiàn)有的數(shù)據(jù)庫管理工具處理的兼具海量特征和復雜性特征的數(shù)據(jù)集成”[2]。麥肯錫咨詢報告將TB級以上的數(shù)據(jù)集視為大數(shù)據(jù),而舍恩伯格在《大數(shù)據(jù)時代:生活、工作與思維的大變革》一書中認為PB以上的數(shù)據(jù)才能被稱為大數(shù)據(jù)[1]。
大數(shù)據(jù)具有公認的“3v”特征——數(shù)據(jù)量大(volume)、類型多(variety)、速度快(velocity),在這之后,越來越多的人提出更多的“v”來補充大數(shù)據(jù)的特征,如價值密度低(value)、真實性高(veracity)等。當前,相關學者提出了大數(shù)據(jù)的又一個重要特征:在線(online)——指大數(shù)據(jù)是在線的、隨時能調用和計算的“活的數(shù)據(jù)”[3]。數(shù)據(jù)只有共享、與其他數(shù)據(jù)產生連接才有意義和價值。因此,大數(shù)據(jù)不等于“數(shù)據(jù)大”,“數(shù)據(jù)大”可能是堆砌的“數(shù)據(jù)孤島”,是未被激活的數(shù)據(jù);故而,也有專家認為,數(shù)量達到TB級或PB級不是大數(shù)據(jù)的必要條件[4]。
大數(shù)據(jù)的來源包括三個方面:一是人類活動,即由人直接產生,如電子商務、通訊通信、銀行交易、社交網絡中的數(shù)據(jù)。二是物理世界,即物理信息數(shù)字化后產生的數(shù)據(jù),如傳感節(jié)點采集的數(shù)據(jù)、PM2.5數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)等。三是數(shù)據(jù)本身,如在數(shù)據(jù)的存儲、加工過程中,對數(shù)據(jù)的壓縮、規(guī)則適用、智能衍生等自動產生的數(shù)據(jù)[4]。
1.2公共文化服務機構及信息化概況
2015年,國務院《關于加快構建現(xiàn)代公共文化服務體系的意見》中明確提出“加快推進公共文化服務數(shù)字化建設與現(xiàn)代傳播能力”和“加強公共文化大數(shù)據(jù)采集、存儲和分析處理”的要求[5]。“公共文化大數(shù)據(jù)的采集與分析”作為重點課題,被國家文化部列為制定公共文化“十三五”規(guī)劃的重要參考依據(jù)。
公共文化服務是指以政府部門為主導的公共部門提供的以保障公民的基本文化權益為目的、向公民提供公共文化產品與服務的制度和系統(tǒng)的總稱[6]。我國公共文化服務的機構和場所主要有圖書館、博物館、美術館、紀念館、非物質文化遺產館、科技館、群藝館、文化館(站、室)、文物保護單位等。這些機構在服務運營中,通過信息化系統(tǒng)不斷產生數(shù)據(jù)。
公共圖書館目前信息化程度較高,對于新技術的應用相對比較及時。圖書館在20世紀九十年代就已經實現(xiàn)了業(yè)務管理自動化,并自建、購買各類數(shù)字資源,提供多種信息服務平臺,將讀者服務延伸至計算機、手持閱讀器、電子觸摸屏、數(shù)字電視、平板電腦、手機等多種服務終端,形成了數(shù)字圖書館服務體系。此外,圖書館還建立了一系列面向管理的信息化系統(tǒng),包括自動化辦公、項目管理、人流量監(jiān)控、輿情監(jiān)測等,保障了圖書館的高效運行。
博物館、美術館、紀念館、非物質文化遺產館、科技館是收藏、保護和展示人類活動與自然環(huán)境的公眾服務機構[7],信息化建設已經成為該類型機構發(fā)展不可或缺的內容。電子導覽講解系統(tǒng)、網絡展覽展示系統(tǒng)、網上數(shù)字服務平臺等向公眾提供多形態(tài)的展覽服務。藏品管理系統(tǒng)、票務管理系統(tǒng)、觀眾分流和指揮調度系統(tǒng)、觀眾租用設備管理系統(tǒng)、自動化辦公系統(tǒng)等實現(xiàn)了各機構的信息化管理。
群眾藝術館、文化中心、文化館(站)主要負責組織開展各類文藝活動,舉辦培訓、展覽、公益性講座等。這類文化機構信息化水平落后于圖書館和博物館。目前,數(shù)字文化館的建立打破了傳統(tǒng)服務的概念,基于互聯(lián)網平臺為群眾提供數(shù)字文化產品與服務,拓展了文化館的服務空間。
此外,文化共享工程匯聚了圖書館、文化館、博物館、非物質文化遺產館等所有公共文化系統(tǒng)的大中型、普及型和實用型數(shù)字資源,通過國家、省、市、縣(區(qū))、鄉(xiāng)(街道)五級網絡,傳輸?shù)饺珖鞯?。?shù)字圖書館推廣工程搭建以各級公共圖書館為節(jié)點的數(shù)字圖書館虛擬網,建設了海量分布式數(shù)字資源庫群以及全國性的圖書館業(yè)務工作與服務的數(shù)字平臺。公共電子閱覽室建設依托共享工程網絡,面向基層,為廣大群眾提供公共數(shù)字服務[8]。
2.1按不同服務系統(tǒng)區(qū)分
按機構類型與服務系統(tǒng)的不同,公共文化服務大數(shù)據(jù)可分為:圖書館大數(shù)據(jù)、博物館大數(shù)據(jù)、文化館大數(shù)據(jù)、科技館大數(shù)據(jù)、美術館大數(shù)據(jù)、文化共享工程大數(shù)據(jù)等。
2.2按服務平臺區(qū)分
按服務平臺的不同,公共文化服務大數(shù)據(jù)可分為:傳統(tǒng)服務大數(shù)據(jù)及數(shù)字文化服務大數(shù)據(jù)。傳統(tǒng)服務大數(shù)據(jù)是指在傳統(tǒng)服務中所產生的大數(shù)據(jù),主要來源于傳統(tǒng)服務的業(yè)務系統(tǒng)與信息系統(tǒng),也包括關于機構基本情況與其他相關統(tǒng)計數(shù)據(jù)。數(shù)字文化服務大數(shù)據(jù)特指在數(shù)字服務中所產生的大數(shù)據(jù),如公共文化服務網站、數(shù)字圖書館、數(shù)字體驗產品、微博等平臺所產生的數(shù)據(jù)。
2.3按信息類型區(qū)分
按信息類型區(qū)分,公共文化服務大數(shù)據(jù)可分為:資源數(shù)據(jù)、用戶數(shù)據(jù)、運行服務數(shù)據(jù)和用戶行為數(shù)據(jù)。其中,資源與用戶數(shù)據(jù)是基礎,當兩者發(fā)生服務或使用關系時,產生運行服務數(shù)據(jù)與用戶行為數(shù)據(jù)。資源數(shù)據(jù)包括機構設施基本數(shù)據(jù),以及各類實體資源、數(shù)字資源和服務資源的數(shù)據(jù)。用戶數(shù)據(jù)是指性別、年齡、學歷、地區(qū)等反映用戶基本特征的數(shù)據(jù)。運行服務數(shù)據(jù)指各類軟硬件資源在服務時所產生的數(shù)據(jù),如機構服務時間與服務人次、圖書流通情況、各類培訓和展覽的開展情況等。用戶行為數(shù)據(jù)指用戶在接受服務時各種行為所產生的數(shù)據(jù),如用戶圖書借閱、活動參與的數(shù)據(jù),訪問數(shù)字資源的行為數(shù)據(jù)等。
2.4按數(shù)據(jù)結構區(qū)分
按數(shù)據(jù)結構區(qū)分,所有行業(yè)的大數(shù)據(jù)都可以分為結構化數(shù)據(jù)、半結構化數(shù)據(jù)、非結構化數(shù)據(jù)。結構化數(shù)據(jù)是指可以用二維表結構來邏輯表達實現(xiàn)的數(shù)據(jù),如關系型數(shù)據(jù)庫。非結構化數(shù)據(jù)指像全文文本、各類報表、圖像、聲音、影視、超媒體等不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。半結構化數(shù)據(jù)就是介于結構化數(shù)據(jù)和非結構化數(shù)據(jù)之間的數(shù)據(jù),如HTML文檔數(shù)據(jù)。
公共文化服務大數(shù)據(jù)來源于機構信息化系統(tǒng)與數(shù)字服務平臺,主要包括業(yè)務數(shù)據(jù)、網絡數(shù)據(jù)、管理數(shù)據(jù)。
3.1業(yè)務數(shù)據(jù)
業(yè)務數(shù)據(jù)是機構內部與業(yè)務相關的信息系統(tǒng)所產生的數(shù)據(jù),包括:(1)面向業(yè)務操作與流程的業(yè)務系統(tǒng)數(shù)據(jù),如博物館藏品管理系統(tǒng)、圖書館信息自動化系統(tǒng)等所產生的數(shù)據(jù)。藏品管理系統(tǒng)記錄了每個藏品的基本信息、位置信息、參展情況、專家鑒定信息等,是業(yè)務分析的第一手數(shù)據(jù),數(shù)據(jù)量龐大。這些數(shù)據(jù)還可以發(fā)揮更高的數(shù)據(jù)價值,如將藏品信息網絡化,融合物聯(lián)網技術走出信息孤島。(2)面向用戶的系統(tǒng)所產生的數(shù)據(jù),如科技館、博物館的網絡展覽展示系統(tǒng)所產生的數(shù)據(jù);公共文化服務機、大屏讀報系統(tǒng)數(shù)據(jù),等等。(3)來自公共文化服務的數(shù)據(jù)集市或數(shù)據(jù)倉庫的統(tǒng)計或明細數(shù)據(jù)。例如,圖書館館情數(shù)據(jù)統(tǒng)計系統(tǒng)采集了區(qū)域內所有公共圖書館的硬件設備、經費使用、人員情況、服務資源等指標數(shù)據(jù),匯集了分散的數(shù)據(jù)源,形成區(qū)域性的數(shù)據(jù)中心。
3.2網絡數(shù)據(jù)
網絡數(shù)據(jù)是公共文化服務機構互聯(lián)網服務平臺所產生的數(shù)據(jù),來源于電腦、手機、數(shù)字機頂盒、閱讀器、觸摸大屏等終端設備,包括了如官方網站、共享工程網站、數(shù)字圖書館(博物館、文化館)、移動圖書館(博物館、文化館)、官方微博微信平臺、館際互借平臺、參考咨詢平臺、政府公開信息服務平臺、公共電子閱覽室平臺等公共文化網絡服務平臺產生的所有數(shù)據(jù)。其中,共享工程、數(shù)字圖書館(博物館、文化館)數(shù)據(jù)量龐大,包含了各類商業(yè)數(shù)據(jù)庫、自建數(shù)據(jù)庫的使用數(shù)據(jù),數(shù)據(jù)形式也比較復雜。
3.3管理數(shù)據(jù)
管理數(shù)據(jù)是維護文化服務機構正常運營的各種管理信息系統(tǒng)所產生的數(shù)據(jù)。財務系統(tǒng)、自動化辦公系統(tǒng)產生的數(shù)據(jù)由于是孤島信息,難以與其他數(shù)據(jù)發(fā)生關聯(lián),因此較難進行大數(shù)據(jù)應用。人流量分析系統(tǒng)能記錄文化服務場所龐大的客流量信息,并能夠利用視頻分析技術、紅外技術、門禁刷卡等技術分析場所內具體位置(如閱覽室、展廳)的人流量甚至停留時間,是十分具有價值的數(shù)據(jù)源。此外,如博物館商店系統(tǒng)、設備租借管理系統(tǒng)等記錄了用戶文化消費行為,也可用作大數(shù)據(jù)分析。
除上述三類數(shù)據(jù)外,還有一部分大數(shù)據(jù)來源于公共文化機構外部,如帖子、微博、微信等自媒體數(shù)據(jù)以及與公共文化服務相關的網站數(shù)據(jù)、市場文化服務數(shù)據(jù)。例如,用戶在網絡中對文化機構的輿論點評數(shù)據(jù),都是可分析研究的大數(shù)據(jù)。需要注意的是,由于外部數(shù)據(jù)的所有權掌握在網站企業(yè)手中,因此其在實際應用中存在一定難度。
4.1數(shù)據(jù)接口
1.實驗動物及分組:健康成年新西蘭家兔40只,雌雄不限,空腹體質量2.0~3.5 kg,由蘭州大學實驗動物中心提供。按隨機數(shù)字表法將40只新西蘭家兔分為手術組30只和假手術組10只,其中手術組30只按治療方法再分為高壓氧腦缺血組15只和腦缺血組15只。
數(shù)據(jù)來源于不同的數(shù)字化服務平臺,因此,對于不同的系統(tǒng)需研究不同的接口與采集方式:對于直接開放數(shù)據(jù)庫接口的平臺采用數(shù)據(jù)庫直接采集的方式;對于開放程序接口的平臺利用其API進行數(shù)據(jù)獲取;對于無開放接口的平臺則需進行網絡爬蟲技術、網頁抓取策略及網頁分析算法的研究?;谧ト〉臄?shù)據(jù)來自于不同的平臺,因此需要對數(shù)據(jù)進行整合集成。
4.2數(shù)據(jù)抽取與清洗
數(shù)據(jù)抽取是從數(shù)據(jù)源中抽取數(shù)據(jù)的過程,是大數(shù)據(jù)采集研究的重點,在數(shù)據(jù)項目的實施中占有很大比重,是一切后續(xù)工作的基礎。Web數(shù)據(jù)抽取、非結構化數(shù)據(jù)抽取是大數(shù)據(jù)抽取研究的一項重要內容。此后,數(shù)據(jù)還需進行包括轉換、清洗、拆分、匯總、加載等一系列處理過程,以保證數(shù)據(jù)按需要采集到本地。其中,傳統(tǒng)的數(shù)據(jù)清洗算法在面對海量數(shù)據(jù)時表現(xiàn)性能較低,可采用基于Hadoop的分布式數(shù)據(jù)清洗方案,進行并行清洗。
4.3數(shù)據(jù)存儲方案
目前,公共文化服務行業(yè)各類型數(shù)據(jù)急劇增長,僅國家圖書館一個單位數(shù)字資源總量就達到874.5T[9],這對存儲容量提出了要求。大數(shù)據(jù)形式復雜,數(shù)量龐大,且大部分數(shù)據(jù)缺乏索引,傳統(tǒng)關系型數(shù)據(jù)庫難以在合理的時間內進行存儲與運算,新興的數(shù)據(jù)存儲與管理系統(tǒng)如各類NOSQL數(shù)據(jù)庫產品,則可有效解決這一難題。當前大數(shù)據(jù)存儲技術的研究重點有:針對結構化的大數(shù)據(jù)進行MPP架構的新型數(shù)據(jù)庫集群研究;針對非結構化、半結構化大數(shù)據(jù)進行分層存儲管理機制的研究,以及分布式文件系統(tǒng)、Hadoop技術的研究等[10]。
5.1數(shù)據(jù)分析技術
概括來看,公共文化服務的大數(shù)據(jù)分析可以從以下幾個方向進行:
大數(shù)據(jù)的分析技術包括數(shù)據(jù)預處理技術、數(shù)據(jù)統(tǒng)計與分析挖掘技術。數(shù)據(jù)預處理技術主要在分析使用前,將數(shù)據(jù)進行降維、標準化、噪聲去除等預處理。數(shù)據(jù)統(tǒng)計與分析挖掘技術指的是利用統(tǒng)計、回歸、趨勢分析、關聯(lián)規(guī)則分析、決策樹建模等方法,實現(xiàn)數(shù)據(jù)向價值的轉變,是大數(shù)據(jù)分析的核心。
5.2分析方向研究
(1)人群對某個公共文化服務產品的需求傾向研究。“人群”的劃分變量可以是年齡、地區(qū)、學歷等易獲取變量,也可以是興趣、性格、文化場所拜訪率等復雜變量,還可以是上述多種變量的非線性函數(shù)關系組合?!澳硞€公共文化服務產品”可以泛指行業(yè)、機構,也可以特指具體的某種活動、某類數(shù)字資源等。例如,對網站上講座資源的點擊量、觀看時間進行分析,分類出不同主題的講座對大眾的吸引力,進一步分析觀看不同主題講座的用戶群體特征,以用于未來講座選題及活動人數(shù)預測。
(2) 文化活動關系研究。該類研究包括兩方面的內容:①關聯(lián)因素研究。研究進行某項文化活動受什么因素影響及如何受影響。例如,研究訪問、留言至圖書館微博公眾號這一行為具體與哪些可度量因素相關,這對指導圖書館如何進行社交平臺宣傳具有指導作用。②行為關聯(lián)關系研究。研究不同文化活動、文化行為之間是否存在某類不易察覺的隱性關系。例如,南京博物院發(fā)現(xiàn),到訪量超過1次的本地游客,有更大的興趣擔任文化志愿者,這就是一個關聯(lián)發(fā)現(xiàn),為文化志愿者招募提供了新渠道。
(3)輔助行政決策研究。大數(shù)據(jù)的信息價值除了體現(xiàn)在與文化產品相關的服務上,還對單位的行政決策起到支撐作用。例如,2014年,南京博物院采集了超過141萬名游客的具體訪問信息,分析了人流趨勢,游客年齡、性別、來自省份等信息,并將分析結果用在了人流預測、服務配給決策中。此外,大數(shù)據(jù)還可以反映人群文化活動的地址分布特征,為政府文化場所選址提供決策建議。
(4)服務考評研究。某地區(qū)或某個系統(tǒng)的公共文化服務的影響力及社會效益如何,一直無法進行有效的定量研究。在大數(shù)據(jù)環(huán)境下,文化服務到底影響力如何、社會輿論如何、某個活動到底收益怎樣,可以通過人流量數(shù)據(jù)、網絡行為數(shù)據(jù)、自媒體行為反映并衡量出來。例如,南京圖書館就通過輿情監(jiān)測系統(tǒng),捕獲所設定敏感詞匯的相關網絡信息,以進行服務改善。除此之外,還可以進行輿情報告、應對處置對策、輿情預警等大數(shù)據(jù)輿情服務。
5.3分析結果應用形式
一切的分析都是為了應用,所有的應用都是為了更好地提供公共文化服務。大數(shù)據(jù)分析結果的應用主要涵蓋以下方面:(1)數(shù)據(jù)報表與數(shù)據(jù)可視化。包括基本的數(shù)據(jù)報表、圖形報表、指標分析、趨勢圖表、數(shù)據(jù)圖像顯示等。(2)在線應用。將分析結果應用到信息系統(tǒng)中,提供智能檢索、個性化推薦與智慧服務。智能檢索,即結合分析的元數(shù)據(jù)及詞表、詞典等資源,對檢索系統(tǒng)進行改進,并輔以環(huán)境信息(包括訪問者的地址、訪問時間等),從而改善傳統(tǒng)檢索的相關性。個性化推薦即通過分析用戶興趣,進行在線資源與活動的推送。以智慧服務為例,對用戶在參觀展覽過程中,通過地理位置信息、行為信息、體驗數(shù)據(jù)分析,為公眾提供參觀路線指導、展品推薦、其他展覽推薦、導覽內容移動下載等服務[11]。(3)離線應用。輔助各類業(yè)務決策、行政決策、服務考評,并參與到規(guī)劃、開發(fā)、宣傳某個公共文化服務產品的全過程。
大數(shù)據(jù)研究是一項復雜的課題,有人提出,從大數(shù)據(jù)集中熟練提取真正的知識,還需再經歷十年的時間[12]。公共文化服務行業(yè)的數(shù)據(jù)基礎較為薄弱,很多系統(tǒng)對已積累的數(shù)據(jù)的分析與應用仍未開始。未來,大數(shù)據(jù)的研究首先應當從厘清可行的數(shù)據(jù)分析需求開始,以數(shù)據(jù)建設為基礎,逐步完成并實現(xiàn)大數(shù)據(jù)的采集與分析應用的宏圖。
[1]舍恩伯格, 庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕, 周 濤, 譯. 杭州:浙江人民出版社, 2012:1-8.
[2]Big Data[EB/OL]. [2015-08-30]. https://en.wikipedia.org/wiki/ Big_data#Definition.
[3]傅志華. 大數(shù)據(jù)的前世今生:大數(shù)據(jù)特征與發(fā)展歷程[EB/OL]. [2014-10-08]. http://www.i#cn/article/100S6022014.html.
[4]IDKW圖解中心. 玩轉大數(shù)據(jù)[M]. 北京:人民郵電出版社,2015:7-8.
[5]中共中央辦公廳、國務院辦公廳.關于加快構建現(xiàn)代公共文化服務體系的意見[EB/OL].[2015-01-14]. http://news.hexun.com/ 2015-01-14/172381949.html.
[6]方標軍, 魏大威. 公共數(shù)字文化服務體系建設研究[R], 南京:江蘇省文化廳, 2014:2.
[7]文化部財務司.中華人民共和國文化部2014年文化發(fā)展統(tǒng)計公報 [EB/OL]. [2015-05-19]. http://www.cssn.cn/zx/yw/201505/ t20150519_1939724.shtml.
[8]李曉明, 姜曉曦, 韓萌. 數(shù)字圖書館推廣工程數(shù)字資源共建共享模式探析[J]. 國家圖書館學刊, 2012(5):20-26.
[9]李雪. 數(shù)字圖書館迎大數(shù)據(jù)時代:將整合資源 提供深度服務[EB/OL]. [2014-11-05]. http://culture.people.com.cn/n/2014/ 1105/c172318-25981395.html.
[10]楊巨龍.大數(shù)據(jù)技術全解[M]. 北京:電子工業(yè)出版社, 2014:40-112.
[11]仇巖. 大數(shù)據(jù)時代博物館動態(tài)觀眾服務體系淺析[J]. 中國博物館, 2014(4):68-71.
[12]張文彥, 武瑞原, 于潔. 大數(shù)據(jù)時代的圖書館初探[J]. 圖書與情報, 2012(6):15-21.
嵇 婷 女,1982年生,現(xiàn)工作于南京圖書館業(yè)務管理部,館員。
吳 政 男,1963年生,南京圖書館業(yè)務管理部主任,研究館員。
Research on Resource, Acquisition and Analysis of Big Data of Public Cultural Service
In 2015, the document "Opinions on Accelerating the Construction of a Modern Public Cultural Service System" issued by the State Council illustrates the claim to accelerate the ability of digital construction and modern communication of public cultural service, and clearly puts forward opinrions on reinforcing big data acquisition, storage and analysis of public cultural service. Public libraries, museums, cultural centers, science and technology center and other public cultural service institutions get public culture big datas including work data, network data and management data via information system and digital service. It is worth to study on making clear the resource and acquisition scheme, and mining the application value of big data in the public cultural service.
Public cultural service; Big data resource; Big data analysis
G250
A
*本文系全國文化信息資源共享工程“十三五”發(fā)展規(guī)劃重點方向研究課題“公共文化服務大數(shù)據(jù)的采集與分析研究”階段性成果之一,項目編號:WHGXFZGH-2015-0303。
2015-07-13 ]