孫雨生 汪怡敏 李萬(wàn)蓉
(1.湖北工業(yè)大學(xué)經(jīng)濟(jì)與管理學(xué)院 武漢 430068)
(2.湖北工業(yè)大學(xué)湖北農(nóng)村社會(huì)管理創(chuàng)新研究中心 武漢 430068)
(3.南昌大學(xué)管理學(xué)院 南昌 330031)
(4.首都師范大學(xué)管理學(xué)院 北京 100048)
伴隨移動(dòng)互聯(lián)網(wǎng)發(fā)展、社會(huì)化媒體環(huán)境形成,作為新型網(wǎng)絡(luò)服務(wù)載體的數(shù)字圖書(shū)館資源爆炸式增長(zhǎng)且海量復(fù)雜異構(gòu)特點(diǎn)日趨明顯,但限于認(rèn)知能力,用戶(hù)獲取有效信息的認(rèn)知負(fù)荷加劇、效率降低并致使數(shù)字圖書(shū)館信息資源難充分利用。為解決該問(wèn)題,數(shù)字圖書(shū)館利用信息可視化技術(shù),從用戶(hù)角度出發(fā)高效組織、分析和形象直觀揭示信息及其關(guān)系,挖掘潛在信息,激發(fā)用戶(hù)能動(dòng)性、靈活性高效檢索信息并輔助其更好接受、理解信息,從而滿(mǎn)足用戶(hù)個(gè)性化信息需求并提升其使用體驗(yàn);通過(guò)人機(jī)交互界面可視化顯示信息檢索結(jié)果、過(guò)程與館藏資源,形象化并智能化數(shù)字圖書(shū)館信息資源,提升信息檢索精度并降低其成本,提高信息資源處理效率及利用程度。因此,有必要系統(tǒng)研究數(shù)字圖書(shū)館信息可視化核心問(wèn)題。
本文全面檢索、清洗知網(wǎng)、萬(wàn)方及維普數(shù)據(jù)庫(kù)中相關(guān)文獻(xiàn),共得109 篇有效文獻(xiàn);詳讀全部文獻(xiàn)并從中精選39 篇作為參考文獻(xiàn),最后,遵循信息可視化參考模型,從可視化表征、可視化機(jī)制、信息資源組織三方面闡述國(guó)內(nèi)數(shù)字圖書(shū)館信息可視化核心內(nèi)容研究進(jìn)展。
主要從信息瀏覽、信息檢索及信息資源組織三方面研究數(shù)字圖書(shū)館信息可視化表征內(nèi)容、形式及實(shí)現(xiàn)技術(shù)、方法與工具,詳見(jiàn)表1。
表1 數(shù)字圖書(shū)館信息可視化表征
數(shù)字圖書(shū)館信息可視化表征內(nèi)容主要有信息瀏覽可視化(可視化操作,促進(jìn)人機(jī)交互)、信息檢索可視化(可視化檢索過(guò)程、結(jié)果,以便引導(dǎo)用戶(hù)檢索并支持其決策)、信息資源組織可視化(可視化館藏、網(wǎng)絡(luò)資源內(nèi)容與分布以便用戶(hù)理解)。
2.2.1 信息瀏覽可視化
黃田青[1]、馮雙玲[2]、孫倩[3]、孫雨生[4]認(rèn)為信息瀏覽主要表征為顆粒圖[1~2,4](文檔在三維空間內(nèi)按字順以顆粒排列,通過(guò)空間位置表示文檔間關(guān)系(顆粒間作用力使相近度高者靠近、低者遠(yuǎn)離),常用于多維可視化)[1]、主題地圖[1~2,4](表達(dá)主題詞間關(guān)聯(lián)度,單擊可放大查看源文檔)[1]、魚(yú)眼圖[1~2,4](基于逐點(diǎn)詳述原理,支持概覽完整信息概念時(shí)交互細(xì)覽所選數(shù)據(jù),通過(guò)鼠標(biāo)懸浮方式(視角不變)按需放大畫(huà)面局部區(qū)域細(xì)節(jié)視圖(周?chē)優(yōu)榭梢?jiàn)背景))[1]、拓?fù)鋱D[3~4](匹配連接不同國(guó)家規(guī)范文檔,顯示相應(yīng)匹配方式及標(biāo)識(shí)號(hào),幫助用戶(hù)整體感知規(guī)范文檔并有效選擇數(shù)據(jù))[3]、熱力圖[3~4](動(dòng)態(tài)演示某類(lèi)文獻(xiàn)歷史演變進(jìn)程)[3]、時(shí)間軸[3~4](互操作性時(shí)間標(biāo)尺,提供整體概覽同時(shí)細(xì)分各類(lèi)文獻(xiàn)并結(jié)合圖文,使用戶(hù)直觀了解所需文獻(xiàn)館藏布局與歷史發(fā)展進(jìn)程,簡(jiǎn)化文獻(xiàn)資源檢索過(guò)程)[3]等。
2.2.2 信息檢索可視化
1)檢索結(jié)果可視化表征形式
黃田青[1]、孫倩[3]、劉瑩[5]認(rèn)為檢索結(jié)果主要表征為文檔透鏡(將多頁(yè)一維文檔數(shù)據(jù)映像成三維物體,可直接查閱某頁(yè))[1]、場(chǎng)景圖(樹(shù)形結(jié)構(gòu)圖,根節(jié)點(diǎn)表示場(chǎng)景,節(jié)點(diǎn)表示場(chǎng)景各成分并由相應(yīng)對(duì)象實(shí)現(xiàn),對(duì)象幾何屬性聚合成三維用戶(hù)界面“物理”模型)[1,5]、互動(dòng)式地圖(交互顯示地域資源,清晰顯示世界范圍內(nèi)文獻(xiàn)資源分布以便跨區(qū)域、國(guó)家共建共享資源)[3]等。
2)檢索過(guò)程可視化表征形式
黃田青[1]、馮雙玲[2]認(rèn)為檢索過(guò)程主要表征為刷圖(選中點(diǎn)陣圖中某區(qū)域一子集,可同時(shí)選中刷圖事件、屬性相同的數(shù)據(jù))[1]、表透鏡(瀏覽大數(shù)據(jù)表并徑向分離出需細(xì)覽子表)[1]、主題詞云圖(在網(wǎng)狀結(jié)構(gòu)概念空間內(nèi)合理布局由線連接的主題詞,多用二維樹(shù)狀結(jié)構(gòu)圖示(復(fù)雜度隨節(jié)點(diǎn)數(shù)增加而增大)表示用戶(hù)檢索主題詞(用節(jié)點(diǎn)表示,其大小、顏色分別表示含主題詞的書(shū)目信息量、用戶(hù)訪問(wèn)歷史)與系統(tǒng)返回結(jié)果,其字體大小、節(jié)點(diǎn)間物理距離表示檢索主題詞與各主題詞相關(guān)度(字體越大、距離越近則相關(guān)度越大),隨用戶(hù)所點(diǎn)擊主題詞變化動(dòng)態(tài)調(diào)整主題詞間空間關(guān)系并變換顏色顯示主題詞屬性,用圖示引導(dǎo)用戶(hù)檢索行為(點(diǎn)擊放大檢索結(jié)果圖示可從中抽取所需結(jié)果))[1]、透視墻(將二維轉(zhuǎn)為三維墻,用投影將對(duì)象貼圖到墻上,在透視區(qū)觀察細(xì)節(jié)、水平旋轉(zhuǎn)瀏覽信息以擴(kuò)大可視范圍并提供流暢視覺(jué)過(guò)渡,實(shí)現(xiàn)時(shí)空維瀏覽)[1]等。
2.2.3 信息資源組織可視化
崔曉菡[6]認(rèn)為信息資源組織主要表征為平面視圖(傳統(tǒng)可視化表現(xiàn)形式主要有柱形圖、扇形圖[6]、折線圖[6~8]、直方圖、圓餅圖[7~8]等,隨社會(huì)需求、網(wǎng)絡(luò)技術(shù)發(fā)展出現(xiàn)更直觀的雷達(dá)圖、氣泡圖、散點(diǎn)圖[6]、映像圖、模型圖[6~8]等)、標(biāo)簽云(以大小、顏色深淺不同的標(biāo)簽排列顯示關(guān)鍵詞出現(xiàn)頻率)[9]、時(shí)間軸和互動(dòng)式地圖(兩者貫穿網(wǎng)站各維度資源顯示)[3]等。
2.3.1 信息瀏覽可視化
1)技術(shù)
杜慧敏[10~11]、張洪敏[12]、馬音寧[13]、王亞鳳[14]、趙文宇[15]、孫雨生[16]認(rèn)為信息瀏覽可視化技術(shù)主要有GIS[10~14,16](獲取、存儲(chǔ)、分析、管理、檢索、可視化顯示[12]地理空間信息[10~14]及其他信息[10~11,13~14]以實(shí)現(xiàn)空間實(shí)體定義、空間關(guān)系查詢(xún)[10~11,13~14]的計(jì)算機(jī)管理系統(tǒng),借助空間分析能力以圖形、圖像為主呈現(xiàn)于屏幕[4,10~11,13~14])、VR[15~16](借助計(jì)算機(jī)、三維傳感技術(shù)模擬生成視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)動(dòng)態(tài)交互三維虛擬世界[15],可基于遠(yuǎn)程沉浸技術(shù)[7,17]、VRML 語(yǔ)言[5]實(shí)現(xiàn))等。
2)工具
孫雨生[16]、陳偉[18]、秦健[19]認(rèn)為三維信息瀏覽可視化工具主要有Autodesk 公司開(kāi)發(fā)的3D Max 建模(可構(gòu)建三維室內(nèi)外模型;設(shè)置場(chǎng)景動(dòng)畫(huà)、運(yùn)動(dòng)路徑,計(jì)算動(dòng)畫(huà)長(zhǎng)度,創(chuàng)建攝像機(jī)并調(diào)節(jié)動(dòng)畫(huà);設(shè)計(jì)建筑材質(zhì),賦予模型表面貼圖、材質(zhì),真實(shí)模擬自然界;支持CAD、SketchUp 等文件導(dǎo)入及3D 模型、2D平面圖和AVI 格式動(dòng)畫(huà)等文件導(dǎo)出)、美國(guó)ESRI 公司開(kāi)發(fā)的ArcScene 技術(shù)(ArcG1S 軟件桌面系統(tǒng)3D分析擴(kuò)展模塊中核心應(yīng)用,可將二維數(shù)據(jù)轉(zhuǎn)換為三維GIS 數(shù)據(jù)并高效分析編輯管理、創(chuàng)建三維圖層)[16,18]、D3.js(應(yīng)用廣泛的信息可視化JavaScript庫(kù),用D3(數(shù)據(jù)驅(qū)動(dòng)文檔)綁定數(shù)據(jù)與文檔對(duì)象模型并由數(shù)據(jù)決定文檔對(duì)象可視化模型,用CSS、HTML 及可縮放矢量圖形可視化顯示)[16,19]等。此外,ActiveX 控件通過(guò)專(zhuān)用標(biāo)準(zhǔn)接口用屬性、方法、事件三種機(jī)制與所處環(huán)境(容器)交互[16,20]。
2.3.2 信息檢索可視化
1)技術(shù)
黃田青[1]、孫雨生[16]、王曼茹[21]、李巧蓉[22]、杜鵑[23]、閆實(shí)[24]、顏培亮[25]認(rèn)為檢索結(jié)果可視化常用顯示技術(shù)主要有聚焦+上下文[16,21~22,24~25](在有限可視空間內(nèi)[22,24]放大聚焦節(jié)點(diǎn)同時(shí)縮小周邊對(duì)象,離聚焦節(jié)點(diǎn)越遠(yuǎn)對(duì)象越小以突出重點(diǎn)、揭示信息上下文關(guān)系[21])、廣角與聚焦技術(shù)(可視化切換總體概要信息顯示與個(gè)別具體信息顯示)[16,21]、徑向填充[16,22,24](以圓環(huán)(將圓環(huán)劃分成數(shù)個(gè)扇形區(qū)域,圓環(huán)外層局部區(qū)域和內(nèi)層子節(jié)點(diǎn)間存在對(duì)應(yīng)關(guān)系)及漸進(jìn)色(顏色沿直線變換且可隨意更改直線方向)分別表示層次結(jié)構(gòu)信息[22,24]及連續(xù)型信息,能顯示整體信息、焦點(diǎn)、上下文信息和局部放大信息[22,24])、樹(shù)圖[1,6,16,25](現(xiàn)代可視化表現(xiàn)形式,多含算法,在同一視圖顯示數(shù)據(jù)層次里所有單節(jié)點(diǎn)信息,圖形大小表示樹(shù)形圖在整個(gè)層次中相對(duì)大小,其他屬性由顏色等表示[1])、雙曲線樹(shù)[25](雙曲線瀏覽[1],通過(guò)兩條空間曲線顯示節(jié)點(diǎn),按節(jié)點(diǎn)到焦點(diǎn)距離縮小圖示,以便在有限視覺(jué)范圍內(nèi)顯示盡量多節(jié)點(diǎn),可用鼠標(biāo)轉(zhuǎn)移焦點(diǎn)觀察結(jié)構(gòu)圖示)[1]、錐形樹(shù)(半透明錐形三維空間圖,根節(jié)點(diǎn)位于錐形樹(shù)頂端或空間(凸輪樹(shù))最左端,子節(jié)點(diǎn)均勻分布在根節(jié)點(diǎn)下方或右側(cè)錐形延展部分,鼠標(biāo)點(diǎn)擊某節(jié)點(diǎn)可使其高亮顯示并旋轉(zhuǎn)錐形樹(shù)使其位于圖形前端)[1~2,25]、關(guān)聯(lián)更新技術(shù)(兩個(gè)或多個(gè)窗口數(shù)據(jù)間相互關(guān)聯(lián),其數(shù)據(jù)隨相關(guān)窗口信息設(shè)置更新而改變)、空間顯示技術(shù)(基于對(duì)象間相似度將對(duì)象繪制成歐氏空間內(nèi)點(diǎn)或區(qū)域以構(gòu)成散列圖,揭示對(duì)象內(nèi)部及相互間關(guān)系)、濾鏡技術(shù)(在窗口上重疊各種效果“濾鏡”,輔助實(shí)現(xiàn)信息交互式選擇、移動(dòng)過(guò)濾與分析轉(zhuǎn)換)[16,21]、Web 三維顯示(使用戶(hù)高效檢索圖書(shū)實(shí)際空間地址)[23]等。
孫雨生[16]、石明芳[17]、王曼茹[21]、李巧蓉[22]、閆實(shí)[24]、顏培亮[25]、徐剛[26]、陳俊鳳[27]認(rèn)為檢索過(guò)程可視化技術(shù)主要是降維映射技術(shù),包含自組織特征映射[24~25](通過(guò)人工神經(jīng)網(wǎng)絡(luò)(模擬人腦處理信號(hào)特點(diǎn))抽象歸類(lèi)錄入數(shù)據(jù)或信號(hào)特征[24~25],用簡(jiǎn)單幾何關(guān)系揭示拓?fù)浣Y(jié)構(gòu)并將非線性高維數(shù)據(jù)映射到低維空間[24])、潛在語(yǔ)義標(biāo)引(通過(guò)統(tǒng)計(jì)方法尋找詞內(nèi)語(yǔ)義結(jié)構(gòu),分解奇異值,投影文檔向量到較低維度空間以有效轉(zhuǎn)化數(shù)據(jù))等[16,25]、多維尺度分析[16~17,21~22,24,26~27](用非線性變換將高維數(shù)據(jù)轉(zhuǎn)為低維數(shù)據(jù)并以疏密不同的散點(diǎn)在低維空間近似表示其關(guān)系(點(diǎn)間距離表示數(shù)據(jù)間相似性)[22,24])、尋徑網(wǎng)絡(luò)[16~17,21~22,24,26~27](根據(jù)經(jīng)驗(yàn)性數(shù)據(jù)評(píng)估概念或?qū)嶓w間聯(lián)系相似(異)性,用圖論相關(guān)概念及原理得出相應(yīng)網(wǎng)狀模型[22,24])等。
2)方法
孫雨生[4,16]、閆實(shí)[24]、徐剛[26]、張繼東[28]、周靜怡[29]認(rèn)為檢索結(jié)果可視化聚類(lèi)方法主要有基于分類(lèi)簇圖法[28](按分類(lèi)標(biāo)準(zhǔn)(關(guān)聯(lián)關(guān)鍵詞、形成日期、類(lèi)型等)將相似檢索結(jié)果歸為同簇形成虛擬節(jié)點(diǎn)[28],根據(jù)語(yǔ)義內(nèi)容[26]添加標(biāo)簽[28],再按網(wǎng)狀、層次結(jié)構(gòu)排列簇(集)以揭示簇間邏輯關(guān)系[26])、分類(lèi)文檔簇法(找出共詞文檔并聚類(lèi)包含共詞最多文檔于同簇,根據(jù)文檔語(yǔ)義內(nèi)容命名簇標(biāo)題以便檢索,同時(shí)以簇為節(jié)點(diǎn)用層、網(wǎng)狀結(jié)構(gòu)排列以揭示文檔簇(集)間邏輯關(guān)系,缺點(diǎn)是準(zhǔn)確度難保證)[16,24,26,29]、關(guān)鍵詞詞頻排序樹(shù)法(抽取分析用戶(hù)檢索所得文獻(xiàn)關(guān)鍵詞并得到其降序排序列表(縱向不同顏色表示關(guān)鍵詞在該頁(yè)中出現(xiàn)次數(shù),橫向排列小矩形根據(jù)關(guān)鍵詞個(gè)數(shù)用縱向不同顏色區(qū)域分別表示每頁(yè)各關(guān)鍵詞詞頻分布信息),將文獻(xiàn)按關(guān)鍵詞分類(lèi),通過(guò)關(guān)鍵詞出現(xiàn)頻率揭示大量文獻(xiàn)知識(shí)整體結(jié)構(gòu)以便用戶(hù)高效獲取相關(guān)學(xué)科知識(shí))[16,28]、Texttiling 算法[4,26](根據(jù)頁(yè)、章、段將文獻(xiàn)分為主題塊[7,21,26],按用戶(hù)所輸關(guān)鍵詞自動(dòng)檢索并用長(zhǎng)方條(長(zhǎng)度代表文獻(xiàn)長(zhǎng)度并分成多個(gè)對(duì)應(yīng)文本單元塊的小矩形,其顏色深淺、長(zhǎng)度分別揭示關(guān)鍵詞出現(xiàn)頻率、段落長(zhǎng)度[7,21,24,29])表示檢索結(jié)果且依次按檢索詞組命中總頁(yè)數(shù)、檢索詞被命中總數(shù)、基于共現(xiàn)頻率的相似檢索橫向排序[26,29],用戶(hù)點(diǎn)擊對(duì)應(yīng)位置[21,29]選擇性瀏覽文獻(xiàn)[7,21,24,29],通過(guò)檢索詞位置、共現(xiàn)情況發(fā)現(xiàn)隱藏信息)等。
孫雨生[16]、王曼茹[21]、朱成[30]認(rèn)為檢索過(guò)程可視化方法主要有動(dòng)態(tài)查詢(xún)與過(guò)濾技術(shù)(通過(guò)控制實(shí)時(shí)反饋、調(diào)整過(guò)濾參數(shù)、修訂檢索提問(wèn)來(lái)過(guò)濾信息資源中不必要信息、聚焦用戶(hù)興趣)[16,21]、三維圖像處理技術(shù)(簡(jiǎn)單二維圖像直接顯示成三維圖像,復(fù)雜二維圖像平滑處理(基于濾波、插值等算法[16])尖銳凸凹部分以達(dá)到理想三維圖像顯示效果,圖像三維坐標(biāo)中x、y 表示圖像列、行坐標(biāo),z=f(x,y)是關(guān)于(x,y)點(diǎn)的函數(shù),f 可?。▁,y)像素點(diǎn)處灰度值、像素顏色分量、色調(diào)、飽和度等)[30]等。
2.3.3 信息資源組織可視化
1)技術(shù)
趙文宇[15]、孫雨生[16]、莫耀評(píng)[31]認(rèn)為信息資源組織數(shù)據(jù)可視化技術(shù)主要有基于幾何投影數(shù)據(jù)可視化技術(shù)(包括平行坐標(biāo)法,用N 條平行且等間距坐標(biāo)軸(對(duì)應(yīng)不同維度空間)映射N(xiāo) 維空間為二維空間,表示為折線[15,31],具體實(shí)現(xiàn)工具為報(bào)表(顯示動(dòng)態(tài)變化數(shù)據(jù)、趨勢(shì)性參數(shù)值并實(shí)現(xiàn)報(bào)告和表格一體化)[31],缺點(diǎn)是依賴(lài)屏幕寬度,存在大量數(shù)據(jù)可視化結(jié)果重疊問(wèn)題[15])、面向像素?cái)?shù)據(jù)可視化技術(shù)(顏色、窗口內(nèi)像素排列、屬性順序分別反映數(shù)據(jù)某一維度信息、數(shù)據(jù)聚類(lèi)及相關(guān)性、屬性間依賴(lài)及相關(guān)性)[15,31]、基于圖標(biāo)數(shù)據(jù)可視化技術(shù)(圖標(biāo)屬性如大小、顏色、形狀等表示對(duì)應(yīng)數(shù)據(jù)項(xiàng)維,具體實(shí)現(xiàn)方法主要有Chemoff-faces、Shape Coding、Stick Figures、Color Icons 等)[15,31]、基于層次數(shù)據(jù)可視化技術(shù)[15,31](分層處理數(shù)據(jù)量不大且維度不多數(shù)據(jù)集[15],理順數(shù)據(jù)結(jié)構(gòu)[31],形成樹(shù)圖、圓錐樹(shù)[15,31]等可視化形式)等。此外,XSLT 技術(shù)可轉(zhuǎn)換空間數(shù)據(jù)形成圖書(shū)屬性[23]。
2)方法
張琪[7]、周寧[8]、閆實(shí)[24]、陳俊鳳[27]、張繼東[28]、田蔚然[32]認(rèn)為文本可視化方法主要有2D 法[24,27,32](節(jié)點(diǎn)代表文獻(xiàn),節(jié)點(diǎn)位置、顏色、大小分別揭示文獻(xiàn)關(guān)系、類(lèi)別、屬性,支持動(dòng)態(tài)查詢(xún)、過(guò)濾、縮放[24,27,32],典型代表為可視化HTML 文件的Starfield 技術(shù),其用節(jié)點(diǎn)顏色、大小分別表示文件HTTP 狀態(tài)、長(zhǎng)短[24,27])、圖標(biāo)映射法(構(gòu)建圖標(biāo)集,在相關(guān)標(biāo)準(zhǔn)和圖標(biāo)集間構(gòu)建固定映射函數(shù),用不同圖標(biāo)表示不同文本以向用戶(hù)展現(xiàn)文本信息內(nèi)容,缺點(diǎn)是圖標(biāo)反映含義有限且粗糙)[28]、圖符法[7~8](圖符表示各分類(lèi)領(lǐng)域具體含義[7],圖符信息存儲(chǔ)采用邏輯壓縮等方法[8])、高維空間描述法(描述文獻(xiàn)主題內(nèi)容)[7~8]、群集映射法(統(tǒng)計(jì)文獻(xiàn)關(guān)鍵詞出現(xiàn)頻率并用高頻關(guān)鍵詞構(gòu)建高維信息空間,如通過(guò)轉(zhuǎn)換群集映射到三維空間構(gòu)建三維知識(shí)群集圖)、自組織地圖算法(即自組織特征映射)、上下文關(guān)聯(lián)法、新聞星系法[24]等。
崔曉菡[6]認(rèn)為可視化技術(shù)、方法與工具有真實(shí)可靠性和直觀性(將繁雜數(shù)據(jù)(統(tǒng)計(jì))轉(zhuǎn)化為直觀圖形),可多維處理數(shù)據(jù),用不同屬性管理數(shù)據(jù),實(shí)現(xiàn)數(shù)字圖書(shū)館的信息瀏覽、檢索和資源組織可視化。
信息瀏覽可視化主要運(yùn)用可視化工具,通過(guò)ActiveX[20]、GraphLayout[28]等組件基于后臺(tái)繪制器按表征形式所做視圖(文檔透鏡、顆粒圖[1~3]等)構(gòu)建人機(jī)交互可視化界面并實(shí)現(xiàn)縮放與旋轉(zhuǎn)、導(dǎo)航、人機(jī)交互。此外,張棋[7]、石明芳[17]提到人機(jī)交互界面應(yīng)具有直觀性、吸引性、便捷性、智能性且人性化。
顏培亮[25]認(rèn)為信息檢索可視化通過(guò)圖形或圖像(如刷圖、雙曲線瀏覽[1~2]等)顯示空間數(shù)據(jù)以明確數(shù)據(jù)間聯(lián)系與規(guī)律、透明化信息檢索過(guò)程,提供良好人機(jī)交互環(huán)境以便用戶(hù)高效獲取、分析、理解數(shù)據(jù),增強(qiáng)用戶(hù)認(rèn)知能力,提高查全率和查準(zhǔn)率。信息檢索可視化涉及檢索結(jié)果(聚類(lèi)、顯示)、過(guò)程(映射[25])可視化[16~17,21~22,24~28,33]。
3.2.1 檢索結(jié)果可視化
檢索結(jié)果可視化主要采用聚類(lèi)分析和可視化顯示技術(shù)[22,24],前者通過(guò)檢索詞與后臺(tái)索引項(xiàng)鏈接到相關(guān)信息并對(duì)其聚類(lèi)以得到初步檢索結(jié)果(文獻(xiàn)及其隱含關(guān)系),且可按檢索結(jié)果與檢索需求間關(guān)系優(yōu)化檢索式(基于可視化技術(shù)和檢索詞語(yǔ)義使用戶(hù)準(zhǔn)確表達(dá)檢索需求[7]);后者根據(jù)檢索過(guò)程中的聚類(lèi)特點(diǎn)及數(shù)據(jù)集維度選擇適當(dāng)方式可視化顯示結(jié)果集。
3.2.2 檢索過(guò)程可視化
孫雨生[4]、石明芳[17]、王曼茹[21]、李巧蓉[22]、閆實(shí)[24]、徐剛[26]、陳俊鳳[27]、程翔[34]認(rèn)為在檢索過(guò)程可視化中,首先用Shneiderman 的信息可視化分類(lèi)法分析、拓展[17,22]信息空間檢索路徑[17,21~22,24,26~27]并根據(jù)檢索過(guò)程精確測(cè)量用戶(hù)行為[34],其次基于多維尺度分析、尋徑網(wǎng)絡(luò)[4,21,24,27]和自組織特征映射[4,24~25]技術(shù)通過(guò)隱性馬爾可夫模型序列行為分析信息檢索行為[4,26]來(lái)將理想檢索路徑插入隱性馬爾可夫模型程序,最后在相應(yīng)語(yǔ)義空間動(dòng)態(tài)比較以形成最優(yōu)路徑[26,34]。
檢索過(guò)程可視化引入數(shù)據(jù)映射機(jī)制,主要是映射技術(shù),集成相應(yīng)數(shù)據(jù)處理算法組織處理大數(shù)據(jù)集[33,35]并將高維數(shù)據(jù)映射到低維空間以便計(jì)算機(jī)處理[25];錢(qián)力[33]、馬雨佳[35]認(rèn)為數(shù)據(jù)映射機(jī)制設(shè)計(jì)過(guò)程為先根據(jù)可視化模型集成相應(yīng)數(shù)據(jù)處理算法到系統(tǒng)中,再用可視化引擎驅(qū)動(dòng)錄入并根據(jù)規(guī)則算法自動(dòng)處理以將原始數(shù)據(jù)轉(zhuǎn)換成可視化數(shù)據(jù)格式,最后傳輸并顯示于可視化組件。
信息資源組織可視化主要通過(guò)特征抽取資源內(nèi)容特征并按數(shù)據(jù)信息選擇特定技術(shù)(基于幾何投影、面向像素、基于圖標(biāo)、基于層次等)進(jìn)行處理,形成平面視圖、標(biāo)簽云等表征形式。張棋[7]、周寧[8]、李玉萍[9]、閆實(shí)[24]、陳俊鳳[27]、田蔚然[32]認(rèn)為館藏信息(空間、屬性信息[27])按其表現(xiàn)形式分為文本、圖像[9,24]、語(yǔ)音和視頻[7~9,27,32]信息。
3.3.1 文本資源可視化
文本資源可視化分提煉文字信息(分析原始文字、忽略資源格式、剔除無(wú)用信息以提煉關(guān)鍵詞、分析詞頻、總結(jié)特征)、轉(zhuǎn)為圖像(圖像要忠于文字資源含義且符合用戶(hù)審美)、人機(jī)交互(圖像直觀便捷、吸引用戶(hù)目光,提供舒適視覺(jué)觀感)三步[9]。
3.3.2 圖像資源可視化
圖像資源可視化分整理圖像內(nèi)容(涉及簡(jiǎn)單(色彩、形狀等)、較復(fù)雜(所示對(duì)象等)、更高級(jí)(描述信息與所示對(duì)象關(guān)系等)內(nèi)容)[9]、用數(shù)據(jù)庫(kù)法[7]分類(lèi)存儲(chǔ)圖像(標(biāo)注圖像間關(guān)系)、選擇顯示模式(使圖像內(nèi)容直觀、易理解,如根據(jù)圖像間聯(lián)系關(guān)聯(lián)圖像)三步[9]。
3.3.3 語(yǔ)音資源可視化
語(yǔ)音資源可視化可用文本方式可視化[24],分音頻文字性轉(zhuǎn)換(采樣漢語(yǔ)語(yǔ)音資源、播放語(yǔ)音信息、分離語(yǔ)音音素、基于語(yǔ)音音素庫(kù)識(shí)別語(yǔ)音并轉(zhuǎn)為漢字字符串、存儲(chǔ)漢字文本信息生成漢字文本文件[7~8,32])、文字資源可視化轉(zhuǎn)換(抽取、可視化內(nèi)容特征(需相應(yīng)圖符庫(kù)、詞庫(kù)、平臺(tái)支持)[7~8,32])兩步[9]。
3.3.4 視頻資源可視化
視頻資源可視化(有可視化特性[27,32])分抽取數(shù)字視頻信息特征構(gòu)建特征庫(kù)[8~9](可通過(guò)MPEG-7與相關(guān)知識(shí)庫(kù)[27]抽取特征內(nèi)容(文本、音頻與視頻(分鏡頭、場(chǎng)景(關(guān)鍵幀、預(yù)測(cè)幀))特征[7~8],包括顏色、形狀、紋理、運(yùn)動(dòng)、位置、柵格分布、時(shí)間系列、多視點(diǎn)、空間坐標(biāo)等[7~8])實(shí)現(xiàn))、數(shù)字化視頻信息、存儲(chǔ)到視頻庫(kù)[27]三步。
韓全惜[36]認(rèn)為數(shù)字圖書(shū)館信息構(gòu)建(結(jié)構(gòu)化設(shè)計(jì)信息空間,以組織和運(yùn)用有意義、清晰、直觀的內(nèi)容、結(jié)構(gòu)表達(dá)數(shù)據(jù)內(nèi)容并提供直觀訪問(wèn)途經(jīng))應(yīng)按用戶(hù)需求(使用信息特點(diǎn))組織信息、設(shè)計(jì)界面以提升用戶(hù)體驗(yàn),構(gòu)建利于用戶(hù)組織、導(dǎo)航、標(biāo)引、檢索的信息可視化系統(tǒng)以便與信息工作者互動(dòng)、高效采集信息。數(shù)字圖書(shū)館資源組織涉及空間、屬性數(shù)據(jù)[10~14,23,37~38]的采集、處理和存儲(chǔ)。
杜慧敏[10~11]、張洪敏[12]、馬音寧[13]、王亞鳳[14]、杜娟[23]、劉麗[37]、王雅坤[38]認(rèn)為空間數(shù)據(jù)(圖書(shū)館結(jié)構(gòu)及館藏布局(館舍結(jié)構(gòu)、空間布局、地理背景、圖書(shū)分類(lèi)等))按數(shù)據(jù)結(jié)構(gòu)類(lèi)型分矢量、柵格數(shù)據(jù)(通過(guò)透明格網(wǎng)采集、掃描輸入)[14],結(jié)合GIS 數(shù)據(jù)分層組織法將圖書(shū)館空間數(shù)據(jù)存入地理背景、建筑物、樓層、閱覽室、書(shū)架號(hào)、書(shū)架層等[10,12,38]等圖層并逐級(jí)細(xì)化顯示[10~13,23,37~38]以詳細(xì)標(biāo)明圖書(shū)空間位置[13],具體通過(guò)掃描圖紙等數(shù)字化或坐標(biāo)繪圖法(用計(jì)算機(jī)自動(dòng)畫(huà)線編程和實(shí)地采集的坐標(biāo)點(diǎn)值保證圖書(shū)館部門(mén)間及房間設(shè)備、書(shū)架等間相對(duì)位置,確保地理圖形精度[10,12,38])采集;屬性數(shù)據(jù)分圖書(shū)空間(對(duì)應(yīng) 空 間 實(shí) 體 地 理特 征信 息[10~12,14,23,37~38]與空 間 模型[10~12,14,37~38])、文獻(xiàn)資源屬性信息(書(shū)名、作者、出版社、藏書(shū)地及關(guān)鍵詞等),通過(guò)對(duì)書(shū)目數(shù)據(jù)、數(shù)字文獻(xiàn)資源進(jìn)行標(biāo)引來(lái)完成[14],數(shù)據(jù)錄入需先在ArcCatelog(地理數(shù)據(jù)資源管理器)中定義對(duì)應(yīng)屬性結(jié)構(gòu)并檢查邏輯一致性,鏈接圖形要素、屬性記錄,多先以手工錄入為主,后自動(dòng)批量轉(zhuǎn)換錄入(需二次開(kāi)發(fā)ArcGIS模塊并與MIS數(shù)據(jù)庫(kù)鏈接)[14]。
馬曉亭[39]認(rèn)為信息資源空間、屬性數(shù)據(jù)預(yù)處理包括補(bǔ)充、剔冗、濾噪、關(guān)系描述、格式標(biāo)準(zhǔn)化與模式規(guī)范化等,通過(guò)ETL等實(shí)現(xiàn)數(shù)據(jù)萃取、轉(zhuǎn)置、加載以在可視化精度范圍內(nèi)控制因采集、處理、計(jì)算、分析、可視化等階段數(shù)據(jù)不確定性、應(yīng)用過(guò)程不對(duì)稱(chēng)性產(chǎn)生并累積的誤差、偏差、信息缺失比例及程度,通過(guò)隨機(jī)選取、等比例調(diào)整樣本規(guī)模以平衡數(shù)據(jù)集規(guī)模與清洗難度,真實(shí)、全面、準(zhǔn)確、客觀反映大數(shù)據(jù)價(jià)值和關(guān)系,提高數(shù)據(jù)價(jià)值密度、經(jīng)濟(jì)性、可用性和可控性。
王亞鳳[14]認(rèn)為ArcGIS(功能強(qiáng)大完備、應(yīng)用廣泛的GIS 軟件)數(shù)據(jù)庫(kù)分別用數(shù)據(jù)庫(kù)實(shí)體(存儲(chǔ)如矢量、柵格數(shù)據(jù)等數(shù)據(jù)文件)、數(shù)據(jù)庫(kù)管理系統(tǒng)(增刪改查及維護(hù)數(shù)據(jù))兩子系統(tǒng)(通過(guò)標(biāo)識(shí)碼(ID)連接,實(shí)現(xiàn)雙向檢索)存儲(chǔ)空間(存儲(chǔ)為線或面狀實(shí)體弧段文件)、屬性數(shù)據(jù)(存儲(chǔ)于關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)[14],圖書(shū)空間、文獻(xiàn)資源屬性信息分別存入建筑物、樓層、房間、書(shū)架等屬性表[10~12,14,37~38]和文獻(xiàn)資料、讀者、設(shè)備等信息表,通過(guò)關(guān)鍵字與書(shū)架號(hào)鏈接[23]并由圖書(shū)館管理系統(tǒng)中SQL Server[11,37]存儲(chǔ)管理[10~12,14,37~38])。
綜上,本文從可視化表征、可視化機(jī)制、信息資源組織三方面闡述了國(guó)內(nèi)數(shù)字圖書(shū)館信息可視化核心內(nèi)容研究進(jìn)展:可視化表征主要從信息瀏覽、信息檢索及信息資源組織三方面研究其表征內(nèi)容、形式及實(shí)現(xiàn)技術(shù)、方法與工具;可視化機(jī)制重點(diǎn)研究信息瀏覽(集中于可視化工具運(yùn)用)、信息檢索(集中于檢索結(jié)果、過(guò)程可視化)、信息資源組織可視化(集中于文本、圖像、語(yǔ)音、視頻資源)具體過(guò)程;信息資源組織核心研究數(shù)字圖書(shū)館空間、屬性信息資源的采集、處理和存儲(chǔ)。接下來(lái),筆者將嘗試構(gòu)建大數(shù)據(jù)環(huán)境下智慧圖書(shū)館可視化總體方案。