• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      互聯(lián)網(wǎng)信息長期保存中可視化分析技術(shù)應(yīng)用研究*

      2018-05-24 11:10:34魏大威
      圖書館 2018年5期
      關(guān)鍵詞:可視化圖像資源

      呂 琳 魏大威

      (1.國家圖書館 北京 100081;2.中央司法警官學院 河北保定 071000)

      1 引言

      在過去的十多年中,國際互聯(lián)網(wǎng)存檔相關(guān)組織的成員及科研團體嘗試開發(fā)各種采集工具、索引工具、訪問工具,來實現(xiàn)互聯(lián)網(wǎng)信息采集和長期保存。Internet Archive通過各種技術(shù)、戰(zhàn)略和伙伴關(guān)系,獲取了龐大的歷史網(wǎng)絡(luò)數(shù)據(jù)集,其資源總量已超過13PB[1]。互聯(lián)網(wǎng)長期保存的資源與其他數(shù)字資源相比顯得更為復(fù)雜,如前者的網(wǎng)頁正文信息具有多樣化的特征(文本、圖像、視頻等),網(wǎng)頁之間存在相互鏈接,網(wǎng)頁采用腳本和樣式等技術(shù)手段也不同。數(shù)字資源保存過程中,與之相關(guān)的參考信息、出處信息、上下文信息、固定信息等也需要一并進行長期保存。如何高效地保存、管理和交換這些數(shù)據(jù)對象本身就是一個挑戰(zhàn)。

      展開對互聯(lián)網(wǎng)信息長期保存的可視化分析研究,其主要原因是面對多樣的數(shù)據(jù)類型、異構(gòu)的數(shù)據(jù)源、對多維度數(shù)據(jù)展示的需求,網(wǎng)絡(luò)軟硬件環(huán)境的變化,借助于數(shù)理統(tǒng)計分析方法、大數(shù)據(jù)分析技術(shù),將一些無序的、潛在的、隱藏在原始數(shù)據(jù)背后的信息轉(zhuǎn)變?yōu)轱@現(xiàn)的知識,通過圖形技術(shù)及交互技術(shù),以更加直觀、更易于認知的方式展示,達到互聯(lián)網(wǎng)信息更好地長期保存,利于管理及服務(wù)的目的。

      2 互聯(lián)網(wǎng)長期保存的數(shù)字資源可視化相關(guān)理論及工作流程

      2.1 可視化相關(guān)研究

      Stephen Few[2]給出的數(shù)據(jù)可視化定義是:“數(shù)據(jù)可視化的主要目標是通過統(tǒng)計圖形、繪圖和信息圖形清晰有效地傳達信息,可以使用點、線或條來對數(shù)字數(shù)據(jù)進行編碼,以視覺傳達定量消息,有效的可視化幫助用戶分析和推理數(shù)據(jù)和證據(jù)?!睌?shù)字可視化主要處理兩種類型的數(shù)據(jù):分類(如文本標簽)和定量數(shù)據(jù)(時間序列、偏差、頻率分布、相關(guān)名、地理空間等)。它可以使抽象的數(shù)據(jù)以更易于理解、訪問和可用的方式呈現(xiàn)。目前,人們常說的可視化分析則更關(guān)注視覺表示與數(shù)據(jù)統(tǒng)計、數(shù)據(jù)挖掘技術(shù)相結(jié)合,其應(yīng)用范圍主要為分析推理技術(shù)、數(shù)據(jù)表示與轉(zhuǎn)換、交互技術(shù)相結(jié)合。

      將可視化分析技術(shù)引入互聯(lián)網(wǎng)信息保存領(lǐng)域旨在利用數(shù)理統(tǒng)計或大數(shù)據(jù)分析方法對已采集的互聯(lián)網(wǎng)信息進行基于鏈接、時序、空間、趨勢、決策等多維度的應(yīng)用,從原始資源中挖掘出所需信息,并借助于計算機學圖形學與圖像學處理技術(shù),將抽象的數(shù)據(jù)以計算機所支持的可視化形式展現(xiàn),以增加人的認知能力。其主要表現(xiàn)在以下三個方面:

      (1)數(shù)據(jù)推理分析。分析推理技術(shù),使用戶能夠直接在支持評估、規(guī)劃和決策方面,獲得深刻見解。根據(jù)Card和Pirolli[3-4]等人的信息覓食理論,信息管理人員和使用者對原始存檔的信息使用聚類、時序、關(guān)聯(lián)、回歸分析等方法提取出所需數(shù)據(jù),然后通過可視化界面對其顯示圖像進行一維或多維數(shù)據(jù)疊加顯示、放大縮小查看細節(jié)信息、降維處理、人機交互等操作,從視覺角度來發(fā)現(xiàn)新問題,在此基礎(chǔ)上提出假設(shè)條件并通過推理驗證形成新知識,為下一步的決策分析提供幫助。

      (2)數(shù)據(jù)表示與轉(zhuǎn)換。數(shù)據(jù)表示和轉(zhuǎn)換是指轉(zhuǎn)換所有類型的沖突和動態(tài)數(shù)據(jù),用以支持可視化和分析的方式。數(shù)據(jù)表示是適用于基于計算機轉(zhuǎn)換的結(jié)構(gòu)化形式。這些結(jié)構(gòu)必須存在于原始數(shù)據(jù)中,或者可以從數(shù)據(jù)本身導出。它們必須盡可能保留原始數(shù)據(jù)中的信息、知識內(nèi)容以及相關(guān)內(nèi)容。底層數(shù)據(jù)表示的結(jié)構(gòu)對于視覺分析工具的用戶通常既不可訪問也不直觀,其性質(zhì)也往往比原始數(shù)據(jù)復(fù)雜得多,并不一定比原始數(shù)據(jù)小。數(shù)據(jù)表示的結(jié)構(gòu)可以包含數(shù)百或數(shù)千個維度,并且對于人來說是不可理解的,但是它們必須可變換成用于可視化和分析的低維表示[5]。

      存檔的原始資料經(jīng)過數(shù)據(jù)分析處理轉(zhuǎn)換,再到被人們視覺所感知的數(shù)據(jù)形式,要經(jīng)過一系列的轉(zhuǎn)換過程,即要將數(shù)據(jù)映射成帶有可視化表征(空間基、圖形屬性)的可視化結(jié)構(gòu),再根據(jù)大小、比例、位置在指定設(shè)備上顯示。

      (3)視覺表現(xiàn)方面。視覺表現(xiàn)主要是借助于計算機圖形、圖像學技術(shù),數(shù)據(jù)之間的位置關(guān)系(如不同的位置表示關(guān)系,多種坐標軸)、數(shù)據(jù)屬性及表現(xiàn)方式的差異,突出共同點與異常點。使用者可以更快速地察覺數(shù)據(jù)的顯著變化,通過視覺的獲取分析數(shù)據(jù)可增加其對推理過程的感知,從而使推理分析過程變得更為集中。

      2.2 可視化分析的工作流程

      目前,互聯(lián)網(wǎng)信息采集歸檔資源的可視化研究是針對互聯(lián)網(wǎng)信息采集和長期保存整體工作流程展開的,尤其是對互聯(lián)網(wǎng)信息歸檔周期各階段相應(yīng)的任務(wù)及產(chǎn)生的相關(guān)數(shù)據(jù)進行收集整理?;ヂ?lián)網(wǎng)采集信息歸檔資源的可視化分析工作流程圖借鑒了Bolette Jurik[6]的理論研究,并在此基礎(chǔ)上與實際工作相結(jié)合,進行部分調(diào)整,最終確定工作流程。如圖1所示:

      圖1 互聯(lián)網(wǎng)存檔資源可視化工作流程圖

      互聯(lián)網(wǎng)信息采集歸檔的可視化分析可分為如下幾個階段:

      (1)數(shù)據(jù)的獲取。根據(jù)專題確定的采集策略和采集范圍,通過網(wǎng)絡(luò)爬蟲軟件獲取數(shù)據(jù)存儲在本地數(shù)據(jù)庫中,通過手工/自動抽取技術(shù)來錄入描述、管理、使用性元數(shù)據(jù)[7]。

      (2)語料庫的建立。建立語料庫索引文件和派生語料庫。語料庫索引文件中包含了互聯(lián)網(wǎng)歸檔中的所有Web對象地址,并為不同的目的分析提供基礎(chǔ)。派生語料庫可以針對某一特定類型文件展開研究,它基于語料庫索引文件派生出來。

      (3)數(shù)據(jù)分析?;谡Z料庫已有的數(shù)據(jù),根據(jù)分析需求采用關(guān)聯(lián)、聚類、時序方法進行數(shù)據(jù)深度挖掘,生成目標數(shù)據(jù)集。

      (4)分析數(shù)據(jù)可視化。不同的目標數(shù)據(jù)集根據(jù)其自身數(shù)據(jù)特征,采用不同的可視化顯示工具,為使用者提供更直觀、更易于分析與決策的圖形界面模式。

      3 互聯(lián)網(wǎng)保存資源的可視化數(shù)據(jù)獲取

      互聯(lián)網(wǎng)采集與長期保存工作可分為網(wǎng)絡(luò)信息采集、加工、管理、維護及數(shù)字資源長期保存這五個部分。需要長期保存的數(shù)據(jù)資源除了互聯(lián)網(wǎng)信息采集資源外,還需要保留關(guān)于結(jié)構(gòu)的、上下文、來源和訪問信息,確保保存期數(shù)據(jù)的真實性和完整性,以更好地實現(xiàn)對網(wǎng)絡(luò)歸檔資源生命周期的管理[8]。

      3.1 可視化分析數(shù)據(jù)的來源

      (1)采集資源內(nèi)容保存文件。網(wǎng)絡(luò)爬蟲根據(jù)一定策略從某一個URL開始,沿著頁面所有超鏈接,按廣度優(yōu)先或深度優(yōu)先方式沿某一路徑展開相關(guān)數(shù)據(jù)的抓取,并將它們添加到遞歸訪問的URL中。對抓取的信息進行存儲時需要一個容器格式,允許一個文件簡單而安全地攜帶大量的組成數(shù)據(jù)對象,保留原始網(wǎng)頁鏈接邏輯關(guān)系,用于存儲管理和交換。1996年以來,互聯(lián)網(wǎng)存檔(IA)使用原始的ARC格式文件來管理數(shù)十億個對象。WARC(Web Archive)文件格式是互聯(lián)網(wǎng)信息采集存檔時所常用的文件保存格式。它是國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)標準工作組于2005年向ISO TC46 / SC4 / WG12提出,2009年被公布的國際標準,已被澳大利亞國家圖書館、加拿大圖家圖書館、美國國會圖書館、英國國家圖書館、法國國家圖書館、中國國家圖書館等所采用。它所存儲的范圍包含:網(wǎng)頁資源信息、存儲互聯(lián)應(yīng)用層協(xié)議的有效載荷內(nèi)容和控制信息、存儲和其他存儲相關(guān)聯(lián)的數(shù)據(jù)轉(zhuǎn)換結(jié)果、超長記錄的管理等多方面內(nèi)容。

      (2)采集的相關(guān)過程數(shù)據(jù)。在進行互聯(lián)網(wǎng)信息采集過程中,除了WARC文件之外,還有一些數(shù)據(jù)資源需要被合理保存?;ヂ?lián)網(wǎng)信息長期保存的技術(shù)方法根據(jù)操作規(guī)模有所不同,目前對于大規(guī)模的互聯(lián)網(wǎng)信息長期保存確定了三種主要的技術(shù)方法:客戶端歸檔、事物歸檔、服務(wù)器歸檔[9]。在客戶端的網(wǎng)絡(luò)爬取工具Heritrix或HTTrack,其抓取工具遵循“種子”指令,將與種子關(guān)聯(lián)的一些數(shù)據(jù)信息(如URL、爬網(wǎng)的頻率范圍、爬網(wǎng)的深度、數(shù)據(jù)字節(jié)數(shù))存儲在特定的文件中。

      (3)手工錄入數(shù)據(jù)和系統(tǒng)自動生成。根據(jù)數(shù)字圖書館長期保存元數(shù)據(jù)標準規(guī)范[10]、數(shù)字資源對象管理規(guī)范[11]的要求及實際工作需要的部分元數(shù)據(jù),確定最終在互聯(lián)網(wǎng)信息歸檔的全部元數(shù)據(jù)集合。一部分元數(shù)據(jù)可以通過采集獲取的原始數(shù)據(jù)分析的基礎(chǔ)上獲得,另一部分則需要從事互聯(lián)網(wǎng)信息長期保存相關(guān)的操作人員及管理人員通過手工的方式錄進相應(yīng)的系統(tǒng)中;對于系統(tǒng)中的固定屬性(如唯一標識符)則由系統(tǒng)程序自動生成并存儲至相應(yīng)的元數(shù)據(jù)管理單元中。

      3.2 數(shù)據(jù)的自動抽取

      除了手工錄入的數(shù)據(jù)之外,前兩種數(shù)據(jù)來源可以通過數(shù)據(jù)分析方法實現(xiàn)自動提取。研究采用的網(wǎng)絡(luò)信息采集工具為國際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC)推薦的網(wǎng)絡(luò)爬蟲工具Heritrix,其文件保存格式為WARC。

      3.2.1 Heritrix采集信息提取

      在指定了采集專題后,對相關(guān)專題的互聯(lián)網(wǎng)信息進行采集時,采集軟件中會留下大量的參數(shù)信息?;ヂ?lián)網(wǎng)信息抓取工具Heritrix用來獲取完整的、精確的、站點內(nèi)容的深度復(fù)制,包括獲取圖像以及其他非文本內(nèi)容,抓取并存儲相關(guān)內(nèi)容[12]。在采集過程中,Heritrix會產(chǎn)生大量的日志文件及報告,包含大量用于描述、結(jié)構(gòu)性、管理相關(guān)的特征參數(shù)。在進行統(tǒng)計時,經(jīng)常會用到的幾個日志文件見表1。

      表1 Heritrix采集過程中的特征數(shù)據(jù)

      3.2.2 WARC文件特征數(shù)據(jù)提取

      對WARC進行分析,并從文件讀取出相應(yīng)的數(shù)據(jù)資源,進行分別存儲。主要可獲取的資源有特征數(shù)據(jù)和內(nèi)容數(shù)據(jù)。特征資源如時間戳、IP地址、MIME媒體類型等,內(nèi)容數(shù)據(jù)主要是指網(wǎng)頁的正文相關(guān)的數(shù)據(jù)資源。

      國際標準化組織給出的WARC(Web Archive)文件格式定義為:“提供將多個資源記錄(數(shù)據(jù)對象)連接在一起的約定,每個資源記錄由一組簡單文本標題和任意數(shù)據(jù)塊組成一個長文件”[13]。換句話說,WARC格式文件就是由一個或多個WARC記錄的簡單連接,其中第一個記錄通常是描述要記錄的記錄[14]。記錄內(nèi)容包含與檢索直接結(jié)果相關(guān)的內(nèi)容(如網(wǎng)頁、內(nèi)聯(lián)圖像、獨立文件等)或是歸檔相關(guān)的附加信息(如元數(shù)據(jù)、變換內(nèi)容)。WARC記錄一般由一個記錄頭、記錄內(nèi)容塊及兩個換行符組成。記錄頭格式具有強制命名字段,大部分遵循HTTP / 1.1 [RFC2616]和[RFC2822]標題的傳統(tǒng),主要用于記錄記錄的日期、類型和長度,并支持每個收獲的資源(文件)的方便檢索。如圖2所示:

      圖2 WARC文件格式解析[15]

      (1)特征屬性提取。有8種WARC記錄類型:WARC信息、響應(yīng)、資源、請求、元數(shù)據(jù)、回訪、轉(zhuǎn)換和延續(xù)。從WARC文件頭中來獲取時間戳、元數(shù)據(jù)、重訪、MIME媒體類型、轉(zhuǎn)換、數(shù)據(jù)分割等。目前,已開發(fā)的關(guān)于WARC文件格式內(nèi)容自動抽取相關(guān)的軟件有: WGET、Warc-Tools、WarcBase、ArchiveSpark、WEAR等。

      (2)內(nèi)容數(shù)據(jù)提取?;ヂ?lián)網(wǎng)信息歸檔資源內(nèi)容挖掘主要是從網(wǎng)頁內(nèi)挖掘、提取和整合有用的數(shù)據(jù)、信息和知識。采集歸檔的網(wǎng)頁信息中包含了文本信息、圖像、視頻、音頻等多媒體資料。從目前已存儲的各類資源總量上來看,文本資源、圖像資源所占比例較大。本文在網(wǎng)頁內(nèi)容提取研究過程中,側(cè)重于文本和圖像數(shù)據(jù)提取的相關(guān)研究與技術(shù)。

      互聯(lián)網(wǎng)信息歸檔資源文本內(nèi)容可視化是將蘊含于其中的語義特征(如主題聚類、詞頻分析等),以網(wǎng)絡(luò)云標簽、時間軸等可視化模式顯示在指定的終端設(shè)備上。在對文本資源進行提取時,可以應(yīng)用已有的網(wǎng)頁文本提取工具(如Apache Tika、Jsoup)進行信息提取。按使用者的需求不同,可以將信息按提取粒度大小不同分為:粗粒度(篇章級):標簽提取、文章分類、情感分析、垃圾評論的過濾等;中粒度(短串級):詞重要性、句法結(jié)構(gòu)、近義詞替換、語義歸一化等;細粒度(詞匯級):中文分詞、專有名詞識別、詞性標注、需求詞識別、同義詞分析、詞匯關(guān)系計算、語義網(wǎng)分析等。

      圖像數(shù)據(jù)同樣也是網(wǎng)絡(luò)歸檔資源的網(wǎng)頁內(nèi)容信息中的重要組成部分。將可視化技術(shù)應(yīng)用于圖像信息資源檢索研究,對圖像數(shù)據(jù)進行語義分析、特征提取、圖像自動標注,是對網(wǎng)絡(luò)存檔資源粒度的進一步細化。這既可以改善用戶體驗、擴展檢索模式,又可以提高圖像檢索系統(tǒng)的性能。

      4 可視化技術(shù)應(yīng)用效果

      采集的內(nèi)容包含的媒體類型不斷增加,管理數(shù)據(jù)包含相應(yīng)的元數(shù)據(jù)總量也在不斷增長。在此基礎(chǔ)上,通過大數(shù)據(jù)分析技術(shù)將挖掘信息和知識發(fā)現(xiàn)作為目標,將網(wǎng)頁原始內(nèi)容提取的信息或特征屬性數(shù)據(jù)通過一維信息、多維信息、時序信息、空間信息等方式進行可視化展示[16-17]。

      4.1 基于時間的內(nèi)容分析

      互聯(lián)網(wǎng)信息歸檔的網(wǎng)頁包含的文本內(nèi)容進行的文本挖掘技術(shù),可用于分析當前新聞熱點,常采用的可視化方式主要有文本可視化、圖像可視化和圖(網(wǎng)絡(luò))可視化。

      英國網(wǎng)絡(luò)檔案館采用N-Gram搜索對互聯(lián)網(wǎng)歸檔資源文本進行可視化分析,發(fā)現(xiàn)其網(wǎng)絡(luò)存檔中隨時間推移,用戶每月定義的搜索詞或短語的變化情況。荷蘭阿姆斯特丹大學的WebART團隊[18]基于荷蘭國家圖書館網(wǎng)絡(luò)存檔收集的Nu.nl每日快照數(shù)據(jù)進行分析,通過ANTA對搜索結(jié)果進行共詞分析,再利用GEPHI修正圖中的時間戳,顯示與主要新聞事件相關(guān)的詞頻可視化和隨時間推移的術(shù)語同時發(fā)生的分析,如圖3所示。

      圖3 基于時間的共詞分析[19]

      基于圖像的可視化方式來使用互聯(lián)網(wǎng)信息歸檔資源,探索和敘述事件歷史記錄。Chorit和Rasmussen在對1999年美國歷史系師生做的基于美國國會圖書館歷史圖片庫的實驗中發(fā)現(xiàn),用戶對時事性感知在整個檢索過程中起到重要作用[20]。荷蘭阿姆斯特丹大學基于互聯(lián)網(wǎng)信息歸檔資料,從包含圖像的文件夾進行特征數(shù)據(jù)提取,并作為單獨的圖像返回到每一個URL的文件夾。通過WebARTist進行關(guān)鍵字查找,結(jié)果調(diào)用JavaScript可視化工具,自動在交互式時間軸上搜索相應(yīng)的結(jié)果,如圖4所示:

      圖4 基于時間的圖像分析

      圖4是互聯(lián)網(wǎng)歸檔資料中對穆罕默德·胡斯尼·穆巴拉克所有的新聞專題、事件進行圖像語義標注及圖像檢索的系統(tǒng)。圖4右側(cè)圖像下方顯示的內(nèi)容是以時間軸的方式列舉出每次事件相關(guān)的單獨圖像或圖像集,使用者可通過時間軸交互的方式去查找某一事件的相關(guān)圖像。

      4.2 鏈接分析

      在網(wǎng)絡(luò)理論中,鏈接分析是用于評估節(jié)點之間的關(guān)系(連接)的數(shù)據(jù)分析技術(shù)[21]?;ヂ?lián)網(wǎng)中,不同的網(wǎng)站和網(wǎng)頁通過鏈接而建立起相互之間的連接,它不僅可以將不同社交媒體的用戶連接起來,還可以讓不同公司、組織、政府機構(gòu)建立起連接。鏈接分析不僅可以揭示某一熱點討論的核心,分析哪些用戶扮演了重要角色,也可以分析在線組和內(nèi)聚區(qū)域之間的分數(shù),實體的大小和實體之間的關(guān)系。

      隨著大型網(wǎng)站被捕獲,它們之間的鏈接和連接也被捕獲。這些網(wǎng)絡(luò)鏈接的網(wǎng)站和數(shù)據(jù)可以被挖掘以觀察個人、組織及其他事物隨時間的關(guān)系變化。正如在實時網(wǎng)絡(luò)上的網(wǎng)站和社交網(wǎng)絡(luò)上進行的這種分析一樣,它可以與互聯(lián)網(wǎng)歸檔數(shù)據(jù)集一起使用,以查看隨時間或過去點的變化。互聯(lián)網(wǎng)信息歸檔研究允許多維度數(shù)據(jù)基于時間進行分析[22]。

      對于給定的域,可以使用鏈接分析來了解在線機構(gòu)的結(jié)構(gòu),它們之間的關(guān)系以及它們與外界的交互以及它們對用戶的導航性。對于英國政府二級域名(包括以.gov.uk結(jié)尾的所有網(wǎng)站),鏈接分析可用于分析政府部門和機構(gòu)之間的變化結(jié)構(gòu)和關(guān)系;他們在社會和信息網(wǎng)絡(luò)中的地位,公民與政府互動的水平和層次。英國網(wǎng)絡(luò)檔案館的互聯(lián)網(wǎng)信息歸檔,鏈接分析的可視化研究主要基于JISC UK Web域數(shù)據(jù)集(1996—2010),分析HTML頁面并從每個鏈接中提取“href”屬性,再將這些公共后綴聚合(如所有“* .ac.uk”被計算為“ac.uk”,所有“* .com”為“com”等),使用d3.js可視化引擎相結(jié)合,生成可視化的和弦圖,用于趨勢分析。圖5所采用的數(shù)據(jù)集為原始數(shù)據(jù)集的六分之一所計算出的結(jié)果:

      圖5 英國國家圖書館基于域名后綴的鏈接分析

      4.3 技術(shù)趨勢分析

      互聯(lián)網(wǎng)上的數(shù)據(jù)資源與其他數(shù)字資源的區(qū)別是種類繁雜,每年都會有新的技術(shù)產(chǎn)生并應(yīng)用其中(如新的編程語言、新的數(shù)據(jù)格式等),同時也會有一些舊的數(shù)據(jù)文件被新技術(shù)文件所取代。網(wǎng)絡(luò)爬蟲獲取的數(shù)據(jù)資源所包含的內(nèi)容隨著時間的變化,其文件格式、編程語言、標記和其他屬性都會產(chǎn)生變化。對這些與網(wǎng)絡(luò)存檔相關(guān)的內(nèi)外環(huán)境數(shù)據(jù)進行統(tǒng)計,分析其變化趨勢,有利于采集策略的調(diào)整及數(shù)字資源長期保護存儲方案的制定。

      在互聯(lián)網(wǎng)信息歸檔研究領(lǐng)域中,數(shù)字格式風險評估是數(shù)字資源長期保存風險評估的組成部分之一,對其進行檢測將影響數(shù)字內(nèi)容對象的可訪問性和長期保存的技術(shù)環(huán)境和文件格式的更改時間和可能性[23]。丹麥國家圖書館通過網(wǎng)絡(luò)爬取過程中所產(chǎn)生的crawl.log文件對采集存檔的.dk域名下的數(shù)據(jù)進行分析,得到各種文本、音頻、視頻及其他文件在2005—2016年存檔文件所占的比例[24]。英國網(wǎng)絡(luò)檔案館對互聯(lián)網(wǎng)歸檔的JISC UK Web域數(shù)據(jù)集(1996—2010)進行分析,對所有HTTP 200響應(yīng)中的數(shù)據(jù)格式(MIME類型)進行分類和統(tǒng)計。使用格式數(shù)據(jù)集生成的示例可視化,顯示流行圖像格式和HTML隨時間推移的趨勢。捕獲網(wǎng)站的分析可使這些數(shù)據(jù)集顯示各種網(wǎng)絡(luò)格式的上升和下降。

      圖6是英國網(wǎng)絡(luò)檔案館對1996—2010年所采集的互聯(lián)網(wǎng)信息歸檔資源中的圖像數(shù)據(jù)進行統(tǒng)計分析。研究表明JPEG的使用多年一直保持穩(wěn)定,TIFF、GIF和XBM圖像則變得更少,XBM格式的使用下降特別突出。該圖表也顯示了PNG格式與通常用于創(chuàng)建的ICON格式的顯著上升。

      圖6 采集的圖像格式統(tǒng)計分析

      圖7是基于已收集存檔資源的HTML版本格式進行的評估。圖中縱向上的數(shù)據(jù)是不同版本的HTML資源占當年所有HTML資源總量的比例。隨著時間的推移,互聯(lián)網(wǎng)采集獲取到更多的版本。圖7表明HTML 2.0-4.01和XHTML 1.0-1.1都存在于2010年爬網(wǎng)數(shù)據(jù)中。

      圖7 HTML版本使用時間[25]

      從英國網(wǎng)絡(luò)檔案館對JISC UK Web域數(shù)據(jù)集中1996—2010年圖像格式和HTML版本的評估來看,格式范圍可能不像以前所想的那樣嚴重,文本和圖像的網(wǎng)絡(luò)格式可能不會像以前所擔心的那樣很快過時(Jackson,2012)。

      4.4 基于地理信息的可視化分析

      地理空間數(shù)據(jù)的可視化主要是指與地理位置相關(guān)的數(shù)據(jù)與地理可視化相關(guān)技術(shù)及應(yīng)用軟件相結(jié)合,對與之相關(guān)的對象屬性建立可視化表征,對與時間和空間密切相關(guān)的模式及規(guī)律進行展示。

      互聯(lián)網(wǎng)歸檔資源中有部分數(shù)據(jù)與地理數(shù)據(jù)相關(guān),如網(wǎng)站中使用的地理術(shù)語、采集網(wǎng)頁內(nèi)容包含的地理位置 /坐標,郵編等。這些數(shù)據(jù)經(jīng)提取、變換、加載至地理信息系統(tǒng)相關(guān)的軟件(如ArcGis、MapInfo、Suffer等)相結(jié)合,顯示為可視化的二維或三維圖像為管理者和研究人員提供相關(guān)的決策分析輔助。英國網(wǎng)絡(luò)檔案館[26]的GeoIndex對1996—2010年間的“.uk”結(jié)尾域的數(shù)據(jù)集中,掃描約25億響應(yīng)數(shù)據(jù)的地理參考值,特別是郵政編碼。在爬行過的特定URL中發(fā)現(xiàn)的這組郵政編碼引用形成了英國網(wǎng)絡(luò)歷史地理位置,其數(shù)據(jù)結(jié)構(gòu)為每個單獨爬行捕獲給定歸檔網(wǎng)頁上的給定郵政編碼的權(quán)限,就是像在特定時間訪問網(wǎng)絡(luò)爬蟲一樣。郵政編碼、URL和時間戳的每個組合只會出現(xiàn)一次,無論特定郵政編碼在給定的頁面中出現(xiàn)多少次。

      4.5 可視化技術(shù)應(yīng)用效果分析

      4.5.1 可視化分析技術(shù)特點分析

      從認知模式上看,可視化分析技術(shù)在數(shù)據(jù)顯示方面不再依賴于簡單的圖像顯示模式,而是基于認知心理學、社會心理學及計算機用戶滿意度等人為因素,圖形、圖像顯示上則更注重顯示方式變化、空間排列位置不同、多視圖顯示等來突出事物的特征。在內(nèi)容可視化實例中,以網(wǎng)絡(luò)可視化分析方式運用,顯示時間與新聞詞頻的共詞分析結(jié)果,以人們更易理解的方法,來洞察事物的發(fā)展變化規(guī)律。

      從交互模式上看,可視化分析技術(shù)較靜態(tài)可視化分析來說,更善于接受用戶的意圖和需求,增加現(xiàn)實感及知識的驅(qū)動。交互技術(shù)在可視分析中的運用方式有動態(tài)改變聚集點、標記感興趣的區(qū)域、動態(tài)過濾等,使用者可以從不同的角度和方式觀察數(shù)據(jù),更好地解讀和剖析事物。在基于圖像的可視化實例中,對時間軸和相關(guān)的圖片/文件夾進行簡單操作,可以更好地捕捉到自己想要的顯示/隱藏信息內(nèi)容。

      4.5.2 可視化分析技術(shù)范圍分析

      首先,在對事物/對象自身全部或某一特征進行分析時可選用文本可視化或圖像可視化。網(wǎng)絡(luò)存檔資源的主題熱度、基于時間序列的主題跟蹤、事物的發(fā)展趨勢預(yù)測等方面則側(cè)重于對事物/對象自身所隱含的語義特征展示。其次,在對事物/對象之間的關(guān)聯(lián)進行分析時適合選用網(wǎng)絡(luò)可視化分析技術(shù)。在網(wǎng)絡(luò)存檔資源的應(yīng)用服務(wù)和長期保存管理過程中,事物/對象的分析需要多維度展開。常用在社會科學研究領(lǐng)域的共詞分析、社會網(wǎng)絡(luò)化分析是網(wǎng)絡(luò)可視化技術(shù)應(yīng)用的實例。最后,分析事物分布特征則可選擇空間數(shù)據(jù)可視化。網(wǎng)絡(luò)存檔資源長期保存管理和提供應(yīng)用服務(wù),數(shù)據(jù)存儲并不是僅存在一個地點或數(shù)據(jù)服務(wù)僅由一家機構(gòu)提供。數(shù)據(jù)管理的分析采用空間數(shù)據(jù)可視化分析方法來實現(xiàn)網(wǎng)絡(luò)存檔資源長期保存及數(shù)據(jù)共享的應(yīng)用服務(wù)。

      5 對國內(nèi)網(wǎng)絡(luò)存檔應(yīng)用可借鑒之處

      互聯(lián)網(wǎng)歸檔的資源相關(guān)研究僅20余年,對其進行可視化分析也是近幾年才展開,很多方面有進一步提升的空間。它對我國的互聯(lián)網(wǎng)信息長期保存可視化分析應(yīng)用仍有一定的借鑒和指導作用,具體表現(xiàn)在:

      (1)在應(yīng)用服務(wù)方面。借鑒互聯(lián)網(wǎng)信息歸檔資源正文內(nèi)容的文本、圖像及圖譜可視化應(yīng)用的成功經(jīng)驗,可視化技術(shù)在應(yīng)用服務(wù)方面,可以從兩方面展開:一方面是側(cè)重于信息粒度的細化。例如,訪問者在對網(wǎng)絡(luò)存檔專題“一帶一路”進行訪問時,對此專題歸檔的數(shù)據(jù)進行可視化分析后,以更符合人認知的方式——云標簽?zāi)J斤@示在指定終端。云標簽對專題聚集的熱點詞集使用不同的字體、字號、顏色、排列次序,增強使用者的視覺感觀。訪問者可以從指定專題中選取中一個或多個熱點詞來進一步縮小信息檢索范圍,快速地獲取所需信息。另一方面是基于時間軸的存檔資源可視化服務(wù)模式。高頻率的連續(xù)采集專題的互聯(lián)網(wǎng)信息歸檔資源(如全國人民代表大會),提供基于時序分析的可視化分析。使用者操作時間軸快速地了解會議的全程或獲取各時間節(jié)點的聚集熱點,也可對所關(guān)注問題的交互區(qū)熱點進行操作來獲取相應(yīng)的具體存檔內(nèi)容。

      (2)在互聯(lián)網(wǎng)信息長期保存管理方面?;ヂ?lián)網(wǎng)信息歸檔生命周期由評估與選擇、數(shù)據(jù)采集、存儲與組織、質(zhì)量保證與分析等若干模塊組成,且各部分之間都存在一定的關(guān)聯(lián)。這其中的很多模塊都需要對數(shù)據(jù)進行分析處理,如互聯(lián)網(wǎng)信息長期保存環(huán)境檢測、數(shù)據(jù)的完整性與可信性評估、采集專題的確定、網(wǎng)站選擇等。互聯(lián)網(wǎng)信息長期保存的原始元數(shù)據(jù)借助于可視化分析技術(shù)中的分析推理、人機交互分析及隱含關(guān)系展示等,給管理者提供更高效、直觀的輔助決策信息。

      6 結(jié)語

      數(shù)據(jù)創(chuàng)造的真正價值在于洞察隱藏在數(shù)據(jù)中的深層次價值,并提供一種稀缺的附加服務(wù)。互聯(lián)網(wǎng)信息長期保存的可視化分析是對整個互聯(lián)網(wǎng)信息保存生命周期的全部數(shù)據(jù)進行全面、深入分析,既要從歸檔正文內(nèi)容及相關(guān)元數(shù)據(jù)進行挖掘以提供更好的數(shù)據(jù)索引、提取、推導服務(wù),也要從數(shù)字資源長期保存管理角度提供高效的評估、審計控制等方面的輔助分析服務(wù)。目前,互聯(lián)網(wǎng)信息保存的可視化分析研究仍處于起步階段,在多維數(shù)據(jù)關(guān)聯(lián)可視化分析、Post-WIMP交互技術(shù)應(yīng)用等方面的研究仍有待提高。

      (來稿時間:2017年8月)

      參考文獻:

      1.Jefferson Bailey.Who,what,when,where,why,WARC: new tools at the Internet Archive[C/OL].Web Arching Week in London 2017.[2017-08-25].http://netpreserve.org/wac2017/ abstracts/#_abstract60.

      2.Few,StephenS.Few.Eenie, meenie, minie, Moe: selecting the right graph for your message[J/OL].Intelligent Enterprise,2004,7:35-42.[2017-08-25].https://www.perceptualedge.com/articles/ie/the_right_graph.pdf.

      3.Card SK,Mackinlay JD, Shneiderman B.Readings in Information Visualization : Using Vision To think[J] .San Francisco:Morgan Kaufmann Publishers,1999,1-712.

      4.Prirolli P,Card SK.The sensemaking Process and leverage points for analyst technology as identified though cognitive task analysis[C] .In: Maybury M,ed.Proc .of the Int’1 Conf.on Intelligence Analysis .MacLean:MITRE,2005,1-6.

      5.James J.Thomas and Kristin A.Cook .Illuminating the Path:The R&D Agenda for Visual Analytics, National Visualization and Analytics Center[M].National Visualization and Analytics Center,2005.

      6.Jurik, B.,Zierau, E..‘Data management of web archive research data’, Researchers[C/OL].[2017-08-25].practitioners and their use of the archived web (London, 2017).DOI: 10.14296/resaw.0002.

      7.杰弗里·波梅蘭茨.元數(shù)據(jù):用數(shù)據(jù)的數(shù)據(jù)管理你的世界[M].中信出版集團,2017.

      8.魏大威,張煒.國家數(shù)字圖書館網(wǎng)絡(luò)資源保存和服務(wù)思考[J].圖書館理論與實踐,2016(9):38-46.

      9.Julien Masanés .Web Archiving[M/OL].[2017-08-25].https://link.springer.com/book/10.1007/978-3-540-46332-0.

      10.文化部.WH/Z 1-2012圖書館數(shù)字資源長期保存元數(shù)據(jù)規(guī)范[M].北京:國家圖書館出版社,2016.

      11.國家圖書館.國家圖書館數(shù)字資源對象管理規(guī)范[M].北京:國家圖書館出版社,2013.

      12.Heritrix[EB/OL].[2017-08-25].https://fliaping.gitbooks.io/create-your-vertical-search-engine-with-solr/content/crawl-webpage-by-using-heritrix.html.

      13.WARC[EB/OL].[2017-08-25].https://www.iso.org/standard/44717.html.

      14.WARC[EB/OL].[2017-08-25].https://iipc.github.io/warcspecifications/specifications/warcformat/warc-1.0/.

      15.WARC[EB/OL].[2017-08-25].http://commoncrawl.org/2014/04/navigating-the-warc-file-format/.

      16.任磊,杜一,馬帥,等.大數(shù)據(jù)可視化分析綜述[J].軟件學報,2014, 25(9):1909-1936.

      17.Rita Rana Chhikara, Prabha Sharma.A hybrid feature selection approach based on improved PSO and filter approaches for image steganalysis[J].International Journal of Machine Learning and Cybernetics, 2016, 12(7):1195-1206.

      18.SearchingTheArchive [EB/OL].[2017-08-25].https://wiki.digitalmethods.net/Dmi/Winter13-SearchingTheArchive.

      19.https://wiki.digitalmethods.net/Dmi/Winter13Searching TheArchive.

      20.Choi Y,Rasmussen E M.Users’ relevance criteria in image retrieval in.American history[J].Information Processing & Manageent,2002, 38(5):695-726.

      21.Link_analysis[EB/OL].[2017-08-25].https://en.wikipedia.org/wiki/Link_analysis.

      22.Big Data: Demonstrating the Value of the UK Web Domain Dataset for Social Science Research[EB/OL].[2017-08-25].https://www.oii.ox.ac.uk/research/projects/uk-web-domain-dataset-forsocial-science-research.

      23.OCLC Digital Archive Preservation Policy and Supporting Documentation [EB/OL].[2017-08-25].http://web.archive.org/web/20120307173539/http:/www.oclc.org/support/documentation/digitalarchive/preservationpolicy.pdf.

      24.Bolette Jurik, Eld Zierau.Data Management of Web Archive Research Data[EB/OL].[2017-08-25].https://archivedweb.blogs.sas.ac.uk/files/2017/06/RESAW2017-JurikZierau-Data_management_of_web_archive_research_data.pdf.

      25.Format Profile[EB/OL].[2017-08-25].http://www.webarchive.org.uk/ukwa/visualisation/ukwa.ds.2/fmt.

      26.GeoIndex[EB/OL].[2017-08-25].http://www.webarchive.org.uk/ukwa/visualisation/ukwa.ds.2/geo.

      猜你喜歡
      可視化圖像資源
      改進的LapSRN遙感圖像超分辨重建
      基于CiteSpace的足三里穴研究可視化分析
      基礎(chǔ)教育資源展示
      基于Power BI的油田注水運行動態(tài)分析與可視化展示
      云南化工(2021年8期)2021-12-21 06:37:54
      有趣的圖像詩
      一樣的資源,不一樣的收獲
      基于CGAL和OpenGL的海底地形三維可視化
      “融評”:黨媒評論的可視化創(chuàng)新
      傳媒評論(2019年4期)2019-07-13 05:49:14
      資源回收
      資源再生 歡迎訂閱
      資源再生(2017年3期)2017-06-01 12:20:59
      苏尼特右旗| 监利县| 沾化县| 勐海县| 车险| 额尔古纳市| 顺昌县| 广德县| 南漳县| 会理县| 和静县| 山丹县| 阿合奇县| 朝阳市| 西乌珠穆沁旗| 铅山县| 河间市| 永平县| 洛隆县| 梁平县| 新兴县| 宝丰县| 绥滨县| 阿合奇县| 衡山县| 盱眙县| 佛教| 贵港市| 宁波市| 花莲县| 昭通市| 郴州市| 中阳县| 固原市| 冷水江市| 砀山县| 江口县| 永康市| 绥江县| 鄯善县| 徐州市|