周雨濃
摘要:該文以數(shù)字檔案館為例,主要研究非結構化數(shù)據存儲,從其主要特點出發(fā),介紹了非結構化數(shù)據存儲的現(xiàn)狀,進而分析了海量非結構化數(shù)據的存儲與整合過程中的影響因素以及怎樣實現(xiàn)不同方式的整合,最后討論了如何對海量非結構化數(shù)據存儲進行有效管理,期望本文的研究能夠幫助人們進一步深入地了解海量非結構化數(shù)據存儲中的相關問題。
關鍵詞:非結構化數(shù)據;存儲問題;結構化數(shù)據;特點;現(xiàn)狀
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)04-0034-03
1 非結構化數(shù)據存儲以及管理的現(xiàn)狀
1.1非結構化數(shù)據存儲的特點
從存儲的角度出發(fā)進行相關的研究,其主要具有以下幾個特點:
第一,具有較大的存儲容量。在數(shù)字檔案館中,絕大多數(shù)的數(shù)字化媒體將會隨著存儲的不斷增多而隨之成長,在度量單位方面,存儲的信息也從以往的KB,MB,GB朝著TB,PB發(fā)展著,從數(shù)量的角度來說,存儲的規(guī)模正在空前發(fā)展著,這雖然標志著數(shù)據存儲領域發(fā)展的進一步加深,但也導致了諸多問題的出現(xiàn)。
第二,媒體具有較多的形式。在數(shù)字檔案館的館藏之中,主要包含著數(shù)字化的電子出版物、圖書、照片、互聯(lián)網的內容、圖紙以及科學與人文的相關資源數(shù)據,在存儲的媒介方面,也不僅僅限制以往的印刷體的范疇之內,其包含著諸多種類并不相同的媒體形式,例如聲音、影視等等,具有十分明顯的復雜性。
第三,增長速度較快。近些年來,檔案館的數(shù)字資源增長十分迅速,可以說是十分驚人的,在當前的數(shù)字檔案館之中,兩個具有較為明顯的重要性的增長方向與增長點便是數(shù)字檔案與全文數(shù)據庫,距離來說,當前在我國,絕大多數(shù)的企業(yè)便正在從以上兩方面展開相關的研究工作,這也將會使得數(shù)字館藏的增長變得十分迅猛。
1.2非結構化數(shù)據存儲的現(xiàn)狀
在當前市場企業(yè)的實際應用中對非結構化數(shù)據的存儲主要有以下的幾種方式:
第一種:在結構化數(shù)據庫的BLOB字段之中對數(shù)據進行直接存儲。
目前,對于絕大多數(shù)的企業(yè)之中,其在對非結構化數(shù)據進行保存時都是通過結構化數(shù)據庫之中的BLOB字段來進行的,例如報表與圖片等等,在該字段之中進行保存具有較為理想的應用效果,在進行管理與維護時較為簡單,且在對文件進行調用時能夠保證足夠的速度,其同其他的應用系統(tǒng)之間不存在著關聯(lián)性;但是,在不斷的應用中也已發(fā)現(xiàn),該方法也存在著一定的缺點。其一,對于非結構化數(shù)據來說,其文件的數(shù)據相對較大,并且,隨著運行時間的不斷增多,數(shù)據量必然也會不斷的呈現(xiàn)出增加的趨勢,這必然會在較短的時間內使得結構化數(shù)據庫出現(xiàn)極速的膨脹,隨著時間的增加,在運行的過程之中,數(shù)據庫的性能很難保證同最初時相同,下降是必然的,甚至可以說,整個應用系統(tǒng)都將會隨著時間的推移,數(shù)據量的增大而出現(xiàn)一定的下降,甚至會對整個應用系統(tǒng)的性能造成不良的影響;第二,在數(shù)據庫之中,系統(tǒng)與系統(tǒng)之間時相對于獨立與封閉的,相關的文檔資料無法同其他的應用之間共享。
第二種:通過FTP的方式在文件的服務器之中進行保存。
在實際中,以這一方式對非結構化數(shù)據應用進行保存的用戶相對較少,其中,網站以及數(shù)字檔案館較為典型。這種方式通過將文件上傳到遠程計算機上,然后其他用戶可以在其他主機上下載和查閱文件,從而實現(xiàn)文件或數(shù)據的共享。
第三種:在文件服務器之中以文件系統(tǒng)的方式直接進行存儲。
對于非結構化數(shù)據之中沒有應用系統(tǒng)的,例如開發(fā)的應用系統(tǒng)軟件、在信息管理部門之中經常應用的軟件與工具以及技術研究的資料等,通常情況下都會在文件服務器之中將文件直接存儲。
2 海量非結構化數(shù)據的存儲與整合
在對數(shù)字檔案館進行建設的過程之中可以發(fā)現(xiàn),在企業(yè)之中,每一個類別的業(yè)務系統(tǒng)都存在著一定的數(shù)字資源需要歸檔,然而當前的存儲系統(tǒng)中,各個業(yè)務系統(tǒng)之間并不存在關聯(lián)性,這就造成了存儲的困難,當前許多的企業(yè)都認識到了這一問題并積極地研究最佳的信息資源整合的途徑,并且,其中大多數(shù)的企業(yè)都選擇研究基于文件結構應用NAS或者SAN進行整合的方法。
2.1 數(shù)據整合的驅動因素
選擇對存儲系統(tǒng)進行整合,主要是為了對需要進行存儲的資源的數(shù)量進行減少,隨著企業(yè)應用的不斷部署與新型擴展需求的增加,文件服務系統(tǒng)的規(guī)模也不斷地增長,這也就會導致文件服務器的數(shù)量不斷增多,文件服務的環(huán)境更加龐大,然而對于系統(tǒng)數(shù)字資源的歸檔與管理,文件服務環(huán)境的復雜性是十分不利的,筆者在下文中將會對數(shù)據整合的驅動因素進行分析與論述。
1)降低了管理的成本
在企業(yè)管理中,完成對系統(tǒng)的整合這一操作,能夠使得這一企業(yè)之中IT管理工作人員的工作量得到明顯地減少,這主要是得益于存儲設備的減少從而減少了管理的工作量,然而,若是不對其進行有效的管理與整合,必然會導致系統(tǒng)隨著運行的增多與時間的推移而不斷地增長,系統(tǒng)則會隨著時間的不斷流逝累積起來十分巨量的文件服務器資源,而對于IT工作人員來說,對于這些資源的維護將會成為十分巨大的負擔。
2)經濟利益
對于企業(yè)本身來說,實現(xiàn)了存儲系統(tǒng)的整合將會十分明顯地提高企業(yè)的經濟利益,將許多的系統(tǒng)整合成為一個系統(tǒng)時,從而企業(yè)便能夠節(jié)省下十分客觀的磁盤空間與資金經費,也就是節(jié)省十分客觀的IT成本,這樣,企業(yè)就能夠有效地降低自身的運行成本,從而不斷地提高自身競爭力。并且,對于IT的管理人員來說,在相關數(shù)據管理問題的解決方面以及軟硬件更新上所耗費的時間方面也能夠得到節(jié)約和控制,進而提高了人力資源的利用率,提高了單位時間內的工作效率,進而能夠創(chuàng)造出更大的經濟效益。。
3)資產保護
對存儲系統(tǒng)的整合進行實現(xiàn),另外一個基本性的驅動因素便是需要更好地對企業(yè)的資產進行保護。對于數(shù)據來說,僅僅應用備份機制是否能夠獲得足夠的保護,是否擁有者合適的安全控制,若是對于以下的這些過程都能夠通過一個統(tǒng)一的系統(tǒng)進行控制與管理,便能夠極大地減少對系統(tǒng)的安全控制點以及需要進行備份的次數(shù),這樣,企業(yè)也能夠確認資產都得到十分完善的保護。
2.2 實現(xiàn)不同方式的整合
當前,能夠選擇許多的方式來對多個存儲系統(tǒng)進行整合。其一:企業(yè)將以往所應用的型號較小的存儲設備進行舍棄與淘汰,而后更換一個新型的,具有較大功率與先進技術的NAS設備,僅僅應用這一個存儲來負責整個企業(yè)的相關運行工作;其二:對虛擬數(shù)據中心這一技術進行應用,該技術的核心理念是將企業(yè)之中型號相對較小的存儲設備全部在中央存儲系統(tǒng)之中隱藏,或者,將其分布在各不相同的物理地點之中,這一方式將會使得所有的資源與設備都不會被舍棄而是被隱藏在不同的角落,然而,在進行管理時,卻可以僅僅針對一個數(shù)據界面,使得工作人員可以更加集中精力,大大地減少了工作量。
1)文件服務器的整合
對存儲系統(tǒng)進行整合的第一種類型主要是針對一些應用與對某一個特定的應用需求進行解決的單獨的文件服務器,在以往的基礎架構之上,隨著企業(yè)應用的不斷增加,將會有偶讀文件服務器在企業(yè)IT的環(huán)境之中獨立地進行部署,這也必然會導致企業(yè)的存儲系統(tǒng)出現(xiàn)十分明顯的膨脹,對于文件服務器來說,其主要的目的便是對相關的應用設施進行整合,使得能夠應用更小的機構來對系統(tǒng)進行控制,舉例來說,在企業(yè)之中,對一個小組或者說一個部分可以統(tǒng)一地集中起來,最為常見的處理方式是部署并安裝一個全功能的盒子或者與其相類似的設備,將許多文件的服務器進行結合并將其放置到一個統(tǒng)一的平臺之上。
2)非結構化數(shù)據的整合
隨著企業(yè)的不斷發(fā)展,其對于各方面的認識也將會不斷的加深,雖然企業(yè)有能力保證對當前的NAS系統(tǒng)進行更新,使其更加大型,在對系統(tǒng)的擴容性進行增強方面,能夠獲得十分理想的應用效果,并且,對于小型的、具有獨立性質的、在各處進行分布的存儲設備也能夠進行消除,然而,在實際的整合過程之中,仍然存在著成本過高以及整合的過程較為復雜這一問題,而這種通過虛擬數(shù)據中心管理的軟件也就是中央化整合默契能夠將分散著的文件服務器以及數(shù)據中心的存數(shù)設備進行整合,想要對分布在諸多地點的存儲設備進行統(tǒng)一的有效的管理,加擬一個非結構化的虛擬數(shù)據中心必然將會獲得十分理想的應用效果,并且,對于管理工作人員與客戶來說,還能夠提供出一個唯一的訪問路徑,隨著企業(yè)發(fā)展的不斷深入,很容易出現(xiàn)多個物理中心并存的情況,而在這一實際背景之下,該方案也會有更高的符合性。
2.3 其他的需要進行考慮的因素
完成對存儲系統(tǒng)的整合僅僅是最為關鍵的一個環(huán)節(jié),對此,企業(yè)不應放松,而是應對其他的一些因素進行考慮,這里的其他因素主要包括在管理過程之中可能出現(xiàn)的變化、對系統(tǒng)的安全控制以及數(shù)據的遷移等。
一般來說,實現(xiàn)了整合僅僅代表著安全有了保障,然而,這并不代表在以往發(fā)展與運行過程之中已經存在了的問題被解決,整合的實現(xiàn)與完成后,仍然需要設置相應的訪問的權限,對于一些較為復雜的安全過程的設置而言,在完成系統(tǒng)整合后,將會體現(xiàn)出較為明顯的優(yōu)勢,然而,不管怎樣,都必須要保證安全控制的存在。
將數(shù)據從文件服務器或者其他的NAS設備上遷移至中央平臺之后,較為理想的一種情況則是控制列表以及訪問權限的設置等一系列以往設置過的內容也能夠跟隨數(shù)據一同遷移到中央平臺之上,避免再次對相關的內容進行設計,既節(jié)省了時間,也節(jié)省了人力物力,具有十分重要的意義。因此,在實際的整合之中,其中十分需要考慮且具有著重要地位的一點便是如何在對數(shù)據進行遷移的同時對訪問控制以及安全控制等類型的信息進行一同遷移,減少工作量,提高遷移的效率。
數(shù)據操作流程會存在著一定的變化。在對計劃實現(xiàn)進行整合的過程之中,若是可能,可以對企業(yè)當前的管理模式與數(shù)據操作進行改變,在不斷地探索之中對當前整合系統(tǒng)之中所存在著的優(yōu)點進行發(fā)掘,最終獲得一個相對較為理想的操作流程,提高數(shù)據的實際可用性與數(shù)據按操作的流程。
在對整合計劃進行制定時,最為關鍵的一點便是一定要立足于未來,需要耗費大量的時間來對存儲系統(tǒng)的承載力進行評估,評估其實際的應用能力與發(fā)展的能力,想要保證整合計劃能夠如期理想地進行,一個十分重要的因素則是企業(yè)是否在計劃開戰(zhàn)前進行過較為細致的計算,包括是否應該整合到一個設備之上,其是否具有必要的擴展能力等等。
3 海量非結構化數(shù)據存儲的管理
可以說,雖然在當前應用非結構化數(shù)據的存儲這一技術能夠滿足存留與歸檔的要求,然而,其卻很難滿足電子發(fā)現(xiàn)所提出的相關需求,隨著搜索技術的不斷深入發(fā)展,其在文件搜索方面的功能也變得十分完善,能夠很好地對電子發(fā)現(xiàn)所提出的相關需求進行滿足,然而,其并不能夠對數(shù)據組織以及管理的功能進行提供,對于長期留存需求這一功能也無法進行滿足,這一問題主要是由數(shù)據存儲技術以及數(shù)據管理技術這兩方面在進行研究與設計的過程之中是分別進行的,具有十分明顯的隔離性,因此,導致了這一情況的出現(xiàn),從實際的角度來說,這一問題同用戶的需求是相違背的。
并且,在檔案系統(tǒng)之中的非結構化數(shù)據本身屬于企業(yè)的數(shù)字資產,也是企業(yè)的憑證庫與知識庫,然而,想要對以上的作用進行較好的發(fā)揮,不僅應對以上的問題進行解決,還需要對非結構化數(shù)據真實保證以及知識發(fā)現(xiàn)等問題進行解決。
對網絡存儲架構的研究:由于文件與網絡層從無法同時對數(shù)據共享以及高性能兩個需求進行同時滿足,因此,對象存儲的概念也因此而出現(xiàn),對象存儲能夠有效地對文件系統(tǒng)與塊的優(yōu)點進行結合,并通過元數(shù)據一數(shù)據進行簡化與分離的管理,對磁盤進行直接訪問,從而對性能進行提高,以此來同時滿足數(shù)據共享與高性能兩種要求,在開發(fā)與研究的過程中,有兩個分支引起了企業(yè)界與學術界的重點關注,其中一個是智能存儲,另一個分支則是基于內容的存儲,例如內容尋址存儲(Content Addressab1e Storage, CAS)。
在傳統(tǒng)的文件系統(tǒng)與網絡存儲系統(tǒng)之中,主要是對二進制流文件進行存儲,對于非結構化數(shù)據所建立的更加豐富的數(shù)據模型則予以禁止,因此,在傳統(tǒng)的文件系統(tǒng)之中,想要對自身所需要的內容進行尋找是十分困難的,用戶所面臨的困難也從以往的數(shù)據存儲轉變?yōu)楫斍暗臄?shù)據管理。對于存儲系統(tǒng)來說,一個亟需解決的問題便是有效地幫助用戶找到其所需要的信息。
非結構化數(shù)據的數(shù)量十分龐大,想要保證對用戶存儲的目標進行搜索時能夠具有理想的高效性,當前企業(yè)與學術領域主要通過文件搜索技術以及網絡存儲架構這兩個角度進行分析與探索,并展開相應的研究。
4 發(fā)展與展望
綜上所述,想要對數(shù)字檔案館進行建設,首先需要通過各個渠道對數(shù)字資源進行收集,這也就是當前所研究的非結構化數(shù)據的留存與歸檔的問題,然而在實際之中,需要解決的并不僅僅是以上兩個問題,更需要對真實保證以及只是發(fā)現(xiàn)等諸多的問題進行解決。
對于以上的兩個問題,在當前的產業(yè)界與學術界之中均有著一定的研究,作為當前存儲行業(yè)之中主要的發(fā)展趨勢,筆者在內容存儲的相關內容進行介紹時,應用了更多的筆墨,主要包括對于對象的存儲以及內容的管理等等,例如對內容進行檢索、對數(shù)據進行分類、對信息進行發(fā)表等等,可以說,在內容存儲之中應用文件搜索技術以及語義文件系統(tǒng)技術,特別是對信息存儲之中的核心技術同語義文件系統(tǒng)進行融合,必然能夠獲得十分理想的效果,得到更加理想的應用,筆者認為,在日后的研究中,也必然會以這一問題作為研究的主方向,提高研究的質量。
參考文獻:
[1] 黃恒君,漆威.海量半結構化數(shù)據采集、存儲及分析——基于實時空氣質量數(shù)據處理的實踐[J].統(tǒng)計研究,2014(5):10-16.
[2] 景民,胡曉峰,吳琳,等. 面向態(tài)勢回放的兩種海量數(shù)據采集存儲結構分析[J].系統(tǒng)仿真學報,2012(5):989-993.
[3] 李國杰,程學旗.人數(shù)據研究:未來科技及經濟社會發(fā)展的重人戰(zhàn)略領域—人數(shù)據的研究現(xiàn)狀與科學思考[J].中國科學院院刊,2012,27(6):647-657.
[4] 葛文斌,王軍鵬,賈樂鵬,等.聯(lián)合作戰(zhàn)模擬系統(tǒng)中事后分析系統(tǒng)軍事需求分析[J].裝備指揮技術學院學報,2009,20(5):1673-0127.
[5] 張志偉,劉登第,蔡建宇,等.基于HLA 的數(shù)據采集與重放模型[J].計算機工程,2010,36(5):255-256,259.