• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于分布式NoSQL數(shù)據(jù)庫的檔案大數(shù)據(jù)存儲(chǔ)與檢索方案研究

      2019-05-16 08:22:10
      關(guān)鍵詞:分片結(jié)構(gòu)化集群

      施 曉 峰

      (浦東新區(qū)檔案局 上海 200135)

      0 引 言

      隨著檔案館資源體系建設(shè)步伐不斷加快及檔案信息化建設(shè)的不斷深入,數(shù)字檔案資源的種類和容量都在快速增長,呈現(xiàn)出海量、多類型與高價(jià)值的大數(shù)據(jù)特征。新技術(shù)的發(fā)展給檔案大數(shù)據(jù)的管理帶來了新的機(jī)遇和挑戰(zhàn)。如何更好地收集、保管和利用檔案信息,是一個(gè)值得認(rèn)真思考的課題[1]。

      相對(duì)于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,分布式NoSQL數(shù)據(jù)庫性能高、成本低、更靈活,結(jié)合分布式系統(tǒng)抗單點(diǎn)故障能力和 NoSQL 的天然水平伸縮性特點(diǎn),能夠從容應(yīng)對(duì)海量數(shù)據(jù)的挑戰(zhàn)[2]。

      本文通過分析傳統(tǒng)檔案數(shù)據(jù)管理中存在的問題,以分布式NoSQL數(shù)據(jù)庫為基礎(chǔ),制定了可行的檔案大數(shù)據(jù)存儲(chǔ)與檢索方案,并采用業(yè)界當(dāng)前的主流技術(shù),開發(fā)了原型系統(tǒng)進(jìn)行驗(yàn)證。

      1 檔案大數(shù)據(jù)的特征

      在當(dāng)前高度信息化的社會(huì)環(huán)境下,包括檔案行業(yè)在內(nèi)的各個(gè)領(lǐng)域都在業(yè)務(wù)工作中都積累了海量的電子數(shù)據(jù)。

      這些數(shù)據(jù)主要分為三種:第一種是結(jié)構(gòu)化數(shù)據(jù),可以用二維關(guān)系表結(jié)構(gòu)表示,一般存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中;第二種是半結(jié)構(gòu)化數(shù)據(jù),例如XML、JSON;第三種是非結(jié)構(gòu)化數(shù)據(jù),包括各種格式的電子文件(TXT、Word、PDF)、圖片、音頻、視頻等。隨著社會(huì)信息技術(shù)的發(fā)展,檔案館接收的數(shù)據(jù)內(nèi)容也在發(fā)生著變化,半結(jié)構(gòu)和非結(jié)構(gòu)化的數(shù)據(jù)越來越多,各類電子文件、多媒體文件正在成為館藏的重要來源。

      通過分析檔案館的數(shù)據(jù)資源,我們發(fā)現(xiàn)檔案大數(shù)據(jù)具有以下幾個(gè)特征:

      (1) 格式多樣。既有紙質(zhì)檔案的數(shù)字化副本、接收進(jìn)館的電子文件、檔案著錄信息、OCR的成果文本、聲像資料,也有用戶信息、利用記錄、架體位置等各種業(yè)務(wù)數(shù)據(jù)。

      (2) 結(jié)構(gòu)復(fù)雜。檔案目錄數(shù)據(jù)同時(shí)具有結(jié)構(gòu)化和半結(jié)構(gòu)化的特征,每條記錄包含幾十個(gè)字段,有一部分是共用的字段,其他字段則隨著檔案類型的不同而變化。

      (3) 規(guī)模龐大。無論是目錄數(shù)據(jù)還是電子文件的數(shù)量,都可達(dá)到千萬級(jí)以上,容量可達(dá)幾十TB。

      此外,在實(shí)際業(yè)務(wù)工作中,檔案館的數(shù)據(jù)還具有以下特性:

      (1) 數(shù)據(jù)大批量集中寫入多,一旦導(dǎo)入,很少發(fā)生更改操作。

      (2) 數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系較少。

      (3) 需要支持多種查詢方式,要有很好的查詢性能,但實(shí)時(shí)性和并發(fā)訪問要求不高。

      (4) 隨著檔案類別的不斷增多,要求數(shù)據(jù)庫具有很好的可擴(kuò)展性。

      2 檔案數(shù)據(jù)管理現(xiàn)狀及問題

      2.1 結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式

      檔案的結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)一般是指檔案的元數(shù)據(jù)。檔案元數(shù)據(jù)是一組用來描述數(shù)字檔案內(nèi)容與其他特性的元素集,包括傳統(tǒng)的檔案著錄要素,例如檔號(hào)、題名、責(zé)任者等,也包括文件的產(chǎn)生背景、形成過程、結(jié)構(gòu)格式等,是組織與管理數(shù)字檔案資源的基礎(chǔ)數(shù)據(jù)。

      關(guān)系型數(shù)據(jù)庫具有很強(qiáng)的安全性、良好的數(shù)學(xué)基礎(chǔ)支撐,在許多需要保證事務(wù)一致性的行業(yè),如電信、銀行等的關(guān)鍵業(yè)務(wù)系統(tǒng)中應(yīng)用廣泛。當(dāng)前,采用成熟的關(guān)系型數(shù)據(jù)庫,集中存儲(chǔ)和管理檔案元數(shù)據(jù)是業(yè)界的主流模式。

      但是隨著社會(huì)的發(fā)展,檔案的門類不斷擴(kuò)展,各門類檔案既有統(tǒng)一的管理要求,又有各自個(gè)性化的需求,檔案元數(shù)據(jù)也在不斷地更新與變化,半結(jié)構(gòu)化的趨勢愈加明顯。

      關(guān)系數(shù)據(jù)庫的模型不靈活、橫向擴(kuò)展能力較差,使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫進(jìn)行檔案檢索正面臨越來越嚴(yán)峻的挑戰(zhàn),檢索速度慢、結(jié)果質(zhì)量低[3],已經(jīng)難以滿足數(shù)據(jù)快速增長帶來的更新和查詢需求了。

      2.2 非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)模式

      檔案的非結(jié)構(gòu)化數(shù)據(jù)主要包括紙質(zhì)檔案的數(shù)字化副本、電子文件歸檔形成的電子檔案、照片、音視頻等。目前,檔案的非結(jié)構(gòu)化數(shù)據(jù)主要采取以下兩種存儲(chǔ)方式:

      (1) 直接將非結(jié)構(gòu)化數(shù)據(jù)以二進(jìn)制大對(duì)象(BLOB)的形式存儲(chǔ)在關(guān)系型數(shù)據(jù)庫中。采用這種方式的優(yōu)勢在于可以依靠數(shù)據(jù)庫自身來保障數(shù)據(jù)的安全性、事務(wù)的一致性等。但其劣勢在于,用關(guān)系型數(shù)據(jù)庫存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)時(shí),不斷增加的文件數(shù)量會(huì)導(dǎo)致數(shù)據(jù)庫的體積不斷增大,讀寫性能持續(xù)下降。在進(jìn)行數(shù)據(jù)庫備份和還原時(shí),速度也會(huì)變得非常緩慢。

      (2) 將非結(jié)構(gòu)化數(shù)據(jù)通過文件系統(tǒng)直接存儲(chǔ)在文件服務(wù)器中。數(shù)據(jù)文件按一定規(guī)則存放于服務(wù)器的指定目錄下,需要訪問數(shù)據(jù)時(shí),應(yīng)用系統(tǒng)通過保存在關(guān)系型數(shù)據(jù)庫中的存儲(chǔ)路徑讀取服務(wù)器上的文件。這種模式的可擴(kuò)展性較差,不支持?jǐn)?shù)據(jù)復(fù)制,不具備負(fù)載均衡等特性,文件高并發(fā)訪問性能不理想[4],容易出現(xiàn)系統(tǒng)瓶頸。隨著檔案數(shù)字資源量劇增、業(yè)務(wù)需求激增,傳統(tǒng)文件系統(tǒng)提供的數(shù)據(jù)存儲(chǔ)能力和性能已經(jīng)不能滿足應(yīng)用的需要,也無法更好地解決海量小文件的索引、查找、統(tǒng)計(jì)、備份等一系列問題。

      3 相關(guān)技術(shù)

      3.1 MongoDB

      NoSQL(Not Only SQL)是對(duì)非傳統(tǒng)關(guān)系型數(shù)據(jù)庫的統(tǒng)稱,具有快速讀寫、動(dòng)態(tài)伸縮、模式靈活、高可靠低成本等特點(diǎn)。主要可以分為以下5類:(1) 鍵值(Key-value)數(shù)據(jù)庫,例如Dynamo、Redis;(2) 面向文檔(Document)數(shù)據(jù)庫,例如MongoDB、CouchDB;(3) 面向列(Column)數(shù)據(jù)庫,例如BigTabe、HBase;(4) 圖形(Graph)數(shù)據(jù)庫,例如AllegroGraph、Neo4j;(5) 多模型(Multi-model)數(shù)據(jù)庫,例如ArangoDB、OrientDB。

      MongoDB是一款面向文檔的分布式NoSQL數(shù)據(jù)庫,功能十分豐富,易部署、易使用,并且保留了很多關(guān)系型數(shù)據(jù)庫的特性。MongoDB使用BSON作為數(shù)據(jù)存儲(chǔ)和傳輸?shù)母袷?,支持?nèi)嵌的文檔對(duì)象和數(shù)組對(duì)象,僅用一條記錄就能表示復(fù)雜的層次關(guān)系,十分靈活[5]。MongoDB支持集群部署、數(shù)據(jù)分片,具有高性能、可擴(kuò)展的特點(diǎn)。

      3.2 FastDFS

      FastDFS是一款開源的分布式文件系統(tǒng),用C語言編寫,支持Linux、FreeBSD、AIX等UNIX系統(tǒng)[6],提供文件的存儲(chǔ)、同步、訪問等管理功能,已在包括淘寶、京東、迅雷等眾多國內(nèi)互聯(lián)網(wǎng)公司中得到廣泛應(yīng)用。主要包括以下特性:

      (1) 能夠在不中斷服務(wù)的情況下實(shí)現(xiàn)存儲(chǔ)的線性擴(kuò)展。

      (2) 提供負(fù)載均衡,對(duì)文件的訪問可以分散到多個(gè)服務(wù)節(jié)點(diǎn)上。

      (3) 避免單點(diǎn)故障,系統(tǒng)中的所有角色都可以采用集群部署,實(shí)現(xiàn)冗余。

      (4) 文件不分塊,直接存儲(chǔ)在文件系統(tǒng)中,不會(huì)加重服務(wù)器的工作量,適合小文件存儲(chǔ)。

      FastDFS較好地解決了海量數(shù)據(jù)冗余備份、負(fù)載均衡、線性擴(kuò)容等問題,部署硬件成本低,非常適合用于管理4 KB至500 MB之間的中小型文件,與檔案館需要存儲(chǔ)海量電子文件的使用場景十分吻合。

      3.3 Elasticsearch

      檢索服務(wù)是檔案數(shù)據(jù)管理與利用的核心。傳統(tǒng)集中式的檢索方式資源覆蓋面較窄, 資源更新和維護(hù)比較困難,檢索速度也比較緩慢[7]。

      Elasticsearch(以下簡稱ES)是一個(gè)開源的、分布式搜索分析引擎,基于Java開發(fā)并使用Lucene作為其核心來實(shí)現(xiàn)索引和搜索的功能,具有近實(shí)時(shí)、高性能、高可用和易擴(kuò)展等優(yōu)點(diǎn)。

      ES能夠在很短的時(shí)間內(nèi)完成數(shù)據(jù)索引,提供近乎實(shí)時(shí)的搜索體驗(yàn);同時(shí),ES可以把一個(gè)完整的索引進(jìn)行分片(Shards)存儲(chǔ),均勻分配到各個(gè)服務(wù)節(jié)點(diǎn)上,并對(duì)索引和搜索做負(fù)載均衡; ES還可以設(shè)置多個(gè)索引副本(Replicas),防止硬件故障造成的數(shù)據(jù)丟失;此外,ES很容易進(jìn)行橫向擴(kuò)展,新增的服務(wù)節(jié)點(diǎn)能夠自動(dòng)地加入集群而無需人工干預(yù)。

      目前,很多互聯(lián)網(wǎng)公司都使用ES來搭建自己的搜索系統(tǒng)。比如Github(代碼管理網(wǎng)站)使用 ES對(duì)1 300億行代碼進(jìn)行查詢;Wikipedia(維基百科)使用 ES提供帶有高亮片段的全文搜索[8];百度目前也廣泛使用ES作為文本數(shù)據(jù)分析,采集服務(wù)器上的各類指標(biāo)數(shù)據(jù)及用戶自定義數(shù)據(jù),并進(jìn)行多維分析展示,給業(yè)務(wù)工作提供輔助決策。

      4 方案設(shè)計(jì)與實(shí)現(xiàn)

      4.1 總體框架

      本方案總體框架底層采用了虛擬化資源池,以提高資源利用效率,實(shí)現(xiàn)硬件資源的動(dòng)態(tài)分配、靈活調(diào)度,特別適合分布式系統(tǒng)的部署與應(yīng)用。數(shù)據(jù)服務(wù)層采用MongoDB保存結(jié)構(gòu)化與半結(jié)構(gòu)化的檔案數(shù)據(jù),用FastDFS存儲(chǔ)電子文件,用ES實(shí)現(xiàn)內(nèi)容索引與檢索,所有服務(wù)均采用集群模式部署,實(shí)現(xiàn)整體功能的負(fù)載均衡與故障轉(zhuǎn)移。在通用接口層,通過構(gòu)建對(duì)外統(tǒng)一的數(shù)據(jù)訪問與查詢接口,簡化上層應(yīng)用與數(shù)據(jù)服務(wù)層之間的交互流程,如圖1所示。

      圖1 總體框架設(shè)計(jì)

      4.2 集群構(gòu)架

      4.2.1MongoDB集群

      MongoDB的集群一般有主從,副本集和分片三種模式,本文采用了分片集群(Sharded Cluster)的方式,如圖2所示。MongoDB可以通過自動(dòng)將數(shù)據(jù)分散存儲(chǔ)到不同機(jī)器上來實(shí)現(xiàn)數(shù)據(jù)庫的水平擴(kuò)展,這樣只需要增加普通服務(wù)器就可以提高數(shù)據(jù)庫的存儲(chǔ)空間與負(fù)載性能。

      圖2 MongoDB 集群構(gòu)架

      這種方式主要包括三種角色:Shard、Mongos與Config Server。

      Shard:數(shù)據(jù)分片,每個(gè)分片根據(jù)規(guī)則保存完整數(shù)據(jù)中的一部分,通常采用副本集(Replica Set)的方式部署以保證安全。本研究采用三成員副本集,每個(gè)分片包含一個(gè)主數(shù)據(jù)節(jié)點(diǎn)(Primary)和兩個(gè)備份節(jié)點(diǎn)(Secondary)。主節(jié)點(diǎn)負(fù)責(zé)數(shù)據(jù)寫入,兩個(gè)備份節(jié)點(diǎn)與主節(jié)點(diǎn)保持?jǐn)?shù)據(jù)同步,當(dāng)主節(jié)點(diǎn)發(fā)生故障時(shí),其中一個(gè)備份節(jié)點(diǎn)會(huì)升級(jí)成主節(jié)點(diǎn)。

      Mongos:路由服務(wù),只負(fù)責(zé)把客戶端的數(shù)據(jù)請(qǐng)求轉(zhuǎn)發(fā)到對(duì)應(yīng)的數(shù)據(jù)分片上,然后把結(jié)果返回到客戶端,本身不存儲(chǔ)數(shù)據(jù)。Mongos可以配置多個(gè)節(jié)點(diǎn)以實(shí)現(xiàn)冗余。

      Config Server:配置服務(wù)器,存儲(chǔ)分片集群的元數(shù)據(jù)與配置信息,通常也采用兩副本部署。

      Mongos啟動(dòng)時(shí)從Config Server上獲取基本信息,在接受到客戶端的請(qǐng)求時(shí),路由到分片(Shard)服務(wù)器上,然后將返回的數(shù)據(jù)結(jié)果發(fā)回給客戶端。

      4.2.2FastDFS集群

      與其他分布式文件系統(tǒng)相比,F(xiàn)astDFS的構(gòu)架更加簡潔,只有Tracker Server和Storage Server兩種角色。Tracker Server主要負(fù)責(zé)負(fù)載均衡和任務(wù)調(diào)度,Storage Server則負(fù)責(zé)文件數(shù)據(jù)的存儲(chǔ)。

      本方案中,存儲(chǔ)服務(wù)集群采用了兩個(gè)組(Group1和Group2),每個(gè)組配置了三臺(tái)Storage Server,每個(gè)Server上的數(shù)據(jù)完全一致,互為冗余。集群可以通過添加組來實(shí)現(xiàn)存儲(chǔ)空間的線性擴(kuò)展,如圖3所示。

      圖3 FastDFS集群構(gòu)架

      跟蹤服務(wù)集群配置了三臺(tái)Tracker Server同時(shí)提供服務(wù),Server之間的關(guān)系相互平等,負(fù)載均衡,不存在單點(diǎn)故障。

      客戶端在需要時(shí)向Tracker Server發(fā)出請(qǐng)求,獲取到可用的Storage Server地址后,直接與之通信,完成文件的上傳和下載。

      此外,在每個(gè)Storage Server上還部署了Nginx,解決組內(nèi)Storage Server同步延遲導(dǎo)致文件暫時(shí)無法訪問的問題,同時(shí)提供HTTP訪問服務(wù)。

      4.2.3Elasticsearch集群

      在ES 5中,集群的節(jié)點(diǎn)(Node)一般有三種角色:Master、Data和Ingest。

      Master:主節(jié)點(diǎn),主要用于維護(hù)集群狀態(tài)和配置集群,比如索引的創(chuàng)建與刪除、分片的分配等。

      Data:數(shù)據(jù)節(jié)點(diǎn),保存包含索引的數(shù)據(jù)分片,負(fù)責(zé)與數(shù)據(jù)、搜索與聚合相關(guān)的操作,這些操作對(duì)CPU、內(nèi)存和 I/O 資源的消耗較大。

      Ingest:轉(zhuǎn)換節(jié)點(diǎn),執(zhí)行常見的數(shù)據(jù)轉(zhuǎn)換和預(yù)處理,如果不需要?jiǎng)t無需配置。

      默認(rèn)情況下,一個(gè)節(jié)點(diǎn)可以同時(shí)擔(dān)任Master和Data兩種角色,但為了保證集群的可伸縮性,建議不同的類型節(jié)點(diǎn)分開部署。本文采用的集群配置如圖4所示。

      圖4 Elasticsearch集群構(gòu)架

      設(shè)置三個(gè)主節(jié)點(diǎn)(Master-only),負(fù)責(zé)統(tǒng)籌集群層面的事務(wù),維護(hù)數(shù)據(jù)節(jié)點(diǎn)的索引和分片。另外規(guī)劃三節(jié)點(diǎn)的數(shù)據(jù)集群(Data-only),專注于索引數(shù)據(jù)的存儲(chǔ)和面向客戶端的檢索服務(wù)。同時(shí),將索引數(shù)據(jù)分為3個(gè)片,每個(gè)分片各有2個(gè)副本分片作為備份。整個(gè)集群實(shí)現(xiàn)了負(fù)載均衡以及數(shù)據(jù)冗余,避免了單點(diǎn)故障。

      4.3 數(shù)據(jù)模型設(shè)計(jì)

      在MongoDB中,設(shè)計(jì)數(shù)據(jù)模型的關(guān)鍵應(yīng)圍繞文檔的結(jié)構(gòu)和應(yīng)用程序如何表示數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。MongoDB中有兩種方式來表示這些關(guān)系:嵌入式文檔和引用。

      以檔案中最常見的數(shù)據(jù)對(duì)象——案卷目錄與卷內(nèi)目錄(按件歸檔時(shí)則為歸檔文件目錄與件內(nèi)文件目錄)為例,兩者為“1”對(duì)“N”的關(guān)系。案卷目錄和卷內(nèi)目錄都可以單獨(dú)進(jìn)行查詢、更新等操作。綜合考慮,這里采用了父引用方式建模。

      將案卷目錄存放在集合Archives中, 每一條案卷目錄作為一個(gè)MongoDB文檔。一條案卷目錄的文檔如下:

      {

      ″_id″:ObjectId(″59f470a3e95db40408000029″),

      ″acode″:″6.D4.7.2004-006331″,

      ″archivesname″:″XXX房地產(chǎn)檔案(產(chǎn)權(quán))″,

      ″gatherunit″:″上海市房屋土地資源管理局(浦東新區(qū))″,

      ″gatherdate″:″2004/11/11″,

      ″savetimeout″:″永久″,

      ″papernumber″:″17″,

      ″drawnumber″:″6″,

      ″receiveno″:″200425138XXXX″,

      ″certificationno″:″浦2004122XXX″,

      ″owner″:″鄧XX″,

      ″idno″:″35010254080XXXX″,

      ″houseplace″:″德平路24弄2X號(hào)6XX室″,

      ″buildarea″:″49.21″

      }

      將卷內(nèi)目錄存放在集合Archives_File中,每一條卷內(nèi)目錄作為一個(gè)MongoDB文檔。卷內(nèi)目錄文檔中保存案卷目錄文檔的acode引用,便于關(guān)聯(lián)查詢。一條卷內(nèi)目錄文檔如下:

      {

      ″_id″:ObjectId(″59f3de27e95db46408000029″),

      ″acode″:″6.D4.7.2004-006331″,//案卷級(jí)文檔的引用

      ″sequenceid″:″2″,

      ″filecode″:″″,

      ″person″:″″,

      ″title″:″封面目錄備考表″,

      ″datevalue″:″2003/11/5″,

      ″pageno″:″4″,

      ″pagecount″:″3″,

      ″remark″:″″,

      ″filename″:″6.D4.7.2004-006331_4.tif″,

      ″filepath″:″group2/M00/00/89/eQ6h3FKfPRl8p4AUz4wO8tqaA688.tif″ //對(duì)應(yīng)電子文件在FastDFS中的索引(FID)

      }

      卷內(nèi)目錄對(duì)應(yīng)的電子文件保存在FastDFS文件系統(tǒng)中,文件索引(FID)由組名、虛擬磁盤路徑、數(shù)據(jù)兩級(jí)目錄和文件名組成。

      4.4 存儲(chǔ)與檢索流程的實(shí)現(xiàn)

      4.4.1數(shù)據(jù)存儲(chǔ)流程

      結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù)按照預(yù)先定義的數(shù)據(jù)模型,通過程序接口保存到MongoDB中。

      文件對(duì)象通過程序接口直接上傳到FastDFS,服務(wù)器會(huì)將文件的索引(FID)返回給客戶端,客戶端再將FID寫入MongoDB對(duì)應(yīng)的記錄中,用于以后該文件的訪問。

      最后,通過mongo-connector將MongoDB中的數(shù)據(jù)自動(dòng)同步到ES中,同步過程中elastic2_doc_manager負(fù)責(zé)將數(shù)據(jù)寫入到ES,如圖5所示。

      圖5 數(shù)據(jù)存儲(chǔ)流程

      4.4.2數(shù)據(jù)檢索流程

      用戶通過客戶端向ES發(fā)起查詢請(qǐng)求,ES返回摘要結(jié)果,需要查看詳細(xì)結(jié)果時(shí),通過摘要記錄的ID查找MongoDB數(shù)據(jù)庫,返回詳細(xì)記錄。

      需要訪問對(duì)應(yīng)的文件時(shí),根據(jù)記錄中保存的文件索引(FID)向FastDFS發(fā)起請(qǐng)求,F(xiàn)astDFS通過解析FID,定位到文件所在的存儲(chǔ)服務(wù)器組與磁盤目錄,并根據(jù)文件名找到相應(yīng)的文件,最后將文件下載到客戶端,如圖6所示。

      圖6 數(shù)據(jù)檢索流程

      4.5 原型系統(tǒng)搭建

      原型系統(tǒng)采用虛擬化平臺(tái)進(jìn)行搭建,由于實(shí)驗(yàn)條件限制,使用了2臺(tái)PC服務(wù)器機(jī),采用簡化設(shè)置,共7個(gè)節(jié)點(diǎn),配置情況如表1所示。

      表1 服務(wù)器角色配置表

      系統(tǒng)采用PHP進(jìn)行開發(fā)。MongoDB對(duì)PHP支持良好,尤其是高并發(fā)和schema-free(自由結(jié)構(gòu))特性,使PHP開發(fā)變得更加靈活和高效。

      系統(tǒng)主要包括三個(gè)功能,如圖7所示。

      圖7 系統(tǒng)主界面

      (1) 數(shù)據(jù)導(dǎo)入。支持Access數(shù)據(jù)文件與TIFF圖像的導(dǎo)入,一次可以導(dǎo)入幾萬或者十幾萬條,容量達(dá)到幾GB甚至幾十GB。

      (2) 數(shù)據(jù)查詢。可以針對(duì)需要的字段進(jìn)行模糊檢索并顯示結(jié)果列表,如圖8所示。

      圖8 數(shù)據(jù)查詢功能

      (3) 數(shù)據(jù)管理??梢圆榭匆褜?dǎo)入的數(shù)據(jù)情況并進(jìn)行簡單管理。

      通過一段時(shí)間的測試,原型系統(tǒng)運(yùn)行穩(wěn)定,大批量數(shù)據(jù)的寫入與檢索性能優(yōu)良,達(dá)到了文本的研究目的。

      5 結(jié) 語

      本文首先分析了檔案大數(shù)據(jù)的特征與存儲(chǔ)現(xiàn)狀,然后通過對(duì)相關(guān)技術(shù)的比較和研究,設(shè)計(jì)了一套基于分布式NoSQL數(shù)據(jù)庫的檔案大數(shù)據(jù)存儲(chǔ)方案,并開發(fā)了原型系統(tǒng)進(jìn)行驗(yàn)證。

      此方案的系統(tǒng)構(gòu)建成本低、性能強(qiáng),同時(shí)具有良好的可靠性和可擴(kuò)展性,適合作為智慧檔案館大數(shù)據(jù)管理的基礎(chǔ)平臺(tái),為各類檔案信息化應(yīng)用提供通用、開放的數(shù)據(jù)存儲(chǔ)與檢索服務(wù),也為今后模式識(shí)別、自然語言理解、應(yīng)用知識(shí)庫、可視化展示等大數(shù)據(jù)技術(shù)在智慧檔案中的應(yīng)用提供有力保障。

      猜你喜歡
      分片結(jié)構(gòu)化集群
      上下分片與詞的時(shí)空佈局
      詞學(xué)(2022年1期)2022-10-27 08:06:12
      促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
      分片光滑邊值問題的再生核方法
      CDN存量MP4視頻播放優(yōu)化方法
      結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
      海上小型無人機(jī)集群的反制裝備需求與應(yīng)對(duì)之策研究
      基于模糊二分查找的幀分片算法設(shè)計(jì)與實(shí)現(xiàn)
      一種無人機(jī)集群發(fā)射回收裝置的控制系統(tǒng)設(shè)計(jì)
      電子制作(2018年11期)2018-08-04 03:25:40
      Python與Spark集群在收費(fèi)數(shù)據(jù)分析中的應(yīng)用
      勤快又呆萌的集群機(jī)器人
      广宗县| 景洪市| 霍山县| 铅山县| 贞丰县| 微博| 潞城市| 通许县| 城口县| 兴海县| 阿拉尔市| 大兴区| 视频| 日喀则市| 河北省| 南涧| 若羌县| 留坝县| 商南县| 岑巩县| 东城区| 平武县| 东平县| 乌拉特后旗| 白城市| 新闻| 永川市| 耒阳市| 龙岩市| 三江| 瓦房店市| 苍南县| 新郑市| 黄梅县| 黑河市| 沙坪坝区| 峨眉山市| 武汉市| 朝阳县| 石柱| 平凉市|