• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云平臺(tái)的民族民間文化資源的存儲(chǔ)研究

      2019-03-25 08:34:50劉云玉劉彥
      科技視界 2019年1期

      劉云玉 劉彥

      【摘 要】隨著我國科學(xué)技術(shù)的不斷進(jìn)步,各種先進(jìn)的計(jì)算機(jī)技術(shù)廣泛應(yīng)用于各個(gè)領(lǐng)域,給人民的工作生活帶來極大的方便,推動(dòng)了社會(huì)的不斷進(jìn)步。如今對(duì)民族民間文化資源越來越重視,將先進(jìn)的技術(shù)應(yīng)用于其存儲(chǔ)之中,對(duì)其存儲(chǔ)具有十分重要的意義。本文基于Hadoop平臺(tái)以及民族民間文化資源的特點(diǎn),對(duì)于HDFS的數(shù)據(jù)復(fù)制以及其健壯性進(jìn)行了分析,總結(jié)了其存儲(chǔ)過程中存在的一些問題,并針對(duì)這些問題提出了一些合理的解決措施。

      【關(guān)鍵詞】Hadoop平臺(tái);民族民間文化資源;HDFS存儲(chǔ)

      中圖分類號(hào): TP391.41文獻(xiàn)標(biāo)識(shí)碼: A文章編號(hào): 2095-2457(2019)01-0086-003

      民族民間文化資源是我國文化資源的重要組成部分,其資源的保護(hù)存儲(chǔ)與開發(fā)受到越來越多人的重視。少數(shù)民族文化資源涉及大量的圖片、影像等,隨著數(shù)據(jù)規(guī)模的不斷擴(kuò)大,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方式明顯感到不足。而基于Hadoop平臺(tái)的民族民間文化資源的存儲(chǔ)研究對(duì)于文化資源的傳承與保護(hù)具有極其重要的作用,因此本文針對(duì)Hadoop平臺(tái)以及民族民間文化資源的特點(diǎn),對(duì)文化資源的存儲(chǔ)進(jìn)行了探究,以希望對(duì)其今后的進(jìn)一步發(fā)展提供一定的幫助。

      1 Hadoop框架的云平臺(tái)

      Hadoop是分布式技術(shù)、并行處理技術(shù)以及網(wǎng)絡(luò)計(jì)算機(jī)發(fā)展的產(chǎn)物,其為適應(yīng)大量的數(shù)據(jù)以及數(shù)據(jù)的計(jì)算而發(fā)展出來的模型構(gòu)架,其可以高效的存儲(chǔ)大量的數(shù)據(jù)。谷歌的GFS是一個(gè)具有高度容錯(cuò)性的文件系統(tǒng),是一個(gè)可靠的分布式文件系統(tǒng),而HDFS具有GFS的特征,以下針對(duì)GFS的特征進(jìn)行具體的分析。

      GFS分布式文件系統(tǒng)由上千臺(tái)機(jī)器組成,而機(jī)器則都是有普通的硬件組成,當(dāng)這些機(jī)器被進(jìn)行大量的訪問時(shí),很容易就會(huì)出現(xiàn)硬件錯(cuò)誤的問題,因此經(jīng)常將其作為常見的問題進(jìn)行處理。為了避免數(shù)據(jù)的丟失,GFS必備的功能包括自動(dòng)檢測(cè)、自動(dòng)修復(fù)以及數(shù)據(jù)備份等[1]。

      GFS還具有能夠存儲(chǔ)大量大文件的特點(diǎn)。根據(jù)傳統(tǒng)的文件系統(tǒng)標(biāo)準(zhǔn),一般的文件都會(huì)比較大。GFS能夠存儲(chǔ)大量的大文件,同時(shí)對(duì)存儲(chǔ)的文件進(jìn)行有效的管理。同時(shí),系統(tǒng)也支持小文件,但沒有專門的優(yōu)化策略。GFS是一次寫入多次讀取,文件一旦寫完,就只能讀取,而不能改變?cè)瓉硪越?jīng)存儲(chǔ)的數(shù)據(jù)。因此,文件的寫入人員應(yīng)該格外的小心仔細(xì),避免各種問題的產(chǎn)生。其寫入負(fù)載來自海量的寫操作,而在實(shí)際的應(yīng)用中是在文件某個(gè)隨機(jī)的位置讀取幾個(gè)KB的數(shù)據(jù)[2]。

      GFS分布式文件系統(tǒng)讀取負(fù)載主要由兩種操作組成,一種是一次讀取比較大的數(shù)據(jù),另一種是大量的讀取比較小的數(shù)據(jù)。如果對(duì)性能要求比較嚴(yán)格,一般可以把小規(guī)模的隨機(jī)讀取操作合并排序,然后按照順序進(jìn)行批量讀取,這樣就有效的避免了來回的移動(dòng)讀取位置。

      GFS分布式文件系統(tǒng)里的文件分塊存儲(chǔ),因此一般的文件被用于多并發(fā)的文件進(jìn)行合并操作,因此GFS具有高效的、多并發(fā)的特點(diǎn)。其支持大量的客戶端機(jī)器同時(shí)對(duì)一個(gè)文件的追加寫入操作,系統(tǒng)則能夠有效的保證寫入操作的一致性,避免出現(xiàn)數(shù)據(jù)寫入與存儲(chǔ)不一致的問題[3]。GFS分布式文件系統(tǒng)對(duì)于網(wǎng)絡(luò)的穩(wěn)定要求比較嚴(yán)格,高性能的穩(wěn)定網(wǎng)絡(luò)環(huán)境明顯比不穩(wěn)定的網(wǎng)絡(luò)環(huán)境重要。因此,對(duì)于絕大多數(shù)客戶運(yùn)行的程序,都要求能夠高速率的處理海量的數(shù)據(jù),而很少有程序?qū)我徊僮饔袊?yán)格的時(shí)間響應(yīng)的要求。GFS分布式文件系統(tǒng)中的每個(gè)數(shù)據(jù)默認(rèn)存儲(chǔ)3個(gè)以上的備份,屬于采用冗余存儲(chǔ)的策略。這樣的存儲(chǔ)策略能夠有效的保證數(shù)據(jù)在同一個(gè)機(jī)架上的安全性與可靠性,同時(shí)在一個(gè)機(jī)架出現(xiàn)問題時(shí),不會(huì)導(dǎo)致所有的數(shù)據(jù)備份全部都丟失[4]。

      2 HDFS的數(shù)據(jù)復(fù)制

      HDFS是Hadoop的分布式文件結(jié)構(gòu),具有高度的穩(wěn)定性以及存儲(chǔ)效率。它能夠保證大文件在多個(gè)機(jī)器之間進(jìn)行快速的傳遞和安全可靠的存儲(chǔ)。數(shù)據(jù)的復(fù)制全部由控制節(jié)點(diǎn)管理。

      HDFS集群一般由跨越多個(gè)機(jī)架的計(jì)算機(jī)組成,不同機(jī)架的兩臺(tái)機(jī)器要經(jīng)過交換機(jī)進(jìn)行通訊。其優(yōu)化的副本保存和備份策略,有效的提高了數(shù)據(jù)存儲(chǔ)的安全性以及集群的利用率。副本系數(shù)為3的默認(rèn)系統(tǒng),在改進(jìn)了寫入的性能的同時(shí),也有效的保障了數(shù)據(jù)的安全性與可靠性[5]。HDSF具有降低用戶讀取數(shù)據(jù)延遲的策略。在用戶讀取集群中數(shù)據(jù)的時(shí)候,HDSF能夠提供距離用戶最近的數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù),從而有效的提高了用戶讀取數(shù)據(jù)的速度,減少了系統(tǒng)寬帶的消耗,極大的方面了用戶的使用。在整個(gè)系統(tǒng)啟動(dòng)的時(shí)候,控制節(jié)點(diǎn)會(huì)進(jìn)入安全模式,此時(shí)則不允許對(duì)數(shù)據(jù)進(jìn)行復(fù)制??刂乒?jié)點(diǎn)則在此時(shí)接收數(shù)據(jù)節(jié)點(diǎn)的心跳信息以及塊狀態(tài)報(bào)告,每個(gè)數(shù)據(jù)塊都有一個(gè)設(shè)置的最小副本備份個(gè)數(shù)。當(dāng)數(shù)據(jù)塊被控制節(jié)點(diǎn)確認(rèn)為安全后,再等待30秒就會(huì)退出安全模式的狀態(tài)[6]。

      3 民族民間文化資源的特點(diǎn)

      我國是一個(gè)古老的大國,擁有著悠久的歷史,民族民間文化資源也十分豐富,各民族之間的民族節(jié)日、民族習(xí)俗、民族飲食等,共同的促進(jìn)了民族民間文化資源的繁榮,是我國文化資源的重要組成部分。民族民間文化資源具有群體權(quán)屬特征、不確定性、脆弱性、時(shí)間上的模糊性以及可重復(fù)利用的特點(diǎn),以下分別進(jìn)行分析。

      3.1 群體權(quán)屬特征

      民族民間文化資源由民族或社會(huì)群體創(chuàng)造出來,經(jīng)過長(zhǎng)時(shí)期的共同生活以及世世代代的演變而形成的,體現(xiàn)了勞動(dòng)人民的智慧與生活方式,因此具有群體權(quán)屬的特征。民族民間文化資源屬于一個(gè)群體而不是個(gè)人,它是廣大勞動(dòng)人民共同的結(jié)晶,因此也需要我們共同的發(fā)揚(yáng)與傳承下去[9]。

      3.2 不確定性

      民族民間文化資源包括物質(zhì)文化遺產(chǎn)和非物質(zhì)文化遺產(chǎn),物質(zhì)文化遺產(chǎn)屬于實(shí)在的東西,可以通過申請(qǐng)商標(biāo)以及其他手段進(jìn)行有效的保護(hù)。而非物質(zhì)文化遺產(chǎn)同樣作為文化資源的一部分,其有效保護(hù)的難度較大。非物質(zhì)文化遺產(chǎn)多為口頭相傳,而并無文字的記載,在不斷的發(fā)展過程中,很容易就會(huì)受到各方面因素的影響而發(fā)生改變,因此具有不確定性的因素。

      3.3 脆弱性

      民族民間文化資源在不斷的發(fā)展過程中,一旦受到破壞,就很難得到恢復(fù),因此還具有十分脆弱性的特點(diǎn)。如果物質(zhì)文化資源遭到破壞,即使能夠仿造出來,也失去了文化本身的真實(shí)性。而非物質(zhì)文化資源遭到破壞,則很難修復(fù)會(huì)來,從而給文化資源造成重大的損失[10]。

      3.4 時(shí)間上的模糊性

      同樣,民族民間文化資源經(jīng)過漫長(zhǎng)的時(shí)間,其在時(shí)間上難免會(huì)具有一定的模糊性。并且每一個(gè)歷史時(shí)期都是文化的傳播時(shí)期,也是再創(chuàng)作時(shí)期,而且年代也較為久遠(yuǎn),因此對(duì)于時(shí)間很難有一個(gè)清楚的界限,在時(shí)間上,具有模糊性的特點(diǎn)。

      3.5 可重復(fù)利用

      現(xiàn)如今,隨著社會(huì)的不斷進(jìn)步,各行各業(yè)都得到了顯著的發(fā)展 。而在文化產(chǎn)業(yè)不斷發(fā)展的背景下,并不是所有的文化資源都可以進(jìn)行轉(zhuǎn)化。同時(shí)作為文化資源,其并不是用多少就會(huì)少多少,而是可以重復(fù)利用的。民族民間文化資源所具有的這些特征,對(duì)其保護(hù)與發(fā)揚(yáng)既有優(yōu)點(diǎn)又有缺點(diǎn),因此還需不斷地創(chuàng)新,不斷結(jié)合新的技術(shù),從而真正做到對(duì)文化資源的保護(hù)[11]。

      4 Hadoop處理海量小文件過程中存在的問題

      雖然Hadoop在處理大文件的過程中具有十分明顯的優(yōu)勢(shì),不僅實(shí)在數(shù)據(jù)處理的效率以及準(zhǔn)確度上,同時(shí)在存儲(chǔ)方面也更加讓人放心。但是,當(dāng)其在處理海量小文件的過程中,依然存在著一些不足之處,主要表現(xiàn)在NameNode節(jié)點(diǎn)內(nèi)存壓力過大、文件讀寫效率不高以及小文件I/O問題等三個(gè)方面,以下分別對(duì)這三個(gè)方面進(jìn)行分析。

      4.1 NameNode節(jié)點(diǎn)內(nèi)存壓力過大

      在文件系統(tǒng)中,NameNode節(jié)點(diǎn)的內(nèi)存決定HDFS所能存儲(chǔ)的文件數(shù)量,而在HDFS中,各種文件不論大小,其所對(duì)相應(yīng)的元數(shù)據(jù)信息數(shù)量是相同的,都需要占用一定的內(nèi)存。當(dāng)集群中存在海量的小文件時(shí),系統(tǒng)為每一個(gè)小文件保存元數(shù)據(jù),從而極大地消耗了NameNode節(jié)點(diǎn)的空間內(nèi)存,而影響到整個(gè)集群的存儲(chǔ)能力。在當(dāng)前的硬件條件下,存儲(chǔ)百萬級(jí)別的文件是可行的,當(dāng)存儲(chǔ)過億各文件時(shí)就超出了其存儲(chǔ)的極限。

      4.2 文件讀寫效率不高

      文件讀寫效率不高也是Hadoop在處理海量小文件過程中所存在的問題。在存儲(chǔ)海量小文件時(shí),客戶端會(huì)頻繁的與NameNode交互,從而造成NameNode節(jié)點(diǎn)過高的負(fù)載,存儲(chǔ)的效率也大大的降低。在讀寫同樣大小數(shù)據(jù)量的情況下,小文件遠(yuǎn)遠(yuǎn)超過大文件的數(shù)量,且處理小文件的速度低于處理大文件的速度,在文件總大小相同的情況下,Hadoop處理小文件的性能則遠(yuǎn)遠(yuǎn)低于處理大文件的性能。

      4.3 小文件I/O問題

      HDFS不提供預(yù)取功能,根據(jù)自己的優(yōu)化策略將文件分布在各個(gè)節(jié)點(diǎn)上,而沒有考慮文件相關(guān)性。小文件存儲(chǔ)比較分散,致使小文件的檢索在各DataNode之間進(jìn)行大量的搜索與跳轉(zhuǎn)。HDFS將MapReduce所需要的數(shù)據(jù)文件加載到任務(wù)所在的計(jì)算節(jié)點(diǎn)上,從而提升MapReduce的處理速度,但是卻不能夠提高HDFS對(duì)文件的讀寫效率[12]。

      5 基于Hadoop平臺(tái)存儲(chǔ)方案優(yōu)化設(shè)計(jì)

      通過以上分析了解到基于Hadoop平臺(tái)在處理文件(主要是小文件)的過程中存在的問題,針對(duì)這些問題的存在,對(duì)于Hadoop平臺(tái)的存儲(chǔ),要進(jìn)行存儲(chǔ)方案優(yōu)化設(shè)計(jì),主要表現(xiàn)在小文件存儲(chǔ)優(yōu)化設(shè)計(jì)、文件合并模塊設(shè)計(jì)以及文件檢索優(yōu)化設(shè)計(jì)等,并與傳統(tǒng)的Hadoop集群在性能上進(jìn)行量化對(duì)比分析。

      5.1 小文件存儲(chǔ)優(yōu)化設(shè)計(jì)

      對(duì)于小文件的存儲(chǔ),可以在保存文件時(shí)將屬于一個(gè)部門的文件放在一個(gè)文件夾中,然后統(tǒng)一加上部門名稱,再存儲(chǔ)到數(shù)據(jù)庫中。將有相關(guān)性的小文件合并成為一個(gè)大文件,從而增強(qiáng)小文件數(shù)據(jù)訪問的局部性,緩解節(jié)點(diǎn)的內(nèi)存壓力。并且提升了HDFS的I/O性能,將預(yù)取和緩存機(jī)制的小文件處理功能引入到系統(tǒng)中,并且增加了置換策略。

      5.2 文件合并模塊設(shè)計(jì)

      在Client端和Hadoop集群之間增加一個(gè)文件合并模塊,將向關(guān)聯(lián)的文件合并在一起,從而盡可能的提高預(yù)取的命中率,減少讀取文件時(shí)I/O操作。文件合并后,NameNode不需要再像以前那樣為每一個(gè)小文件分配存儲(chǔ)路徑、保存元數(shù)據(jù)信息,而是只需要將合并后的大文件分配DataNode保存保存合并文件的元數(shù)據(jù),進(jìn)而減少了NameNode的內(nèi)存消耗和訪問壓力。

      5.3 文件檢索優(yōu)化設(shè)計(jì)

      原始的文件檢索讀取流程中,當(dāng)有節(jié)點(diǎn)訪問某個(gè)文件時(shí),客戶端會(huì)首先訪問NameNode從而獲取目標(biāo)文件與Block塊的映射關(guān)系,然后與相應(yīng)的DataNode建立連接來讀取數(shù)據(jù)。而通過文件檢索優(yōu)化設(shè)計(jì),在讀取大文件時(shí)仍然采用以前的模式,而在讀取小文件時(shí),首先根據(jù)小文件的名稱獲取大文件的數(shù)據(jù)塊以及所在DataNode位置信息,然后通過內(nèi)存加載得到小文件在大文件中的偏移量,進(jìn)而找到小文件的存儲(chǔ)位置[13]。

      5.4 性能對(duì)比分析

      與原有的HDFS訪問掉文件的流程不同,通過以上存儲(chǔ)方案優(yōu)化設(shè)計(jì),使得節(jié)點(diǎn)所存儲(chǔ)的文件元數(shù)據(jù)數(shù)量大大減少,在文件訪問控制流的處理方面會(huì)有更好的性能,提高了讀取文件的速度。因此當(dāng)要讀取的小文件數(shù)量越多,其訪問性能優(yōu)勢(shì)也就越明顯。

      6 結(jié)語

      綜上所述,民族民間文化資源是我國文化資源的重要組成部分,其資源的保護(hù)存儲(chǔ)與開發(fā)受到越來越多人的重視。而基于Hadoop平臺(tái)的民族民間文化資源的存儲(chǔ)研究對(duì)于文化資源的傳承與保護(hù)具有極其重要的作用,要加強(qiáng)民族民間文化資源的保護(hù)。而在Hadoop處理小文件時(shí),依然存在NameNode節(jié)點(diǎn)內(nèi)存壓力過大、文件讀寫效率不高以及小文件I/O問題等問題。要進(jìn)行存儲(chǔ)方案優(yōu)化設(shè)計(jì),主要表現(xiàn)在小文件存儲(chǔ)優(yōu)化設(shè)計(jì)、文件合并模塊設(shè)計(jì)以及文件檢索優(yōu)化設(shè)計(jì)等。

      【參考文獻(xiàn)】

      [1]李曉佳,董延華.基于Hadoop平臺(tái)的搭建及應(yīng)用研究[J].福建電腦,2017,(3):132-133.

      [2]于金良,朱志祥,李聰穎.Hadoop平臺(tái)的自動(dòng)化部署與監(jiān)控研究[J].計(jì)算機(jī)與數(shù)字工程,2016,(12):2457-2461.

      [3]王英博,馬菁,柴佳佳,等.基于Hadoop平臺(tái)的改進(jìn)關(guān)聯(lián)規(guī)則挖掘算法[J].計(jì)算機(jī)工程,2016,(10):69-74,79.

      [4]狄曉嬌.Hadoop平臺(tái)的設(shè)計(jì)[J].通信世界,2016,(4):216-216,217.

      [5]劉先福,張剛.民間文化的數(shù)字化類型與空間演示--基于《中國民族民間文化空間信息系統(tǒng)》的思考[J].民俗研究,2014,(5):26-33.

      [6]尹國有.民族民間文化資源引入高等美術(shù)教育實(shí)踐[J].貴州民族學(xué)院學(xué)報(bào),2007,(4):124-126.

      [7]欒亞建,黃翀民,龔高晟,等.Hadoop平臺(tái)的性能優(yōu)化研究[J].計(jì)算機(jī)工程,2010,(14):262-263,266.

      [8]原晉鵬,劉彥.基于Hadoop平臺(tái)的民族民間文化資源的存儲(chǔ)研究[J].福建電腦,2016,(2):113,125.

      [9]閆娟,耿凱峰,劉麗.基于Hadoop平臺(tái)的教育資源庫建設(shè)[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,(2):161-164.

      [10]于兆良,張文濤,葛慧,等.基于Hadoop平臺(tái)的日志分析模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,(2):338-344,428.

      [11]斯琴孟和.關(guān)于編纂《蒙古民間故事類型索引與數(shù)據(jù)庫建設(shè)》的一些思考[C].//中國文學(xué)地理學(xué)會(huì)第四屆年會(huì)論文集西北民族大學(xué),2014:588-591.

      [12]孫琳.我國文化產(chǎn)業(yè)國際化發(fā)展分析——以出版業(yè)為例[D].吉林大學(xué),2010.

      [13]宋韓茵.民族文化資源共享與服務(wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].華中科技大學(xué),2012.

      奇台县| 遂溪县| 吐鲁番市| 东乡| 和硕县| 山阴县| 和顺县| 宣武区| 巴马| 富宁县| 项城市| 湖南省| 瑞金市| 万全县| 略阳县| 荥经县| 信丰县| 临猗县| 内黄县| 阳泉市| 凌源市| 九龙城区| 荃湾区| 疏勒县| 青铜峡市| 黔江区| 新沂市| 晋城| 临沧市| 洛隆县| 增城市| 邵阳县| 乌审旗| 陵川县| 新竹县| 嘉善县| 河津市| 鹤峰县| 武邑县| 珲春市| 黄浦区|