嚴(yán)鶴峰 袁麗
摘要:隨著大數(shù)據(jù)技術(shù)的不斷應(yīng)用,給企業(yè)和社會(huì)帶來(lái)了較大的效益?!胺沁z”作為我國(guó)的傳統(tǒng)文化信息,其形式多樣、內(nèi)容復(fù)雜化,采用傳統(tǒng)的口口相傳方式不適合“非遺”的發(fā)展。于是通過(guò)利用大數(shù)據(jù)技術(shù),設(shè)計(jì)一個(gè)應(yīng)用系統(tǒng),該系統(tǒng)能夠?qū)Α胺沁z”信息環(huán)境資源進(jìn)行規(guī)劃和大數(shù)據(jù)分析,從而提高“非遺”的發(fā)展和保存其價(jià)值。文章首先對(duì)大數(shù)據(jù)進(jìn)行介;然后闡述大數(shù)據(jù)技術(shù)的基本流程;最后通過(guò)對(duì)“非遺”信息進(jìn)行分析,利用大數(shù)據(jù)技術(shù)設(shè)計(jì)應(yīng)用系統(tǒng)。應(yīng)用系統(tǒng)能夠?qū)?fù)雜的“非遺”信息進(jìn)行存儲(chǔ)、查詢(xún)、分析等功能,有助于“非遺”的保存和發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)技術(shù);“非遺”;應(yīng)用系統(tǒng)
中圖分類(lèi)號(hào):TP27
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1001-5922( 2020)09-0090-04
隨著計(jì)算機(jī)技術(shù)的廣泛使用和快速發(fā)展,數(shù)據(jù)呈現(xiàn)大規(guī)模暴增,大數(shù)據(jù)時(shí)代如期而至。通過(guò)大數(shù)據(jù)技術(shù)的應(yīng)用,各行各業(yè)越發(fā)的重視大數(shù)據(jù),利用大數(shù)據(jù)提升自身發(fā)展[1]?!胺沁z”作為一種文化信息,在民間通過(guò)口口相傳的方式進(jìn)行發(fā)展。然而在大數(shù)據(jù)時(shí)代,改變了“非遺”信息的處理模式,傳統(tǒng)代代相傳的方式已經(jīng)不再適用,而是將其變得更加數(shù)據(jù)化和信息化,使其更加符合現(xiàn)代的發(fā)展需求[2-3]。于是文章利用大數(shù)據(jù)技術(shù),設(shè)計(jì)一個(gè)應(yīng)用系統(tǒng),能夠?qū)Α胺沁z”信息環(huán)境資源進(jìn)行規(guī)劃和大數(shù)據(jù)分析,使其傳遞方式更加科學(xué)、合理、有效。
1 大數(shù)據(jù)的介紹
1.1 大數(shù)據(jù)的概念
隨著社會(huì)的發(fā)展,大數(shù)據(jù)變得愈發(fā)的流行,人們?cè)桨l(fā)的認(rèn)識(shí)到大數(shù)據(jù)的價(jià)值,全球中很多機(jī)構(gòu)開(kāi)始參與對(duì)大數(shù)據(jù)的研究,但是對(duì)于大數(shù)據(jù)的定義還沒(méi)有一個(gè)統(tǒng)一說(shuō)法,不同機(jī)構(gòu)對(duì)于大數(shù)據(jù)的定義會(huì)有所不同,在眾多大數(shù)據(jù)定義中本文列舉了4種比較有代表性的定義,如圖1所示[4]。從這4個(gè)定義中可以得到大數(shù)據(jù)的特點(diǎn),即大數(shù)據(jù)不僅具有大的特點(diǎn),通過(guò)對(duì)其進(jìn)行分析還會(huì)存在利用價(jià)值,所以大數(shù)據(jù)的本質(zhì)特點(diǎn)在于大和具有價(jià)值。正因?yàn)榇髷?shù)據(jù)龐大的利用價(jià)值,所以全球?qū)τ诖髷?shù)據(jù)的研究愈發(fā)強(qiáng)烈。
1.2 大數(shù)據(jù)的基本處理流程
“非遺”信息環(huán)境資源中涉及到很多的數(shù)據(jù),并且由于其數(shù)據(jù)的形式比較多,會(huì)涉及到文字、視頻、圖片、音頻等,使用大數(shù)據(jù)技術(shù)能夠?qū)⑦@些數(shù)據(jù)進(jìn)行整理分析。圖2即為大數(shù)據(jù)價(jià)值轉(zhuǎn)換框架,從圖中可以看出,為了將大數(shù)據(jù)發(fā)揮作用,需要對(duì)各種數(shù)據(jù)類(lèi)型進(jìn)行分析,只有對(duì)其進(jìn)行分析之后,才能夠體現(xiàn)出大數(shù)據(jù)的價(jià)值。
運(yùn)用大數(shù)據(jù)的基本流程如圖3所示,“非遺”信息環(huán)境資源存在大量的不同數(shù)據(jù),主要包含半結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)包含著圖片或者圖片文本等。需要將這些數(shù)據(jù)利用大數(shù)據(jù)技術(shù)進(jìn)行采集,將不同結(jié)構(gòu)類(lèi)型的數(shù)據(jù)進(jìn)行整合和提取。然后,這些數(shù)據(jù)會(huì)比較亂,然后大數(shù)據(jù)技術(shù)會(huì)將其進(jìn)行清洗等預(yù)處理,從而對(duì)龐大的數(shù)據(jù)進(jìn)行存儲(chǔ)。將數(shù)據(jù)進(jìn)行存儲(chǔ)就是為了以后利用,所以會(huì)通過(guò)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等算法分析各種數(shù)據(jù),從而發(fā)揮存儲(chǔ)數(shù)據(jù)的利用價(jià)值。最后就是將分析的結(jié)構(gòu)使用人機(jī)互動(dòng)的可視化方式展現(xiàn)給用戶。這就是大數(shù)據(jù)技術(shù)的主要基本流程。在“非遺”信息環(huán)境資源中利用大數(shù)據(jù)技術(shù)可以將其進(jìn)行完整的規(guī)劃,并且用戶還能夠得到得到反饋。
2 大數(shù)據(jù)分析應(yīng)用系統(tǒng)
建立應(yīng)用系統(tǒng)需要使用到Hadoop技術(shù),因?yàn)槠湫阅軆?yōu)異、應(yīng)用成熟,能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行存儲(chǔ)和分析。將其運(yùn)用于“非遺”信息的應(yīng)用系統(tǒng)中,因?yàn)椤胺沁z”信息的復(fù)雜性較高,該技術(shù)能夠?qū)Υ罅繌?fù)雜數(shù)據(jù)進(jìn)行分布式存儲(chǔ)。另外,Hadoop技術(shù)能夠包含大數(shù)據(jù)技術(shù)處理的基本流程。所以對(duì)該應(yīng)用系統(tǒng)進(jìn)行設(shè)計(jì)時(shí)選擇Hadoop技術(shù)是非常合理。
2.1 “非遺”的信息屬性
“非遺”信息屬于一種特殊的信息,它可以脫離物質(zhì)載體,其傳播方式就是通過(guò)原生態(tài)、傳統(tǒng)的方式,這種傳播的效率比較低,因?yàn)槠湫畔⑿问奖容^模糊,不像媒介能夠?qū)π畔⑦M(jìn)行清晰化,使其具有一定的信息結(jié)構(gòu),所以它的傳播比較快,“非遺”在原生態(tài)環(huán)境中沒(méi)有一定的結(jié)構(gòu),所以傳播的效率會(huì)比較低[5]。
隨著科學(xué)技術(shù)的不斷提高,新媒介和數(shù)字化傳播的方式逐漸被廣泛使用,從而提高了“非遺”信息的傳播效率?!胺沁z”信息通過(guò)數(shù)字媒介會(huì)有更好的發(fā)展,是一種能夠?qū)⑵涮岣咔逦?,保持“非遺”特性的作用,雖然口頭媒介也可以對(duì)其進(jìn)行傳播,但是口頭媒介容易出現(xiàn)誤差,并且沒(méi)有一個(gè)很好的清晰度。所以數(shù)字媒介更適合于“非遺”信息的發(fā)展,也有利于對(duì)其進(jìn)行“非遺”信息環(huán)境資源規(guī)劃[6]。大數(shù)據(jù)時(shí)代,提高了“非遺”信息的發(fā)展,能夠?qū)Α胺沁z”進(jìn)行及時(shí)的更新,并且保存大量復(fù)雜的“非遺”關(guān)系模式,還能夠?qū)@些信息數(shù)據(jù)進(jìn)行整理規(guī)劃,從而方便人們得到相關(guān)信息。
2.2 Hadoop技術(shù)的介紹
Hadoop技術(shù)的內(nèi)容比較多,如圖4所示,其中HDFS是一種存儲(chǔ)模塊,能夠?qū)Υ髷?shù)據(jù)進(jìn)行處理和存儲(chǔ)[7]。Hive的主要作用就是將語(yǔ)言轉(zhuǎn)換為傳統(tǒng)的任務(wù),然就將傳統(tǒng)的數(shù)據(jù)進(jìn)行集成。Mahout是一種對(duì)大數(shù)據(jù)進(jìn)行處理和分析的機(jī)器學(xué)習(xí)框架,從而能夠方便應(yīng)用系統(tǒng)的擴(kuò)展[8]。
2.3 應(yīng)用系統(tǒng)的模塊設(shè)計(jì)
應(yīng)用系統(tǒng)的的主要功能就是對(duì)“非遺”信息進(jìn)行存儲(chǔ)、規(guī)劃和利用,系統(tǒng)的存儲(chǔ)單元是HDFS系統(tǒng),它能夠?qū)ⅰ胺沁z”信息環(huán)境資源進(jìn)行存儲(chǔ),然后對(duì)其進(jìn)行分類(lèi)規(guī)劃,使得眾多的“非遺”信息數(shù)據(jù)更加明確、有條理,Hive還可以建立新的數(shù)據(jù)庫(kù)系統(tǒng),使得復(fù)雜的“非遺”信息能夠進(jìn)行歸類(lèi),從而有利于規(guī)劃。然后存儲(chǔ)分類(lèi)完成之后,可以利用Kylin對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,只需要將其接到相應(yīng)的接口就可將信息傳遞到系統(tǒng)中,從而得到用戶需要的信息。其基本結(jié)構(gòu)如圖5所示。
通過(guò)利用Hadoop技術(shù)設(shè)計(jì)的應(yīng)用系統(tǒng)的基本結(jié)構(gòu)如圖6所示,其中主要包含三個(gè)部分,首先是登錄模塊,然后是數(shù)據(jù)選擇模塊,其中就會(huì)包含這多的“非遺”信息數(shù)據(jù),最后就是數(shù)據(jù)呈現(xiàn)模塊,用戶即可獲得自己需要的信息。
圖6中的登陸模塊設(shè)置了用戶登陸權(quán)限,只有訪問(wèn)權(quán)限的用戶才能夠進(jìn)入到該系統(tǒng)中。其中數(shù)據(jù)選擇模塊中包含著不同類(lèi)別的“非遺”信息,用戶可以根據(jù)自己的興趣愛(ài)好進(jìn)行選擇了解。數(shù)據(jù)呈現(xiàn)就會(huì)根據(jù)用戶的選擇,呈現(xiàn)出不同的“非遺”信息,其中可以會(huì)以文字的方式呈現(xiàn)、也可能會(huì)以表格、視頻、音頻等方式進(jìn)行呈現(xiàn)。
2.4 “非遺”信息環(huán)境資源數(shù)據(jù)庫(kù)
2.4.1 數(shù)據(jù)分類(lèi)和存儲(chǔ)方式
“非遺”信息環(huán)境資源是包含大量的信息,而不是個(gè)別的信息,所以對(duì)其進(jìn)行建立數(shù)據(jù)庫(kù)時(shí)會(huì)以數(shù)字檔案的方式進(jìn)行存儲(chǔ)或者是數(shù)據(jù)信息建立?!胺沁z”包含的種類(lèi)非常多,所以要根據(jù)信息的差異性將其劃分為不同的形式,每種類(lèi)型的“非遺”其內(nèi)容會(huì)不同,但是“非遺”中至少需要包含“非遺”的發(fā)展歷史過(guò)程、表現(xiàn)方式和載體、傳承人、成果等。對(duì)“非遺”信息環(huán)境資源進(jìn)行劃分為三個(gè)大類(lèi),分別為實(shí)物檔案、記憶檔案和“申遺”檔案。 數(shù)據(jù)庫(kù)的建立首先是信息進(jìn)行分類(lèi),按照上述3種方式可以大致分為3個(gè)檔案。然后再對(duì)其進(jìn)行設(shè)置目錄,以“非遺”作為一級(jí)目錄,然后以不同類(lèi)別作為二級(jí)目錄,比如曲藝、傳統(tǒng)手工藝、民間文學(xué)等。然后再根據(jù)具體的研究?jī)?nèi)容將其劃分為三級(jí)目錄。
在利用Hive數(shù)據(jù)庫(kù)時(shí)采用的分類(lèi)方式就如上所述,并且Hive中數(shù)據(jù)表采用的創(chuàng)建外部數(shù)據(jù)存儲(chǔ)方式,應(yīng)為這種方式更加的安全,能夠降低誤操作帶來(lái)的缺陷,另外不要移動(dòng)數(shù)據(jù),而是采用存儲(chǔ)路徑指向數(shù)據(jù)的方式。并且,每個(gè)Hive數(shù)據(jù)表只會(huì)有一個(gè)文件路徑,不會(huì)存在其他的路徑,所以在后期的管理過(guò)程中只需要找到路徑即可將數(shù)據(jù)文件進(jìn)行管理。
2.4.2 數(shù)據(jù)庫(kù)部署
應(yīng)用系統(tǒng)中數(shù)據(jù)庫(kù)屬于重要的部分,必須要對(duì)其進(jìn)行選擇和建立。數(shù)據(jù)庫(kù)具有獨(dú)立的API,從而可以達(dá)到創(chuàng)建信息、管理信息、訪問(wèn)信息、檢索信息等操作。由于將“非遺”信息環(huán)境資源進(jìn)行合理的分類(lèi),在訪問(wèn)或者檢索信息時(shí)將會(huì)更加快捷,而且通過(guò)利用MySQL達(dá)到單獨(dú)索引功能,方便管理,方便對(duì)系統(tǒng)信息進(jìn)行及時(shí)更新,所以文章選擇的MySQL作為數(shù)據(jù)管理系統(tǒng),對(duì)“非遺”信息環(huán)境資源規(guī)劃進(jìn)行管理。
1)數(shù)據(jù)庫(kù)安裝的啟動(dòng)。獲得MySQL數(shù)據(jù)庫(kù)的方式簡(jiǎn)單,直接在官網(wǎng)中下載,本文選擇的版本為MySQL RPM,因?yàn)樵摪姹灸軌蚍奖銓?duì)數(shù)據(jù)進(jìn)行管理,并且還能夠?qū)τ脩舻氖褂眠M(jìn)行控制管理,用于“非遺”信息環(huán)境資源規(guī)劃和分析更加合適。安裝完成之后,需要對(duì)其進(jìn)行檢查,是否能夠在該系統(tǒng)中進(jìn)行使用。只有檢測(cè)合格之后才能將其運(yùn)用于應(yīng)用系統(tǒng)中。
2)數(shù)據(jù)庫(kù)管理。“非遺”信息環(huán)境資源種類(lèi)繁多,信息數(shù)據(jù)形式多樣、并且會(huì)出現(xiàn)不斷的更新,所以對(duì)其數(shù)據(jù)庫(kù)進(jìn)行管理十分重要。當(dāng)出現(xiàn)一個(gè)新的“非遺”信息之后,要能夠?qū)⑵湔_的加入到系統(tǒng)中,并且能夠進(jìn)行查詢(xún)和分析。
3)數(shù)據(jù)庫(kù)的鏈接。開(kāi)啟數(shù)據(jù)庫(kù)的鏈接采用的方式為PHP,其函數(shù)為,其關(guān)鍵參數(shù)如表1所示,如果數(shù)據(jù)庫(kù)連接成功,則會(huì)自動(dòng)返回到相對(duì)的標(biāo)志。完成數(shù)據(jù)庫(kù)的使用之后,需要使用mysql_close0函數(shù)將鏈接關(guān)閉。 對(duì)于“非遺”的應(yīng)用系統(tǒng)進(jìn)行建立,其主要就是數(shù)據(jù)庫(kù)的建立,因?yàn)橹灰獙?shù)據(jù)庫(kù)建立合理之后,只需要通過(guò)相關(guān)的方式對(duì)數(shù)據(jù)庫(kù)進(jìn)行訪問(wèn)、管理等,這寫(xiě)功能的實(shí)現(xiàn)比較簡(jiǎn)單。通過(guò)利用Hadoop技術(shù)即可以完成。于是應(yīng)用系統(tǒng)建立完成之后,就可以對(duì)“非遺”信息環(huán)境資源規(guī)劃和大數(shù)據(jù)分析,能夠?yàn)橛脩籼峁┱5男枨蟆?/p>
3 結(jié)語(yǔ)
“非遺”信息復(fù)雜、內(nèi)容多樣化,存在不同的數(shù)據(jù)形式,通過(guò)大數(shù)據(jù)技術(shù)的應(yīng)用,設(shè)計(jì)一種應(yīng)用系統(tǒng),能夠有效解決對(duì)“非遺”信息環(huán)境資源的規(guī)劃和大數(shù)據(jù)分析,使得“非遺”的傳遞內(nèi)容更加準(zhǔn)確,并且有助于提高“非遺”的傳播速度和效率。文章設(shè)計(jì)的系統(tǒng)還不夠完善,其功能性不全面,有待后續(xù)加強(qiáng)。
參考文獻(xiàn)
[1]王元卓,靳小龍,程學(xué)旗,網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013( 06):1125-1138.
[2]陳明兵,大數(shù)據(jù)時(shí)代非物質(zhì)文化遺產(chǎn)資源數(shù)據(jù)庫(kù)建設(shè)的思考[J].圖書(shū)情報(bào)導(dǎo)刊,2014(21):104-106.
[3]楊子奇.大數(shù)據(jù)時(shí)代非物質(zhì)文化遺產(chǎn)保護(hù)途徑研究[J].凱里學(xué)院學(xué)報(bào),2015(04):59-62.
[4]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(01):146-169.
[5]戴嚦,周耀林.論非物質(zhì)文化遺產(chǎn)檔案信息化建設(shè)的原則與方法[J].圖書(shū)情報(bào)知識(shí),2011(5):69-75.
[6]張旭,非物質(zhì)文化遺產(chǎn)的數(shù)字化展示媒介研究[J].包裝工程,2015(10):20-23.
[7]錢(qián)維揚(yáng),王俊義,仇洪冰.基于Hadoop的數(shù)據(jù)挖掘技術(shù)在測(cè)光紅移上的研究[J].電子技術(shù)應(yīng)用,2016,42(9):111-114.
[8]何沖.Hadoop集群調(diào)度優(yōu)化的研究[D].上海:上海師范大學(xué),2015.
作者簡(jiǎn)介:嚴(yán)鶴峰(1983-),男,漢族,陜西部邑人,碩士研究生,講師,研究方向:遠(yuǎn)程教育教學(xué)、建筑給排水。
基金項(xiàng)目:陜西省教育廳2018年度重點(diǎn)科學(xué)研究計(jì)劃項(xiàng)目“開(kāi)放大學(xué)視域下陜西“非遺”文化教育資源建設(shè)及應(yīng)用模式研究”階段性研究成果(18J2009)