董茜
[提要] 隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)的處理必將對林業(yè)的經(jīng)營管理及研究產(chǎn)生重大而深遠(yuǎn)的影響。本文在對大數(shù)據(jù)分析基礎(chǔ)上,分析國內(nèi)外在大數(shù)據(jù)背景下的林業(yè)研究進(jìn)展,分析目前國內(nèi)林業(yè)相關(guān)大數(shù)據(jù),并指出大數(shù)據(jù)分析在林業(yè)運(yùn)用上的問題。
關(guān)鍵詞:大數(shù)據(jù);林業(yè);研究進(jìn)展
中圖分類號:F32 文獻(xiàn)標(biāo)識碼:A
原標(biāo)題:試談大數(shù)據(jù)時代下的林業(yè)研究進(jìn)展
收錄日期:2016年11月9日
以2013年8月“第三屆全國林業(yè)信息化工作會議”召開和《中國智慧林業(yè)發(fā)展指導(dǎo)意見》發(fā)布為標(biāo)志,中國林業(yè)信息化由數(shù)字林業(yè)跨入智慧林業(yè)的新階段。智慧林業(yè)的實(shí)現(xiàn),必將帶來林業(yè)生產(chǎn)力的又一次深刻變革,林業(yè)信息化也將迎來一個新的大數(shù)據(jù)時代。大數(shù)據(jù)具有數(shù)據(jù)量大、處理速度快、數(shù)據(jù)類型多、結(jié)構(gòu)復(fù)雜、價值大、精度高的六大特征。近年來,隨著大數(shù)據(jù)時代的來臨,就如何合理運(yùn)用大數(shù)據(jù)也將成為林業(yè)研究的熱門主題。
一、什么是大數(shù)據(jù)
大數(shù)據(jù)是由數(shù)據(jù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)基于云極端的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享,交叉服用形成的智力資源和知識服務(wù)能力。通常要處理的數(shù)據(jù)量太大,增長太快,而業(yè)務(wù)需求和競爭壓力對數(shù)據(jù)處理的實(shí)時性、有效性又提出了更高要求,傳統(tǒng)的常規(guī)技術(shù)手段無法應(yīng)付?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(Internet Data Center)簡稱IDC定義了大數(shù)據(jù)的四大特征:海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)和攻臺的數(shù)據(jù)體系、多樣的數(shù)據(jù)類型、巨大的數(shù)據(jù)價值。維克托·邁爾·舍恩伯格提出:“大數(shù)據(jù)帶來的信息風(fēng)暴正在變革我們的生活、工作和思維,大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型?!?/p>
二、國內(nèi)外林業(yè)研究進(jìn)展
(一)國內(nèi)研究進(jìn)展。第七次全國森林資源清查暴露的問題令人警惕,清查五年間隔期內(nèi),林地轉(zhuǎn)為非林地的面積數(shù)字有所上升,形勢十分嚴(yán)峻,但這些逆轉(zhuǎn)的林地主要發(fā)生在哪些地區(qū)?數(shù)據(jù)大、復(fù)雜性是林業(yè)各個崗位上難以完成的嚴(yán)峻工作。但《全國林地保護(hù)利用規(guī)劃綱要(2010-2020年)》提出了大數(shù)據(jù)分析應(yīng)用于林業(yè)生態(tài)統(tǒng)計,是林業(yè)有史以來可及時動態(tài)監(jiān)測、及時決策的最全面、最細(xì)致、最先進(jìn)的一項(xiàng)措施。大數(shù)據(jù)統(tǒng)計了全國林地,歸類成為了一張簡單的分布地圖,是高分辨率的遙感影像,全國林地落界數(shù)據(jù)、二類調(diào)查資料,基礎(chǔ)地理信息等多源數(shù)據(jù)集合,以林地界線為核心內(nèi)容,構(gòu)建的全國統(tǒng)一的林地資源管理系統(tǒng)。為國家林業(yè)局各業(yè)務(wù)司局提供數(shù)據(jù)支撐服務(wù),將推進(jìn)在森林經(jīng)營、工程建設(shè)、森林防火等業(yè)務(wù)上的應(yīng)用提供了便利。
以2013年8月“第三屆全國林業(yè)信息化工作會議”召開和《中國智慧林業(yè)發(fā)展指導(dǎo)意見》發(fā)布為標(biāo)志,中國林業(yè)信息化由數(shù)字林業(yè)跨入智慧林業(yè)的新階段。
2014年郭建斌等在大數(shù)據(jù)深入分析的基礎(chǔ)上,指出了大數(shù)據(jù)時代林業(yè)科普信息化的現(xiàn)狀及不足,探索性地提出了林業(yè)科普信息化發(fā)展的對策與建議。郭建斌等認(rèn)為面對大數(shù)據(jù)時代科普工作發(fā)展的趨勢,林業(yè)科普應(yīng)以在全社會范圍內(nèi)組織建設(shè)新型科技傳播與交流渠道為發(fā)展方向,建立基于信息技術(shù)不同形態(tài)的科技信息傳播與交流平臺,開發(fā)公眾滲透度高的科普渠道,加大民生科普、應(yīng)急科普的傳播渠道建設(shè)力度,豐富大數(shù)據(jù)時代背景下的科普內(nèi)容,加大科普信息輻射的強(qiáng)度和廣度,提高科普宣傳能力。
2015年6月藍(lán)學(xué)、韋緒、覃德文等基于大數(shù)據(jù)發(fā)展動態(tài),大數(shù)據(jù)的性質(zhì)和趨勢、林業(yè)部門的大數(shù)據(jù)應(yīng)用三個方面,對大數(shù)據(jù)、云計算、物聯(lián)網(wǎng)等進(jìn)行系統(tǒng)講解,深入分析當(dāng)前信息化前沿技術(shù)的發(fā)展現(xiàn)狀與趨勢,結(jié)合生態(tài)林業(yè)民生林業(yè)的建設(shè)目標(biāo),闡述如何利用大數(shù)據(jù)為林業(yè)現(xiàn)代化服務(wù)。藍(lán)學(xué)等認(rèn)為林業(yè)資源大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種林業(yè)資源數(shù)據(jù)挖掘的算法基于不同的物種數(shù)據(jù)類型和格式才能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn)。也正是因?yàn)榱謽I(yè)資源變更數(shù)據(jù)被全世界統(tǒng)計學(xué)家所公認(rèn)的各種統(tǒng)計方法(可以稱之為真理)才能深入數(shù)據(jù)內(nèi)部,才能體現(xiàn)大數(shù)據(jù)分析的便利。
(二)國外研究進(jìn)展。近年來,由于生成大量的數(shù)據(jù)以及存儲數(shù)據(jù)的巨大增量,大數(shù)據(jù)的應(yīng)用日益成為國外人們關(guān)注的焦點(diǎn)。美國聯(lián)邦政府、麥肯錫全球研究院和各大信息技術(shù)企業(yè)等紛紛發(fā)布有關(guān)大數(shù)據(jù)的倡議、計劃和報告,將大數(shù)據(jù)推到前所未有的高度。2012年2月《紐約》提出,“大數(shù)據(jù)”時代已經(jīng)降臨,未來在商業(yè)及其他領(lǐng)域中,我們將基于數(shù)據(jù)和分析,而非經(jīng)驗(yàn)和直覺做出決策決策。
Del Río和Sara分析了幾種用于處理不平衡數(shù)據(jù)集的方法,在大數(shù)據(jù)的背景下,使用隨機(jī)森林分類的性能。通過采樣,采樣已經(jīng)適應(yīng)了使用Map Reduce,使這些技術(shù)的大數(shù)據(jù)能夠管理數(shù)據(jù)集,并且正確識別不同類別。進(jìn)行了實(shí)驗(yàn)研究,評估不同的算法的性能。
同時,國外在森林資源共享、大數(shù)據(jù)應(yīng)用方面已經(jīng)建立了比較完善的機(jī)制,共享的數(shù)據(jù)資源也非常豐富。數(shù)據(jù)共享對林業(yè)科技發(fā)展的作用已十分明顯。
三、我國林業(yè)相關(guān)大數(shù)據(jù)
大數(shù)據(jù)處理需要建立數(shù)據(jù)庫,就我國林業(yè)而言,需要的數(shù)據(jù)庫包括:林業(yè)檔案、林業(yè)年鑒、自然資源和地理空間數(shù)據(jù)庫、林業(yè)發(fā)展報告庫,等等。中國林業(yè)數(shù)字圖書館的建立,為中國林業(yè)大數(shù)據(jù)研究創(chuàng)建了條件。中國林業(yè)數(shù)字圖書館依托國家林業(yè)局內(nèi)外網(wǎng)平臺建設(shè),將為林業(yè)行業(yè)提供豐富的圖書、期刊、論文等信息資源。而中國國家衛(wèi)星林業(yè)遙感數(shù)據(jù)應(yīng)用平臺也為中國林業(yè)大數(shù)據(jù)的研究做出了貢獻(xiàn)。作為林業(yè)行業(yè)提供遙感基礎(chǔ)數(shù)據(jù)、數(shù)據(jù)處理平臺、數(shù)據(jù)產(chǎn)品發(fā)布平臺將大幅提高林業(yè)遙感應(yīng)用水平。
四、大數(shù)據(jù)在林業(yè)上的應(yīng)用
大數(shù)據(jù)在林業(yè)上的應(yīng)用,目前主要的問題就是數(shù)據(jù)的提取,其理論核心為數(shù)據(jù)的挖掘。各種林業(yè)資源數(shù)據(jù)挖掘的算法基于不同的物種數(shù)據(jù)類型和格式才能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身具備的特點(diǎn),也正是因?yàn)榱謽I(yè)資源變更數(shù)據(jù)被全世界統(tǒng)計學(xué)家所公認(rèn)的各種統(tǒng)計方法才能深入數(shù)據(jù)內(nèi)部,才能體現(xiàn)大數(shù)據(jù)分析的便利。第一部分是大數(shù)據(jù)林業(yè)內(nèi)涵與重要意義,包括大數(shù)據(jù)林業(yè)內(nèi)涵特征、產(chǎn)生背景、關(guān)系分析、關(guān)鍵技術(shù)、新觀念分析;第二部分是大數(shù)據(jù)林業(yè)總體發(fā)展思路,包括大數(shù)據(jù)林業(yè)戰(zhàn)略定位、基本思路、基本原則、建設(shè)目標(biāo)、總體架構(gòu);第三部分是大數(shù)據(jù)林業(yè)的主要任務(wù)與重點(diǎn)工程,包括加快建設(shè)大數(shù)據(jù)林業(yè)立體感知體系、大力提升智大數(shù)據(jù)林業(yè)管理協(xié)同水平、有效構(gòu)建大數(shù)據(jù)林業(yè)生態(tài)價值體系、全面完善大數(shù)據(jù)林業(yè)民生服務(wù)體系、大力構(gòu)建大數(shù)據(jù)林業(yè)標(biāo)準(zhǔn)及綜合管理體系;第四部分是大數(shù)據(jù)林業(yè)推進(jìn)策略,包括大數(shù)據(jù)林業(yè)推進(jìn)路線圖、保障措施。要進(jìn)行大數(shù)據(jù)的新題提取,必須具備單個方面的內(nèi)容:(1)理論。理論是認(rèn)知的必經(jīng)途徑,也是被廣泛認(rèn)同和傳播的基線。從大數(shù)據(jù)的特征定義理解林業(yè)對大數(shù)據(jù)的整體描繪和定性;從對大數(shù)據(jù)價值的探討來深入解析大數(shù)據(jù)的珍貴所在;從對大數(shù)據(jù)的現(xiàn)在和未來去洞悉大數(shù)據(jù)的發(fā)展趨勢;從大數(shù)據(jù)隱私這個特別而重要的視角審視人和數(shù)據(jù)之間的長久博弈。(2)技術(shù)。技術(shù)是大數(shù)據(jù)價值體現(xiàn)的手段和前進(jìn)的基石。我將分別從云計算、分布式處理技術(shù)、存儲技術(shù)和感知技術(shù)的發(fā)展來說明大數(shù)據(jù)從采集、處理、存儲到形成結(jié)果的整個過程。(3)實(shí)踐。實(shí)踐是大數(shù)據(jù)的最終價值體現(xiàn)。我將分別從互聯(lián)網(wǎng)的大數(shù)據(jù)、政府的大數(shù)據(jù)、企業(yè)的大數(shù)據(jù)和個人的大數(shù)據(jù)四個方面來描繪大數(shù)據(jù)已經(jīng)展現(xiàn)的美好景象及即將實(shí)現(xiàn)的藍(lán)圖。
數(shù)據(jù)化是大數(shù)據(jù)的基礎(chǔ)。在生態(tài)林業(yè)資源動態(tài)變化中,數(shù)字化和數(shù)據(jù)化大相徑庭?!皵?shù)字化”指的是將生態(tài)林業(yè)資源變動中產(chǎn)生的信息、森林演替所產(chǎn)生的資源或環(huán)境變化的軌跡轉(zhuǎn)換成電子數(shù)據(jù)存入數(shù)據(jù)庫的過程;而“數(shù)據(jù)化”則是指在數(shù)字化的基礎(chǔ)上,利用數(shù)據(jù)來對森林變更進(jìn)行描述,使之能同時被人和計算機(jī)所理解的結(jié)果。生態(tài)林業(yè)資源信息大量數(shù)據(jù)來自于不同來源、數(shù)量龐大的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)群,大部分都不能直接用于預(yù)測和分析。而通過對數(shù)據(jù)有效的組織,能將大量來自不同源的異構(gòu)數(shù)據(jù)量化組合,形成森林資源數(shù)據(jù)化、森林類別數(shù)據(jù)化、生態(tài)資源使用量的數(shù)據(jù)化、森林屬性數(shù)據(jù)化等在信息化服務(wù)中管理者比較關(guān)心的數(shù)據(jù)化形式。數(shù)據(jù)化是將數(shù)據(jù)從無序到有序的加工階段,數(shù)據(jù)化的最終成果是將森林?jǐn)?shù)據(jù)對象屬性量化,構(gòu)建數(shù)據(jù)挖掘和服務(wù)的基本對象,簡化數(shù)據(jù)分析和利用過程。
五、大數(shù)據(jù)在林業(yè)運(yùn)用上的特點(diǎn)
大數(shù)據(jù)分析要求林業(yè)工作人員在進(jìn)行研究的過程中,改變思路,同時改變對數(shù)據(jù)來源的態(tài)度。相比之前的數(shù)據(jù)研究工作,大數(shù)據(jù)的主要特點(diǎn)是數(shù)據(jù)量大、數(shù)據(jù)種類繁多,這給林業(yè)工作人員帶來很多困擾,要求林業(yè)工作人員在繁雜的數(shù)據(jù)中,準(zhǔn)確找到適合的可用數(shù)據(jù)。同時,在大數(shù)據(jù)分析時,主要研究數(shù)據(jù)之間的規(guī)律,從大量數(shù)據(jù)中找到能夠提取的信息,在提取過程中,經(jīng)常會出現(xiàn)不精確數(shù)據(jù),要求林業(yè)工作者及時擯棄數(shù)據(jù)或者在可接受范圍內(nèi)允許少量的不精確數(shù)據(jù)出現(xiàn)。在多數(shù)情況下,數(shù)據(jù)來源于網(wǎng)絡(luò)。在大數(shù)據(jù)分析時,明確數(shù)據(jù)來源,分析數(shù)據(jù)的可靠性,就數(shù)據(jù)的相關(guān)性進(jìn)行分析,而不是研究數(shù)據(jù)產(chǎn)生的原因。研究人員可以收集和分析大量相關(guān)數(shù)據(jù)的信息,找出可能有助于預(yù)測未來事件發(fā)生的規(guī)律。
中國林業(yè)大數(shù)據(jù)處理需要建立完整的數(shù)據(jù)庫整合和新建了林業(yè)政策法規(guī)庫、歷年統(tǒng)計數(shù)據(jù)庫、林業(yè)年鑒庫、林業(yè)發(fā)展報告庫、自然資源和地理空間庫、林業(yè)檔案庫等多個專題數(shù)據(jù)庫,內(nèi)容豐富、查詢便捷,是信息化服務(wù)林業(yè)的又一重要成果。中國林業(yè)數(shù)字圖書館依托國家林業(yè)局內(nèi)外網(wǎng)平臺建設(shè),將為林業(yè)行業(yè)提供豐富的圖書、期刊、論文等信息資源,為林業(yè)職工和廣大公眾提供更好的服務(wù)。國家衛(wèi)星林業(yè)遙感數(shù)據(jù)應(yīng)用平臺作為林業(yè)行業(yè)提供遙感基礎(chǔ)數(shù)據(jù)、數(shù)據(jù)處理平臺、數(shù)據(jù)產(chǎn)品發(fā)布平臺將大幅提高林業(yè)遙感應(yīng)用水平。林業(yè)綜合辦公系統(tǒng)群將把國家林業(yè)局機(jī)關(guān)和直屬單位納入統(tǒng)一的辦公平臺中,真正實(shí)現(xiàn)辦公一體化。
六、展望
在研究過程中,大數(shù)據(jù)作為一種資源也作為一種工具。他可以預(yù)測未來可能會發(fā)生的事情,但就對已經(jīng)發(fā)生的事情沒有進(jìn)行解釋,需要研究人員進(jìn)一步分析。我們必須以一種不僅欣賞其力量,而且承認(rèn)其局限的態(tài)度來接納這種技術(shù)。大數(shù)據(jù)在林業(yè)上的研究,就是林業(yè)在數(shù)字林業(yè)的基礎(chǔ)上,運(yùn)用大數(shù)據(jù)、云計算、互聯(lián)網(wǎng)等信息技術(shù),使林業(yè)實(shí)現(xiàn)智慧感知、智慧管理、智慧服務(wù)。通過大數(shù)據(jù)林業(yè)建設(shè),形成信息基礎(chǔ)條件國際領(lǐng)先、生態(tài)管理與民生服務(wù)質(zhì)量明顯提高、林業(yè)產(chǎn)業(yè)結(jié)構(gòu)與創(chuàng)新能力優(yōu)化發(fā)展的現(xiàn)代化模式。
主要參考文獻(xiàn):
[1]李世東.大數(shù)據(jù)時代中國智慧林業(yè)門戶網(wǎng)站建設(shè)[J].電子政務(wù),2014.3.
[2]覃德文,云朝光,秦武明等.PCR技術(shù)發(fā)展?fàn)顩r研究[J].林業(yè)實(shí)用技術(shù),2013.6.
[3]藍(lán)學(xué),韋緒,覃德文.淺談大數(shù)據(jù)分析在生態(tài)林業(yè)上的運(yùn)用[J].經(jīng)濟(jì)研究導(dǎo)刊,2015.6.
[4]郭建斌,秦向華,萬志紅,李平.大數(shù)據(jù)時代林業(yè)科普信息化發(fā)展研究[J].經(jīng)濟(jì)師,2014.9.
[5]張婷婷,趙睿濤.大數(shù)據(jù)對競爭情報研究的影響分析[J].競爭情報,2013.2.
[6]Del Río,Sara.On the use of Map Reduce for imbalanced big data using Random Forest.Information sciences,2014.285.
[7]維克托·邁爾·舍恩伯格.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].浙江:浙江人民出版社,2013.