劉孝龍
摘 要:以沿海11個?。ㄖ陛犑?、自治區(qū))的截面數(shù)據(jù)為樣本,構(gòu)建陸域和海域經(jīng)濟指標體系,運用K-means聚類算法,分別在陸域和海域指標中對沿海?。ㄖ陛犑小⒆灾螀^(qū))進行聚類,研究海域與陸域的關(guān)聯(lián)性與差異性。
關(guān)鍵詞:聚類分析;數(shù)據(jù)挖掘;海陸差異
文章編號:1004-7026(2020)04-0028-02 ? ? ? ? 中國圖書分類號:F207? ? ? ?文獻標志碼:A
1 ?研究背景
我國海洋經(jīng)濟呈現(xiàn)出蓬勃發(fā)展的態(tài)勢,海洋產(chǎn)業(yè)不斷優(yōu)化升級,海洋經(jīng)濟對地區(qū)經(jīng)濟貢獻度不斷增加。但與海洋強國相比,我國海洋經(jīng)濟發(fā)展水平還存在著比較大的差距。當前,世界各國對海洋經(jīng)濟發(fā)展高度重視,我國針對海陸統(tǒng)籌發(fā)展也出臺了許多政策規(guī)劃。國內(nèi)外已經(jīng)有很多學者對陸海經(jīng)濟進行過研究。研究沿海11個?。ㄖ陛犑?、自治區(qū))海域經(jīng)濟與陸域經(jīng)濟的聯(lián)系,對推動區(qū)域協(xié)調(diào)發(fā)展具有學術(shù)研究價值、應(yīng)用價值和現(xiàn)實意義。
國內(nèi)外進行了很多關(guān)于陸海海域統(tǒng)籌發(fā)展的研究。國外有研究陸海產(chǎn)業(yè)結(jié)構(gòu)優(yōu)化必要性的[1],也有研究沿海居民對海洋和海岸系統(tǒng)依賴性以及陸海協(xié)調(diào)與經(jīng)濟可持續(xù)發(fā)展的[2]。國內(nèi)有學者研究了海洋產(chǎn)業(yè)對陸海經(jīng)濟的帶動作用[3],建立了陸域海域產(chǎn)業(yè)關(guān)聯(lián)模型[4],也有文獻指出陸域經(jīng)濟壯大對陸海一體化起到了關(guān)鍵的推動作用[5]。
為探究陸域和海域經(jīng)濟指標的相關(guān)性和差異性,借助數(shù)據(jù)挖掘系統(tǒng)建模的優(yōu)勢,利用數(shù)據(jù)科學中聚類分析技術(shù)來研究陸海經(jīng)濟指標的相關(guān)性。已知的聚類分析算法有多種[6],各種聚類方法被不斷提出和改進。在實際應(yīng)用中,聚類算法選擇取決于待評估數(shù)據(jù)的類型和聚類的目的,不同的算法適合于不同類型的數(shù)據(jù)。根據(jù)近年來出現(xiàn)的各種聚類方法的特點,常用的聚類算法可分為基于劃分的聚類算法[7]、基于層次的聚類算法、基于密度的聚類算法、基于網(wǎng)格的聚類算法等4種[8-9]。
基于劃分的聚類算法是在機器學習中應(yīng)用最多的。其假設(shè)聚類算法所使用的目標函數(shù)都是可微的,先對數(shù)據(jù)樣本進行初步分組,再將此劃分結(jié)果作為初始值進行迭代,在迭代過程中根據(jù)樣本點到各組的距離反復(fù)調(diào)整,重新分組,最終得到一個最優(yōu)的目標函數(shù)。最終聚類結(jié)果出現(xiàn)在目標函數(shù)收斂的情況下[10]。
K-mean算法成為經(jīng)典算法是由于其具有以下優(yōu)勢:①時間復(fù)雜度與數(shù)據(jù)集大小呈線性關(guān)系;②收斂于局部最優(yōu)解。K-mean算法也有缺點:①傳統(tǒng)的K-means使用歐氏距離,僅適用于球形數(shù)據(jù);②對噪聲和孤立點較為敏感[11-12]。
2 ?研究過程
2.1 ?指標選取與數(shù)據(jù)預(yù)處理
采用的指標分為陸域指標和海域指標。陸域指標包括陸域生產(chǎn)總值增長率、陸域產(chǎn)業(yè)就業(yè)人數(shù)、陸域產(chǎn)業(yè)固定資產(chǎn)投資總額陸域三次產(chǎn)業(yè)比重、地區(qū)就業(yè)、出口總值、陸域勞動生產(chǎn)率、陸域經(jīng)濟密度、社會消費品零售總額等。海域指標除與陸域相似替代指標外,還有港口貨物吞吐量、濱海旅游外匯收入一些海洋特色指標。兩類指標共計31個指標。
為保證數(shù)據(jù)的完整性與準確性,數(shù)據(jù)選取沿海11個省(直轄市、自治區(qū))2015年在這些指標下的數(shù)據(jù)。由于各指標量綱不同且數(shù)值具有非常大的比例差異,可能影響聚類性能。采用sklearn機器學習算法庫對數(shù)據(jù)進行縮放,縮放后的數(shù)據(jù)范圍在0~1之間。
2.2 ?聚類分析
K-means聚類算法易于理解,可解釋性強,可以自己選擇參數(shù),但在實際應(yīng)用上k-mean算法弊端也很明顯,即算法可能收斂到局部最小值,而非全局最小值。為了克服這種弊端,使用python中的標準庫numpy構(gòu)建二分k-均值算法,用選取數(shù)據(jù)建立聚類模型,得到聚類結(jié)果。簇類別取值為0、1、2,表示3種類別。距離表示該樣本與自己所在簇質(zhì)心的距離。聚類結(jié)果如表1所示。
3 ?結(jié)果分析
由聚類分析結(jié)果可知,在海域分類結(jié)果中,遼寧、河北、福建、廣西、海南分為一類,天津、上海分為一類,山東、江蘇、浙江、廣東分為一類;在陸域分類結(jié)果中,遼寧、上海分為一類,天津、山東、江蘇、浙江、福建、廣東分為一類,河北、廣西、海南分為一類。
容易看出,河北、廣西、海南在海域和陸域分類中都處于同一類別,山東、江蘇、浙江、廣東在海域和陸域分類中都被分到同一類別,說明這些省(直轄市、自治區(qū))的陸海協(xié)同度較高。河北、山東的陸海產(chǎn)業(yè)均以第二產(chǎn)業(yè)為主,資源配置合理,陸域經(jīng)濟和海域經(jīng)濟聯(lián)動緊密。長三角區(qū)域的江蘇、浙江是以制造業(yè)、工業(yè)為支撐的大省,總體上陸海經(jīng)濟發(fā)展協(xié)調(diào)。江蘇省近年涉海就業(yè)人員占地區(qū)就業(yè)人員比重較低,但人均海洋生產(chǎn)總值呈增長態(tài)勢。浙江省存在海洋科技人才匱乏導致海洋科技貢獻率低等問題,但具有優(yōu)勢的海洋第三產(chǎn)業(yè)對陸域經(jīng)濟起到了很好的反哺作用。廣東、海南陸域經(jīng)濟和海域經(jīng)濟聯(lián)動較弱,但是協(xié)調(diào)聯(lián)動性仍強于同樣處于珠三角地區(qū)的福建、廣西。
在兩種分類結(jié)果中,與上海處于同一類別的?。ㄖ陛犑?、自治區(qū))很少。不管在陸域經(jīng)濟領(lǐng)域還是海域經(jīng)濟領(lǐng)域,上海都處于領(lǐng)先地位。上海是金融中心,其發(fā)達的濱海旅游業(yè)和國際航運中心的地位為陸域海域經(jīng)濟發(fā)展貢獻了巨大推動力。
天津、福建、遼寧等?。ㄖ陛犑校┰诤S蚝完懹蚍诸愔蟹謩e處于不同類別,說明這些省(直轄市)在陸域和海域發(fā)展中存在結(jié)構(gòu)失衡問題。遼寧海洋經(jīng)濟基礎(chǔ)較薄弱,海洋經(jīng)濟總量中大部分由傳統(tǒng)行業(yè)組成,從產(chǎn)業(yè)結(jié)構(gòu)角度上看,落后于其他產(chǎn)業(yè)結(jié)構(gòu)以“三二一”和“二三一”為特征的地區(qū)。天津設(shè)立濱海新區(qū),通過政策優(yōu)惠、財政支持、融資擴展等方式引進企業(yè),為海洋發(fā)展提供財力及政策支持,其人均海洋生產(chǎn)總值位于前列,但人均陸域生產(chǎn)總值和陸域產(chǎn)業(yè)就業(yè)人數(shù)均處于較低水平。
4 ?結(jié)束語
經(jīng)過對比研究發(fā)現(xiàn),河北、廣西、海南、山東、江蘇、浙江、廣東在海域和陸域聚類中結(jié)果相似,說明其陸海經(jīng)濟具有較好的協(xié)調(diào)性,天津、福建、遼寧則在陸域和海域的聚類中呈現(xiàn)出差異性。從自然資源稟賦、需求結(jié)構(gòu)、勞動力狀況、技術(shù)創(chuàng)新、科技因素、政策因素等方面進行分析,對沿海省(直轄市、自治區(qū))協(xié)調(diào)陸海經(jīng)濟發(fā)展具有重要的指導意義。
參考文獻:
[1]Cochrane K L. Reconciling sustainability, economic efficiency and equity in fisheries: the one that got away? [J]. Fish and fisheries,2000(1):3-21.
[2]Hameedi. Study on sea coupling coordination mechanism from the perspective of the giant system[J]. Ecological Economy,2016(8):25-28.
[3]欒維新,王海英.論我國沿海地區(qū)的陸海經(jīng)濟一體化[J].地理科學,1998(4):343-348.
[4]于謹凱,曹艷喬.海洋產(chǎn)業(yè)影響系數(shù)及波及效果分析[J].中國海洋大學學報(社會科學版),2007(4):7-12.
[5]鄭堅銘.南海陸海經(jīng)濟一體化的島礁建設(shè)探討[J].現(xiàn)代商貿(mào)工業(yè),2019(19):41-42.
[6]Xu R, Wunsch D C. Survey of clustering algorithms [J]. Transactions on Neural Networks,2005(3):645-678.
[7]Hong Y, Kwong S. Learning assignment order of instances for the constrained K-means clustering algorithm [J]. IEEE Transactions on Systems, Man and Cybernetics, Part B (Cybernetics),2008(2):568-574.
[8]賀玲,吳玲達,蔡益朝.數(shù)據(jù)挖掘中的聚類算法綜述[J].計算機應(yīng)用研究,2007(1):10-13.
[9]孫吉貴,劉杰,趙連宇.聚類算法研究[J].軟件學報,2008(1):48-61.
[10]王駿.無監(jiān)督學習中聚類和閾值分割新方法研究[D].南京:南京理工大學,2010.
[11]Kaufman L, Rousseeuw P J. Finding groups in data: an introduction to cluster analysis[M]. John Wiley & Sons,2009.
[12]Huang Z. Extensions to the k-means algorithm for clustering large data sets with categorical values[J]. Data mining and knowledge discovery,1998(3):283-304.