• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      合并與不合并:兩個相似性聚類分析方法比較

      2013-12-16 08:19:18劉新濤劉曉光張書杰楊黨偉任應黨
      生態(tài)學報 2013年11期
      關鍵詞:區(qū)系相似性昆蟲

      劉新濤,劉曉光,申 琪,張書杰,楊黨偉,任應黨,*

      (1.河南省農業(yè)科學院植物保護研究所,河南省農作物病蟲害防治重點實驗室,農業(yè)部華北南部作物有害生物綜合治理重點實驗室,鄭州 450002;2.河南中醫(yī)學院,鄭州 450008;3鄭州大學生物工程系,鄭州 450001)

      1901年Jaccard提出的用于生物區(qū)系比較的相似性系數計算公式[1],由于簡明、準確,迅速得到人們普遍認可,在生物學等自然科學以及社會科學的眾多領域被廣泛應用[2],以相似性作為尺度的聚類分析技術(SCA)也日漸普及。由于Jaccard的公式只能計算2個地區(qū)間的相似性系數,于是“合并降階”便成為相似性聚類分析方法中的核心技術環(huán)節(jié),并被奉為經典。人們在大中型相似性聚類分析的運算中得不到既符合統計學邏輯,又具有地理學、生物學意義的結果時,往往只懷疑自己的基礎數據欠缺,而不去質疑“合并”的合理性,只能將研究和數據束之高閣。申效誠等從創(chuàng)立多元相似性系數計算公式入手[3-4],徹底擯棄層層合并的環(huán)節(jié),創(chuàng)建了新的多元相似性聚類分析方法(MSCA)[5-6],經過多類群、多地理區(qū)域的運算實驗[7-11],不僅簡便省時,而且聚類能力強大合理。

      為了更直接鮮明地對比SCA和MSCA由于合并與不合并所產生的差異,選用小、中、大型3組數據,分別用兩種方法運算,比較聚類結果。以便為MSCA的廣泛應用、為生物地理學的發(fā)展提供科學依據。

      1 材料與方法

      1.1 材料

      所用材料均來自我們建造的中國昆蟲分布數據庫:山西省4638種昆蟲在7個小區(qū)的分布;內蒙古自治區(qū)7766種昆蟲在14個小區(qū)的分布;中國16804屬昆蟲在67個生態(tài)區(qū)域的分布。

      1.2 方法

      用Jaccard的二元相似性系數計算公式將上述材料分別制出7×7、14×14、67×67的相似性系數三角矩陣備用。

      1.2.1 傳統的聚類分析法(SCA)

      選擇相似性系數最大的兩個小區(qū)首先聚類,將這兩個小區(qū)的分布資料合并為一個新的小區(qū),使參與聚類的小區(qū)降為n-1個,再用Jaccard的公式計算n-1個小區(qū)的兩兩相似性系數,排成n-1×n-1矩陣,重新選擇相似性系數最大的兩個小區(qū)予以合并,使參與聚類的小區(qū)數降為n-2個。如此反復,直至全部小區(qū)聚類完成。最后,根據聚類與合并的順序作出支序圖。

      式中,SI是兩個小區(qū)間的相似性系數,A、B分別是兩個小區(qū)的種類數,C是兩個小區(qū)的共有種類數。

      1.2.2 多元相似性聚類分析法(MSCA)

      選擇相似性系數最大的兩個小區(qū)首先聚類,但不將這兩個小區(qū)的分布資料合并,而是將其視為一個“單元群”,與其它沒有聚類的n-2個小區(qū)一同進入下一輪聚類分析。每輪均挑選相似性系數最大者聚類,擴大原單元群或形成新的單元群,如此反復,直到聚類完成。相似性系數采用申效誠等創(chuàng)立的多元相似性系數公式計算。最后作出支序圖。

      式中,SIn是要比較的n個小區(qū)間的相似性系數;Si、Hi、Ti分別是i小區(qū)的種類數、共有種類數、獨有種類數,且滿足Si-Ti=Hi;S為n個小區(qū)的總種類數。這些數據都可以從數據庫的查詢表上直接獲得。

      兩個公式原理完全相同,前者是后者在n為2時的一個特例。后者是前者在n大于2時的通式。也即本文要比較的兩個方法的區(qū)別在于合并與不合并所引起的差異。

      例如表1的山西省7個小區(qū)中,5、6小區(qū)的相似性系數最大(0.412),合并法是將其合并成一個有1413種(974+1021-582)昆蟲的新小區(qū),然后全省降為6個小區(qū),再重新尋找相似性最大的兩個小區(qū)予以合并,直到最后。

      不合并法是不將5、6小區(qū)合并,而是將其視為新的聚類單元進入下一輪比較,當計算新聚類單元(包含5、6小區(qū))與其它任一小區(qū)(1、2、3、4、7小區(qū))間的相似性系數時,參與計算的是3個小區(qū)即n=3,在這一輪中,(5、6)和3小區(qū)間的相似性系數最大,因此,((5、6)、3)聚在一起形成了新的聚類單元;在下一輪比較時,將計算((5、6)、3)分別與1、2、4、7 小區(qū)之間的相似性系數(共4 個),以及(1 和2)、(1 和4)、(1 和7)、(2 和4)、(2和7)、(4和7)小區(qū)間的相似性系數(共6個),挑選其中相似性系數最大者(1和4小區(qū))聚成一類;再下一輪比較,需要比較的聚類單元有:2小區(qū)、(1、4小區(qū))、((5、6)、3小區(qū))和7小區(qū),計算相似性系數時,n值是實際參與的小區(qū)數,如計算(1、4小區(qū))與((5、6)、3小區(qū))之間的相似性系數時,實際參與的小區(qū)數是5個小區(qū)即n=5。依次類推,直至全部小區(qū)聚類完成。

      2 結果與分析

      2.1 山西省昆蟲分布的聚類分析結果比較

      山西省共記錄4638種昆蟲,其中有省下分布記錄的有2619種,分布在7個小區(qū)內的種類數、共有種類數及其相似性系數如表1。

      表1 山西省各地理小區(qū)的昆蟲種類(對角線)、共有種類數(上三角)和相似性系數(下三角)Table 1 The insect species number(on diagonal line),shared species number(above diagonal)and similarity coefficient(below diagonal)in every regions in Shanxi Province

      使用合并法和不合并法分別得到兩個聚類圖(圖1,圖2)。

      比較圖1和圖2,圖2中7個小區(qū)在相似性系數為0.30時聚為兩群。1、4、7小區(qū)聚為一群,以中低山地為主,居該省北、西方;其余4小區(qū)為一群,以平原、丘陵、低山為主,居該省中、東、南部,7個小區(qū)的總相似性系數為0.248。圖1 中7 個小區(qū)起初并為3 個新小區(qū),(1、4、7),(2、3),(5、6)各為一新小區(qū)。2、3 為低山,5、6則為平原丘陵,生態(tài)學意義更為突出,但它們難以以更低的相似性系數合并在一起,其生態(tài)學意義在高一級的聚類中喪失。7個小區(qū)最后的相似性系數為0.308,最多可在0.32處區(qū)分成兩個新小區(qū),同樣找不到辨別3個新小區(qū)的相似性水平。兩種聚類方法的結果在地理學、生物學上不存在差異,聚類結構基本沒有變化。在統計上的差異:第一,相似性系數的含義不同,合并法最后的相似性系數0.308是最終合并成的山地區(qū)與平原區(qū)之間的相似性系數,必須層層合并到最后才能完成,完成時,7個小區(qū)已不復存在,支序圖只是合并過程圖;不合并法的相似性系數0.248確實是7個小區(qū)的總相似性系數,它不受聚類過程的影響,也不因聚類結構變動而變化,甚至可以最先計算出來;第二,合并法在2、3合并區(qū)和5、6合并區(qū)之間的相似性系數0.382比2、3合并時的系數0.328還高,這種“倒掛”現象是由合并引起的后果,致使支序圖出現“凹陷”,不再是典型的梯形結構。

      圖1 山西省昆蟲分布合并法聚類圖Fig.1 The clustering graph of insect fauna of Shanxi Province by merge method

      圖2 山西省昆蟲分布不合并法聚類支序圖Fig.2 The clustering graph of insect fauna of Shanxi Province by non-merged method

      2.2 內蒙古自治區(qū)昆蟲分布的聚類結果比較

      內蒙古自治區(qū)有昆蟲7766種,有區(qū)下分布記錄的共5543種。分布在14個小區(qū)的種類數、共有種類數和相似性系數如表2,兩種聚類法得到兩個支序圖(圖3,圖4)。

      表2 內蒙古各地理小區(qū)的昆蟲種類(對角線)、共有種類數(上三角)和相似性系數(下三角)Table 2 The insect species number(on diagonal line),shared species number(above diagonal)and similarity coefficient(below diagonal)in every regions in Inner Mongolia

      圖4中,在相似性系數0.20的水平上,14個小區(qū)聚為兩類,一類內蒙古的東北部,以大興安嶺等山地為主要地理特征,另一類在內蒙古西南部,以高原沙漠為主要地理特征,14個小區(qū)的總相似性系數為0.159。圖3中,起初12個小區(qū)分別合并為6個新小區(qū),在以后的7次系數計算中,有3次出現了“倒掛”,而且由于合并,第9小區(qū)賀蘭山和第10小區(qū)大興安嶺北段山前平原面積最小、昆蟲種類最少,被排斥在外,直到最后是賀蘭山和全內蒙古的比較,相似性系數為0.086,聚類結構產生較大變化,找不到一個合適的相似性水平把14個小區(qū)劃分成幾個有統計學和生態(tài)學意義的“類”來?!安⒍活悺保3J呛喜⒎ǖ淖罱K結果。

      圖3 內蒙古昆蟲分布合并法聚類圖Fig.3 The clustering graph of insect fauna of Inner Mongolia by merge method

      圖4 內蒙古昆蟲分布不合并法聚類支序圖Fig.4 The clustering graph of insect fauna of Inner Mongolia by non-merged method

      圖4中,也出現一次“倒掛”,2、8小區(qū)之間相似性系數為0.315,3、13小區(qū)之間為0.316,但2、8、3三者的相似性系數為0.317,3小區(qū)只能放棄13小區(qū),和2、8小區(qū)聚在一起,由于2、8沒有合并,可以將3個小區(qū)并列。

      2.3 中國昆蟲屬級分布的聚類結果比較

      數據庫記錄到的中國昆蟲共91179種,隸屬于16804屬,按生態(tài)條件將全國分成67個基礎地理單元,對于16904屬在67個單元中的分布,用兩個聚類方法得到兩個支序圖(圖5,圖6)。

      圖6中,67個基礎地理單元在相似性系數為0.25時,聚合為9群,每群所轄單元在地理上都相鄰相連,在昆蟲區(qū)系性質上都具有相同或相似的成分構成,可以不加任何修飾地作為我國昆蟲的9個分布區(qū)。圖5中,67個單元最后合并成兩區(qū),一個是由5個單元合并,包括東北的小興安嶺、三江平原,西北的阿爾泰山,和新疆南部的帕米爾高原、昆侖山,違背地理學邏輯;另一個由其余62個單元合并而成,沒有生態(tài)學和生物地理學價值。66個相似性系數中,除去23個有意義的最低層次系數外,其余43個中有21個系數是倒掛的。整個過程,除是一場數字游戲外,沒有出現任何有積極意義的結果。

      3 結論與討論

      3.1 兩種聚類方法的差異顯而易見,隨著比較單元的增多愈加劇烈

      圖5 中國昆蟲屬級分布合并法支序圖Fig.5 The clustering graph of generic fauna from China by merge method

      圖6 中國昆蟲屬級分布不合并法支序圖Fig.6 The clustering graph of generic fauna from China by nonmerged method

      使用同一組數據,兩種聚類分析方法得到不同的結果,而且隨著參與比較的地理單元的增多,差異愈加劇烈,從相似性系數大小,到聚類結構變化,再到聚類功能喪失與否。這不是使用計算公式的錯誤,而是由于合并改變了原參與小區(qū)資料的性質所引發(fā)的變化。在參與比較的地理單元較少時(例如7個以下),聚類結構還不至于發(fā)生不合理變動,聚類結果還有一些應用價值。參與小區(qū)達到10個以上,聚類結果則難堪相信。所以目前聚類分析的報道多是較少地理單元的應用,多地理區(qū)域、多單元參與的報告寥若晨星。這也是人們已經看到合并法的應用局限性的結果。

      兩種方法的計算,簡便程度也差別頗大。以手工計算為例,從制成二元相似性系數表開始,到繪出支序圖為止,合并法和不合并法的3個對比分別為130min和50min,4.5h和1.8h,7d和2d。合并法所浪費的時間主要在合并數據的環(huán)節(jié)。

      3.2 兩種聚類方法的性質迥然不同,認識須逐步到位

      無論兩種方法的結果差異大小,即使完全相同的情況下,其性質也決然不同。不合并法的每一個相似性系數都是所轄小區(qū)的共同的相似性關系,不受所轄小區(qū)之間的聚類順序變動的影響;每一個系數都是獨立的,它的產生沒有順序,既可從下到上,也可從上到下,又可從中間任何層次算起;所有系數都是同時存在的。所以,不合并法的支序圖是一個“狀態(tài)”,一個所參與地理單元在共同存在的情況下表明彼此關系親疏、距離大小的狀態(tài)。

      合并法的每一個相似性系數都是有關小區(qū)經過多次合并而成的兩個新小區(qū)的相似性關系,受有關小區(qū)之間的合并順序變動的影響;每一個系數都不是獨立的,它的產生遵循從下到上的順序,前一個系數是后一個系數產生的條件,后一個系數是前一個系數消亡的結果;所有系數都不可能同時存在。所以,合并法的支序圖是一個“過程”,一個所參與地理單元不斷消亡新單元不斷產生的過程,一個不斷肯定又不斷否定的過程。

      相似性系數越聚越高的“倒掛”是兩個方法都遇到的現象,但其性質也不相同。不合并法的倒掛是由于涉及到的3個或4個小區(qū)互相都有較高的相似性,聚類后的共同相似性系數更高的罕見現象,只出現在聚類過程中的初級層次,極少出現在較高層次,出現頻次不高,出現時可以用并列法表示;合并法中的倒掛是由于合并后的兩個新小區(qū)之間的較高的相似性,它主要出現在合并過程的較高層次,而且頻次很高,幾占較高層次的1/2。由于涉及到的小區(qū)已經合并,沒有辦法再把已經合并消失掉的它們并列,只能使支序圖出現凹陷,失去正常的梯形結構。

      3.3 合并法的歷史作用值得肯定,終結其歷史階段的條件已經具備

      1848年,植物學領域首先提出相似性的概念,1901年,Jaccard提出了計算兩個地區(qū)間生物區(qū)系的相似性系數公式,由于其簡便性、科學性,迅速得到科學界認可。此后,人們又相繼提出40余個相似性公式,但都未動搖Jaccard公式的經典地位,成為多學科、多領域中相似性計算的最基礎、最常用、最直觀方法。由于Jaccard公式不能計算多地區(qū)的相似性系數,在相似性聚類分析中采用“合并降階”的辦法,能夠在較少小區(qū)比較時得到相對滿意的結果,實現了人們多區(qū)比較的愿望,使生物地理由定性研究向定量研究發(fā)展邁出了第一步,其歷史性價值不容低估。隨著其局限性的逐漸顯現,人們曾試圖對合并后的二元系數進行修飾改良[12],但由于未脫離合并的窠臼,也難以達到預期的效果。因此在經歷了短期的熱情之后,眾多領域的中大型聚類需求得不到滿足,其積極作用便逐漸消失,以致成為制約生物地理發(fā)展的瓶頸。申效誠等人創(chuàng)建的多元相似性系數公式及MSCA法,徹底擯棄合并降階這一產生偏差和錯誤的根源,能夠得出相對客觀的聚類結果,是生物地理學研究領域有效的聚類分析工具,必將使生物地理學的定量研究邁入一個新階段。

      [1] Jaccard P.Distribution de la flore alpine dans le Bassin des Dranses et dams quelque region vasines.Bulletin de la Societe vaudoise des Sciences naturelles.Lausanne.1901,37:241-272.

      [2] Zhan Y L.Coeeficient of Similarity——An Important Parameter in Floristic Geography,Geographical Research,1998,17(4):429-434

      [3] Shen X C,Sun H,Zhao H D.A discussion about the method for multivariate similarity analysis of fauna.Acta Ecologica Sinica,2008,28(2):849-854.

      [4] Shen X C,Wang A P.A Simple Formula for Multivariate Similarity Coefficient and Its Contribution Rate in Analysis of Insect Fauna.Journal of Henan Agricultural Sciences,2008,(7):67-69.

      [5] Shen X C,Wang A P.Zhang S J.Studies on the Fauna of Noctuidae Ⅱ.Distribution and Similarity of Noctuidae in China.Acta Agriculturae Boreali-Sinica,2008,23(5):151-156.

      [6] Shen X C,Zhang S J,Ren Y D.The elements of insect fauna in China and distribution characteristics.Journal of Life Science,2009,3(7):19-25.

      [7] Zhao H D,Shen X C.A study on the Biogeography of Family Arctiidat in China//Shen X C,Zhang R Z,Ren Y D.Classification and Distribution of Insects in China,Beijing:China Agricultural Science and Technology Press,2008,381-388.

      [8] Sheng M L,Shen X C.Distribution and Multivariate Similarity Clastering Analysis of Ichneumonidae in Every Provinces,China//Shen X C,Zhang R Z,Ren Y D.Classification and Distribution of Insects in China,Beijing:China Agricultural Science and Technology Press,2008,389-393.

      [9] Shen X C,Ren Y D,Wang A P.Zhang S J.A multivariate similarity clustering analysis for geographical distribution of insects,spiders and mites in Henan Province.Acta Ecologica Sinica,2010,30(16):4416-4426.

      [10] Shen X C,Sun H,Ma X J.The multivariate similarity clustering analysis for 40,000 species of insect and spider fauna in China.Journal of Life Science,2010,4(2):35-40.

      [11] Ren Y D,Shen X C,Sun H,Ma X J.The Fauna Element and Geographical Distribution of Insect,Spider and Mite in Henan,China.Acta Agriculturae Boreali-Sinica,2011,26(1):204-209

      [12] Ward J H.Heirarchical grouping to optimize an objective function.Journal of the American Statistical Association.1963,58:236-244.

      參考文獻:

      [2] 張鐿鋰.植物區(qū)系地理研究中的重要參數——相似性系數.地理研究,1998,17(4):429-434.

      [3] 申效誠,孫浩,趙華東.昆蟲區(qū)系多元相似性分析方法.生態(tài)學報,2008,28(2):849-854.

      [4] 申效誠,王愛萍.昆蟲區(qū)系多元相似性的簡便計算方法及其貢獻率.河南農業(yè)科學,2008,(7):67-69.

      [5] 申效誠,王愛萍,張書杰.夜蛾科昆蟲區(qū)系研究 Ⅱ.中國各省區(qū)夜蛾的分布及相似性分析.華北農學報,2008,23(5):151-156.

      [6] 申效誠,張書杰,任應黨.中國昆蟲區(qū)系成分構成及其分布特點.生命科學,2009,3(7):19-25.

      [7] 趙華東,申效誠.中國燈蛾科昆蟲的生物地理學研究//申效誠,張潤志,任應黨.昆蟲分布與分類.北京:中國農業(yè)科學技術出版社,2008,381-388.

      [8] 盛茂領,申效誠.中國各省區(qū)姬蜂科昆蟲的分布及多元相似性聚類分析//申效誠,張潤志,任應黨.昆蟲分布與分類.北京:中國農業(yè)科學技術出版社,2008,389-393.

      [9] 申效誠,任應黨,王愛萍,張書杰.河南昆蟲、蜘蛛、蜱螨地理分布的多元相似性聚類分析.生態(tài)學報,2010,30(16):4416-4426.

      [10] 申效誠,孫浩,馬曉靜.中國40000種昆蟲蜘蛛區(qū)系的多元相似性聚類分析.生命科學,2010,4(2):35-40.

      [11] 任應黨,申效誠,孫浩,馬曉靜.河南昆蟲、蜘蛛、蜱螨的區(qū)系成分和分布地理研究.華北農學報,2011,26(1):204-209.

      猜你喜歡
      區(qū)系相似性昆蟲
      贛粵地區(qū)蕨類植物區(qū)系新資料
      一類上三角算子矩陣的相似性與酉相似性
      RFID昆蟲閱讀放大鏡
      玩具世界(2022年3期)2022-09-20 01:48:20
      淺析當代中西方繪畫的相似性
      河北畫報(2020年8期)2020-10-27 02:54:20
      借昆蟲上課
      甘肅教育(2020年2期)2020-09-11 08:01:48
      我最喜歡的昆蟲——知了
      內蒙古灌木植物多樣性及其區(qū)系分析
      昆蟲的冬天
      低滲透黏土中氯離子彌散作用離心模擬相似性
      不同施肥處理對農田土壤微生物區(qū)系和功能的影響
      宜州市| 娄底市| 晋江市| 潢川县| 克拉玛依市| 大洼县| 若羌县| 辽宁省| 永泰县| 来安县| 老河口市| 新宁县| 潼南县| 呼和浩特市| 常州市| 河曲县| 藁城市| 孟村| 纳雍县| 江津市| 包头市| 噶尔县| 深圳市| 微山县| 交口县| 清水河县| 铜川市| 肇庆市| 宝山区| 托克逊县| 庆云县| 论坛| 湘潭县| 吴桥县| 简阳市| 乾安县| 黔西县| 清涧县| 南阳市| 鄂温| 凉山|