張 慧 顧世梁 李 韜
1揚(yáng)州大學(xué)農(nóng)學(xué)院, 江蘇揚(yáng)州225009;2桐廬縣農(nóng)業(yè)技術(shù)推廣中心, 浙江杭州311500
?
一種新的符合度算法及其應(yīng)用
張慧1,2顧世梁1,*李韜1
1揚(yáng)州大學(xué)農(nóng)學(xué)院, 江蘇揚(yáng)州225009;2桐廬縣農(nóng)業(yè)技術(shù)推廣中心, 浙江杭州311500
摘要:在總結(jié)分析了幾種常用綜合評(píng)價(jià)方法的基礎(chǔ)上, 提出了一種反映觀察值與理論值之間相似性的新算法——符合度。該算法就評(píng)價(jià)信息個(gè)體(觀察值)與標(biāo)準(zhǔn)值(期望值)的馬氏距離, 再由馬氏距離轉(zhuǎn)化為評(píng)價(jià)對(duì)象與標(biāo)準(zhǔn)的接近程度, 即符合度(r)。首先進(jìn)行指標(biāo)數(shù)(p)、相似度(r)與馬氏距離(d)的模擬試驗(yàn), 再通過曲面擬合的方法找出它們之間的關(guān)系模型。通過大量抽樣試驗(yàn), 驗(yàn)證符合度的次數(shù)分布與原先設(shè)定的符合度的良好對(duì)應(yīng)關(guān)系, 說明模型的可行性與可靠性。以小麥RVA性狀為指標(biāo), 利用該算法分析揚(yáng)麥系統(tǒng)若干品種之間的接近程度, 并評(píng)價(jià)多變數(shù)復(fù)雜效應(yīng)回歸分析模擬試驗(yàn)的結(jié)果。符合度算法不需要數(shù)據(jù)標(biāo)準(zhǔn)化處理, 直接利用原始數(shù)據(jù), 減少了計(jì)算工作量, 降低了因數(shù)據(jù)標(biāo)準(zhǔn)化處理方法不同而引起的評(píng)價(jià)結(jié)果差異, 同時(shí)由于不需要賦權(quán), 排除了主觀性的影響, 保證了信息的完整性以及評(píng)價(jià)結(jié)果的可靠性。
關(guān)鍵詞:符合度; 綜合評(píng)價(jià); 計(jì)算機(jī)模擬; 馬氏距離
本研究由國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心開放課題“小麥育種材料評(píng)價(jià)研究”項(xiàng)目資助。
This study was supported by open project of the National Agricultural Information Engineering Center.
第一作者聯(lián)系方式: E-mail: zhanghui881007@126.com, Tel: 18606517137
在農(nóng)學(xué)和生物學(xué)領(lǐng)域中, 常會(huì)遇到對(duì)研究對(duì)象的個(gè)體或群體進(jìn)行評(píng)價(jià)的問題。所謂評(píng)價(jià)就是參照一定的標(biāo)準(zhǔn),評(píng)判與比較研究對(duì)象的價(jià)值或優(yōu)劣的一種認(rèn)知和決策過程[1], 如育種過程中對(duì)目標(biāo)品種(系)與參照品種優(yōu)劣程度的評(píng)價(jià)、農(nóng)作物產(chǎn)品品質(zhì)分級(jí)標(biāo)準(zhǔn)的歸屬或模擬試驗(yàn)中統(tǒng)計(jì)數(shù)與參數(shù)(期望值、標(biāo)準(zhǔn)值)接近程度的評(píng)價(jià)。依據(jù)個(gè)體(或群體)的多個(gè)性狀(指標(biāo)), 以有利于從整體的角度客觀、合理、公正地全面評(píng)價(jià)。所謂多指標(biāo)綜合評(píng)價(jià)方法, 就是把不同方面的多個(gè)指標(biāo)的信息匯集成一個(gè)綜合指標(biāo),來反映被評(píng)價(jià)對(duì)象的整體情況。這包括灰色關(guān)聯(lián)度法、TOPSIS法、主成分分析法等[2-6]。多指標(biāo)綜合評(píng)價(jià)方法一般包括評(píng)價(jià)指標(biāo)選擇、構(gòu)建指標(biāo)體系、選擇綜合評(píng)價(jià)模型、
數(shù)據(jù)標(biāo)準(zhǔn)化處理、確定指標(biāo)權(quán)重等過程, 從而綜合分析得出結(jié)論[7-8]。目前可以用作綜合評(píng)價(jià)方法考慮問題的側(cè)重點(diǎn)不盡相同, 在實(shí)際應(yīng)用中仍然存在各種缺陷和不足。其中, 數(shù)據(jù)標(biāo)準(zhǔn)化處理雖然能夠解決不同指標(biāo)(性狀)因量綱和變異度的差異對(duì)評(píng)價(jià)具不同作用的問題, 但也會(huì)較大程度削弱不同指標(biāo)所包含信息量的差異, 降低綜合評(píng)價(jià)的可靠性[9-12]。另外, 在評(píng)價(jià)過程中, 由于評(píng)價(jià)體系的各個(gè)評(píng)價(jià)指標(biāo)的重要程度不同, 大多數(shù)采用賦權(quán)的方式來體現(xiàn)。權(quán)重的確定主要應(yīng)用主觀賦權(quán)法和客觀賦權(quán)法[13-14]。前者多根據(jù)專家經(jīng)驗(yàn); 后者則根據(jù)性狀之間的相關(guān)關(guān)系或各性狀的變異度(的倒數(shù))或遺傳力等, 而不同的權(quán)重系數(shù),往往會(huì)導(dǎo)致很不相同甚至相反的評(píng)價(jià)結(jié)論, 這樣就大大降低了評(píng)價(jià)的可靠性[15-20]。
隨著人們對(duì)研究的不斷深化, 所面臨的評(píng)價(jià)對(duì)象日趨復(fù)雜, 人們對(duì)綜合評(píng)價(jià)精準(zhǔn)度的要求相應(yīng)提高。符合度(conformity), 又稱吻合度、接近度, 是指多變數(shù)觀察樣本與真值(理論值、期望值、經(jīng)驗(yàn)值、標(biāo)準(zhǔn)值)之間或兩個(gè)或多個(gè)多變數(shù)樣本之間接近程度的量化指標(biāo)。本文通過模擬試驗(yàn), 產(chǎn)生不同類型的多變數(shù)樣本與期望值(標(biāo)準(zhǔn)值)之間符合度量化關(guān)系的數(shù)據(jù)資料, 利用曲面擬合獲得模擬試驗(yàn)的樣本數(shù)據(jù)與符合度的關(guān)系模型。在此基礎(chǔ)上, 通過進(jìn)一步抽取一定條件下的大量樣本, 計(jì)算符合度的次數(shù)分布。通過符合度分布的平均數(shù)、標(biāo)準(zhǔn)差等特征數(shù)值驗(yàn)證符合度計(jì)算過程的可行性和可靠性。這種新型的符合度關(guān)系能準(zhǔn)確地衡量多變數(shù)樣本與某些標(biāo)準(zhǔn)值之間的接近程度,也可用于評(píng)價(jià)模擬試驗(yàn)中統(tǒng)計(jì)估計(jì)值與設(shè)定參數(shù)之間接近程度, 從而可以量化評(píng)價(jià)不同統(tǒng)計(jì)分析方法的優(yōu)劣。符合度指標(biāo)衡量多變數(shù)樣本個(gè)體之間的相似性, 還可用于相互比較評(píng)價(jià)或聚類分析等。
1.1抽樣試驗(yàn)
若有多指標(biāo)(多變數(shù))樣本X, 欲求算其中某一個(gè)體xi與某一標(biāo)準(zhǔn)值e之間的符合度(接近度、吻合度、恢復(fù)度) r。設(shè)X為具有p個(gè)指標(biāo)(變數(shù))和n個(gè)觀察值(個(gè)體)的矩陣,標(biāo)準(zhǔn)值e是具有p個(gè)指標(biāo)的向量。
這里1為n×1全是1的列向量, X的各行與e的各行為對(duì)應(yīng)指標(biāo)。xj=X(j)為X矩陣的第j列, 可視為該多變數(shù)樣本的第j個(gè)個(gè)體。欲求樣本中的個(gè)體x與e的接近程度r(x, e), 應(yīng)盡量排除p個(gè)指標(biāo)(變數(shù))的量綱和變異度的影響, 同時(shí)也應(yīng)考慮變數(shù)間相關(guān)性對(duì)符合度的作用, 尋找計(jì)算x與e的合適距離, 并由距離轉(zhuǎn)化為符合度關(guān)系, 對(duì)這一過程需進(jìn)行模擬和抽樣試驗(yàn)。
假設(shè)一個(gè)標(biāo)準(zhǔn)值為e’ =(e1, e2,…, eP)。若X是一組正態(tài)或均勻分布的隨機(jī)數(shù), 可理解為隨機(jī)向量x與e之間的相似性亦即符合度近乎為0。若x與e完全一樣, 則它們之間的符合度即為1; 而x與e有一定程度的關(guān)聯(lián), 其符合度應(yīng)是介于0和1之間的某個(gè)數(shù)值。當(dāng)有50%的關(guān)聯(lián)時(shí),符合度應(yīng)為0.5左右。關(guān)聯(lián)程度越小, 符合度越趨近于0,關(guān)聯(lián)程度越大, 符合度越趨于1。根據(jù)這一思路, 構(gòu)建基于隨機(jī)數(shù)x與e的中間變數(shù)y。
其中λ即為取值0到1間的符合度值。取公差為0.01的等差數(shù)列, 產(chǎn)生隨機(jī)變數(shù)x并由式(1)得到相應(yīng)的中間變數(shù)y。即當(dāng)λ為0.1時(shí), x與y存在0.1的相似性, 當(dāng)λ為0.5時(shí), x與y存在0.5的符合度, 以此類推, 從而通過中間變數(shù)y進(jìn)而研究合適的距離和符合度的關(guān)系。
1.2距離選擇
本研究中符合度的計(jì)算是由y和e之間的距離轉(zhuǎn)化而來, 所以距離函數(shù)的選擇對(duì)符合度函數(shù)的確定比較重要。常用的距離有歐氏距離、馬氏距離、切氏距離和閔氏距離等。其中歐氏距離應(yīng)用最為廣泛, 但是它有明顯的缺點(diǎn),主要是受量綱與變異度的影響過大, 即變異度大的指標(biāo)(變數(shù))在距離計(jì)算中所占的分量比變異度小的指標(biāo)(變數(shù))大。若變數(shù)的變異度與距離計(jì)算的重要性不成比例, 則這樣的距離就不能很好地反映它們的客觀真實(shí)性。當(dāng)對(duì)原數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化后, 則各指標(biāo)對(duì)距離計(jì)算的分量完全相同,這在很多時(shí)候也并不恰當(dāng), 因?yàn)樵诤芏嗑C合評(píng)價(jià)過程中,并非所有指標(biāo)對(duì)評(píng)價(jià)主體的重要性完全一致, 所得距離有時(shí)(或多數(shù)情況下)不能滿足實(shí)際要求。歐氏距離的另一個(gè)缺陷是未能考慮多個(gè)變數(shù)間相關(guān)性對(duì)距離計(jì)算的作用,而相關(guān)程度越大, 歐氏距離與客觀真實(shí)距離的偏差越大。最初我們也曾試驗(yàn)以歐式距離計(jì)算符合度的過程, 但在重抽樣過程中(2.3節(jié))出現(xiàn)明顯偏差, 因而被否定。
馬氏距離不受量綱和變異度的影響, 兩點(diǎn)之間的馬氏距離與原始數(shù)據(jù)的測(cè)量單位無關(guān); 由標(biāo)準(zhǔn)化數(shù)據(jù)和中心化數(shù)據(jù)(即原始數(shù)據(jù)與均值之差)算出的兩點(diǎn)間的馬氏距離相同。更重要的是馬氏距離還考慮了變數(shù)間相關(guān)性的作用, 所算距離更能體現(xiàn)個(gè)體間的遠(yuǎn)近關(guān)系。馬氏(平方)距離公式如下:
其中, xi和xj分別為第i和j個(gè)個(gè)體的p個(gè)變數(shù)(指標(biāo))所組成的向量, S為樣本方差協(xié)方差矩陣。
其中, I和J分別為n階單位陣和全1陣。該S為p階方陣, 對(duì)角線元素為各變數(shù)的方差, 非對(duì)角線元素為對(duì)應(yīng)變數(shù)的協(xié)方差。它們包含了X變數(shù)在p維空間散布的信息, 因此又稱為信息陣。而在本研究中, y與e之間的馬氏平方距離(下文簡(jiǎn)記為馬氏距離)如下:
在不同相似度(符合度)條件下隨機(jī)抽樣得到x并計(jì)算y與e之間的馬氏距離, 距離隨符合度有明顯的負(fù)向趨勢(shì)但波動(dòng)較大。隨著抽樣次數(shù)的增加, 平均距離隨符合度的變化趨勢(shì)明顯, 波動(dòng)變小。試驗(yàn)表明, 30次抽樣的平均距離與符合度的關(guān)系趨于穩(wěn)定。可用于擬合反映兩者關(guān)系的方程式。
1.3指標(biāo)數(shù)設(shè)定
在大量隨機(jī)的試驗(yàn)中發(fā)現(xiàn), 試驗(yàn)數(shù)據(jù)X的量綱、變異度對(duì)計(jì)算馬氏距離沒有影響, 但指標(biāo)數(shù)量(p)對(duì)馬氏距離的尺度有較大影響。因而除了上述符合度與距離的抽樣試驗(yàn)外, 我們還進(jìn)行了指標(biāo)數(shù)在距離計(jì)算過程中影響的抽樣試驗(yàn)??紤]到大部分樣本評(píng)價(jià)問題在5~25個(gè)指標(biāo)之間,模擬試驗(yàn)的指標(biāo)數(shù)在3~30之間, 本研究的指標(biāo)數(shù)為3、5、10、15、20、25和30共7個(gè)水平, 了解指標(biāo)數(shù)在距離和符合度之間關(guān)系的作用。從而根據(jù)抽樣結(jié)果確定符合度依指標(biāo)數(shù)和馬氏距離的函數(shù)關(guān)系。
1.4Monte Carlo模擬研究
符合度依指標(biāo)數(shù)和馬氏距離的函數(shù)關(guān)系能否成立,還應(yīng)在一定條件下重新抽樣, 再根據(jù)函數(shù)關(guān)系式計(jì)算符合度數(shù)值, 大量抽樣獲取符合度的次數(shù)分布, 用于檢驗(yàn)上述計(jì)算距離及符合度的過程是否符合實(shí)際。在指定符合度條件下隨機(jī)抽取5000個(gè)樣本, 代入函數(shù)關(guān)系方程算得符合度次數(shù)分布圖。如果方程合適, 那么在給定符合度r的情況下, 將指標(biāo)數(shù)、距離代入模型中計(jì)算所得r應(yīng)該與設(shè)定結(jié)果一致, 從而證實(shí)符合度計(jì)算過程可行性。
1.5揚(yáng)麥系統(tǒng)小麥品種間RVA值的相似度比較
選取2011年揚(yáng)州大學(xué)農(nóng)學(xué)院大田正季播種的揚(yáng)麥系統(tǒng)小麥品種11個(gè), 測(cè)定其面粉淀粉糊化特性, 參數(shù)有峰值黏度、糊化時(shí)間、低谷黏度、最終黏度和糊化溫度(剔除2個(gè)次級(jí)性狀回復(fù)值和崩解值, 消除方差協(xié)方差陣的奇異性, 馬氏距離得以計(jì)算), 每品種3個(gè)重復(fù)。比較揚(yáng)麥系統(tǒng)的11個(gè)品種之間的相似程度并利用其符合度進(jìn)行聚類分析。
1.6統(tǒng)計(jì)數(shù)與模擬設(shè)定的符合度比較
在許多模擬試驗(yàn)中, 要評(píng)價(jià)模擬結(jié)果的優(yōu)劣, 直觀比較不能客觀反映真實(shí)情況。對(duì)一個(gè)多變數(shù)復(fù)雜效應(yīng)回歸分析模擬試驗(yàn)中效應(yīng)的回歸估值與期望值之間的接近程度以量化的形式表示出來, 可用于客觀準(zhǔn)確的評(píng)價(jià)模擬試驗(yàn)。
2.1符合度與馬氏距離的關(guān)系
根據(jù)設(shè)定的隨機(jī)變量、中間變量和符合度的關(guān)系, 采用隨機(jī)抽樣的方式計(jì)算符合度與馬氏距離的關(guān)系, 單次抽樣(每一符合度條件下只抽一個(gè)隨機(jī)向量)所得距離與符合度有明顯的負(fù)向趨勢(shì)但波動(dòng)較大。隨著抽樣次數(shù)的增加, 波動(dòng)變小。在符合度很低時(shí), 距離較大, 隨著符合度的增加, 距離變小, 當(dāng)兩者非常接近時(shí), 距離趨于0。距離隨符合度的增加而單調(diào)降低, 其散點(diǎn)圖成線性排列, 但并非簡(jiǎn)單的直線, 在符合度的高端, 曲率明顯。模擬試驗(yàn)中發(fā)現(xiàn), x和/或e的數(shù)值乘以一定的倍數(shù), 這種關(guān)系并無改變, 即符合度與馬氏距離的關(guān)系不隨量綱與變異度變化而改變, 適合各種類型多變數(shù)樣本的評(píng)價(jià)。
顯然, 馬氏距離可很好地描述個(gè)體與標(biāo)準(zhǔn)值之間的符合程度。但由于馬氏距離會(huì)大于1或遠(yuǎn)大于1。而我們更希望得到的符合度數(shù)值介于0~1之間, 0代表沒有相似性, 1代表完全符合。隨著距離的增大, 符合度越來越小,誤差亦有所增加(圖1, 前述散點(diǎn)圖X、Y軸互換)。在實(shí)際使用中, 我們不能事先得到符合度, 必須先計(jì)算樣本(平均數(shù))與目標(biāo)值之間的距離, 再確定符合度與距離的數(shù)量關(guān)系。
圖1 符合度依馬氏距離關(guān)系圖Fig. 1 Relationship between Mahalanobis distance and similarity
2.2符合度函數(shù)
由于指標(biāo)數(shù)也在很大程度上影響距離與符合度的關(guān)系, 利用曲面擬合方式, 尋找指標(biāo)數(shù)p, 馬氏距離d與符合度r的函數(shù)關(guān)系式, 根據(jù)數(shù)據(jù)點(diǎn)在三維空間中的分布情況和各類變數(shù)方程的特點(diǎn), 經(jīng)大量模型選擇和比較分析,確定如下模型:
本研究選擇C-E算法進(jìn)行曲線、曲面擬合[21-22], 該算法無需提供導(dǎo)數(shù)與偏導(dǎo)數(shù), 無需提供特定初值, 實(shí)現(xiàn)最優(yōu)擬合的能力較強(qiáng)。擬合結(jié)果如圖2, 各參數(shù)值及顯著性t測(cè)驗(yàn)值見表2。
2.3Monte Carlo模擬研究
隨機(jī)抽取5000個(gè)樣本X(p=20), 按y=(1–λ)x+λe計(jì)算馬氏距離d以及由d和p通過式(5)計(jì)算獲得5000個(gè)符合度r, 繪成次數(shù)分布圖。若符合度計(jì)算方程合適, 那么在
給定符合度(λ)情況下, 將指標(biāo)數(shù)值、檢測(cè)值代入模型中計(jì)算所得r應(yīng)該與設(shè)定結(jié)果一致, 且在中等程度符合度時(shí),其符合度的抽樣分布接近于平均數(shù)為0.5的正態(tài)分布。如表2和圖3所示, 當(dāng)設(shè)定λ=0.5時(shí), 其r分布平均數(shù)為0.502, 標(biāo)準(zhǔn)差為0.0849, 分布接近正態(tài), 準(zhǔn)確度高, 誤差小。除了很小符合度(λ=0.05)時(shí)略有偏差外, r的分布與設(shè)定情況充分符合, 證明該方法的可行性。
表1 模型擬合統(tǒng)計(jì)數(shù)及測(cè)驗(yàn)Table 1 Simulated conformity function and its statistics
圖2 模型擬合曲面圖Fig. 2 Surface fitting for conformity with variables and distance
表2 Monte Carlo抽樣試驗(yàn)符合度分布的平均值(r)、方差(s2)和標(biāo)準(zhǔn)差(s)Table 2 Means (s), variance (s2), and standard deviation (s) of conformity distribution in Monte Carlo experiment
圖3 與標(biāo)準(zhǔn)e的符合度為0.5的檢驗(yàn)圖Fig. 3 Histogram of conformity under similarity of 0.5 e
圖4 與標(biāo)準(zhǔn)e的符合度為0.45 (左)、0.55 (右)的次數(shù)分布圖Fig. 4 Histogram of conformity under similarity conditions 0.45 (left) and 0.55 (right)
由圖4和圖5可見, 各符合度分布均以設(shè)定值為中心,但隨著設(shè)定符合度偏離0.5, 它們的分布呈現(xiàn)左偏或右偏。符合度較高, 甚至接近于1時(shí), 分布相對(duì)集中, 誤差較小; 在符合度接近于0時(shí), 由于抽樣數(shù)據(jù)的隨機(jī)性, 符合度形成明顯的偏態(tài)分布, 說明對(duì)于評(píng)價(jià)對(duì)象與目標(biāo)之間符合度較低的情形, 符合度的估計(jì)具有一定的偏差。
檢驗(yàn)證明, 按一定符合度給出的隨機(jī)數(shù)據(jù)計(jì)算所得的符合度的分布結(jié)果與期望的結(jié)果相吻合, 該符合度關(guān)系式能夠準(zhǔn)確地反映實(shí)際符合度關(guān)系。
3.1揚(yáng)麥系統(tǒng)中各品種RVA值的相似度比較
最合理的計(jì)算馬氏距離的方差協(xié)方差陣應(yīng)為誤差方差協(xié)方差陣Se, 但誤差偏小, 只能用總方差協(xié)方差陣S。首先利用全部的原始數(shù)據(jù)計(jì)算出該樣本的方差協(xié)方差陣,用于計(jì)算馬氏距離d。
將選取的揚(yáng)麥系統(tǒng)11個(gè)品種的RVA值分別代入馬氏距離計(jì)算公式, 得到品種之間的馬氏距離d (表3), 由式(5)計(jì)算符合度, 得出RVA值之間的相似程度(表4)。
以RVA特征值計(jì)算揚(yáng)麥系統(tǒng)11個(gè)材料間的相似性可以較好地反映這些材料間的RVA特征之差異。如揚(yáng)麥5與揚(yáng)麥16的RVA特征值最為接近, 揚(yáng)麥10號(hào)與揚(yáng)麥14的RVA特征值也很接近, 其相對(duì)接近的還有揚(yáng)麥9號(hào)與揚(yáng)麥158。以符合度作為相似度值系統(tǒng)聚類(圖6)。相似系數(shù)在0~1之間, 可較好地避免其他類型的相似系數(shù)出現(xiàn)負(fù)數(shù)的情況, 更好地體現(xiàn)個(gè)體間的相似性。同時(shí)也可避免用距離等不相似系數(shù)出現(xiàn)大于或遠(yuǎn)大于1的數(shù)值, 對(duì)個(gè)體間不相似程度的描述有一定程度的扭曲。
3.2符合度在回歸模擬試驗(yàn)中的應(yīng)用
圖7顯示一個(gè)復(fù)雜系統(tǒng)新型回歸分析方法, 即重復(fù)篩選回歸(ISR)模擬。圖中前后對(duì)角線左側(cè)為設(shè)定的效應(yīng)真值, 右側(cè)對(duì)應(yīng)位置為100次模擬試驗(yàn)回歸估計(jì)的平均值。方柱位置代表效應(yīng)項(xiàng)(對(duì)角線位置為主效、非對(duì)角線位置為互作項(xiàng))對(duì)應(yīng)的標(biāo)記項(xiàng), 方柱的高度為效應(yīng)值(以方柱頂上的數(shù)值表示)。可以看出, 這些效應(yīng)項(xiàng)的回歸估計(jì)值非常接近真值。
效應(yīng)項(xiàng)的回歸估值與真值的接近程度或稱效應(yīng)的恢復(fù)度如何衡量, 客觀的判斷離不開數(shù)量化指標(biāo)的協(xié)助。本試驗(yàn)設(shè)定的效應(yīng)真值e以及100次篩選逐步回歸的模型試驗(yàn)的回歸估值平均數(shù)見表5, 建立了方差-協(xié)方差陣S(未列出)。計(jì)算得出d=0.2510, r=0.9089, 該數(shù)值較高, 說明重復(fù)篩選回歸分析的效應(yīng)估計(jì)能夠較好地符合設(shè)定真值。
表3 揚(yáng)麥系統(tǒng)(YM)各品種RVA值之間的馬氏距離dTable 3 Distance between the varieties based on their RVA characters
表4 揚(yáng)麥系統(tǒng)(YM)各品種間RVA的相似度(符合度)Table 4 Conformities among RVA parameters of YM varieties
圖6 揚(yáng)麥系統(tǒng)11個(gè)小麥品種的RVA值據(jù)符合度聚類Fig. 6 Hierarchical clustering dendrogram for the 11 varieties according to conformity
4.1符合度的特點(diǎn)
本研究提出的符合度新算法是一種量化樣本間或者樣本與標(biāo)準(zhǔn)之間接近程度的方法。雖然馬氏距離也可較好地描述個(gè)體與標(biāo)準(zhǔn)值之間的符合程度, 但由于馬氏距離會(huì)大于或遠(yuǎn)大于1, 更合理的符合度數(shù)值應(yīng)介于0~1之間, 0代表沒有相似性, 1代表完全符合, 這與符合度的概念更加相稱, 量值更加準(zhǔn)確。另外, 基于0~1之間符合度數(shù)值的聚類分析等多變數(shù)分析比用基于距離的分析能更好地體現(xiàn)個(gè)體之間的親疏遠(yuǎn)近, 因?yàn)榫垲惖榷嘧償?shù)分析將較大程度地過度強(qiáng)化大數(shù)值的作用而忽略小數(shù)值的作用。
比較現(xiàn)有的綜合評(píng)價(jià)方法, 該算法的優(yōu)勢(shì)在于無需數(shù)據(jù)標(biāo)準(zhǔn)化處理, 以原始數(shù)據(jù)直接計(jì)算, 簡(jiǎn)化了計(jì)算, 也降低了因無量綱化處理方式不同而導(dǎo)致的結(jié)果差異; 另外, 符合度算法綜合考慮各指標(biāo)的信息, 指標(biāo)沒有重要程度之分, 不需要賦予權(quán)重, 保證了原始信息的完整性, 也排除了主觀賦權(quán)的隨意性[14-15]。
4.2缺失值的處理
在實(shí)際數(shù)據(jù)的應(yīng)用中往往會(huì)出現(xiàn)某個(gè)指標(biāo)缺失的情況, 缺值計(jì)算的主要困難在于此時(shí)的方差協(xié)方差矩陣S會(huì)出現(xiàn)異?;蚱? 本研究提出了如下相對(duì)簡(jiǎn)單的處理缼值數(shù)據(jù)的方差協(xié)方差陣修正公式。
式中, n為數(shù)據(jù)總個(gè)數(shù), c是非缺值數(shù)據(jù)個(gè)數(shù)。這主要在于降低有缼值指標(biāo)(變數(shù))在多變數(shù)評(píng)價(jià)中的影響力。
多指標(biāo)系統(tǒng)的樣本觀察值(測(cè)定值、樣本值)與標(biāo)準(zhǔn)值(理論值、期望值)之間的吻合程度總體上比較復(fù)雜。我們嘗試用其他多種計(jì)算符合度、恢復(fù)度的方法, 但效果不如本文提出的符合度計(jì)算方法, 該算法基本實(shí)現(xiàn)了客觀合理地描述樣本與理論值或個(gè)體相互間符合度的數(shù)量化計(jì)算。當(dāng)然, 用單個(gè)的數(shù)值衡量其符合度仍有可能失之偏頗。準(zhǔn)確的綜合評(píng)價(jià)有時(shí)仍需輔以另外的一個(gè)或多個(gè)指標(biāo)。
4.3變數(shù)相關(guān)程度的影響
在本試驗(yàn)中, 隨機(jī)變數(shù)X服從正態(tài)(或均勻)分布, 得出指標(biāo)數(shù)(p)和馬氏距離(d)計(jì)算符合度的函數(shù)關(guān)系, 也得到了重抽樣試驗(yàn)的驗(yàn)證。但當(dāng)變數(shù)間有很強(qiáng)的相關(guān)關(guān)系時(shí),符合度與馬氏距離等的關(guān)系式會(huì)有一定程度的偏差。
4.4方差協(xié)方差矩陣選擇
馬氏距離的計(jì)算取決于觀察樣本的方差協(xié)方差陣S,采用何種方差協(xié)方差也至關(guān)重要。當(dāng)n個(gè)多變數(shù)觀察個(gè)體沒有重復(fù)觀察值時(shí), 總的樣本方差協(xié)方差陣是唯一的選擇, 但這事實(shí)上并不合理。當(dāng)觀察個(gè)體有重復(fù)觀察值時(shí),總的方差協(xié)方差陣(S)可分解為組間(B)和組內(nèi)(W)兩部分(S=B+W)。而用于評(píng)價(jià)個(gè)體相似性、符合度計(jì)算的合適的馬氏距離應(yīng)選擇W, 這代表觀察樣本去除個(gè)體間差異的本質(zhì)的內(nèi)在的信息陣, 可更好地描述個(gè)體間的相似程度。
4.5基于表型或基因型的聚類
聚類分析可根據(jù)試驗(yàn)材料的表型, 也可根據(jù)基因型進(jìn)行。兩種聚類結(jié)果的一致性取決于基因型與表型性狀之
間的一致性。若注重于品種的整體相似性, 應(yīng)以能綜合反映品種特性的基因型數(shù)據(jù)的聚類更為合適; 若就某些農(nóng)藝性狀的表現(xiàn)對(duì)品種分類, 則依據(jù)這些農(nóng)藝性狀聚類更為合適, 因?yàn)樵诖蠖鄶?shù)情況下, 獲得的基因型數(shù)據(jù)與表型數(shù)據(jù)并不對(duì)應(yīng)。本研究并未對(duì)與小麥面粉RVA性狀相關(guān)的基因型進(jìn)行測(cè)定, 根據(jù)RVA表型計(jì)算符合度(相似性)并據(jù)此聚類, 這與品種整體特性的相似性和分類特性不一定等價(jià)。
圖7 效應(yīng)真值與估計(jì)值的比較Fig. 7 Comparison between true effects and estimations
表5 回歸模擬試驗(yàn)的效應(yīng)值、真值(e)和回歸估計(jì)平均數(shù)()Table 5 Effect estimates and corresponding parameters
表5 回歸模擬試驗(yàn)的效應(yīng)值、真值(e)和回歸估計(jì)平均數(shù)()Table 5 Effect estimates and corresponding parameters
序號(hào)No.效應(yīng)項(xiàng)Effect e x 序號(hào)No.效應(yīng)項(xiàng)Effect e x 1 a 100.0 99.986 10 X320 –5.0 –5.012 2 X20 1.7 1.689 11 X355 4.2 4.203 3 X35 3.0 3.021 12 X35–X280 2.0 1.995 4 X80 –3.8 –3.813 13 X100–X335 –2.5 –2.490 5 X125 3.5 3.514 14 X130–X180 2.7 2.689 6 X160 –3.8 –3.808 15 X110–X195 –3.2 –3.212 7 X205 –3.7 –3.694 16 X220–X305 –3.5 –3.510 8 X250 –4.3 –4.297 17 X145–X265 2.9 2.882 9 X290 4.5 4.503 18 X250–X355 3.8 3.777
References
[1] 顧基發(fā). 評(píng)價(jià)方法綜述. 見: 許國(guó)志. 科學(xué)決策與系統(tǒng)工程——中國(guó)系統(tǒng)工程學(xué)會(huì)第六次年會(huì)論文集.北京: 中國(guó)科學(xué)技術(shù)出版社, 1990. pp 5–7 Gu J F. Evaluation method review. In: Xu G Z ed. Scientific Decision-Making and System Engineering. Proceedings of 6th Conference of the Systems Engineering Society of China. Beijing: China Science and Technology Press, 1990. pp 5–7 (in Chinese)
[2] Chen S J, Hwang C L, Hwang F P. Fuzzy Multiple Attribute Decision Making: Methods and Applications (Lecture Notes in Economics and Mathematical Systems), Springer-Verlag, 1992. pp 163–287
[3] Hwang C L, Masud A S M. Multiple Objective Decision Making—Methods and Applications. New York: Springer-Verlag, Berlin-Heidelberg, 1979. pp 2–325
[4] Peng Y X, Yi S Z. The multi-hierarchy integrated evaluation method of enterprise’s credit grade. In: Proceedings of ISAHP, 1999. pp 125–128
[5] Savoy J. Statistical inference in retrieval effectiveness evaluation. Inf Proc & Manag, 1997, 33: 495–512
[6] Yuan Z, Wang H, Liu L Z, Liang T. Researching the comprehensive use of fuzzy comprehensive evaluation and Markov chain// IT in Medicine & Education, 2009. ITIME’09. IEEE Interna-
tional Symposium on. IEEE, 2009. pp 476–479
[7] 陳凱華, 張孝遠(yuǎn). 模糊綜合評(píng)價(jià)模型的改進(jìn)及應(yīng)用. 甘肅科學(xué)學(xué)報(bào), 2006, 18(3): 111–115 Chen K H, Zhang X Y. Application of the improved fuzzy comprehensive appraisal model. J Gansu Sci, 2006, 18(3): 111–115 (in Chinese with English abstract)
[8] 程鶴, 耿雙軍. 模糊綜合評(píng)價(jià)的改進(jìn)模型. 統(tǒng)計(jì)與決策, 2007, (13): 136–137 Cheng H, Geng S J. The improved model of fuzzy comprehensive evaluation. Stat & Decision, 2007, (13): 136–137 (in Chinese)
[9] 田欽謨. 模糊綜合評(píng)價(jià)中的若干問題. 模糊系統(tǒng)與數(shù)學(xué), 1996, 10(2): 62–69 Tian Q M. Several problems in fuzzy comprehensive evaluation. Fuzzy Systand Math, 1996, 10(2): 62–69 (in Chinese with English abstract)
[10] 王宗軍. 綜合評(píng)價(jià)的方法、問題及其研究趨勢(shì). 管理科學(xué)學(xué)報(bào), 1998, 1(1): 73–79 Wang Z J. On the methods, problems and research trends of comprehensive evaluation. J Manag Sci China, 1998, 1(1): 73–79 (in Chinese with English abstract)
[11] 杜棟, 龐慶華. 現(xiàn)代綜合評(píng)價(jià)方法與案例精選. 清華大學(xué)出版社有限公司, 2005 Du D, Pang Q H. Modern Comprehensive Evaluation Method and Case Selection. Beijing: Tsinghua University Press Co., Ltd. 2005 (in Chinese)
[12] 馬立平. 現(xiàn)代統(tǒng)計(jì)分析方法的學(xué)與用(三): 統(tǒng)計(jì)數(shù)據(jù)標(biāo)準(zhǔn)化——無量綱化方法. 北京統(tǒng)計(jì), 2000, (3): 34–35 Ma L P. Learning and using in analysis methods of modern statistical: (3) Statistical data standardization, dimensionless method. J Beijing Stat, 2000, (3): 34–35 (in Chinese)
[13] 葉宗裕. 關(guān)于多指標(biāo)綜合評(píng)價(jià)中指標(biāo)正向化和無量綱化方法的選擇. 浙江統(tǒng)計(jì), 2003, (4): 24–25 Ye Z Y. The choice of multi-index comprehensive evaluation index in positive and dimensionless. J Zhejiang Stat, 2003, (4): 24–25 (in Chinese)
[14] 易平濤, 張丹寧, 郭亞軍, 高立群. 動(dòng)態(tài)綜合評(píng)價(jià)中的無量綱化方法. 東北大學(xué)學(xué)報(bào)(自然科學(xué)版), 2009, 30: 889–892 Yi P T, Zhang D N, Guo Y J, Gao L Q. Study on dimensionless methods in dynamic comprehensive evaluation. J Northeastern Univ (Nat Sci), 2009, 30: 889–892 (in Chinese with English abstract)
[15] 張衛(wèi)華, 趙銘軍. 指標(biāo)無量綱化方法對(duì)綜合評(píng)價(jià)結(jié)果可靠性的影響及其實(shí)證分析. 統(tǒng)計(jì)與信息論壇, 2005, 20(3): 33–36 Zhang W H, Zhao M J. The influence of undimensionalization on the reliability of comprehensive evaluation results and an empirical analysis. Stat & Inf Forum, 2005, 20(3): 33–36 (in Chinese with English abstract)
[16] 孫威武. 評(píng)價(jià)因素權(quán)重向量的確定方法. 統(tǒng)計(jì)與決策, 2002, (7): 17–18 Sun W W. The method to determine the weights of evaluation factors vector. Stat & Decision, 2002, (7): 17–18 (in Chinese)
[17] 王雪標(biāo), 龔兆仁, 鄭曉薇. 線性綜合評(píng)價(jià)函數(shù)的充要條件及權(quán)系數(shù)的確定. 系統(tǒng)工程理論與實(shí)踐, 2000, 20(10): 58–62 Wang X B, Gong Z R, Zheng X W. Linear synthetical evaluation function and the determination of its weighting coefficients. Syst Eng-Theory & Practice, 2000, 20(10): 58–62 (in Chinese with English abstract)
[18] Grabowski M, Wallace W A. An expert system for maritime pilots: Its design and assessment using gaming. Manag Sci, 1993, 39: 1506–1520
[19] Guo Y J, Yao Y, Yi P T. Method and application of dynamic comprehensive evaluation. Syst Eng-Theory & Practice, 2007, 27(10): 154–158 (in Chinese with English abstract)
[20] 王大將, 周慶敏, 常志玲, 孫潔. 一種新的多指標(biāo)綜合評(píng)價(jià)方法. 統(tǒng)計(jì)與決策, 2007, (7): 137–138 Wang D J, Zhou Q M, Chang Z L, Sun J. A new method of multi-index comprehensive evaluation. Stat & Decision, 2007, (7): 137–138 (in Chinese)
[21] 顧世梁, 萬(wàn)林生, 黃麗娟, 王文平. 曲線和曲面擬合的改進(jìn)縮張算法. 作物學(xué)報(bào), 2007, 33: 583–589 Gu S L, Wan L S, Huang L J, Wang W P. Improved contraction-expansion algorithm for curve and surface fitting. Acta Agron Sin, 2007, 33: 583–589 (in Chinese with English abstract)
[22] 顧世梁, 惠大豐, 莫惠棟. 非線性方程最優(yōu)擬合的縮張算法. 作物學(xué)報(bào), 1998, 24: 513–519 Gu S L, Hui D F, Mo H D. The optimal fitting of nonlinear equation with contraction-expansion algorithm. Acta Agron Sin, 1998, 24: 513–519 (in Chinese with English abstract)
URL: http://www.cnki.net/kcms/detail/11.1809.S.20151013.1508.004.html
A New Algorithm for Conformity and Its Application
ZHANG Hui1,2, GU Shi-Liang1,*, and LI Tao1
1Agricultural College of Yangzhou University, Yangzhou 225009, China;2Agricultural Extension Station of Tonglu County, Hangzhou 311500, China
Abstract:This article proposed a new algorithm of conformity using original data to calculate similarities between the target object and the expected value based on the Mahalanobis distance, providing an objective and reasonable analysis. Firstly, simulation experiments were conducted to obtain Mahalanobis distance (d) related to number (p) of different variables (traits) and similarity (r). Then, a surface fitting method was used to establish the function relationship between conformity (r) and index number (p), as well as Mahalanobis distance (d). Monte Carlo experiment for frequency distribution of conformity verified its good performance of the relationship model. The simulation results fully validated the feasibility and reliability of the model. Conformity algorithm was applied to calculate the similarity of a panel of Yangmai wheat varieties released in recent years referring to RVA parameters. The assessment of simulated multivariate regression for complex effects was also conducted. This study showed that conformity algorithm using raw data directly instead of standardized data reduces the work load and decreases inconsistency in similarity assessment with different data processing methods. In addition, conformity algorithm does not need weight assignment to each trait, thus can eliminate potential subjective impacts on traits or data and guarantee integrity of information and reliability of evaluation results.
Keywords:Conformity algorithm; Comprehensive evaluation; Computer simulation; Mahalanobis distance
收稿日期Received(): 2015-02-05; Accepted(接受日期): 2015-09-06; Published online(網(wǎng)絡(luò)出版日期): 2015-10-13.
通訊作者*(Corresponding author): 顧世梁, E-mail: slgu@yzu.edu.cn, Tel: 0514-87979358
DOI:10.3724/SP.J.1006.2016.00141