孫新杰 潘水凡 孫國(guó)營(yíng)
(六盤(pán)水師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院,貴州六盤(pán)水 553004)
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展和全國(guó)路網(wǎng)以及物流系統(tǒng)的完善,網(wǎng)上購(gòu)物成為我國(guó)現(xiàn)今越來(lái)越流行的購(gòu)物方式。幾乎所有的產(chǎn)品都可以從網(wǎng)上購(gòu)買(mǎi),包括生鮮農(nóng)產(chǎn)品。由于生鮮農(nóng)產(chǎn)品在運(yùn)輸過(guò)程中存在容易腐爛、不易保存等特征,因此,如何選用合適的冷鏈配送公司成為促進(jìn)互聯(lián)網(wǎng)生鮮銷(xiāo)售發(fā)展的重要研究課題。
貴州省位于中國(guó)西南地區(qū),獨(dú)特的地理位置和優(yōu)越的氣候造就了當(dāng)?shù)刎S富的特色生鮮農(nóng)產(chǎn)品資源,近年來(lái),為了推動(dòng)當(dāng)?shù)剞r(nóng)業(yè)的發(fā)展,增加農(nóng)民收入,貴州省大力鼓勵(lì)“互聯(lián)網(wǎng)+特色生鮮農(nóng)產(chǎn)品”銷(xiāo)售模式,為了解決生鮮農(nóng)產(chǎn)品在運(yùn)輸過(guò)程中的腐敗問(wèn)題,貴州省大力發(fā)展了本地的冷鏈配送產(chǎn)業(yè)。然而,不同的冷鏈配送公司的配送費(fèi)用、壞果率等指標(biāo)的不同,使得生鮮電商很難分辨冷鏈配送公司的優(yōu)劣,因此,需要構(gòu)建一套適合貴州省冷鏈配送公司評(píng)級(jí)的評(píng)價(jià)模型。
已經(jīng)有一些文獻(xiàn)對(duì)冷鏈配送公司的優(yōu)劣進(jìn)行了評(píng)價(jià)。翁法兵等[1]在基于直覺(jué)模糊偏好決策的冷鏈物流供應(yīng)商三維評(píng)價(jià)中,分別從環(huán)境友好性、客戶(hù)滿(mǎn)意度以及企業(yè)戰(zhàn)略合作伙伴3個(gè)維度出發(fā)構(gòu)建冷鏈配送評(píng)價(jià)模型,為選擇冷鏈配送合作公司提供依據(jù)。秦小輝等[2]在基于灰色聚類(lèi)分析的我國(guó)農(nóng)產(chǎn)品冷鏈物流水平綜合評(píng)價(jià)中,用熵值法和灰色聚類(lèi)法對(duì)我國(guó)多省市的冷鏈物流進(jìn)行評(píng)價(jià),并將評(píng)價(jià)結(jié)果進(jìn)行了展示。田玉潔等[3]在基于層次分析法(Analytic Hierarchy Process,AHP)的AHP-熵權(quán)法的生鮮農(nóng)產(chǎn)品冷鏈物流安全評(píng)價(jià)中,通過(guò)熵值法和模糊物元法,構(gòu)建包含配送、包裝等在內(nèi)的評(píng)價(jià)體系,對(duì)常州市4 家冷鏈公司進(jìn)行評(píng)價(jià)。周云等[4]在以綠色供應(yīng)鏈為依托的農(nóng)產(chǎn)品冷鏈物流企業(yè)績(jī)效評(píng)價(jià)中,通過(guò)研究綠色供應(yīng)鏈的作用,對(duì)依托其發(fā)展的冷鏈配送公司進(jìn)行評(píng)價(jià)。李耀華[5]在基于生態(tài)經(jīng)濟(jì)視角的農(nóng)產(chǎn)品冷鏈物流效率評(píng)價(jià)研究中,從傳統(tǒng)指標(biāo)和物流行業(yè)作用6 個(gè)方面對(duì)冷鏈物流效率進(jìn)行評(píng)價(jià)。李遠(yuǎn)遠(yuǎn)等[6]在農(nóng)產(chǎn)品冷鏈物流企業(yè)績(jī)效綜合評(píng)價(jià)研究中,構(gòu)建了4個(gè)一級(jí)指標(biāo)以及18個(gè)二級(jí)指標(biāo),對(duì)農(nóng)產(chǎn)品冷鏈物流優(yōu)劣進(jìn)行評(píng)價(jià)。
雖然已經(jīng)有一些對(duì)于冷鏈配送公司評(píng)價(jià)的研究,但是評(píng)價(jià)模型相對(duì)簡(jiǎn)單,大部分模型都是基于單一的機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型構(gòu)建的,評(píng)價(jià)結(jié)果也不盡理想。即使有一些模型用到長(zhǎng)短期記憶[7](Long Short-Term Memory,LSTM)和門(mén)控循環(huán)單元[8](Gated Recurrent Neural Network,GRU),模型仍然存在兩個(gè)主要缺點(diǎn):一是常見(jiàn)的高維輸入空間增加了模型的復(fù)雜性;二是模型為所有的評(píng)價(jià)指標(biāo)分配相同的關(guān)注度。為了解決上述問(wèn)題,本文提出了一種新的冷鏈配送公司評(píng)價(jià)模型——BiLG-A-CNN。首先,獲取貴州省冷鏈配送公司的評(píng)價(jià)指標(biāo)原始數(shù)據(jù);其次,將評(píng)價(jià)指標(biāo)數(shù)據(jù)轉(zhuǎn)化為向量;再次,在雙向 LSTM[9](BiLSTM)和雙向GRU[10,11](BiGRU)分支的輸出端使用注意力機(jī)制[12](Attention),使模型能夠?qū)Σ煌脑u(píng)價(jià)指標(biāo)給予更多或更少的關(guān)注;然后,卷積神經(jīng)網(wǎng)絡(luò)[13](Convolutional neural network,CNN)被用來(lái)提取信息特征并降低輸入數(shù)據(jù)的維度,同時(shí),全局和平均池層被堆疊在CNN層的輸出端,以降低其特征圖的采樣,這使得產(chǎn)生的特征圖對(duì)特征的位置變化更加穩(wěn)健。最后,通過(guò)帶有指數(shù)歸一化(softmax)的全連接層獲取冷鏈配送公司的評(píng)價(jià)結(jié)果。
LSTM 是循環(huán)神經(jīng)網(wǎng)絡(luò)[14](Recurrent Neural Network,RNN)的一種特殊類(lèi)型,它被設(shè)計(jì)用來(lái)處理RNN所面臨的梯度消失/爆炸問(wèn)題。LSTM和其他類(lèi)型的RNN一樣,根據(jù)當(dāng)前時(shí)間步的輸入和上一個(gè)時(shí)間步的輸出產(chǎn)生它們的輸出,并將當(dāng)前的輸出發(fā)送到下一個(gè)時(shí)間步。每個(gè)LSTM 單元由一個(gè)在任意的時(shí)間間隔內(nèi)保持其狀態(tài)的記憶單元ct和三個(gè)非線(xiàn)性門(mén)組成,包括一個(gè)輸入門(mén)it、一個(gè)遺忘門(mén) ft和一個(gè)輸出門(mén)ot。這些門(mén)被設(shè)計(jì)用來(lái)調(diào)節(jié)進(jìn)入和離開(kāi)記憶單元的信息流。包含一個(gè)隱藏層的LSTM的定義如下:
其中,σ 表示邏輯S 型生長(zhǎng)曲線(xiàn)(sigmod)函數(shù),?表示元素級(jí)乘法操作,i(t),f(t),o(t),c(t)分別表示在時(shí)刻t 的輸入門(mén)、遺忘門(mén)、輸出門(mén)以及記憶單元激活向量,并且和隱藏向量h(t)∈RH具有相 同 的 向 量 大 小 。 可 訓(xùn) 練 參 數(shù)Wi,Wf,Wo,Wc∈RH×d,Ui,Uf,Uo,Uc∈RH×H,bi,bf,bo,bc分別表示偏置項(xiàng)。 H 和 d 分別表示隱藏層和輸入的維度。
為了捕獲前面上下文之外的未來(lái)上下文,BiLSTM結(jié)合了前向 h→(t)和后向 h←(t),使得時(shí)間信息在兩個(gè)方向上流動(dòng),從而能夠獲得更好的學(xué)習(xí)結(jié)果。
GRU 是LSTM 的一個(gè)更簡(jiǎn)單的變體,它有兩個(gè)門(mén),一個(gè)是更新門(mén)r(t),結(jié)合了遺忘門(mén) f(t)和輸入門(mén)i(t),另一個(gè)是重置門(mén)z(t)。與LSTM 類(lèi)似,包含一個(gè)隱藏層的GRU的定義如下:
其 中 ,可 訓(xùn) 練 參 數(shù) Wr,Wz,Wh∈RH×d,Ur,Uz,Uh∈RH×H,br,bz 表示偏置項(xiàng)。
注意機(jī)制來(lái)源于人腦在觀(guān)察事物時(shí)的注意,注意力模型被用來(lái)給對(duì)評(píng)價(jià)指標(biāo)分配不同的權(quán)重。在本文中,使用注意機(jī)制為BiLSTM和BiGRU層的每個(gè)輸出分配權(quán)重。權(quán)重越大,評(píng)價(jià)指標(biāo)就越重要,并會(huì)影響整個(gè)問(wèn)題的頻率分類(lèi)。假設(shè)v是可訓(xùn)練參數(shù),則注意公式為:
CNN 由多個(gè)卷積層和池化層組成,可用于局部特征提取和降維。在CNN網(wǎng)絡(luò)中,通過(guò)一維的線(xiàn)性濾波器對(duì)輸入特征進(jìn)行卷積操作。為了在一個(gè)有s 個(gè)評(píng)價(jià)指標(biāo)的評(píng)價(jià)對(duì)象S 上應(yīng)用CNN,首先,創(chuàng)建一個(gè)大小為e 的嵌入向量。然后,一個(gè)大小為e×h 的濾波器F 被反復(fù)應(yīng)用于輸入特征矩陣的子矩陣。 這就產(chǎn)生了一個(gè)特征圖M=[m0,m1,m2,…,ms-h],其中,第 i 個(gè)特征序列的計(jì)算公式如下:
其中,f()表示非線(xiàn)性激活函數(shù)Relu,W 表示可訓(xùn)練參數(shù),b 表示偏置項(xiàng),Si:i+h-1表示句子S中從第i 個(gè)詞到第i+h-1 個(gè)詞組成的向量,且i=0,1,2,…,s-h。卷積操作后,通常使用最大池化操作進(jìn)一步提取重要的特征和降維,使用最大池化提取特征b 的公式如下:
池化層的輸出被連接起來(lái),形成一個(gè)集合特征向量,作為全連接網(wǎng)絡(luò)的輸入。
為了解決現(xiàn)有的評(píng)價(jià)模型深度架構(gòu)的局限性,本文提出了一種新的基于注意力機(jī)制的深度學(xué)習(xí)模型——BiLG-A-CNN。模型的結(jié)構(gòu)圖如圖1所示。
圖1 BiLG-A-CNN模型結(jié)構(gòu)
模型主要由輸入層、預(yù)處理層、BiLSTM和Bi-GRU 層、Attention 層、CNN 層、全連接層以及輸出層構(gòu)成。其實(shí)現(xiàn)原理如下:
預(yù)處理層用于將輸入層獲取的冷鏈配送公司的原始評(píng)價(jià)指標(biāo)數(shù)據(jù)轉(zhuǎn)化為嵌入矩陣Wg∈Rn×m,其中,n 表示評(píng)價(jià)對(duì)象的條數(shù),m 表示單個(gè)評(píng)價(jià)指標(biāo)對(duì)應(yīng)的向量長(zhǎng)度。將輸入的評(píng)價(jià)指標(biāo)原始數(shù)據(jù)轉(zhuǎn)化為向量后,在預(yù)處理層的輸出上應(yīng)用兩個(gè)平行的BiLSTM 和BiGRU 來(lái)處理任意長(zhǎng)度的序列,并在前向和后向中提取長(zhǎng)的依賴(lài)關(guān)系。本文同時(shí)采用了GRU 和LSTM,使所提出的模型能夠同時(shí)記住短的和長(zhǎng)的序列。
對(duì)于每一個(gè)評(píng)價(jià)對(duì)象,將前向和后向結(jié)果組合可以進(jìn)一步獲得雙向的結(jié)果:
注意力機(jī)制應(yīng)用于htLSTM和htGRU,使模型能夠?qū)υu(píng)價(jià)對(duì)象中的不同指標(biāo)給予更多或更少的關(guān)注,具體如下:
其中 utLSTM和 utGRU分別是 htLSTM和 htGRU的隱藏表示,uwLSTM和uwGRU是在訓(xùn)練階段隨機(jī)初始化并共同學(xué)習(xí)的上下文向量,WwLSTM和WwGRU是權(quán)重向量,bwLSTM和bwGRU是偏置項(xiàng)。utLSTM、utGRU的重要性是用它們與uwLSTM、uwGRU的相似度來(lái)計(jì)算并得到歸一化的結(jié)果atLSTM和atGRU。這些重要性權(quán)重最后通過(guò)加權(quán)求和的方式匯總到stLSTM和 stGRU中。
在獲得最終的評(píng)價(jià)表示stLSTM和stGRU后,卷積操作被用來(lái)提取信息豐富的局部特征,并降低輸入數(shù)據(jù)的維度。此外,卷積使模型能夠獲得位置不變性。在BiLG-A-CNN中,BiLSTM和BiGRU的結(jié)果被輸入到兩個(gè)平行的卷積網(wǎng)絡(luò)中。每個(gè)卷積網(wǎng)絡(luò)包含1個(gè)一維卷積層和1個(gè)最大池化層。
此時(shí),會(huì)得到4個(gè)CNN層的輸出,因?yàn)閮蓚€(gè)獨(dú)立的CNN 被應(yīng)用于BiLSTM 和BiGRU 層的輸出。現(xiàn)在,最大和平均池層被獨(dú)立地堆疊在CNN的輸出上,以向下采樣其特征圖。這使得產(chǎn)生的特征圖對(duì)特征的位置變化更加穩(wěn)健。如果考慮到CNN層的過(guò)濾器的數(shù)量,每個(gè)池化操作的最終特征向量 Lc 為 Lci=[lc1,lc2,…,lcf], i ∈[1,8] 。由于對(duì)于每個(gè)CNN 來(lái)說(shuō),最大池和平均池是獨(dú)立應(yīng)用的,因此,得到了8個(gè)局部特征圖。
將這些特征向量連接起來(lái)以形成最終向量Lc=[Lc1,Lc2,…,Lc8]。為了評(píng)價(jià)對(duì)象對(duì)應(yīng)的標(biāo)簽,使用全連接層將向量Lc 轉(zhuǎn)換為高層表示,該層的輸出計(jì)算如下:
其中hp是對(duì)集合層的串聯(lián)應(yīng)用批量歸一化得到的隱藏表示,Wd和bd是在訓(xùn)練過(guò)程中學(xué)習(xí)的參數(shù)。最后,全連接層的輸出被送入具有softmax函數(shù)的輸出層,輸出評(píng)價(jià)對(duì)象的結(jié)果。
本文所有實(shí)驗(yàn)均在同一配置的電腦上進(jìn)行,具體的實(shí)驗(yàn)環(huán)境如下:Windows10 的64 位操作系統(tǒng),內(nèi)存為8G,硬盤(pán)1T,處理器為Intel(R) Core(TM)i5-4790 CPU@3.60GHz 3.60GHz。
首先,通過(guò)網(wǎng)上獲取、文獻(xiàn)查詢(xún)、實(shí)地調(diào)研等方式,獲得了貴州省500 家冷鏈配送公司2021 年10 月份的占地面積、月行駛里程、機(jī)構(gòu)設(shè)置等18個(gè)指標(biāo)原始數(shù)據(jù),根據(jù)《物流企業(yè)冷鏈服務(wù)要求與能力評(píng)估指標(biāo)》對(duì)貴州省500 家冷鏈配送公司進(jìn)行評(píng)級(jí),并分為優(yōu)、良、中、差四個(gè)等級(jí)。將獲取的評(píng)價(jià)對(duì)象原始數(shù)據(jù)轉(zhuǎn)化為數(shù)字,然后分別通過(guò)1、2、3、4表示優(yōu)、良、中、差四個(gè)等級(jí)。
3.3.1 評(píng)價(jià)指標(biāo)
為了更好地體現(xiàn)模型評(píng)價(jià)的結(jié)果,本文分別使用準(zhǔn)確性(Accuracy)、精確度(Precision)、召回率(Recall)以及F1-分(F1-score)對(duì)模型進(jìn)行評(píng)價(jià),并將Accuracy、Precision、Recall 以及F1-score的計(jì)算公式定義如下:
其中,P表示陽(yáng)性樣本數(shù),N表示陰性樣本數(shù),TP表示真實(shí)評(píng)價(jià)的陽(yáng)性樣本數(shù),TN表示真實(shí)評(píng)價(jià)的陰性樣本數(shù),F(xiàn)P 表示錯(cuò)誤評(píng)價(jià)的陽(yáng)性樣本數(shù),F(xiàn)N表示錯(cuò)誤評(píng)價(jià)的陰性樣本數(shù)。
3.3.2 模型評(píng)價(jià)
將500 條評(píng)價(jià)對(duì)象平均拆分成P1、P2、P3、P4、P5,共5組,每一組包含100條記錄。將記錄拆分成訓(xùn)練集和測(cè)試集,如表1所示。
表1 5次實(shí)驗(yàn)的訓(xùn)練集和測(cè)試集
共進(jìn)行5次實(shí)驗(yàn),選取5次實(shí)驗(yàn)的平均值作為最終的實(shí)驗(yàn)結(jié)果,同時(shí),在同等的實(shí)驗(yàn)環(huán)境下,分別選取支持向量機(jī)(Support Vector Machine,SVM)[15]、隨機(jī)森林(Random Forest,RF)[16]、GRU、LSTM 以及CNN 作為對(duì)比模型。實(shí)驗(yàn)結(jié)果如圖2所示。
圖2 BiLG-A-CNN與對(duì)比模型實(shí)驗(yàn)結(jié)果
由圖2 可以看出,BiLG-A-CNN 取得了最優(yōu)的 Accuracy、Precision、Recall 以及 F1-score,結(jié)果分別為97.75%、98.01%、97.54%以及98.12%,并且這4 個(gè)評(píng)價(jià)指標(biāo)相比對(duì)比模型分別至少提高了3.48%、3.65%、3.58%以及3.89%。另外,本文還選取了5 篇最新的關(guān)于指標(biāo)評(píng)價(jià)的文章中的模型,并使用本文的數(shù)據(jù)集比較這些模型和BiLG-A-CNN的評(píng)價(jià)結(jié)果,如表2所示。
表2 BiLG-A-CNN與最新文獻(xiàn)模型評(píng)價(jià)結(jié)果
由表2 可以看出,BiLG-A-CNN 的評(píng)價(jià)結(jié)果要優(yōu)于最新的中外文獻(xiàn)中提出的比較優(yōu)秀的評(píng)價(jià)模型的結(jié)果,其中,Accuracy、Precision、Recall以及F1-score 的結(jié)果分別比文獻(xiàn)中的結(jié)果提高了1.89%~5.49%、2.63%~5.64%、2.31%~4.49%以及2.68%~5.25%。我們分析其中的原因,相比于對(duì)比模型只能獲得單一的長(zhǎng)的或短的時(shí)序特征,BiLG-A-CNN 通過(guò)平行的 BiLSTM 和 BiGRU 網(wǎng)絡(luò)可以同時(shí)獲得長(zhǎng)的和短的時(shí)序特征,并且通過(guò)聯(lián)合使用Attention機(jī)制可以為不同的時(shí)序特征分配不同的權(quán)重,最后通過(guò)CNN網(wǎng)絡(luò)降維和提取更主要的特征,從而可以在很大程度上提升模型精準(zhǔn)評(píng)價(jià)的結(jié)果。
最后,為了證明本文所提BiLG-A-CNN 不同層的結(jié)構(gòu)設(shè)置的合理性,本文還進(jìn)行了多個(gè)對(duì)比試驗(yàn),試驗(yàn)結(jié)果如表3所示。
表3 對(duì)比試驗(yàn)評(píng)價(jià)結(jié)果
由表3 可以看出,當(dāng)改變BiLG-A-CNN 中的某些層的結(jié)構(gòu)后,Accuracy、Precision、Recall 以及F1-score 均有所降低,降低的范圍分別在1.31%~2.99%、1.28%~4.03%、1.02%~2.79%以及1.2%~3.66%之間。由此可見(jiàn),BiLG-A-CNN 中構(gòu)建的BiLSTM、BiGRU、Attention 和 CNN 網(wǎng)絡(luò)對(duì)于模型的評(píng)價(jià)結(jié)果均有提升作用,并且作用最明顯的是BiLSTM 和 BiGRU 網(wǎng)絡(luò),其次是 Attention 和 CNN網(wǎng)絡(luò)。分析其中的原因,BiLSTM和BiGRU網(wǎng)絡(luò)可以使模型同時(shí)獲取長(zhǎng)的和短的時(shí)序特征,而Attention和CNN網(wǎng)絡(luò)只是對(duì)已有的時(shí)序特征進(jìn)行深層次的處理,因此,BiLSTM 和BiGRU 網(wǎng)絡(luò)對(duì)于模型評(píng)價(jià)結(jié)果的幫助更大。
本文提出了BiLG-A-CNN,用于貴州省冷鏈配送公司的指標(biāo)評(píng)價(jià)。通過(guò)使用BiLSTM 和BiGRU網(wǎng)絡(luò)獲取時(shí)序特征,通過(guò)使用Attention分配不同的注意力,并使用CNN 提取局部特征和降維,從而可以有效地解決傳統(tǒng)深度學(xué)習(xí)模型在模型評(píng)價(jià)過(guò)程中存在的高維和為所有評(píng)價(jià)指標(biāo)分配相同的關(guān)注度的問(wèn)題。通過(guò)和最優(yōu)秀的評(píng)價(jià)模型以及最新文獻(xiàn)中的模型的對(duì)比實(shí)驗(yàn)可以看出,BiLG-A-CNN 取得了最優(yōu)的 Accuracy、Precision、Recall 以及 F1-score 值,說(shuō)明了 BiLG-A-CNN 在冷鏈配送公式指標(biāo)評(píng)價(jià)上的優(yōu)越性。