• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于Stacking集成學(xué)習(xí)的車貨匹配模型研究與實證分析

      2022-08-20 09:21:02梁紫堃
      現(xiàn)代計算機(jī) 2022年12期
      關(guān)鍵詞:貨物司機(jī)樣本

      梁紫堃

      (華南理工大學(xué)電子商務(wù)系,廣州 510006)

      0 引言

      我國公路貨運市場準(zhǔn)入門檻低,經(jīng)營企業(yè)普遍存在規(guī)模小、分布散亂等問題,導(dǎo)致車、貨物信息混亂,嚴(yán)重約束物流業(yè)發(fā)展。據(jù)交通部發(fā)布數(shù)據(jù),2020年6月至7月全國高速公路貨車空載率平均達(dá)24%。信息混亂導(dǎo)致車主無法在海量貨物信息當(dāng)中獲取有用的貨物信息,導(dǎo)致貨車空載率提高,社會物流成本上升。隨著大數(shù)據(jù)時代的來臨,我國出現(xiàn)了很多車貨匹配物流平臺,如:運滿滿、貨拉拉等。在大數(shù)據(jù)技術(shù)的支持下,車貨匹配物流平臺為車主、貨主雙方提供了一個渠道進(jìn)行信息交流,進(jìn)行車貨匹配,解決貨運市場車、貨信息難以獲取的問題,實現(xiàn)有效的資源整合。以貨拉拉官網(wǎng)公布的數(shù)據(jù)為例,其月活機(jī)會員達(dá)66萬,月活用戶員達(dá)840萬。因此,對于擁有大量車主和貨主的平臺來說,如何進(jìn)行更有效的車貨匹配,對車貨匹配物流平臺具有現(xiàn)實意義。

      在此背景下,如何把海量的車、貨精準(zhǔn)對應(yīng)起來,成為車貨匹配平臺需要解決的問題?,F(xiàn)有的研究主要分為兩類:一類基于語言描述,一類基于車輛位置。首先,基于語言描述的車貨匹配主要是根據(jù)車主和貨主對車、貨信息的語言描述進(jìn)行雙邊匹配,力求雙方滿意度最大化。朱江洪等從車貨雙方語言評價的角度出發(fā),提出基于加權(quán)不確定性語言平均算子對車貨雙方的語言評價轉(zhuǎn)化為評價矩陣,并結(jié)合雙邊匹配理論對車貨匹配問題求解。李慧基于模糊綜合評價法,建立車貨雙方的信譽評價體系,并提出車貨雙方的兩層篩選匹配模型。盛瑩等基于買賣雙方滿意度提出了基于改進(jìn)的模糊信息處理的交易匹配度計算方法。其次,基于車輛位置的車貨匹配則是結(jié)合車輛位置考慮車輛匹配,匹配目標(biāo)以路線費用最小為主。牟向偉等考慮車與貨之間的距離,提出了有約束懲罰的適應(yīng)度衰減方法的量子進(jìn)化算法進(jìn)行車貨匹配。陸慧娟等從多用戶角度出發(fā),提出車輛混合禁忌搜索算法對車貨匹配問題進(jìn)行求解。Hu等基于運力和服務(wù)優(yōu)先,提出多目標(biāo)實時調(diào)度模型以最小化成本的車貨匹配模型。

      上述工作的重點主要集中在根據(jù)當(dāng)次車和貨的信息進(jìn)行匹配,但按照日常生活經(jīng)驗,在相同的外部環(huán)境之下,同一個司機(jī)對貨物的每次選擇都存在一定聯(lián)系。然而就當(dāng)次車和貨物信息進(jìn)行匹配,則難以考慮司機(jī)和貨主的歷史習(xí)慣。此外,在實際應(yīng)用中,每個司機(jī)通常只對平臺推送的小部分貨物進(jìn)行反饋。車貨匹配模型需要根據(jù)不平衡數(shù)據(jù)預(yù)測司機(jī)偏好,從而為司機(jī)匹配符合其偏好的貨物信息。

      基于以上背景,本文使用運滿滿發(fā)布的數(shù)據(jù)集,進(jìn)行RUS重抽樣處理,通過Stacking算法將Logistic Regression、樸素貝葉斯以及Light-GBM模型等集成得到RLBL-Stacking模型,從而得到更優(yōu)的檢測結(jié)果。

      1 車貨匹配模型

      1.1 隨機(jī)欠抽樣

      隨 機(jī) 欠 抽 樣(Random Under Sampling,RUS)通過隨機(jī)刪除多數(shù)類樣本以及保留少數(shù)類樣本的方式,產(chǎn)生原始數(shù)據(jù)集的子集,達(dá)到均勻訓(xùn)練數(shù)據(jù)集中正負(fù)樣本分布的效果??紤]到在實際應(yīng)用中,車貨匹配平臺會給司機(jī)推送大量貨物信息,但司機(jī)僅會對小部分貨物信息感興趣,而對于車貨匹配來說預(yù)測這小部分的分類精度更加重要,因此本文先將訓(xùn)練集進(jìn)行隨機(jī)欠抽樣處理,再進(jìn)行訓(xùn)練。

      1.2 St ac ki ng集成學(xué)習(xí)

      Stacking算法主要是將多個不同的學(xué)習(xí)器選擇性地線性組合在一起,從而綜合多個學(xué)習(xí)器的預(yù)測結(jié)果,使模型更準(zhǔn)確。一般的Stacking算法主要訓(xùn)練步驟為:首先用多個學(xué)習(xí)器對數(shù)據(jù)集進(jìn)行訓(xùn)練;接著將訓(xùn)練得到的預(yù)測結(jié)果作為下一個學(xué)習(xí)器的輸入,再次進(jìn)行訓(xùn)練;最后得到預(yù)測結(jié)果。為避免過擬合的情況出現(xiàn),本文將數(shù)據(jù)集與第一級學(xué)習(xí)器的預(yù)測結(jié)果共同作為第二級學(xué)習(xí)器的輸入,最終得到的RLBLStacking模型如圖1所示。

      如圖1所示,RLBL-Stacking模型首先將不平衡的原始數(shù)據(jù)作隨機(jī)欠抽樣處理,將邏輯斯蒂回歸和樸素貝葉斯這兩個基礎(chǔ)模型作為第一級學(xué)習(xí)器,而LightGBM作為第二級學(xué)習(xí)器,把欠抽樣處理過的數(shù)據(jù)和第一級學(xué)習(xí)器預(yù)測結(jié)果共同作為第二級學(xué)習(xí)器的輸入,使得模型具有更高的預(yù)測精度。

      圖1 RLBL-Stacking算法示意圖

      1.3 邏輯斯蒂回歸

      邏輯斯蒂回歸(Logistic Regression)是機(jī)器學(xué)習(xí)中常見的分類方法,不僅適用于二分類,也適用于多分類。判斷事件發(fā)生與否表示為y,其取值為0表示事件不發(fā)生;取值為1則表示事件發(fā)生,為該事件y發(fā)生的概率,見式(1):

      其中,=(,,…,θ)表示參數(shù)向量,是自變量,即司機(jī)、貨主以及貨物的特征向量,另外是特征向量的個數(shù)。

      1.4 樸素貝葉斯

      樸素貝葉斯(Naive Bayes)是一種以貝葉斯定理為基礎(chǔ)的概率分類算法。算法假定存在x={,,…,a}為一個待分類項,其中a表示第個特征屬性且滿足條件獨立分布,存在類別集合={,,…,y}。根據(jù)貝葉斯公式,待分類項為類別y的概率,如式(2)所示:

      要對待分類項進(jìn)行分類等同于求待分類項為類別y的最大概率,即求式(3)最大化。另外,式(2)中的分母對于所有類別來說都是常數(shù),因此只要將分子最大化即可。又因為樸素貝葉斯假設(shè)各特征屬性都是條件獨立的,所以有式(3):

      1.5 Li ght GBM模型

      LightGBM(Light Gradient Boosting Matching)是對GBDT的改進(jìn)算法,具有快速、低內(nèi)耗、高準(zhǔn)確性的優(yōu)點,在工業(yè)界得到廣泛應(yīng)用。LightGBM主要采用單邊梯度算法和直方圖算法,實現(xiàn)最快速度和最小內(nèi)存開支的要求下尋找最佳分裂點的目標(biāo),其核心是采用Leaf-wise算法作為樹的增長策略,從當(dāng)前葉子節(jié)點中找到增益值最大的一個葉子節(jié)點進(jìn)行分裂,同時直方圖算法大大改進(jìn)了GBDT算法在構(gòu)建決策樹上的尋找最優(yōu)分割點所帶來的計算消耗,以及起到正則化的效果,有效防止過擬合。

      2 實證分析

      2.1 數(shù)據(jù)分析及數(shù)據(jù)預(yù)處理

      數(shù)據(jù)來源于運滿滿2018年主辦的YMMTECH算法大賽提供的車貨匹配數(shù)據(jù)集,共有1751673條,其中數(shù)據(jù)集由294個字段組成,其中前293個字段按照車貨匹配主體分類可分為司機(jī)、貨主和貨物的特征;最后一個字段是司機(jī)的行為記錄,作為預(yù)測目標(biāo)的字段,該行為記錄是指當(dāng)天司機(jī)對貨物的反應(yīng)行為,不同的行為反映了司機(jī)對貨物信息不同的偏好。運滿滿把司機(jī)的行為定義為司機(jī)對貨物的評分:0分代表司機(jī)僅對平臺推送的信息作瀏覽;1分代表司機(jī)對感興趣貨物進(jìn)行點擊,查看貨物詳細(xì)信息;2分代表司機(jī)查看貨物信息后打電話進(jìn)行接單。

      數(shù)據(jù)集共有1751673條數(shù)據(jù),其中評分為“0”的貨物信息占比94.2%,評分為“1”的占比4.9%,評分為“2”的占比0.9%,如表1所示,數(shù)據(jù)分類不平衡。這是因為在現(xiàn)實中,系統(tǒng)每天都會給司機(jī)推薦大量的貨物信息,然而司機(jī)并不會對推薦的全部貨物信息感興趣,司機(jī)一般只會瀏覽貨物信息,并從中選擇自己感興趣的貨物信息點擊了解詳情甚至電話聯(lián)系。

      表1 數(shù)據(jù)集司機(jī)評分?jǐn)?shù)量及比例

      首先,從表1可見,在總樣本數(shù)據(jù)中司機(jī)評分為“0”、“1”和“2”的分類數(shù)據(jù)不均勻,其比例為94∶5∶1,容易造成結(jié)果偏差。因此本文對司機(jī)行為三分類轉(zhuǎn)化為二分類進(jìn)行預(yù)測,即把司機(jī)評分為“1”和“2”的數(shù)據(jù)合并為評分為“1”。這是因為評分為“2”司機(jī)打電話詳細(xì)咨詢發(fā)生在評分為“1”點擊查看貨物信息的基礎(chǔ)上,都是表達(dá)對推送的貨物信息感興趣,通過合并評分“1”和“2”,來提高評分預(yù)測的準(zhǔn)確性。

      其次,該數(shù)據(jù)集共有482556個樣本沒有對應(yīng)的貨主特征信息,這是因為運滿滿僅截取了部分貨主信息,造成部分樣本數(shù)據(jù)缺失對應(yīng)的貨主特征信息,會對模型結(jié)果產(chǎn)生較大的誤差,本文將其剔除掉,使得數(shù)據(jù)集有1269117個樣本。至于其他缺失少量特征的樣本數(shù)據(jù),則采用均值填充方式來處理缺失值。

      針對數(shù)值型特征,用式(5)對其進(jìn)行歸一化處理,減少因數(shù)據(jù)的量級不同對模型結(jié)果造成的影響,其中代表歸一化之后的數(shù)據(jù),計算過程如式(5)所示,表示原數(shù)據(jù),、分別表示原數(shù)據(jù)的最小、最大值。

      同時為了更好地利用分類特征,需要對其進(jìn)行重新編碼。針對司機(jī)、貨主性別等分類特征進(jìn)行獨熱編碼處理。此外根據(jù)業(yè)務(wù)要求,需要對司機(jī)常跑路線與貨物運輸路線、司機(jī)車長與貨物所需車長、司機(jī)車型與貨物所需車型等相關(guān)聯(lián)特征數(shù)據(jù)進(jìn)行匹配,得到新的特征并添加到訓(xùn)練特征集中,并采用XGBoost篩選得到特征重要性排序,保留重要性前100的特征,作為訓(xùn)練特征集。

      此外在上述基礎(chǔ)上,本文從數(shù)據(jù)集隨機(jī)抽取70%的樣本數(shù)據(jù)用作訓(xùn)練,剩余30%的樣本數(shù)據(jù)用作測試。最終合并后的總樣本、測試集、訓(xùn)練集評分為“0”、“1”的貨物信息比例如表2所示。

      表2 總樣本、訓(xùn)練樣本、測試樣本中司機(jī)評分為“0”、“1”的比例

      2.2 模型性能評估

      本文采用關(guān)于預(yù)測貨物信息評分“1”的查準(zhǔn)率(precision)、查全率(recall)以及值進(jìn)行結(jié)果度量。我們用表示正類樣本數(shù),即實際評分為“1”的樣本數(shù);表示反類樣本數(shù),即實際評分為“0”的樣本數(shù),則表示正確預(yù)測評分為“1”的樣本數(shù),表示正確預(yù)測評分為“0”的樣本數(shù);表示實際評分為“0”,卻被預(yù)測為“1”的樣本數(shù);表示實際評分為“1”,卻被預(yù)測為“0”的樣本數(shù)。它們之間的關(guān)系為:=+;=+。

      查準(zhǔn)率代表在預(yù)測評分為“1”的樣本中實際評分為“1”的概率,具體如式(6)所示:

      查全率代表在實際評分為“1”的樣本中被預(yù)測評分為“1”樣本的概率,具體如式(7)所示:

      綜合性評價指標(biāo)的計算公式見式(8):

      2.3 結(jié)果分析

      本文采用邏輯斯蒂回歸、樸素貝葉斯、隨機(jī)森林、LightGBM等常見的分類方法與結(jié)合重抽樣的LBL-Stacking模型作對比。其中邏輯斯蒂回歸是常見的非線性模型,樸素貝葉斯是常見的線性模型;GBDT是通過bagging集成決策樹的集成學(xué)習(xí)模型,LightGBM則是GBDT的改進(jìn)算法,后兩類模型都是典型的集成非線性模型。

      表3的結(jié)果表明,從查全率來看RLBLStacking表現(xiàn)最優(yōu);但從查準(zhǔn)率角度來看,隨機(jī)森林模型表現(xiàn)最優(yōu),其次是LightGBM,而RLBL-Stacking則表現(xiàn)一般。造成這一情況的可能原因是單一的非線性模型出現(xiàn)過擬合。以隨機(jī)森林為例,該模型共預(yù)測正確81個評分“1”,而將其余的23780個實際評分為“1”的誤判為“0”,導(dǎo)致查準(zhǔn)率高達(dá)100%,而查全率為0.34%。RLBL-Stacking通過犧牲一定的查準(zhǔn)率來提升查全率,這是因為RUS通過減少多數(shù)類的數(shù)量來減少多數(shù)類造成的噪聲。因為車貨匹配的目的是為了提高平臺司機(jī)總的接單量,因此在車貨匹配中需要通過提高模型的查全率,盡可能挖掘司機(jī)偏好,為司機(jī)推薦更多潛在的訂單,有利于提高訂單成交量。通過結(jié)合了查全率和查重率的綜合評價可以看出,相較于其他模型,RLBL-Stacking表現(xiàn)更佳。因此對于不平衡數(shù)據(jù)的車貨匹配,RLBL-Stacking仍具有較好的估計性能。

      表3 模型對評分為“1”的預(yù)測結(jié)果

      3 結(jié)語

      車貨匹配算法作為車貨匹配平臺的主要功能算法支撐,目前正引起越來越多研究者的注意。本文考慮到車貨匹配平臺需要有效針對不平衡數(shù)據(jù),提出結(jié)合重抽樣RUS,然后整合邏輯斯蒂回歸、樸素貝葉斯模型以及LightGBM得到RLBL-Stacking集成模型,并將之和其他單一分類算法進(jìn)行比較。實驗結(jié)果表明RLBLStacking集成模型具有一定優(yōu)勢,能夠在不平衡數(shù)據(jù)集中取得較優(yōu)的預(yù)測結(jié)果。本文僅對車貨匹配數(shù)據(jù)的部分特征進(jìn)行處理,并未結(jié)合天氣以及司機(jī)打卡位置等數(shù)據(jù)進(jìn)行考慮,因此后續(xù)研究需更進(jìn)一步地考慮車貨匹配數(shù)據(jù)之間的隱藏關(guān)聯(lián)。

      猜你喜歡
      貨物司機(jī)樣本
      用樣本估計總體復(fù)習(xí)點撥
      畫與理
      老司機(jī)
      雜文月刊(2019年19期)2019-12-04 07:48:34
      逛超市
      老司機(jī)
      推動醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計
      村企共贏的樣本
      不見司機(jī)
      济源市| 中阳县| 宁远县| 乾安县| 嫩江县| 北票市| 涡阳县| 斗六市| 太湖县| 金昌市| 阿合奇县| 罗山县| 子长县| 苏州市| 道真| 定陶县| 文成县| 蓬溪县| 响水县| 兴隆县| 威信县| 桓仁| 澳门| 安化县| 岱山县| 洛浦县| 工布江达县| 伊吾县| 忻州市| 太仆寺旗| 清原| 敦化市| 合江县| 北辰区| 木里| 个旧市| 汉中市| 铜梁县| 依兰县| 佛教| 奎屯市|