鄭泳智 吳惠粦 朱定局 宋東情
(1.華南師范大學(xué)計算機學(xué)院 廣州 510631)(2.廣州國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)科技創(chuàng)新中心 廣州 510520)
十八大明確要求,要把創(chuàng)新驅(qū)動視為經(jīng)濟發(fā)展新的動力源泉,科學(xué)技術(shù)能力和勞動質(zhì)量在社會發(fā)展中的作用不應(yīng)孤立地看待,而應(yīng)聯(lián)系起來以促進社會進步[1]。
政府政策扶持力度與資金投入對企業(yè)創(chuàng)新能力是相關(guān)聯(lián)的。張莉芳[2]根據(jù)部分新興產(chǎn)業(yè)數(shù)據(jù)研究分析也驗證了這一觀點;胡本田[3]根據(jù)數(shù)據(jù)分析發(fā)現(xiàn)政府補助對創(chuàng)新績效產(chǎn)生直接正向調(diào)節(jié)效應(yīng);Sun J 等[4]以PSM-DID 模型為工具,發(fā)現(xiàn)研發(fā)費用相關(guān)政策的實施對企業(yè)創(chuàng)新行為有正向影響。因此審計部門關(guān)注企業(yè)創(chuàng)新能力發(fā)展,并安排相關(guān)審計專家根據(jù)企業(yè)相關(guān)業(yè)務(wù)信息、環(huán)境條件、創(chuàng)新投入、創(chuàng)新產(chǎn)出、財務(wù)成長等數(shù)據(jù),設(shè)計不同的創(chuàng)新指標分析企業(yè)創(chuàng)新能力變化,為政府部門提供決策依據(jù),優(yōu)化資金投入結(jié)構(gòu)等。徐立平等[5]歸納總結(jié)了九類企業(yè)創(chuàng)新能力評價體系,提出其不足之處,尤其是消除人為因素干擾方面存在較大問題??紫榫暎?]首次提出使用基于支持向量機的方法構(gòu)建創(chuàng)新能力評分預(yù)測模型,雖可消除人為因素影響,但是預(yù)測效果存在提升空間。栗曉云[7]提出使用隨機森林等算法構(gòu)建模型預(yù)測創(chuàng)新政策對企業(yè)創(chuàng)新能力的影響,可有效幫助政府在企業(yè)補助等問題上做出決策。因此,依靠機器學(xué)習(xí)方法對企業(yè)創(chuàng)新能力進行評分預(yù)測,有利于審計部門分析企業(yè)創(chuàng)新能力變化。在微觀上,有利于發(fā)現(xiàn)其創(chuàng)新能力的不足,為決策者提供依據(jù),加強創(chuàng)新管理,完善創(chuàng)新機制,提高競爭優(yōu)勢。在宏觀上,符合條件的創(chuàng)新型企業(yè)可受益于政府政策扶助,推動區(qū)域繁榮發(fā)展并形成區(qū)域優(yōu)勢。
預(yù)測企業(yè)創(chuàng)新能力評分問題,實際上是回歸問題。Friedman[8]指出回歸的關(guān)鍵在于優(yōu)化函數(shù),目的是求出因變量關(guān)于自變量的函數(shù),使損失函數(shù)期望最小。近年來,回歸預(yù)測廣泛應(yīng)用于各領(lǐng)域,如Pandey G 等[9]提出基于SEIR 和回歸模型預(yù)測新冠疫情;Quan Q 等[10]提出使用改進的支持向量機結(jié)合太陽輻射的水庫水溫,對我國西部大型高海拔水庫的水溫進行了分析;Jiang L等[11]提出使用貝葉斯回歸模型預(yù)測港口吞吐量。
關(guān)于企業(yè)創(chuàng)新能力預(yù)測,作者構(gòu)建不同預(yù)測模型進行實驗,實驗結(jié)果發(fā)現(xiàn)傳統(tǒng)的單一回歸模型存在精度低與泛化性不足等問題。例如,支持向量回歸(Support Vector Regression,SVR)、線性回歸(Linear Regression,LR)等模型在關(guān)于企業(yè)創(chuàng)新能力預(yù)測問題中,效果均不理想。集成學(xué)習(xí)[12]為了降低泛化誤差,可以將多個個體學(xué)習(xí)器合并,得到更合理邊界,降低整體錯誤率、提高模型性能[13]。本文提出運用梯度提升回歸樹(Gradient Boosting Regression Tree,GBRT)算法進行企業(yè)創(chuàng)新能力的回歸預(yù)測,GBRT 屬于集成學(xué)習(xí)算法中的一種,結(jié)果表明模型能擬合出與審計組專家評分相似的結(jié)果,優(yōu)于其它模型。
集成學(xué)習(xí)已遍及各行業(yè)各領(lǐng)域,特征選取、回歸預(yù)測等問題都能見到它的身影。如圖1 所示,集成學(xué)習(xí)依靠某一策略有機組合多個學(xué)習(xí)器。其中,BP 算法[14]、SVM 算法[15]等學(xué)習(xí)算法往往會被用于構(gòu)建個體學(xué)習(xí)器。而集成學(xué)習(xí)則通過某種策略將所有個體學(xué)習(xí)器產(chǎn)生的結(jié)果整合,如平均法、投票法、學(xué)習(xí)法。因此通過集成學(xué)習(xí)算法構(gòu)建模型在結(jié)果上會比單一模型更加穩(wěn)定,泛化能力更強。
圖1 集成學(xué)習(xí)原理示意圖
主流的集成學(xué)習(xí)方法按基學(xué)習(xí)器間獨立程度劃分為兩種類別。即基學(xué)習(xí)器必須依次生成的Boosting提升算法[16]與基學(xué)習(xí)器可并行生成的Bagging 裝袋算法[17]。除了基學(xué)習(xí)器間依賴性強弱不同,二者在樣本選擇和權(quán)重調(diào)整上也有所區(qū)別。Boosting 可根據(jù)錯誤率調(diào)整權(quán)重使得Boosting 精度往往高于Bagging。
提升樹算法中殘差計算較復(fù)雜,導(dǎo)致訓(xùn)練速度較低,F(xiàn)riedman 最早提出使用梯度提升回歸樹GBRT,將損失函數(shù)負梯度值表示為殘差,以提高訓(xùn)練速度。GBRT 屬于Boosting 算法中的一種泛化,近年來廣泛應(yīng)用在各個領(lǐng)域,Samadi等[18]提出利用GBRT 近似分析預(yù)測生物質(zhì)材料較高的熱值,效果優(yōu)于其他模型;Pan 等[19]提出利用GBRT 估算天然氣公交車的排放量,為移動等排放模擬工具提供理論支持;Deng 等[20]利用GBRT 預(yù)測蛋白質(zhì)-RNA 結(jié)合親和力,取得較好的效果。
算法1 梯度提升回歸樹GBRT算法
由式(4)可知樹的數(shù)量M 和學(xué)習(xí)率v 影響模型的預(yù)測精度。回歸樹數(shù)量M也稱為最大迭代次數(shù),設(shè)置不當容易出現(xiàn)過擬合或欠擬合;學(xué)習(xí)率v 也稱步長,學(xué)習(xí)率設(shè)置恰當將有利于防止過擬合?;貧w樹數(shù)量M 和學(xué)習(xí)率v 往往需要結(jié)合起來調(diào)整,其優(yōu)化過程將在后文進行論述。
本文實驗所用實驗環(huán)境如表1所示。
表1 實驗環(huán)境
實驗采用廣東省審計廳提供的2016 年度2510家廣東省高新企業(yè)數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其中包括企業(yè)74 項特征數(shù)據(jù)和對應(yīng)的審計專家組評分。專家組評分為各審計專家根據(jù)企業(yè)數(shù)據(jù)進行企業(yè)創(chuàng)新能力評分后的均值,取值為0~100 的浮點值。部分企業(yè)特征如表2所示。
表2 部分企業(yè)特征
本文對企業(yè)數(shù)據(jù)的預(yù)處理主要有:1)數(shù)據(jù)去重。若有相同企業(yè)編號的企業(yè)數(shù)據(jù),則刪除。2)數(shù)據(jù)標準化。按比縮放企業(yè)數(shù)據(jù),將各類企業(yè)數(shù)據(jù)統(tǒng)一映射同一區(qū)間有助于提升訓(xùn)練效率。3)空值填補。樣本中存在少量企業(yè)數(shù)據(jù)缺失,使用同一列不為空的數(shù)值平均值對缺失值進行填補。
為使GBRT 模型效果更佳,實驗一使用平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)作為評價指標,通過網(wǎng)格搜索與交叉驗證法對超參數(shù)進行調(diào)整優(yōu)化,并研究分析超參數(shù)對誤差的影響。
為驗證梯度提升樹預(yù)測效果由于其他模型,實驗二訓(xùn)練Adaboost、Bagging、GBRT、SVM、RF、LR 等模型,記錄其誤差值并進行對比。其中,本次實驗參考當前廣泛使用的誤差評價指標,選取平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)與均方根誤差(Root Mean Squared Error,RMSE)作為評價指標。
GBRT 模型的超參數(shù)最大迭代次數(shù)M 和學(xué)習(xí)率v 對模型預(yù)測精度有較大影響。實驗一設(shè)計不同M值與v值,以MAPE作為模型評估指標,結(jié)合網(wǎng)格搜索與交叉驗證求得最佳M 與v 的組合。不同組合下的預(yù)測結(jié)果如表3所示。
表3 不同最大迭代次數(shù)和學(xué)習(xí)率下模型的平均MAPE均值
表3中,第一列從20~1000的M值為式(2)中的最大迭代次數(shù),即創(chuàng)建的M 棵回歸樹。第一行從0.004~0.018 的v 值為式(4)中的學(xué)習(xí)率,即更新模型的步長。實驗利用K 折交叉驗證方法進行模型訓(xùn)練K 次,對K 個平均絕對百分誤差值求平均,作為超參數(shù)調(diào)優(yōu)的評價指標,其中K 取值為10。當M 取值大于600,v取值大于0.014時,隨著M 與v值增大,模型效果提升越不明顯。當最大迭代次數(shù)和學(xué)習(xí)率分別為1000 與0.14 時,模型效果最好,MAPE均值為6.1113%,優(yōu)于其他參數(shù)組合。
由算法1 可知,調(diào)整超參數(shù)時,不可以孤立的看待問題,既不能只調(diào)整最大迭代次數(shù)M,也不能只調(diào)整學(xué)習(xí)率v,否則將陷入局部最優(yōu)化的困境。實驗根據(jù)表2數(shù)據(jù),畫出如圖2所示三維圖像,以平均絕對百分誤差作為Z 軸。可以觀察到曲面隨著M與v的增長,逐漸收斂為一個平面,平均絕對百分誤差無明顯變化,即模型效果沒有明顯提升。當回歸樹棵樹取值為1000 與學(xué)習(xí)率取值為0.14 時,該超參數(shù)組合下訓(xùn)練得到的模型MAPE 值為6.1113%,該模型效果最優(yōu)。
如圖3 所示,實驗使用上述最佳超參數(shù)組合構(gòu)建模型后,預(yù)測100 個企業(yè)創(chuàng)新能力得分。僅有少量預(yù)測值與實際值相差較大,如圖3中第64個樣本值,模型預(yù)測效果不理想。大部分預(yù)測值均接近于實際值,如圖3 中第15 和16 等樣本值,均能擬合出與實際值近似結(jié)果。因此,GBRT 模型能較好擬合審計專家對企業(yè)創(chuàng)新能力的評分。
圖3 預(yù)測值與實際值對比圖
為對比分析不同模型在預(yù)測企業(yè)創(chuàng)新能力評分問題上的效果,實驗二使用AdaBoost、Bagging 等算法進行模型訓(xùn)練,以MAPE 與RMSE 作為模型評價指標,訓(xùn)練集與測試集劃分比為4∶1。
如表4 所示,在預(yù)測企業(yè)創(chuàng)新能力問題上,GBRT 訓(xùn)練得到的模型效果更好,MAPE 達到5.7675%,RMSE 為5.6786,優(yōu)于其他模型。其中,RF 與GBRT 的模型效果接近,但GBRT 在該回歸問題上稍微優(yōu)勝。其原因在于RF 對異常值不敏感,而GBRT 根據(jù)錯誤率采樣,會對異常值較敏感。因此在該回歸問題上,對比其他預(yù)測模型,GBRT 能更好的擬合審計專家組對企業(yè)創(chuàng)新能力的評分。
表4 不同模型MAPE與RMSE對比
隨著創(chuàng)新驅(qū)動發(fā)展戰(zhàn)略的提出,政府審計部門越來越重視企業(yè)創(chuàng)新能力評估,希望通過量化創(chuàng)新能力,發(fā)現(xiàn)企業(yè)不足之處,協(xié)助決策部門調(diào)整政策扶持力度與方向,精準提高某區(qū)域或某行業(yè)的競爭力。但審計專家組根據(jù)企業(yè)相關(guān)數(shù)據(jù)評估企業(yè)創(chuàng)新能力的工作量較大,同時容易出現(xiàn)誤判,為提高審計廳對企業(yè)創(chuàng)新能力的評估效率與能力,本文提出使用GBRT 算法構(gòu)建企業(yè)創(chuàng)新能力得分預(yù)測模型,借助GBRT 具有對輸出空間中離群點的魯棒性等優(yōu)點,擬合出于審計專家組相似的評分效果。經(jīng)過驗證,該模型效果優(yōu)于Adaboost等五類算法構(gòu)建的模型。