吉祥飛 李明東
摘要:K-fold交叉驗(yàn)證(CV)是估計(jì)機(jī)器學(xué)習(xí)模型真實(shí)性能的常用方法。CV的過(guò)程需要數(shù)據(jù)的隨機(jī)劃分,因此性能評(píng)估實(shí)際上是隨機(jī)的,具有可變性,這對(duì)于自然語(yǔ)言處理任務(wù)是非常重要的。所以建議使用較少變化的J-K-fold CV,其中J個(gè)獨(dú)立的K-fold交叉驗(yàn)證用于評(píng)估性能。實(shí)驗(yàn)結(jié)果表明,通過(guò)重復(fù)的J-K-fold交叉驗(yàn)證進(jìn)行調(diào)優(yōu)能減少方差。
關(guān)鍵詞:J-K-fold交叉驗(yàn)證;自然語(yǔ)言處理;調(diào)優(yōu)
中圖分類號(hào):TP393? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? 文章編號(hào):1009-3044(2019)03-0008-02
近年來(lái),機(jī)器學(xué)習(xí)的主要關(guān)注點(diǎn)一直是模型性能。需要精確地預(yù)測(cè)模型在實(shí)際應(yīng)用時(shí)的表現(xiàn),即預(yù)測(cè)或泛化誤差;模型從其訓(xùn)練集中泛化的能力。模型性能的精確估計(jì)對(duì)于模型之間的選擇和最優(yōu)模型參數(shù)的選擇至關(guān)重要。對(duì)用于訓(xùn)練模型的相同數(shù)據(jù)進(jìn)行預(yù)測(cè)誤差的估計(jì)會(huì)導(dǎo)致對(duì)預(yù)測(cè)誤差的嚴(yán)重低估,這是不明智的。簡(jiǎn)單的替代方法是將數(shù)據(jù)隨機(jī)分成訓(xùn)練和測(cè)試集,或訓(xùn)練、驗(yàn)證和測(cè)試集,使用訓(xùn)練集訓(xùn)練的模型,對(duì)驗(yàn)證集和測(cè)試集上的性能進(jìn)行調(diào)優(yōu),以報(bào)告擬合模型的性能。更復(fù)雜的方法是基于重新采樣和更有效地利用數(shù)據(jù);包括bootstrapping[1]和K-fold交叉驗(yàn)證(CV)[2]。由于bootstrapping具有很高的計(jì)算成本,并且容易低估預(yù)測(cè)誤差,因此通常將CV作為估計(jì)預(yù)測(cè)誤差的默認(rèn)方法。
每一種評(píng)估方法都涉及對(duì)數(shù)據(jù)進(jìn)行一個(gè)或多個(gè)隨機(jī)分區(qū)。數(shù)據(jù)的這種隨機(jī)分離導(dǎo)致了我們的預(yù)測(cè)估計(jì)值的變化,我們將其定義為內(nèi)部變化。雖然之前討論過(guò)這種內(nèi)部可變性[3][4],但是對(duì)于這個(gè)問(wèn)題的數(shù)據(jù)集和模型的理解是很差的。由于模型只訓(xùn)練在一個(gè)子集上,所以它不能達(dá)到像訪問(wèn)所有數(shù)據(jù)那樣的高性能。Zhang和Yang[5]認(rèn)為,評(píng)估性能、模型選擇和參數(shù)調(diào)優(yōu)對(duì)估計(jì)量的偏差和方差有不同的要求。特別是,只要偏差在不同的模型/參數(shù)之間近似恒定,對(duì)所選模型的影響就很小。如果我們估計(jì)的方差超過(guò)了模型性能的實(shí)際差異,我們就不能區(qū)分參數(shù)和噪聲之間的差異。降低交叉驗(yàn)證的內(nèi)部方差是本文的重點(diǎn)。
1 通過(guò)重復(fù)的J-K-fold交叉驗(yàn)證進(jìn)行調(diào)優(yōu)
僅考慮一個(gè)分區(qū)不能提供關(guān)于性能評(píng)估中存在的可變性的數(shù)量的信息。我們必須查看由1000個(gè)不同分區(qū)選項(xiàng)產(chǎn)生的調(diào)優(yōu)模型。這種觀察激發(fā)了重復(fù)K-fold CV的使用,也稱為J-K-fold CV;K-fold CV估計(jì)值的平均值來(lái)自J不同的分區(qū)選擇。實(shí)驗(yàn)證明,重復(fù)的CV降低了內(nèi)部的變異性,從而穩(wěn)定了預(yù)測(cè)誤差,特別是對(duì)于較小的數(shù)據(jù)集。我們可以單獨(dú)考慮K和J的選擇。K增加以減少偏差,而J減少內(nèi)部變化。有效的參數(shù)調(diào)優(yōu)對(duì)方差比對(duì)偏差更敏感。因此,在我們的調(diào)優(yōu)能夠從減少的偏差中獲益之前,我們首先需要減少內(nèi)部的可變性。
我們考慮使用LSTM在Li[6]收集的基準(zhǔn)twitter數(shù)據(jù)集中使用特定于twitter的情緒詞向量來(lái)執(zhí)行目標(biāo)依賴情緒分類。6248個(gè)句子中的每一個(gè)都帶有一個(gè)目標(biāo)元素,任務(wù)是預(yù)測(cè)該元素的情緒(積極的、消極的或中性的)。在這些實(shí)驗(yàn)中,我們將最大的時(shí)間間隔固定為100,當(dāng)我們發(fā)現(xiàn)5個(gè)連續(xù)時(shí)間的驗(yàn)證集性能沒(méi)有改善時(shí),就停止訓(xùn)練。對(duì)于每個(gè)J?K模型,驗(yàn)證集是模型訓(xùn)練數(shù)據(jù)的隨機(jī)20%,因此可以認(rèn)為只是一個(gè)隨機(jī)分區(qū)的一部分。我們使用具有默認(rèn)學(xué)習(xí)參數(shù)的ADAM優(yōu)化器,批處理大小為32。
我們進(jìn)行了兩個(gè)實(shí)驗(yàn): 在網(wǎng)格{10、20、30、90}中對(duì)LSTM層(稱為寬度)的節(jié)點(diǎn)數(shù)進(jìn)行調(diào)優(yōu),并分別在{0.00001,0.001,0.1}調(diào)優(yōu)輸入和偏差(固定寬度為50)的L2正則化量。如圖1(a)所示,普通1-10-fold CV根本不適合調(diào)優(yōu)LSTM的寬度,因?yàn)樗?0到90之間生成幾乎一致的值。它也沒(méi)有一致地為正則化方案選擇單一選項(xiàng)(圖1(b))。相比之下,使用8-5-fold調(diào)優(yōu)會(huì)產(chǎn)生更一致的選擇,大多數(shù)時(shí)間選擇70作為最佳寬度(圖1(a)),0.001作為輸入和偏差正則化(圖1(c))。雖然我們所選擇的LSTM參數(shù)中的可變性隨著J的增加而減少,但它仍然顯著高于我們的參數(shù)網(wǎng)格中的間隙。再加上此調(diào)優(yōu)模型的精度估計(jì)的相對(duì)穩(wěn)定性,這表明8-5-fold CV最常見的選擇之間的性能差異很小。然而,為了持續(xù)地調(diào)整模型以適應(yīng)這種特性,我們需要更大的J而不僅僅是J=8。
2 討論和結(jié)論
本文提倡使用J-K-fold CV,擴(kuò)展到參數(shù)調(diào)優(yōu)。通過(guò)使用來(lái)自多重估計(jì)的信息,穩(wěn)定了我們的調(diào)優(yōu)過(guò)程。為了抵消增加J的計(jì)算成本,建議降低K的選擇,因?yàn)橛行У恼{(diào)優(yōu)更依賴于變化性而不是偏差。
雖然已經(jīng)在NLP示例中展示了一些特定的J和K選項(xiàng)的有效性,但是在選擇它們的最優(yōu)配置方面還有很多工作要做,這是與問(wèn)題相關(guān)的。我們還想分析目前常見的提前停止的做法,這需要對(duì)另一保留數(shù)據(jù)集進(jìn)行評(píng)估,以防止過(guò)度擬合。
參考文獻(xiàn):
[1] Bradley Efron and Robert J Tibshirani. An Introduction to the Bootstrap[M]. CRC press, 1994.
[2] Ron Kohavi. A study of cross-validation and bootstrap for accuracy estimation and model selection[C].International Joint Conference on Artificial Intelligence, 1995(14):1137-1145.
[3] Gaoxia Jiang and Wenjian Wang. Error estimation based on variance analysis of k-fold cross-validation[J].Pattern Recognition, 2017(69):94-106.
[4] YoshuaBengio and Yves Grandvalet. No unbiased estimator of the variance of k-fold cross-validation[J].Journal of Machine Learning Research, 2004(5):1089–1105.
[5] Yongli Zhang and Yuhong Yang. Cross-validation for selecting a model selection procedure[J].Journal of Econometrics, 2015(187):95-112.
[6] Li Dong, Furu Wei, Chuanqi Tan, Duyu Tang, Ming Zhou, Ke Xu. Adaptive recursive neural network for target-dependent twitter sentiment classification[C].Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), 2014(2):49-54.
【通聯(lián)編輯:代影】