• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于LASSO回歸模型的網(wǎng)貸借款成功影響因素挖掘①

      2017-07-19 12:26:41李海超王開軍
      關(guān)鍵詞:共線性用途回歸系數(shù)

      李海超, 王開軍

      (福建師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福州 350007)

      (福建師范大學(xué) 福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室, 福州 350007)

      基于LASSO回歸模型的網(wǎng)貸借款成功影響因素挖掘①

      李海超, 王開軍

      (福建師范大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福州 350007)

      (福建師范大學(xué) 福建省網(wǎng)絡(luò)安全與密碼技術(shù)重點(diǎn)實(shí)驗(yàn)室, 福州 350007)

      隨著P2P網(wǎng)絡(luò)借貸交易量的增大, 對P2P交易數(shù)據(jù)的挖掘和分析備受關(guān)注, 其中一項(xiàng)重要的研究課題是網(wǎng)絡(luò)借款成功率的影響因素分析. 現(xiàn)有的文獻(xiàn)多采用線性回歸方法對該課題進(jìn)行研究, 但未考慮變量之間的多重共線性和采用最優(yōu)變量子集建立回歸模型的問題. 本文采用Lasso回歸方法, 建立最優(yōu)變量子集的回歸模型對影響網(wǎng)絡(luò)借款成功率的因素進(jìn)行分析, 避免了多重共線性問題對模型的干擾, 同時(shí)提高了模型對數(shù)據(jù)的擬合精度. 對Lending Club平臺的借貸數(shù)據(jù)的實(shí)證分析結(jié)果顯示, 本文方法在模型的擬合精度和避免共線性方面優(yōu)于對比方法.

      P2P網(wǎng)絡(luò)借貸; Lasso回歸; 多重共線性; 借款成功率; 借款用途

      近年來依托互聯(lián)網(wǎng)開展交易業(yè)務(wù)的互聯(lián)網(wǎng)金融蓬勃興起, 產(chǎn)生了一種新的金融模式——P2P網(wǎng)絡(luò)借貸平臺, P2P網(wǎng)絡(luò)借貸平臺在英、美等主要發(fā)達(dá)國家已經(jīng)相對成熟且被廣大人們接受, 如美國的Lending Club、英國的Zopa、中國的拍拍貸和人人貸等. 截至2016年4月僅我國P2P網(wǎng)貸行業(yè)累計(jì)平臺數(shù)量就已達(dá)4029家, 借貸成功的網(wǎng)貸貸款余額高達(dá)幾千億元.

      P2P網(wǎng)貸行業(yè)經(jīng)歷了幾年的發(fā)展, 積累了大量的網(wǎng)絡(luò)借貸交易數(shù)據(jù), 對這種新型交易數(shù)據(jù)的挖掘和分析受到了越來越多的關(guān)注, 對網(wǎng)絡(luò)借款成功率方面的研究是其中一項(xiàng)重要的研究課題. 現(xiàn)有的基于回歸模型的研究成果包括: Freedman & Jin[1]在研究中發(fā)現(xiàn), 提供更多的財(cái)務(wù)信息會使得借款人的借款成功率大大提升;吳小英[2]采用最小二乘法模型對Prosper平臺數(shù)據(jù)進(jìn)行實(shí)證研究表明, 在同等情況下學(xué)生借款比其他種借口成功率低3.4%; 陳建中[3]通過個(gè)人信息對借款成功率的影響進(jìn)行實(shí)證分析, 結(jié)果表明借款人基本信息對借款成功有著顯著的影響; 溫小霓[4]使用logistic回歸模型研究影響借款成功率的因素; 李淵博[5]采用多元線性回歸模型對出借人投標(biāo)行為的影響因子進(jìn)行研究, 結(jié)果表明借入信用、人口特征等對出借人投標(biāo)行為有顯著的影響; 王會娟[6]研究發(fā)現(xiàn), 信用評級越高, 其借款成功率越高; 李明初[7]采用Probit模型探究了顯著影響投資人以及網(wǎng)貸平臺對于借款判斷的因素等. 每筆P2P借貸業(yè)務(wù)的屬性眾多, 許多屬性之間有一定的相關(guān)性, 使得各屬性(變量)的數(shù)據(jù)之間或多或少存在多重共線性. 使用這種具有多重共線性的變量所建立的回歸模型, 將導(dǎo)致模型偏差、模型精度降低. 上述文獻(xiàn)中, 尚未采用Lasso回歸模型來處理多重共線性問題. 本文提出基于Lasso回歸方法的借貸成功率模型, 可有效解決數(shù)據(jù)中存在的多重共線性的問題, 并可以選出更優(yōu)的具有解釋能力的自變量子集建立回歸擬合模型等優(yōu)點(diǎn), 以提高借款成功率模型的擬合精度.

      1 線性回歸模型

      1.1 最小二乘法的線性回歸建模

      研究一個(gè)因變量與多個(gè)自變量之間的相關(guān)關(guān)系,假設(shè)數(shù)據(jù)(Xi, Yi), 這里Xi=(xi1, xi2, …, xim)T和Yi分別是第i個(gè)觀測值對應(yīng)的自變量和因變量, 通常的線性回歸模型為[8]:

      其中, β0, β1, …, βm為回歸系數(shù), m代表有m個(gè)自變量,ε代表隨機(jī)誤差. 通常假設(shè)ε是服從均值為0, 方差為δ2的高斯分布, 即ε~N(0, δ2), 由此可以利用觀測值來進(jìn)行參數(shù)的估計(jì).

      根據(jù)最小二乘法求解回歸系數(shù), 應(yīng)使得殘差平方和Q達(dá)到最小值, 可以分別對上式求偏導(dǎo), 求出相應(yīng)的回歸系數(shù)值. 然而直接用這傳統(tǒng)的最小二乘法, 在處理多重共線性問題上往往有很多不足的地方,主要存在兩大缺陷[9], 一是預(yù)測精度的問題, 最小二乘估計(jì)雖是無偏估計(jì), 但其方差在自變量線性相關(guān)的程度高時(shí)通常較大; 二是模型的可解釋性差, 對于很多自變量時(shí)情況, 結(jié)果不穩(wěn)定, 我們希望確定一個(gè)較小的變量模型來得出最好的效果. 當(dāng)變量之間存在多重共線性問題時(shí), 用最小二乘法所得到的誤差比較大, 不能起到消除共線性和降維效果[10].

      1.2 基于Lasso估計(jì)方法的線性回歸模型

      Lasso回歸方法[11]的主要思想是在回歸系數(shù)的絕對值之和小于一個(gè)正常數(shù)的約束下, 使得殘差平方和最小化, 從而能夠使得回歸系數(shù)很小或者為0的變量被篩選掉, 能有效的解決多重共線性的問題. 它具有子集選擇的優(yōu)點(diǎn), 同時(shí)又能進(jìn)行變量選擇與未知參數(shù)估計(jì).

      在通常的回歸結(jié)構(gòu)中, 假設(shè)數(shù)據(jù)中的觀測值彼此獨(dú)立, 同時(shí)因?yàn)閿?shù)據(jù)中有多個(gè)變量, 一般都存在量綱不同的問題, 所以為了消除量綱影響, 我們首先對所有自變量數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化變換, 即:, 使的均值為0, 方差為1, 且無量綱. 求解回歸模型的Lasso估計(jì)為:

      Lasso回歸系數(shù)的確定可采用Mallows Cp統(tǒng)計(jì)量[12],該方法是一種常用來評價(jià)回歸模型的方法, Cp統(tǒng)計(jì)量的定義如下:

      其中, p為子集回歸模型中包含的自變量的個(gè)數(shù)(即入選自變量個(gè)數(shù)), n為樣本容量, SSEp是入選自變量對因變量Y作回歸的殘差平方和,為全部自變量對因變量Y作回歸時(shí), 平均平方誤差的估計(jì). 據(jù)此, 選取Cp值達(dá)到最小時(shí)的模型[13], 即選擇出了全局“最優(yōu)”的變量子集,得到最優(yōu)的回歸方程.

      因此, 基于Lasso估計(jì)方法的線性模型能比較好的進(jìn)行變量選擇, 進(jìn)而用選擇出最優(yōu)的自變量子集得出最優(yōu)的回歸方程. 同時(shí)消除了多重共線性問題和起到降維效果.

      2 基于回歸模型的借貸成功率分析

      本文采用Lending Club平臺的數(shù)據(jù)作為研究樣本,其數(shù)據(jù)包括資金需求、利息率、借標(biāo)人數(shù)、借款成功率、借款用途、月收入、信用評級等屬性. 當(dāng)采用線性回歸模型(1), 并在上述1.2節(jié)的基礎(chǔ)上選擇出自變量子集來建立借款成功率模型時(shí), 把借款成功率作為因變量, 資金需求、年利率、利息率、借標(biāo)人數(shù)、信用評級、房屋所有權(quán)等屬性作為因變量. 然而, 這樣并不利于研究各種詳細(xì)的借款用途對借款成功率是否有影響. 因此, 為了驗(yàn)證各種用途對借款成功率是否影響,借款用途可看成虛擬變量, 在回歸模型中常被設(shè)計(jì)為啞元來處理, 將其表示為β1iPurposei. 為觀察自變量Xi=(xi1, xi2, …, xim)與因變量P(P是籌款完成率, 即成功率)之間的關(guān)系, 對包含資金需求、利息率、資助金額、借標(biāo)人數(shù)、借款時(shí)長等借款屬性X(自變量)與因變量P, 作成分殘差圖[14]; 對包含信用評級、月收入、房屋所有權(quán)、循環(huán)信貸余額等借款人屬性W(自變量)與因變量P, 也作成分殘差圖, 該圖適用于分析擬合模型中因變量與自變量之間是否呈非線性關(guān)系[14]. 觀察到自變量X與因變量P之間呈現(xiàn)有近似sin函數(shù)的非線性關(guān)系, 為使P與X之間的回歸模型符合這種非線性關(guān)系,將借款成功率模型設(shè)計(jì)為如下含sin函數(shù)的非線性回歸模型:

      其中, P表示借款成功率, X表示借款屬性包括借款金額、利息率等, W表示借款人的屬性包括信用評級、房屋所有權(quán)等, Purposei為啞元變量, γ1表示借款屬性的回歸系數(shù), ξ1表示借款人屬性的回歸系數(shù), β1i為各借款用途的回歸系數(shù), ε1表示數(shù)學(xué)模型的隨機(jī)誤差, ε1~N(0, δ2).

      使用公式/模型(5)對Lending Club的數(shù)據(jù)進(jìn)行建模分析, 可對各種因素對借款成功率的影響進(jìn)行分析, 求解時(shí)采用Lasso回歸求解方法. 這樣能有效處理數(shù)據(jù)的多重共線性的問題, 剔除與借款成功率相關(guān)性不大的因素; 也可以得出每種借款用途的系數(shù)β1i, 即每種借款用途對借款成功率的影響程度, 等.

      3 實(shí)驗(yàn)結(jié)果與分析

      本文的實(shí)驗(yàn)是采用Lasso回歸的求解方法, 對實(shí)驗(yàn)數(shù)據(jù)采用回歸模型(5)進(jìn)行建模分析每種借款用途對借款成功率的影響, 同時(shí)與現(xiàn)有的文獻(xiàn)中吳小英[2]、陳建中[3]、李淵博[5]等所采用的普通的最小二乘法求解線性回歸方法(即模型(1))進(jìn)行對比實(shí)驗(yàn). 實(shí)驗(yàn)程序是使用R語言編制.

      在美國網(wǎng)貸平臺Lending Club, 借款人通過在網(wǎng)上填寫資料申請借款, 由此產(chǎn)生網(wǎng)絡(luò)借貸數(shù)據(jù). 本文實(shí)驗(yàn)數(shù)據(jù)是Lending Club在2012年里的49737筆有效借貸數(shù)據(jù), 每筆借貸樣本屬性主要包括借款金額、借款用途、借標(biāo)人數(shù)、利息率、年利率、借款時(shí)長、資助金額(成功募集)、信用評級、FICO評分、總信用額度、房屋所有權(quán)、月收入、債務(wù)與收入比率、循環(huán)信貸余額、循環(huán)信貸利用率、教育程度、地址、工作年限等信息. 將這些有效數(shù)據(jù)按借款用途對照借款成功人數(shù)進(jìn)行匯總統(tǒng)計(jì), 匯總結(jié)果列于圖1, 從圖中可以看出借款用途為債務(wù)鞏固、信用卡債務(wù)借款成功人數(shù)占比比較大, 占成功借款總?cè)藬?shù)的55.83%、18.87%; 而用于汽車債務(wù)、大宗購買債務(wù)的僅僅占成功借款總?cè)藬?shù)的1.73%、1.80%. 從直觀上來看, 這表明了Lending Club比較青睞債務(wù)鞏固和個(gè)人債務(wù)的借款人, 而對汽車債務(wù)和大宗購買這些高費(fèi)用和還款周期比較長的債務(wù)抱有敵視. 直觀上看, 借款用途說明了借款人借款的目的, 其必定是作為投資人重要的考量標(biāo)準(zhǔn), 所以借款用途對借款成功率必有一定的影響. 文將以Lending Club平臺數(shù)據(jù)為基礎(chǔ), 通過其近年來的數(shù)據(jù)分析研究借款用途對借款成功率的影響.

      圖1 成功借款中各種借款用途的人數(shù)圖

      實(shí)驗(yàn)中把每個(gè)變量的數(shù)據(jù)標(biāo)準(zhǔn)化為均值為0、標(biāo)準(zhǔn)差為1的數(shù)據(jù), 信用評級A、B、C設(shè)為高信譽(yù), 賦值為1; 信用評級D、E、F為低信譽(yù), 賦值為0. 房屋所有權(quán)情況, 租房賦值為0, 抵押賦值為1, 已有賦值為2;FICO評分區(qū)間取其平均數(shù), 如FICO值為“679-713”, 則取平均值696; 借款用途共分為七種, 先用0~6這7個(gè)數(shù)值代表各用途.

      對上述Lending Club實(shí)驗(yàn)數(shù)據(jù), 選取其前三分之二的數(shù)據(jù)作為訓(xùn)練集用于構(gòu)建預(yù)測模型, 剩余三分之一則作為測試集用于評估預(yù)測模型的性能. 本文先對關(guān)于借款成功因素的文獻(xiàn)[2,5,6]中線性回歸方法構(gòu)建模型(1)進(jìn)行實(shí)驗(yàn), 用借款成功率作為因變量, 資金需求、資助金額、借款用途、借標(biāo)人數(shù)、利息率、年利率、借款時(shí)長、信用評級、房屋所有權(quán)、月收入、債務(wù)與收入比率、FICO評分、信用額度、總信用額度、循環(huán)信貸余額、循環(huán)信貸利用率、工作年限等17個(gè)作為自變量. 用普通的最小二乘法求解模型(1), 得到的線性回歸模型的擬合結(jié)果如表1所示, 表1中系數(shù)估計(jì)值小于0則說明了對借款成功率產(chǎn)生負(fù)作用, 越小說明越難借到投資人的款; 若系數(shù)估計(jì)值大于0則表現(xiàn)為正作用, 值越大說明越容易借到投資人的款. 表中標(biāo)準(zhǔn)差一列, 其值越小說明效果越好[2].

      表1 模型(1)最小二乘回歸系數(shù)估計(jì)值

      上述對比方法有如下的不足, 當(dāng)利用條件數(shù)判別法進(jìn)行多重共線性檢測時(shí), 這種經(jīng)典的最小二乘估計(jì)方法求解模型(1)的多重共線性條件數(shù)k值為134.7464(即判定是否存在多重共線性的條件數(shù)k值, 本文把它簡稱為“共線性數(shù)”). 一些研究者認(rèn)為, 當(dāng)k>30, 說明共線性問題嚴(yán)重[13,15,16]. 數(shù)據(jù)有著多重共線性特點(diǎn), 即線性回歸中的解釋變量之間由于存在高度相關(guān)關(guān)系而導(dǎo)致模型參數(shù)的置信區(qū)間過大、模型估計(jì)失真, 使得單個(gè)回歸系數(shù)解釋起來很困難, 而且會導(dǎo)致模型的不穩(wěn)定[17].

      對上述Lending Club實(shí)驗(yàn)數(shù)據(jù), 實(shí)驗(yàn)中采用Lasso回歸方法(公式(3))構(gòu)建模型(1), 并用Mallows Cp統(tǒng)計(jì)量方法(公式(4))求解模型(1). 實(shí)驗(yàn)結(jié)果顯示, 構(gòu)建的模型(1)剔除了7個(gè)變量, 同時(shí)共線性數(shù)僅為13.170, 很好的解決了多重共線性問題, 并選出了“最優(yōu)”的變量子集進(jìn)行回歸, 其Lasso回歸模型擬合結(jié)果如表2所示. 表2中系數(shù)估計(jì)值中借款用途、借標(biāo)人數(shù)、資助金額、信用評級等大于0說明對借款成功率產(chǎn)生正作用; 資金需求、利息率、借款時(shí)長、房屋所有權(quán)、循環(huán)信貸余額對借款成功有負(fù)作用; 年利率、FICO評分、信用額度、總信用額度、債務(wù)與收入比率、循環(huán)信貸利用率、工作年限的系數(shù)估計(jì)為0(即經(jīng)Lasso回歸剔除的變量)對借款成功影響不大. 可知, 我們利用第1.2節(jié)中提出的Lasso回歸估計(jì)方法和系數(shù)選擇方法, 可有效解決多重共線性的問題, 并能挑選出“最優(yōu)”的變量子集和得到更好泛化能力的回歸模型.

      表2 Lasso回歸系數(shù)估計(jì)值

      然而, 針對于Lending Club實(shí)驗(yàn)數(shù)據(jù)的借款用途屬性共含有七種用途, 不同借款用途對借款成功率的影響程度如何呢?為了驗(yàn)證這七種借款用途對借款成功率的影響, 我們可以在上述采用Lasso回歸方法的基礎(chǔ)上通過含啞變量的非線性回歸模型(5)進(jìn)一步實(shí)驗(yàn)驗(yàn)證. 依據(jù)模型(5), 在模型的自變量中增加借款用途這一啞元變量, 用Purposei表示(其值0-其他債務(wù), 1-債務(wù)鞏固, 2-汽車債務(wù), 3-信用卡, 4-小額商業(yè), 5-家庭改善, 6-大宗購買), 選用資金需求、利息率、資助金額、借標(biāo)人數(shù)、借款時(shí)長等借款屬性作為模型中的X, 選用信用評級、房屋所有權(quán)、月收入、循環(huán)信貸余額等借款人屬性作為模型中的W, 以借款成功率為因變量P. 可以得出債務(wù)鞏固、汽車債務(wù)、信用卡債務(wù)、小額商業(yè)、家庭改善、大宗購買、其他債務(wù)等七種借款用途的回歸系數(shù)(見表3). 從表3中可以看出債務(wù)鞏固(Purpose=1)、信用卡債務(wù)(Purpose=3)、小額商業(yè)(Purpose=4)、家庭改善(Purpose=5)的回歸系數(shù)值更大, 顯示出比其他借款用途更容易借到款. 回歸系數(shù)值的結(jié)果提示我們, 汽車債務(wù)(Purpose=2)、大宗購買(Purpose=6)等借款用途在其他條件不變情況下, 其借款成功率要比其他低較多, 可能是由于這些借款金額比較大, 投資人不放心還款; 投資人往往對用于債務(wù)鞏固、信用卡債務(wù)、小額商業(yè)、家庭改善這幾種借款用途的借款力度相對支持要大些. 這顯示出投資人的出借意愿. 另外,從表3中還可以看出利息率、資金需求、資助金額、借款時(shí)長、借標(biāo)人數(shù)、信用評級、房屋所有權(quán)、月收入、循環(huán)信貸余額等屬性對借款成功率的正向和負(fù)向影響.

      表3 模型(5)的回歸系數(shù)估計(jì)值

      在上述實(shí)驗(yàn)中, 是通過Lasso回歸方法選擇變量后,構(gòu)建全局“最優(yōu)”的回歸模型(5), 把借款用途用啞變量來分析處理, 成功分析出了7種借款用途對借款成功的影響程度. 在對預(yù)測借款用途是否影響借款成功率的任務(wù), 評價(jià)回歸模型的性能時(shí), 我們通常要看它的預(yù)測誤差、精度怎么樣. 從上述實(shí)驗(yàn)數(shù)據(jù)集中選取剩余的三分之一作為測試集用于比較兩種模型(即上文的模型(1)、模型(5))的預(yù)測誤差. 通過對Lending Club平臺的數(shù)據(jù)分析, 表4中給出了這2種回歸模型的判定是否具有多重共線性的共線性數(shù)、預(yù)測誤差、模型的擬合優(yōu)度(或稱判定系數(shù)). 顯然, 模型(5)共線性數(shù)僅為13.170, 擬合系數(shù)R2達(dá)到0.8891, 整體擬合優(yōu)度都優(yōu)于模型(1), 而且較好的處理了多重共線性問題, 擬合誤差較小, 結(jié)果比較合理. 從現(xiàn)在反映的結(jié)果來看, 經(jīng)過Lasso回歸篩選變量后所得的變量確實(shí)與借款成功率都具有密切的關(guān)系, 可以看出Lasso回歸在處理多重共線性問題具有很好的效果, 不失為一種處理多重共線性問題的較好方法; 同時(shí), 利用Mallows Cp統(tǒng)計(jì)量方法可以選擇出全局“最優(yōu)”的變量子集來進(jìn)行回歸預(yù)測.與現(xiàn)有文獻(xiàn)中所使用的傳統(tǒng)方法(模型1)相比, 本文使用的方法(公式4)及得出的全局“最優(yōu)”模型(模型5)會使得整個(gè)回歸方程的擬合精度和擬合效果有相應(yīng)的提高.

      表4 兩種模型的擬合結(jié)果比較

      4 小結(jié)

      本文對Lending Club平臺的數(shù)據(jù)建立回歸模型對影響借款成功率的各種因素進(jìn)行分析, 用Lasso回歸的求解方法有效處理了數(shù)據(jù)的多重共線性的問題, 剔除與借款成功率相關(guān)性不大的因素, 進(jìn)而得出全局“最優(yōu)”的變量子集和全局“最優(yōu)”的回歸模型, 從而提高模型的擬合精度和對數(shù)據(jù)的解釋性. 實(shí)證研究表明債務(wù)鞏固、信用卡債務(wù)、小額商業(yè)、家庭改善等用途的借款成功率明顯要高于其他用途.

      1Freedman S, Jin GZ. Do social networks solve information problems for peer-to-peer lending? Evidence from Prosper.com. NET Institute Working Paper, 2008: 8–43.

      2吳小英, 鞠穎. 基于最小二乘法的網(wǎng)絡(luò)借貸模型. 廈門大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 51(6): 980–984.

      3陳建中, 寧欣. P2P網(wǎng)絡(luò)借貸中個(gè)人信息對借貸成功率影響的實(shí)證研究——以人人貸為例 .財(cái)務(wù)與金融 ,2013 ,(6) :13–17.

      4溫小霓, 武小娟. P2P網(wǎng)絡(luò)借貸成功率影響因素分析——以拍拍貸為例. 金融論壇, 2014, (3): 3–8.

      5李淵博, 王珠琳, 朱順林, 等. P2P網(wǎng)絡(luò)借貸市場中出借人投標(biāo)行為影響因子的實(shí)證研究——基于信任的視角. 特區(qū)經(jīng)濟(jì), 2014, (8): 135–137.

      6王會娟, 廖理. 中國P2P網(wǎng)絡(luò)借貸平臺信用認(rèn)證機(jī)制研究——來自“人人貸”的經(jīng)驗(yàn)證據(jù). 中國工業(yè)經(jīng)濟(jì), 2014, (4):136–147.

      7李明初. 基于Probit的網(wǎng)絡(luò)借貸成功影響因素分析——以拍拍貸為例. 會計(jì)之友, 2016, (4): 100–106.

      8劉嚴(yán). 多元線性回歸的數(shù)學(xué)模型. 沈陽工程學(xué)院學(xué)報(bào)(自然科學(xué)版), 2005, 1(2-3): 128–129.

      9Breiman L. Heuristics of instability and stabilization in model selection. The Annals of Statistics, 1996, 24(6):2350–2383. [doi: 10.1214/aos/1032181158]

      10曹芳, 朱永忠. 基于多重共線性的Lasso方法. 江南大學(xué)學(xué)報(bào)(自然科學(xué)版), 2012, 11(1): 87–90.

      11Tibshirani R. Regression shrinkage and selection via the lasso: A retrospective. Journal of the Royal Statistical Society:Series B (Statistical Methodology), 2011, 73(3): 273–282.[doi: 10.1111/rssb.2011.73.issue-3]

      12Mallows CL. Some comments on CP. Technometrics, 2000,42(1): 87–94.

      13吳喜之. 復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用. 3版. 北京:中國人民大學(xué)出版社, 2015: 36–38.

      14Fox J. Component+Residual (partial residual) plots.Technical Report, 1997.

      15高惠璇. 處理多元線性回歸中自變量共線性的幾種方法——SAS/STAT軟件(6.12)中REG等過程增強(qiáng)功能的使用. 數(shù)理統(tǒng)計(jì)與管理, 2000, 20(5): 49–55.

      16何曉群, 劉義卿. 應(yīng)用回歸分析. 北京: 中國人民大學(xué)出版社, 2001: 154–166.

      17Kabacoff RI. R語言實(shí)戰(zhàn). 王小寧, 劉擷芯, 黃俊文, 等譯.2版. 北京: 人民郵電出版社, 2016: 181–182.

      Successful Lending Model Based on LASSO Regression Method

      LEE Hai-Chao, WANG Kai-Jun
      (Mathematics and Computer Science College, Fujian Normal University, Fuzhou 350007, China)
      (Fujian Province Network Security and Cryptography Laboratory, Fujian Normal University, Fuzhou 350007, China)

      The trading amount of P2P network lending is rising, and the research of P2P trading data receives much attention. The factor analysis of the success rate of network loan is one of the important research topics. The previous papers on this issue mainly adopt multi-linear regression method, ignoring the problem of multi-collinearity between the variables and the finding of “optimal” regression model. This paper uses the Lasso regression method to establish the regression model with optimal subset of variables, which can analyze the factors that affect the success rate of network borrowing, avoiding the multi-collinearity of the model interference and improving the prediction accuracy of the model.This paper empirically analyzes the borrowing and lending data from the Lending Club platform, and the result shows that our method is significantly superior to the compared approach in the aspects of fitting precision of the model and avoiding the multi-collinearity.

      P2P network lending; Lasso regression; multi-collinearity; the success rate borrowings; borrowings purposes

      李海超,王開軍.基于LASSO回歸模型的網(wǎng)貸借款成功影響因素挖掘.計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(7):204–209. http://www.c-sa.org.cn/1003-3254/5873.html

      國家自然科學(xué)基金(61672157); 福建師范大學(xué)網(wǎng)絡(luò)與信息安全關(guān)鍵理論和技術(shù)創(chuàng)新團(tuán)隊(duì)(IRTL1207)

      2016-10-24; 收到修改稿時(shí)間: 2017-01-04

      猜你喜歡
      共線性用途回歸系數(shù)
      銀行不良貸款額影響因素分析
      DNA的奇妙用途
      文氏圖在計(jì)量統(tǒng)計(jì)類課程教學(xué)中的應(yīng)用
      ——以多重共線性內(nèi)容為例
      不完全多重共線性定義存在的問題及其修正建議
      多元線性回歸的估值漂移及其判定方法
      電導(dǎo)法協(xié)同Logistic方程進(jìn)行6種蘋果砧木抗寒性的比較
      多元線性模型中回歸系數(shù)矩陣的可估函數(shù)和協(xié)方差陣的同時(shí)Bayes估計(jì)及優(yōu)良性
      用途
      水的用途
      診斷復(fù)共線性的特征分析法及其在GEO定軌中的應(yīng)用
      栾城县| 宁都县| 三穗县| 神木县| 建昌县| 美姑县| 前郭尔| 台中市| 武安市| 神农架林区| 赤城县| 陆川县| 抚松县| 泾源县| 娱乐| 山西省| 南华县| 垫江县| 谢通门县| 都昌县| 灌云县| 延寿县| 同江市| 新疆| 休宁县| 河曲县| 秦安县| 汕尾市| 社会| 桂东县| 科技| 龙井市| 武功县| 文登市| 北川| 新乡县| 囊谦县| 福建省| 休宁县| 长乐市| 顺昌县|