• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于數(shù)據(jù)挖掘技術的二手車性能評估模型研究

      2014-10-28 18:46:36曹靜嫻
      商場現(xiàn)代化 2014年24期
      關鍵詞:決策樹數(shù)據(jù)挖掘神經網絡

      摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術中的決策樹、logistic回歸和神經網絡對205個二手車數(shù)據(jù)進行分析,利用相關數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復雜混合因素一定程度上的定量分析。

      關鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經網絡

      一、二手車評估的現(xiàn)狀和發(fā)展

      雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學統(tǒng)一的標準,對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術中主要的預測模型有決策樹、Logistic回歸和神經網絡三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經網絡模型提供了一個靈活的擬合形式。

      二、二手車性能評估模型的構建

      1.數(shù)據(jù)預處理、數(shù)據(jù)探索與數(shù)據(jù)清理

      數(shù)據(jù)挖掘技術對數(shù)據(jù)有一定要求,所以要先進行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。

      表 原始實驗數(shù)據(jù)屬性

      下面對表中各變量進行分析處理:

      (1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標變量進行可視化分析,探索各變量的關系、含義和特點,為建模做準備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設定目標變量。建立target,當Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關,因此rejected。highway mpg與city mpg高度相關,重復了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴謹,還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進行處理。

      2.模型的建立

      (1)決策樹

      因為決策樹本身具有處理缺失值的能力,可直接將未經過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標準,采用二叉樹進行建模,設置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結果得,SAS自動設置的模型中當生成有6個葉子節(jié)點的決策樹時,訓練樣本集細分誤分率為9.09%,檢驗樣本集細分誤分率為7.14%。

      決策樹模型的綜合評價:輸出結果得出在“性能高的二手車”歷史記錄中有87.5%的預測值為“性能高的二手車”。在“性能高的二手車”紀錄中有12.5%的預測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預測為“性能高的二手車”;將歷史紀錄中96.154%的“性能低的二手車”預測為“性能低的二手車”。由評價結果可知,該決策樹對性能低的二手車的正確判斷率達了96.154%的較高水平,而對性能高的二手車的正確判斷率也達到了87.5%,該決策樹對性能低的二手車的預測準確率更理想。

      (2)logistic回歸建模

      借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設置為backward,input coding選擇GLM。從模型輸出結果圖得出,誤分率標準表明,訓練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。

      Logistic模型的預測準確率:模型將84.375%的“性能好的二手車”預測為“性能好的二手車”,將15.625%的“性能好的二手車”預測為“性能差的二手車”。有90.385%的“性能差的二手車”被預測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預測為“性能好的二手車”??梢娀貧w模型對性能好的二手車預測的準確率沒有決策樹模型高。

      (3)神經網絡建模

      神經網絡建模:借助神經網絡節(jié)點建立模型,網絡采用輸入、隱層、輸出三層結構,其中隱層節(jié)點設置3個變量,其他設置采用軟件默認設置。從模型輸出結果圖可以看出各種模型評價標準,其中誤分率標準表明,訓練樣本集細分誤分率為7.43%,檢驗樣本集細分誤分率為8.33%。從訓練過程得知訓練誤差隨訓練次數(shù)單調減少。選擇最佳的訓練次數(shù)為7,此時的驗證誤差最小。

      神經網絡模型的預側準確率:模型將87.5%的“性能好的二手車”預測為“性能好的二手車”,將12.5%的“性能好的二手車”預測為“性能差的二手車”。有94.23%的“性能差的二手車”被預測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預測為“性能好的二手車”。回歸模型一樣,對性能差的二手車的預測的準確率比對性能好的二手車的預測的準確率高。

      3.模型的比較評估

      由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進行判斷,保證預測可靠。在選擇解釋變量的時候,注重的是它們解釋目標變量的能力。但是當有很多的解釋變量時,并不能斷定出總體的性質。因此有必要對于模型的有效性進行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓練,驗證兩部分結果有一定差距。盡管如此,我們仍可以從實驗的結果中獲得一些有意義的結論。

      決策樹,logistic回歸,神經網絡模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

      綜合訓練數(shù)據(jù)集和驗證數(shù)據(jù)集的結果,對三個模型進行比較評價。從誤差率基于數(shù)據(jù)挖掘技術的二手車性能評估研究的比較表中可以看出,決策樹模型和神經網絡模型的準確率最高。神經網絡在訓練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。

      最后得到的規(guī)則是:

      性能好的二手車:

      (1)horsepower>=94.5 &engine size>=158.5

      (2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

      i&city mpg<22

      (3)horsepower>=94.5 &engine size<158.5&fuel system=mp

      fi &city mpg>=22 &Compression ratio>=9.45

      然而以上都不是最好的評價標準,原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標準,但現(xiàn)實中往往不是如此。

      三、總結

      二手車模型評估應建立在大量數(shù)據(jù)的統(tǒng)計結果之上,才具有準確性和可靠性。它通過賣家填寫的有關二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進一步調整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應法律環(huán)境的完善、信息化建設的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術將成為二手車交易管理的重要工具。

      參考文獻:

      [1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.

      [2]孟生旺.神經網絡模型與車險索賠頻率預測[J].統(tǒng)計研究,2012(3): 22-26.

      作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經大學經濟信息工程學院

      摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術中的決策樹、logistic回歸和神經網絡對205個二手車數(shù)據(jù)進行分析,利用相關數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復雜混合因素一定程度上的定量分析。

      關鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經網絡

      一、二手車評估的現(xiàn)狀和發(fā)展

      雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學統(tǒng)一的標準,對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術中主要的預測模型有決策樹、Logistic回歸和神經網絡三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經網絡模型提供了一個靈活的擬合形式。

      二、二手車性能評估模型的構建

      1.數(shù)據(jù)預處理、數(shù)據(jù)探索與數(shù)據(jù)清理

      數(shù)據(jù)挖掘技術對數(shù)據(jù)有一定要求,所以要先進行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。

      表 原始實驗數(shù)據(jù)屬性

      下面對表中各變量進行分析處理:

      (1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標變量進行可視化分析,探索各變量的關系、含義和特點,為建模做準備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設定目標變量。建立target,當Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關,因此rejected。highway mpg與city mpg高度相關,重復了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴謹,還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進行處理。

      2.模型的建立

      (1)決策樹

      因為決策樹本身具有處理缺失值的能力,可直接將未經過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標準,采用二叉樹進行建模,設置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結果得,SAS自動設置的模型中當生成有6個葉子節(jié)點的決策樹時,訓練樣本集細分誤分率為9.09%,檢驗樣本集細分誤分率為7.14%。

      決策樹模型的綜合評價:輸出結果得出在“性能高的二手車”歷史記錄中有87.5%的預測值為“性能高的二手車”。在“性能高的二手車”紀錄中有12.5%的預測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預測為“性能高的二手車”;將歷史紀錄中96.154%的“性能低的二手車”預測為“性能低的二手車”。由評價結果可知,該決策樹對性能低的二手車的正確判斷率達了96.154%的較高水平,而對性能高的二手車的正確判斷率也達到了87.5%,該決策樹對性能低的二手車的預測準確率更理想。

      (2)logistic回歸建模

      借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設置為backward,input coding選擇GLM。從模型輸出結果圖得出,誤分率標準表明,訓練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。

      Logistic模型的預測準確率:模型將84.375%的“性能好的二手車”預測為“性能好的二手車”,將15.625%的“性能好的二手車”預測為“性能差的二手車”。有90.385%的“性能差的二手車”被預測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預測為“性能好的二手車”??梢娀貧w模型對性能好的二手車預測的準確率沒有決策樹模型高。

      (3)神經網絡建模

      神經網絡建模:借助神經網絡節(jié)點建立模型,網絡采用輸入、隱層、輸出三層結構,其中隱層節(jié)點設置3個變量,其他設置采用軟件默認設置。從模型輸出結果圖可以看出各種模型評價標準,其中誤分率標準表明,訓練樣本集細分誤分率為7.43%,檢驗樣本集細分誤分率為8.33%。從訓練過程得知訓練誤差隨訓練次數(shù)單調減少。選擇最佳的訓練次數(shù)為7,此時的驗證誤差最小。

      神經網絡模型的預側準確率:模型將87.5%的“性能好的二手車”預測為“性能好的二手車”,將12.5%的“性能好的二手車”預測為“性能差的二手車”。有94.23%的“性能差的二手車”被預測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預測為“性能好的二手車”?;貧w模型一樣,對性能差的二手車的預測的準確率比對性能好的二手車的預測的準確率高。

      3.模型的比較評估

      由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進行判斷,保證預測可靠。在選擇解釋變量的時候,注重的是它們解釋目標變量的能力。但是當有很多的解釋變量時,并不能斷定出總體的性質。因此有必要對于模型的有效性進行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓練,驗證兩部分結果有一定差距。盡管如此,我們仍可以從實驗的結果中獲得一些有意義的結論。

      決策樹,logistic回歸,神經網絡模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

      綜合訓練數(shù)據(jù)集和驗證數(shù)據(jù)集的結果,對三個模型進行比較評價。從誤差率基于數(shù)據(jù)挖掘技術的二手車性能評估研究的比較表中可以看出,決策樹模型和神經網絡模型的準確率最高。神經網絡在訓練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。

      最后得到的規(guī)則是:

      性能好的二手車:

      (1)horsepower>=94.5 &engine size>=158.5

      (2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

      i&city mpg<22

      (3)horsepower>=94.5 &engine size<158.5&fuel system=mp

      fi &city mpg>=22 &Compression ratio>=9.45

      然而以上都不是最好的評價標準,原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標準,但現(xiàn)實中往往不是如此。

      三、總結

      二手車模型評估應建立在大量數(shù)據(jù)的統(tǒng)計結果之上,才具有準確性和可靠性。它通過賣家填寫的有關二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進一步調整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應法律環(huán)境的完善、信息化建設的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術將成為二手車交易管理的重要工具。

      參考文獻:

      [1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.

      [2]孟生旺.神經網絡模型與車險索賠頻率預測[J].統(tǒng)計研究,2012(3): 22-26.

      作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經大學經濟信息工程學院

      摘 要:近來年我國二手車市場發(fā)展迅速,但市場不夠規(guī)范,主要依靠人為判斷,評估不客觀,甚至在鑒定評估過程中,有故意隱瞞車輛質量問題、以次充好等欺騙消費者現(xiàn)象,給二手車市場造成不良影響。本文利用數(shù)據(jù)挖掘技術中的決策樹、logistic回歸和神經網絡對205個二手車數(shù)據(jù)進行分析,利用相關數(shù)據(jù)資料分別建立不同的二手車性能評估模型,實現(xiàn)了對二手車性能的多種復雜混合因素一定程度上的定量分析。

      關鍵詞:二手車性能評估;數(shù)據(jù)挖掘;決策樹;logisticl回歸;神經網絡

      一、二手車評估的現(xiàn)狀和發(fā)展

      雖然2011年的二手車銷量為433萬輛,是2000年25萬的16.3倍。但是還不到新車銷量的1/4,這說明我國二手車市場還存在很大的發(fā)展空間。而鑒定評估缺乏科學統(tǒng)一的標準,對二手車市場的發(fā)展都有較大影響。與傳統(tǒng)主觀簡單的評估方法相比,評估模型優(yōu)勢明顯。在數(shù)據(jù)挖掘技術中主要的預測模型有決策樹、Logistic回歸和神經網絡三種。決策樹模型是一個逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經網絡模型提供了一個靈活的擬合形式。

      二、二手車性能評估模型的構建

      1.數(shù)據(jù)預處理、數(shù)據(jù)探索與數(shù)據(jù)清理

      數(shù)據(jù)挖掘技術對數(shù)據(jù)有一定要求,所以要先進行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉換、數(shù)據(jù)約減等三個過程。本文所用205個實驗數(shù)據(jù)、包含11個變量,數(shù)據(jù)量較少。

      表 原始實驗數(shù)據(jù)屬性

      下面對表中各變量進行分析處理:

      (1)數(shù)據(jù)特征探索:利用insight節(jié)點,對各變量及目標變量進行可視化分析,探索各變量的關系、含義和特點,為建模做準備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設定目標變量。建立target,當Performance Cost等于1時表示這是一個性能高的二手車;Performance Cost等于0時表示該二手車的性能比較低。建模的目標就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過程中能自動將二者區(qū)分開來;(3)變量price與Performance Cost高度線性相關,因此rejected。highway mpg與city mpg高度相關,重復了,因此拒絕其中一個,本模型是拒絕的highway mpg;(4)觀察目標變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時候選擇用分層抽樣;(5)分層抽樣。訓練集與驗證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉換。通過觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對其進行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴謹,還是添加了replacement節(jié)點,用決策樹方法對缺失的數(shù)據(jù)進行處理。

      2.模型的建立

      (1)決策樹

      因為決策樹本身具有處理缺失值的能力,可直接將未經過缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點劃分標準,采用二叉樹進行建模,設置樹:j最大深度為6,最小葉子觀測數(shù)為5。從模型輸出結果得,SAS自動設置的模型中當生成有6個葉子節(jié)點的決策樹時,訓練樣本集細分誤分率為9.09%,檢驗樣本集細分誤分率為7.14%。

      決策樹模型的綜合評價:輸出結果得出在“性能高的二手車”歷史記錄中有87.5%的預測值為“性能高的二手車”。在“性能高的二手車”紀錄中有12.5%的預測值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預測為“性能高的二手車”;將歷史紀錄中96.154%的“性能低的二手車”預測為“性能低的二手車”。由評價結果可知,該決策樹對性能低的二手車的正確判斷率達了96.154%的較高水平,而對性能高的二手車的正確判斷率也達到了87.5%,該決策樹對性能低的二手車的預測準確率更理想。

      (2)logistic回歸建模

      借助回歸節(jié)點建立模型,采用logistic回歸方法,回歸方式設置為backward,input coding選擇GLM。從模型輸出結果圖得出,誤分率標準表明,訓練樣本集誤分率為9.92%,檢驗樣本集誤分率為11.9%。

      Logistic模型的預測準確率:模型將84.375%的“性能好的二手車”預測為“性能好的二手車”,將15.625%的“性能好的二手車”預測為“性能差的二手車”。有90.385%的“性能差的二手車”被預測為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預測為“性能好的二手車”??梢娀貧w模型對性能好的二手車預測的準確率沒有決策樹模型高。

      (3)神經網絡建模

      神經網絡建模:借助神經網絡節(jié)點建立模型,網絡采用輸入、隱層、輸出三層結構,其中隱層節(jié)點設置3個變量,其他設置采用軟件默認設置。從模型輸出結果圖可以看出各種模型評價標準,其中誤分率標準表明,訓練樣本集細分誤分率為7.43%,檢驗樣本集細分誤分率為8.33%。從訓練過程得知訓練誤差隨訓練次數(shù)單調減少。選擇最佳的訓練次數(shù)為7,此時的驗證誤差最小。

      神經網絡模型的預側準確率:模型將87.5%的“性能好的二手車”預測為“性能好的二手車”,將12.5%的“性能好的二手車”預測為“性能差的二手車”。有94.23%的“性能差的二手車”被預測為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預測為“性能好的二手車”?;貧w模型一樣,對性能差的二手車的預測的準確率比對性能好的二手車的預測的準確率高。

      3.模型的比較評估

      由于數(shù)據(jù)挖掘模型有時會造成過度擬合,所以要對模型的正確性進行判斷,保證預測可靠。在選擇解釋變量的時候,注重的是它們解釋目標變量的能力。但是當有很多的解釋變量時,并不能斷定出總體的性質。因此有必要對于模型的有效性進行評估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓練,驗證兩部分結果有一定差距。盡管如此,我們仍可以從實驗的結果中獲得一些有意義的結論。

      決策樹,logistic回歸,神經網絡模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

      綜合訓練數(shù)據(jù)集和驗證數(shù)據(jù)集的結果,對三個模型進行比較評價。從誤差率基于數(shù)據(jù)挖掘技術的二手車性能評估研究的比較表中可以看出,決策樹模型和神經網絡模型的準確率最高。神經網絡在訓練集上誤分率低,但在驗證集上誤分率增大比較多,有“過擬合”的現(xiàn)象。從lift圖上來看,幾個模型的效果都比較好。綜合來看,選擇決策樹模型。

      最后得到的規(guī)則是:

      性能好的二手車:

      (1)horsepower>=94.5 &engine size>=158.5

      (2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

      i&city mpg<22

      (3)horsepower>=94.5 &engine size<158.5&fuel system=mp

      fi &city mpg>=22 &Compression ratio>=9.45

      然而以上都不是最好的評價標準,原因是沒有考慮到類型I錯誤和類型II錯誤的代價不同。如果兩者代價相同,則考慮誤分率是最佳的標準,但現(xiàn)實中往往不是如此。

      三、總結

      二手車模型評估應建立在大量數(shù)據(jù)的統(tǒng)計結果之上,才具有準確性和可靠性。它通過賣家填寫的有關二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實現(xiàn)二手車較為公平的交易。另外,通過數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進一步調整客戶二手車模型評估體系,從而為將來完善二手車模型評估體系起著重要作用。隨著我國二手車各項制度的建立、相應法律環(huán)境的完善、信息化建設的發(fā)展、信息資源共享的實現(xiàn),數(shù)據(jù)挖掘技術將成為二手車交易管理的重要工具。

      參考文獻:

      [1]張輝,鄭安文.中國二手車市場現(xiàn)狀分析及發(fā)展對策[J].汽車工業(yè)研究,2012(7):10-13.

      [2]孟生旺.神經網絡模型與車險索賠頻率預測[J].統(tǒng)計研究,2012(3): 22-26.

      作者簡介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財經大學經濟信息工程學院

      猜你喜歡
      決策樹數(shù)據(jù)挖掘神經網絡
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      神經網絡抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      決策樹和隨機森林方法在管理決策中的應用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于并行計算的大數(shù)據(jù)挖掘在電網中的應用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于決策樹的出租車乘客出行目的識別
      基于神經網絡的拉矯機控制模型建立
      重型機械(2016年1期)2016-03-01 03:42:04
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務及應用
      復數(shù)神經網絡在基于WiFi的室內LBS應用
      基于肺癌CT的決策樹模型在肺癌診斷中的應用
      玉龙| 贵州省| 玉树县| 蒲江县| 靖边县| 个旧市| 洛隆县| 申扎县| 平利县| 伊吾县| 普格县| 马关县| 利津县| 积石山| 革吉县| 自治县| 淳安县| 娄烦县| 西乡县| 樟树市| 商都县| 玉树县| 绵竹市| 浙江省| 英德市| 绥芬河市| 崇阳县| 九龙坡区| 苗栗县| 凤台县| 天津市| 徐汇区| 驻马店市| 射阳县| 靖宇县| 梧州市| 乐山市| 裕民县| 综艺| 安溪县| 五河县|