王尚政 車財旺 琚斐揚
摘 要:隨著現代社會的高速發(fā)展,互聯(lián)網的運用越來越廣泛,“拍照賺錢”是移動互聯(lián)網自助式服務模式,其正在逐漸取代傳統(tǒng)的市場調查方式。從兩個角度考慮,一是從定性的角度,構建經度-緯度-定價三維散點圖,結合K-means聚類的方法從任務的位置分布、任務完成情況與定價三方面之間的關系考慮,定性的得出項目的定價規(guī)律。二是從定量的角度考慮,采用多元線性回歸的方法,以任務區(qū)域等分下會員數與任務數之比、樣本點與中心點之間的距離以及會員信譽值為自變量,以定價為因變量,構建多元線性回歸方程,從而定量的得出其定價方案,然后再將二者結合,得出總的定價規(guī)律。從得出的定價規(guī)律、任務分布位置以及會員數量三方面因素考慮,得出任務未完成的原因。
關鍵詞:任務定價;回歸;K-means聚類
一、問題分析
研究這個問題必須對數據進行分析,得出一個舊項目的任務定價規(guī)律,分析任務未完成的原因。在分析定價規(guī)律時,可以從定性和定量兩方面考慮,考慮到每個項目的經緯度坐標及定價,通過繪出所有完成與未完成任務點的散點圖,定性得出定價規(guī)律,再通過研究經緯度、會員信息和定價之間的定量關系,得出定價規(guī)律,定性與定量結合分析任務未完成的原因。
二、問題求解
經過分析,從任務的位置、定價以及任務的完成情況來分析項目的定價規(guī)律,首先根據所給的經緯度坐標對這些位置點進行K-means聚類[1],得到位置相近的中心點,隨后分析任務的完成情況,得出任務點的位置與定價的定性分析規(guī)律。然后運用多元線性回歸[1]的方法,多元線性回歸分析是確定2種或2種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,建立以定價為因變量,以任務區(qū)域等分下任務數與會員數之比、任務點與中心點的距離以及會員的信譽值為自變量的定價規(guī)律模型,完成對定價規(guī)律的定量分析,最后根據以上綜合得出的定價規(guī)律、任務點位置分布情況以及任務完成情況分析,得出任務未完成的原因。
對數據進行預處理,運用SPSS軟件把不合格的數據進行篩選與剔除,可以將原始數據的第588的這個數據點清除,隨后將處理之后的數據運用軟件構建以經度-緯度-定價的三維曲線的散點圖。
橫向對比,完成的任務點大多分布在市中心區(qū)域,而偏僻地區(qū)的任務完成量比較少,縱向對比,任務所給價格高的,相對而言任務完成量高,而任務價格低的,任務完成量少。還有任務的分布越密集,周圍的任務數量越多,任務的分布越稀疏,周圍的任務數量越少。
可以利用K-means聚類的方法,將樣本點利用SPSS軟件聚成以下5個類別:
由上表可知,該5個類別的樣本中心點經緯度坐標分別為(22.9432,113.7531)(23.0064,113.1004),(23.5832,113.5959),(22.6612,114.0520),(23.1694,113.3122),接著利用matlab軟件做出以下該5個點周圍任務完成情況示意圖:
第四類樣本點周圍分配的任務大多被完成,而第二類樣本點任務大多未完成,其它三類樣本點任務完成與未完成一樣,同時結合上面的任務位置分布圖,可以得出距離上面樣本中心點的間距越遠,那任務的定價就相對而言要要高,而距離樣本中心點的越近,則任務的定價要低。
接下來開始對定價規(guī)律作定量分析,可以采用多元線性回歸的方法,即以任務區(qū)域等分下任務數與會員數之比(整個任務分布區(qū)域化為50份,每一份任務數與會員數之比,任務區(qū)域緯度范圍(20.3351,33.6521),經度范圍(106.2391,116.9705))、任務點與樣本中心點的距離(由歐式距離可得)以及會員信譽值為自變量,分別記為,以任務定價為因變量,記為y,可以構建以下的多元線性回歸模型:
其中為回歸系數,為常數項,為隨機誤差,服從正態(tài)分布,
可以利用最小二乘法來求解上面的回歸系數,結合matlab軟件可以計算得到該多元線性回歸方程為:
然后開始對上述方程進行檢驗,首先進行擬合優(yōu)度檢驗,記擬合優(yōu)度為,可以通過以下公式來計算R2:
可以得到R2=0.9138,該方程的擬合優(yōu)度比較好,
然后進行F檢驗,對該回歸方程進行顯著性檢驗,可以通過計算得到F檢驗的觀測值為0.1,可以得到在該自由度下F檢驗的臨界值為0.01,則0.1>0.01,顯著性水平為0.05,所以可以據此得到該回歸方程具有顯著意義。
然后進行t檢驗,也就是對該方程的回歸系數進行檢驗,利用軟件計算可以得到該t檢驗的觀測值為9.2562,可以得到在該自由度下臨界值為2.9711,則9.2562>2.9711,顯著性水平為0.05,因此該方程的回歸系數檢驗通過,回歸系數有顯著意義。
接著就是對該方程的殘差進行分析,為殘差,即為對總體回歸函數的隨機擾動項的干擾。
經過上述檢驗,可以得出該模型為,也即為該項目的任務定價規(guī)律模型。
由以上模型可以得:
·任務數與會員數之比越高,則該項目的任務定價越低,而任務數與會員數之比越低,則該項目的任務定價越高。
·任務點與樣本中心點的距離越大,則任務的定價越高,而任務點與樣本中心點的距離越少,則任務的定價越低。
·該項目的會員信譽值越高,則任務的定價越低,而會員信譽值越低,則任務的定價就會越高。
三、結論
由上面的分析可以得知,任務未完成的原因有以下幾個方面:
·會員數量不夠,而項目所設的任務數又相對較多,會員數與任務數不成正比;
·有些任務點定價比較高,但所處地區(qū)較為偏僻,完成量較少;
·任務點位置分布有的太過集中,有的又太過分散,分布不夠勻稱。
參考文獻
[1]王朝信. K-Mean聚類分析對第18屆世界杯足球賽各參賽隊進攻能力的研究[A]. 中國體育科學學會.第八屆全國體育科學大會論文摘要匯編(一)[C].中國體育科學學會:中國體育科學學會,2007:1.