凌雪岷
(安徽新華學(xué)院 通識教育部,安徽 合肥 230088)
隨著互聯(lián)網(wǎng)普及率的提高以及web2.0時(shí)代網(wǎng)絡(luò)虛擬產(chǎn)品交易的興起,眾包的電子商務(wù)模式得到了廣泛的運(yùn)用并占據(jù)了越來越重要的市場地位.“拍照賺錢”是企業(yè)用移動(dòng)互聯(lián)網(wǎng)下的自助式服務(wù)模式,用戶則通過提供商業(yè)調(diào)查和信息搜集的數(shù)據(jù)來獲取相應(yīng)的任務(wù)報(bào)酬.這種新穎的調(diào)查方式比傳統(tǒng)的方式節(jié)省了調(diào)查成本且更加有效,但定價(jià)不合理,任務(wù)完成率降低,往往會(huì)導(dǎo)致商品檢查的失敗.為了設(shè)計(jì)出合理定價(jià)方案,本文根據(jù)已完成任務(wù)的相關(guān)數(shù)據(jù)[1],運(yùn)用K-means算法,初步觀測定價(jià)大致的分布規(guī)律,采用兩種方法建立了不同位置的任務(wù)定價(jià)模型[2,3].
通過對文獻(xiàn)[1]附件1中任務(wù)的定價(jià)與任務(wù)位置,用spss進(jìn)行初步分析,發(fā)現(xiàn)在區(qū)域中心位置上任務(wù)標(biāo)價(jià)比較低,然后以逐漸遞增的方式向邊緣擴(kuò)散.
選取4個(gè)區(qū)域,將這些任務(wù)位置對應(yīng)于地圖上,發(fā)現(xiàn)其對應(yīng)4個(gè)城市,分別是廣州、深圳、佛山和東莞,再運(yùn)用K-means算法對每一個(gè)區(qū)域找出它們的中心.因此,對于附件1中給出的樣本數(shù)據(jù),對廣東地區(qū)中的所有樣本做方差,以及同一區(qū)域所有樣本間的距離均值為R,初步把選擇位于樣本分布密集區(qū)域,且相距較遠(yuǎn)的樣本為K-means的初始聚類中心.最初的選擇過程為:
(1)選擇方差最小的那個(gè)樣本為第一個(gè)類簇的初始中心,以R為半徑做圓;
(2)在圓之外的樣本中,尋找方差最小的樣本作為第二個(gè)類簇的初始中心,直到第k個(gè)類簇的初始中心選擇到.
此時(shí),得到了K-means算法的初始聚類中心向量,其他3個(gè)區(qū)域以此類推,以下用距離來度量樣品之間的相似性程度.
圖1 任務(wù)定價(jià)分布圖
假設(shè)待聚類數(shù)據(jù)集為:x={xi|xi∈RP,i=1,2,…,n},k個(gè)初始聚類中心分別為C1,C2,…,Ck,用A1,A2,…,Ak表示k個(gè)類簇所包含的樣本的集合為A.定義:樣本xi,xj之間的歐氏距離為
(1)
樣本xi到所有樣本的距離的平均值為:
(2)
則樣本xi的方差為:
(3)
那么有數(shù)據(jù)集樣本的平均距離為:
(4)
這樣,找到聚類誤差平方和公式:
(5)
確定其算法的步驟:
(6)
A=A-A1
(7)
A=A-Ac
否則,找到k個(gè)初始聚類中心C1,C2,…,Ck轉(zhuǎn)入步驟b.
②構(gòu)造初始劃分:a.根據(jù)(1)計(jì)算數(shù)據(jù)集中每個(gè)樣本到各個(gè)初始聚類中心的距離,根據(jù)相似性原理將樣本分配到距離最近,即最相似的類簇中,得到初始劃分;b.計(jì)算每一個(gè)類簇中所有樣本的均值,作為該類簇的新中心;c.根據(jù)(5)計(jì)算當(dāng)前聚類結(jié)果的聚類誤差平方和E;
③ 重新分配樣本并更新聚類中心:a.根據(jù)(1)計(jì)算數(shù)據(jù)集中每個(gè)樣本到各個(gè)類簇中心的距離,根據(jù)相似性原理將樣本分配到距離最近的類簇中;b.計(jì)算每一個(gè)類簇中所有樣本的均值,作為該類簇的新中心;c.根據(jù)定義5計(jì)算當(dāng)前聚類結(jié)果的聚類誤差平方和E′;d.如果E′-E<10-10,即聚類中心不再變化,則算法結(jié)束,輸出聚類結(jié)果.否則,令E′=E,轉(zhuǎn)向步驟③.
將樣本數(shù)據(jù)代入,觀察數(shù)據(jù)集的大致情況.發(fā)現(xiàn)可以用曲線擬合來判定位置與定價(jià)的關(guān)系,于是對某區(qū)域中價(jià)格最低的點(diǎn)的位置取一個(gè)均值(記為r),將任務(wù)定價(jià)記為W,可以模擬出一個(gè)關(guān)于(r,W)的二次曲線.有
W=a+br+qr2
(8)
圖2 位置與定價(jià)關(guān)系曲線模擬圖
從任務(wù)位置中任意選取100個(gè),用計(jì)算器來近似確定a,b,q的值.
a=39.037 7,b=5.756 6,q=65.809 0
得到W=39.037 7+5.756 6r+65.809 0r2,則得出了任務(wù)定價(jià)的一般規(guī)律,即:以(23.125 35,113.298 9)為任務(wù)定價(jià)中心,周圍定價(jià)與其到該中心位置的距離滿足上述二次函數(shù)關(guān)系,驗(yàn)證了剛開始觀測到的現(xiàn)象.將k-means算法與任務(wù)定價(jià)位置一一對應(yīng)起來.
將定價(jià)為65的點(diǎn)的位置取均值記為o,定價(jià)為66 的點(diǎn)作為一類,取這些點(diǎn)位置的平均值記為o1,再記這個(gè)平均值點(diǎn)到o點(diǎn)的距離為r1.再對定價(jià)為67的點(diǎn)作為集合取平均值記為o2,到o點(diǎn)的距離為r2.當(dāng)r2>r1時(shí),將其納入定價(jià)為67的集合; 當(dāng)r2≤r1時(shí),將其歸入定價(jià)為66 的分類中.再對定價(jià)為68的點(diǎn)作為一個(gè)集合取其位置的平均值記為o3,到o點(diǎn)的距離為r3.當(dāng)r3>r2時(shí),將其納入定價(jià)為68的集合中,保持不變; 當(dāng)r3≤r2時(shí),將其納入定價(jià)為67 的集合中.后該定價(jià)以此類推,直到定價(jià)為85的點(diǎn).
對于區(qū)域,各點(diǎn)定價(jià)按遞增方式排列m0 ① 查找定價(jià)為m0元的點(diǎn),得到(α01,β01),(α02,β02),…,(α0k0,β0k0),記 (10) (11) 得(α0,β0),認(rèn)定該點(diǎn)為該區(qū)域中心; ② 查找定價(jià)為m1元的點(diǎn),得到(α11,β11),(α12,β12),…,(α1k1,β1k1),記 (12) ③ 查找定價(jià)為m2元的點(diǎn),得到(α21,β21),(α22,β22),…,(α2k2,β2k2),記 (13) ○n 查找定價(jià)為mn元的點(diǎn),得到(αn1,βn1),(αn2,βn2),…,(αnkn,βnkn),記 (14) 圖3 價(jià)格與完成率關(guān)系圖 (15) (16) (17) 其中 (18) 注1 插入價(jià)格與任務(wù)完成情況線性關(guān)系的圖片來反映價(jià)格越高完成率越高. 未完成的任務(wù)多集中在深圳和廣州(見圖4),這是因?yàn)? 圖4 完成與未完成任務(wù)分布圖 ① 城市中心任務(wù)定價(jià)低于邊緣,定價(jià)本身沒有滿足接包方的要求; ② 考慮到是交通擁擠、物價(jià)水平高,任務(wù)完成過程中接包方對于信息取材所花費(fèi)的成本與心中期望值有落差,導(dǎo)致有些任務(wù)沒有被接手; ③ 任務(wù)難度較大,不易完成; ④ 任務(wù)復(fù)雜性較大,完成過程過于繁瑣; ⑤ 部分接包方馬虎對工作不夠認(rèn)真,導(dǎo)致任務(wù)無法完成. 對文獻(xiàn)[1]中的位置與完成度圖進(jìn)行觀察和分析后發(fā)現(xiàn),未完成的任務(wù)多數(shù)集中在深圳、廣州較中心地區(qū). 圖5 任務(wù)完成與會(huì)員分布情況 圖6 任務(wù)與價(jià)格情況 以附件二中會(huì)員的位置為考量,將會(huì)員位置與完成及未完成的位置進(jìn)行一個(gè)散點(diǎn)分析.發(fā)現(xiàn)有些地區(qū)附近會(huì)員雖然很少、路程遠(yuǎn),但還是被完成了.而有些是會(huì)員離任務(wù)很近卻沒有完成,還有一些是比較大眾的情況,任務(wù)多會(huì)員多,但還是沒有完成.這其中,就考慮那些路程遠(yuǎn)、附近會(huì)員少,已完成的是不是任務(wù)的定價(jià)比較高、任務(wù)比較簡單?而任務(wù)多、會(huì)員多,沒有完成的是不是與任務(wù)定價(jià)低有關(guān)呢?而恰巧這些區(qū)域是在經(jīng)濟(jì)發(fā)達(dá)的東莞、廣州,交通擁擠、物價(jià)過高造成會(huì)員投入成本的增加也成了考慮的一個(gè)因素.帶著前面兩個(gè)問題,對照著任務(wù)定價(jià)的分布位置進(jìn)行分析,發(fā)現(xiàn)有以下特征: ① 在會(huì)員比較集中的地方多是任務(wù)價(jià)格低區(qū),任務(wù)未完成; ② 在會(huì)員比較集中的位置有些任務(wù)定價(jià)高的也沒有完成; ③ 在一些會(huì)員比較少、距離任務(wù)近的位置定價(jià)高的也沒有完成; ④ 在一些會(huì)員少、距離較遠(yuǎn),定價(jià)或低或高均被完成. 圖7 未完成任務(wù)與會(huì)員位置 圖8 任務(wù)完成情況與信譽(yù)高會(huì)員情況 圖9 已完成任務(wù)與會(huì)員位置情況 這在很大程度上印證了之前的猜想,任務(wù)未完成與交通擁擠造成會(huì)員投入成本的增加使得任務(wù)標(biāo)價(jià)與其心中期望值不吻合,造成未完成率的升高.再將附件二中信譽(yù)高的會(huì)員與完成情況作分析,發(fā)現(xiàn)靠近深圳與東莞的那一大片區(qū)域,雖然有許多信譽(yù)高的會(huì)員,但是任務(wù)未完成率還是很高;在東莞中心區(qū)域,信譽(yù)高的會(huì)員雖然比較少,但是任務(wù)完成情況非??捎^;而在廣州一些中心區(qū)域,許多信譽(yù)高的會(huì)員周邊任務(wù)也沒有完成.因此在對比這會(huì)員的已完成情況來分析綜合得出: ① 信譽(yù)高的會(huì)員的完成情況與會(huì)員的已完成情況基本吻合,說明信譽(yù)高的會(huì)員執(zhí)行能力高,任務(wù)完成度高; ② 對于深圳與東莞的那部分區(qū)域完成率低的原因應(yīng)該是任務(wù)難度大、任務(wù)比較復(fù)雜,對比著任務(wù)定價(jià)來看,這一塊的定價(jià)普遍不高. 由上述附件一與附件二數(shù)據(jù)的整合分析.針對問題一解決方案的不足,設(shè)計(jì)一種改進(jìn)方案,綜合考慮了會(huì)員位置與任務(wù)完成情況的影響和人口稠密地區(qū)經(jīng)濟(jì)較發(fā)達(dá)、交通堵塞等造成會(huì)員拍照成本較高情況這兩個(gè)方面,建立相關(guān)模型關(guān)系.設(shè)會(huì)員總數(shù)為S1,(ξg,ηg),表示第g個(gè)會(huì)員的位置.(γk,τk)表示第k個(gè)任務(wù)點(diǎn)的位置,對應(yīng)的任務(wù)定價(jià)為Mk,設(shè)任務(wù)點(diǎn)為S2個(gè),(k=1,2,…,S2),設(shè)會(huì)員到任務(wù)點(diǎn)的位置為 (19) (20) (21) 與原方案進(jìn)行比較分析:新方案中對一些任務(wù)集中且會(huì)員集中情況下任務(wù)定價(jià)過高,進(jìn)行了消減,對一些離會(huì)員比較遠(yuǎn)、任務(wù)定價(jià)低的點(diǎn)進(jìn)行舍棄.通過這兩種手段節(jié)省的資金用作會(huì)員集中因任務(wù)定價(jià)比較低導(dǎo)致任務(wù)未完成的資金補(bǔ)貼,以此來提高任務(wù)的完成率. 微量隨機(jī)舍棄算法另外,也可以對會(huì)員集中且任務(wù)未完成集中的區(qū)域隨機(jī)刪去某些任務(wù)點(diǎn),通過這種方式籌集流動(dòng)資金用以對別的未完成任務(wù)的定價(jià)提高上,用計(jì)算機(jī)模擬結(jié)果,一定程度上提高完成率,即微量隨機(jī)舍棄算法. 表1 價(jià)格與完成率情況表 注3 ① 這里的P1是根據(jù)65元完成的任務(wù)率計(jì)算的; ② 這里的P2是根據(jù)85元完成的任務(wù)率計(jì)算的; ③ 大概提高了6個(gè)百分點(diǎn). 本文根據(jù)已知項(xiàng)目數(shù)據(jù)給出兩種定價(jià)方案:即以位置偏差為變量,建立偏差與任務(wù)定價(jià)之間的函數(shù)關(guān)系和采用倒推方法給出任務(wù)定價(jià)規(guī)律,并在此基礎(chǔ)上提出微量隨機(jī)舍棄算法,在一定程度上提高了任務(wù)完成率,但城市人口擁擠如何量化等還需要更進(jìn)一步的研究優(yōu)化.1.5 分析任務(wù)未完成原因
2 定價(jià)模型建立與求解
2.1 分析
2.2 模型的建立與求解
3 結(jié) 語