王 偉 郭麗環(huán) 何 翎 Kevin Zhu 王洪偉
(1.華僑大學 工商管理學院, 福建 泉州 362021; 2.泉州師范學院 陳守仁商學院, 福建 泉州 362000;3.加利福尼亞大學圣迭戈分校 雷迪管理學院, 美國 圣迭戈 92093; 4.同濟大學 經濟與管理學院, 上海 200092)
盡管互聯(lián)網(wǎng)打破了傳統(tǒng)市場的各種限制,但是在線交易中用戶行為仍然呈現(xiàn)本地偏好趨勢,即交易雙方的地理位置會趨近而不是擴散到廣泛的地理范圍內。這種典型的用戶行為模式已經在線下交易中得到廣泛證實[1],用戶對本地資源的偏好反映了用戶行為模式。從心理角度上分析,以食品類項目作為例子,這類項目屬于線上交易,線下消費的場景,因此,眾籌項目在線融資過程中,項目的地理位置代表了該項目包含的文化、習慣、傳統(tǒng)、風俗、語言等豐富信息。距離越近,意味著文化、習慣、傳統(tǒng)、風俗、語言越相似,也就意味著對項目背景越熟悉。由于文化和習慣的差異,對事物越熟悉意味著投資者越容易產生心理信賴[1]。從這個角度上看,食品類眾籌項目由于其產品屬性,難以獲得廣泛的地理位置的投資者支持[2],因此吸引距離較近的投資者具有更高的成功率。從消費成本的角度上看,由于不可避免的距離成本,導致投資者在投資眾籌項目時,會把項目地理位置納入考慮范疇,例如:對于風險投資,投融資雙方的平均距離僅為70英里;而50%的天使投資與目標企業(yè)的距離也在半天行程范圍內[3];從用戶的活動軌跡上看,Foursquare的調查數(shù)據(jù)顯示,45%的用戶日常活動半徑不超過10英里,而75%的用戶日?;顒影霃讲怀^50英里[4]。以戲劇類眾籌項目為例,在北京舉行的戲劇類項目能夠吸引的投資者大多來自北京以及周邊地區(qū),其他地區(qū)的用戶參與這類項目將會極大增加消費成本(包括交通成本、時間成本等)[5]。所以,在這些類別的眾籌項目中,投資者偏好距離較近的項目。借助本地偏好,能夠得到更準確的用戶畫像,進而提供更為有效的個性化推薦列表。
近年來,有學者嘗試將地理位置與個性化推薦相結合,提高了用戶偏好識別的準確率,進而提高了個性化推薦的成功率,但是其應用場景與在線眾籌項目的個性化推薦存在較大差異。已有研究中,基于地理位置的推薦一般是根據(jù)用戶需求選擇就近的產品。一個典型的場景是:給用戶推薦附近的電影院、咖啡館或餐廳等。顯然,在這種情景下,優(yōu)先推薦就近產品會獲得較高的準確率。這種推薦算法優(yōu)先考慮了地理位置的影響,但并沒有考慮用戶之間的興趣相似性,完全擺脫了個性化偏好對于用戶選擇的影響。在眾籌平臺上,這種場景將不復存在,互聯(lián)網(wǎng)打破了地理位置的局限,投資者既可以選擇距離近的項目,也可以選擇距離遠的項目。
也有研究嘗試同時考慮用戶興趣相似度和地理屬性兩個維度,并采用匹配質量作為模型的核心函數(shù)[6]。這類算法的本質是把用戶行為分為兩個階段,第一階段識別用戶偏好,采用余弦函數(shù)進行相似度度量;第二階段在第一階段的基礎上,加上距離因素,并通過優(yōu)化模型得到帕累托均衡點。其研究結果證實了在社交網(wǎng)絡好友推薦中的有用性,但是在線融資的應用場景顯然不同于好友推薦,參與投資的影響因素更加復雜。
現(xiàn)有研究很少考慮在線金融產品(如眾籌)的個性化推薦問題?;谖恢玫耐扑]算法通常采用距離排序,這與線下消費行為密切相連。因此,現(xiàn)有的基于位置的推薦一般是先選擇距離用戶最近的N個項目作為待推薦列表,再采用排序算法進行推薦(例如協(xié)同過濾)。然而,很多眾籌項目不依賴于線下消費,例如,項目展示、項目投資、進度公告、投融雙方的溝通都是在線完成的。利用投資者的本地偏好,重新設計用戶相似度函數(shù),能夠得到更加細致的投資者偏好模型,進而提升推薦系統(tǒng)的性能。另外,眾籌數(shù)據(jù)的稀疏度大于99%[7],將影響個性化推薦的效果。充分利用用戶行為多維數(shù)據(jù)能夠在一定程度上解決稀疏數(shù)據(jù)的個性化推薦問題。
隨著移動定位技術的發(fā)展,基于位置的推薦吸引了越來越多的關注[8],它能幫助人們發(fā)現(xiàn)有吸引力的地點,或者推薦在一定距離內用戶可能感興趣的消費場所。通常,用戶移動性數(shù)據(jù)和空間位置信息有助于識別用戶偏好,考慮地理位置的推薦能提升推薦性能,并對數(shù)據(jù)規(guī)模和潛在空間維數(shù)的增加提供了較好的擴展性[9,10]。一般來說,用戶的行為都在一定范圍內,例如:大多數(shù)用戶在離線消費時,會選擇50英里以內的酒店[4],這表明用戶行為模式受到較強的地理位置的影響,考慮用戶的地理位置可以更準確的進行用戶畫像,進而識別用戶偏好。
很大程度上,場地推薦的性能取決于如何捕捉用戶的環(huán)境或偏好。然而,很難捕獲用戶偏好的全部信息;此外,用戶偏好往往是異構的(即某些偏好對所有用戶通用;而有些偏好是動態(tài)和多樣的)?;趫龅氐耐扑]算法經常推薦基于簡單上下文的最受歡迎、最便宜或最接近的場館[11]。在考慮用戶位置之外,不能忽略用戶的其他興趣偏好。用戶偏好受到多方面因素影響,如興趣相似性、距離和熟識度等,因此,在眾籌項目的個性化推薦中,有必要同時考慮距離因素和其他多維興趣因素。
推薦系統(tǒng)中的用戶和項目都具有多維特征[12],多特征相似度能夠提高項目和用戶的匹配度,提升推薦效果。因此,對于互聯(lián)網(wǎng)金融項目,同時考慮項目和用戶的多維特征并進行匹配,能夠顯著改善用戶偏好識別[13]。已有研究已經證明在線投資行為中存在本地偏好,即投資者偏好距離較近的項目[14]。投資者的這種偏好打破了地理位置的局限,與場地類項目的推薦是一種截然不同的情景,需要重新構筑基于本地偏好的推薦系統(tǒng)。
大多數(shù)用戶只對少數(shù)商品有購買行為,因此存在數(shù)據(jù)稀疏問題。一種解決思路是采用多類型隱式反饋數(shù)據(jù)[15],例如將消費者在線評論作為一種反饋數(shù)據(jù)[16]。另一個思路是,采用網(wǎng)絡圖計算用戶和項目的全局相似度。將二分圖模型應用于眾籌項目推薦,使用PersonalRank算法迭代計算網(wǎng)絡節(jié)點的全局關聯(lián)度,并將二分圖模型與協(xié)同過濾算法相結合,一定程度上解決數(shù)據(jù)稀疏問題[7]。
用戶特征具有多樣性,位置是其中一項基礎特征[17]。近年來,推薦系統(tǒng)較多考慮用戶的多維度特征,例如在眾籌項目的推薦中,依據(jù)投資者的位置和相關特征進行聚類,再進行用戶群體推薦,在Kickstarter平臺上,取得了較好的推薦性能[18]。但是,這種群體推薦把同一群體視為同質用戶,缺乏個性化,而且推薦性能受制于聚類的準確率。
當前有關眾籌推薦的研究還很少,對投資者本地偏好的應用更是鮮有考慮。離線消費的推薦與眾籌場景差異較大,前者與用戶的線下消費相關,地理位置轉移的時間消耗和交通成本是決定推薦效果的主要因素[19]。離線消費場景下的推薦算法不能直接應用于眾籌項目的個性化推薦。本質上,考慮位置的推薦是一種基于多維特征的推薦。用戶具有多種興趣偏好[20],推薦算法的核心是識別用戶興趣,在度量用戶距離偏好基礎上,包含地理位置的多維特征推薦算法可以用于眾籌項目的個性化推薦。表1歸納了與本文相關的研究進展。
表1 與本研究相關的主要研究進展Table 1Main research progress related to this study
歸納已有研究,仍有提升空間:(1)眾籌項目的在線投資行為打破了地理位置的限制,但已有的考慮位置的推薦算法難以應用到眾籌項目的推薦。離線消費場景不同于在線消費場景,北京王府井附近的用戶很可能選擇在其周邊用餐,而不可能去上海用餐;而對于眾籌模式而言,遠距離的投資者能無限制地投資任何位置的項目,因此,已有的基于位置的推薦效果較差;(2)現(xiàn)有研究大都基于單邊位置數(shù)據(jù),只有用戶或項目的位置數(shù)據(jù)。例如(用戶、物品、物品位置、評分)數(shù)據(jù)結構[4];或(用戶、用戶位置、物品、評分)數(shù)據(jù)結構[24]。盡管可以從用戶經?;顒拥奈恢猛茢嘤脩艋蛘唔椖康奈恢?但是與眾籌項目的數(shù)據(jù)存在本質的差異。眾籌項目的數(shù)據(jù)結構是多種結構的混合,即部分投資者和融資者會選擇隱藏地理位置,這增加了模型的難度,眾籌項目的數(shù)據(jù)結構包括(用戶、用戶位置、項目、項目位置、投資行為),(用戶、用戶位置、項目、投資行為),(用戶、項目、項目位置、投資行為),(用戶、項目、投資行為)等結構;(3)用戶偏好具有多樣性[25],用戶可能對位置近的項目感興趣,同時又期望投資“科技類”項目。而已有研究很少同時關注位置偏好和其他偏好,例如:對臨近位置項目的推薦,有研究直接按照距離進行排序。顯然,由于用戶偏好的多樣性,以及在線投資的便捷性,單純按照距離進行排序是不合適的。
以Kickstarter為代表的眾籌平臺采用Nothing-or-More模式,融資成功率不足40%[26]。調查發(fā)現(xiàn),融資者花費大量精力維護項目,而一旦籌資失敗,融資者將一無所獲。融資失敗可能是因為項目質量較低,也可能是沒有找到合適的投資者。針對后者,個性化推薦將有助于提高融資成功率。本文以位置作為切入點,改進推薦效果,為此,提出以下研究問題。
(1) 基于距離的本地偏好分析:依據(jù)投資者和融資者的地理位置,轉化為用戶(項目)之間的距離,進而分析用戶的本地偏好。
(2) 考慮本地偏好的用戶興趣建模:依據(jù)用戶的本地偏好模型,在推薦系統(tǒng)中整合地理位置的影響,改進用戶興趣模型。
(3) 基于本地偏好的協(xié)同過濾算法設計:采用基于本地偏好的用戶興趣模型,設計并驗證眾籌項目的個性化推薦算法,并比較算法之間的差異。
圖1展示了本文的研究框架。首先,爬取用戶行為數(shù)據(jù),根據(jù)眾籌項目的特點,構建用戶行為數(shù)據(jù)。然后,對原始數(shù)據(jù)預處理,包括數(shù)據(jù)清理、關鍵數(shù)據(jù)抽取,其中地理位置與經緯度的轉化是關鍵點。接下來,采用交叉驗證的方式對數(shù)據(jù)進行分組,分為訓練集和測試集。在訓練集上建立用戶偏好模型,該偏好模型考慮了用戶對地理位置的偏好。對用戶(項目)的相似度距離進行歸一化處理。在相似度距離基礎上,為了消除熱門項目對推薦性能的影響,對熱門項目進行降權。最后得到個性化推薦列表,并采用準確率、召回率、流行度和覆蓋率等指標綜合評估推薦性能。
圖1 研究框架示意圖Figure 1Research framework of the study
依據(jù)Kickstarter提供的位置信息,調用Google地圖API,得到用戶的經緯度,例如“SanDiego,CA”的經緯度分別為32.7157380和-117.1610840。得到項目與投資者的位置數(shù)據(jù)后,采用球體計算公式計算任意兩點的距離。投融雙方的距離以球面進行計算,計算如公式(1)和公式(2)所示。
其中,點A的經緯度為(LngA,LatA),點B的經緯度為(LngB,LatB),按照0度經線作為基準。Distance()以反余弦函數(shù)進行度量,R為地球半徑,取值6371.004公里,計算結果以公里為單位,Pi代表圓周率。
出于隱私方面的考慮,一部分用戶不愿意暴露自身的位置。對于這類用戶,其地理位置需要單獨處理,因為如果懲罰太大就減少了用戶之間的興趣相似度;懲罰太小就忽略了投資者可能存在的本地偏好。采用公式(3)所示的方法對匿名位置的用戶進行處理。
即如果投資者與項目都有位置信息,則按照經緯度計算距離。如果投資者匿藏位置,采用該項目投資者的平均距離di作為匿名位置投資者與融資者之間的距離,即用第i個項目的平均距離作為投資第i個項目的匿名投資者的距離。這樣處理的原因在于不同項目類別之間存在不同的本地偏好,一些項目類別能夠吸引較遠距離的投資者,例如:科技類項目;而另外一些項目只能吸引距離較近的投資者,例如:戲劇類項目。因此,依據(jù)已經公開地理位置的用戶之間的距離均值來近似衡量匿名位置用戶是對不同屬性項目偏好的合理度量,充分考慮了項目特征。
協(xié)同過濾的思想就是計算用戶或者項目之間的相似度,通常采用余弦相似度進行計算,如公式(4)所示。
如果考慮本地偏好,公式(4)可以修改為公式(5)。
若不考慮投融雙方之間的距離,公式(6)可用于計算用戶對項目的興趣度。
其中,p(u,i)表示用戶u對項目i的興趣度,S(u,K)表示與用戶u興趣最接近的K個用戶,可以采用余弦公式計算用戶之間的興趣相似度,N(i)表示對項目i有過行為的用戶集合。wuv表示用戶u和用戶v的興趣相似度,rvi表示用戶v對項目i的興趣,在單一行為的反饋數(shù)據(jù)中,rvi一般設置為1。
若考慮投資者的本地偏好,可將公式(6)改進為公式(7),公式(7)引入了懲罰因子。本文模型對距離進行了兩個維度的度量:一是用戶之間的距離;二是用戶與項目之間的距離。對于Kickstarter這樣一個國際性眾籌網(wǎng)站,一旦一個項目同時獲得了外國用戶與一些美國國內投資者的投資,可能會因為這些項目與外國用戶之間的距離較大而導致不會將這些項目推薦給外國用戶。這是引入距離懲罰因子的原因,距離懲罰因子允許我們手動在訓練數(shù)據(jù)上進行調整,以保證用戶興趣模型(協(xié)同過濾)和用戶本地偏好(距離因素)同時在模型中得到均衡的度量,最大程度提高推薦準確率。
其中,dp(u,i)表示項目i對于用戶u在地理位置上的懲罰,項目i距離用戶u的位置越遠,其懲罰系數(shù)越大。α表示距離懲罰因子,α越大表明對距離的懲罰越大。采用歐氏距離計算地圖上任意兩點的距離,如公式(8)所示。
使用經緯度來計算用戶之間的相似度距離具有較大的范圍,因為經度的范圍介于[-180,180]之間,而緯度的范圍介于[-90,90]之間。如果不對距離進行規(guī)范化的話,投資者之間的距離就會出現(xiàn)極大的值域,距離懲罰因子因此很可能大于1,得到的推薦效果較差。
公式(9)對距離懲罰因子進行歸一化。其中,dp′ui是歸一化后的距離懲罰因子,dpui是原始的距離懲罰因子。
眾籌項目包含不同的類別,同類別項目之間的相似度通常大于不同類別項目之間的相似度,這是由于作為相同的項目類別,用戶對其行為的子集一般大于跨產品類別的子集。在這種情況下,把項目之間的相似度矩陣進行歸一化處理,不但可以提高推薦的準確度,還可以提高推薦的覆蓋率和多樣性[27]。例如,推薦系統(tǒng)要在食品類項目(記為F)和科技類項目(記為T)之間選擇并推薦給用戶,F內部項目之間的相似度為0.5,T內部項目之間的相似度為0.4,而F和T之間的相似度為0.2。如果某用戶的歷史投資行為是均衡的(即投資F的次數(shù)和投資T的次數(shù)相當),那么基于項目的推薦算法會給用戶推薦F,而不會推薦T,因為F內部項目之間的影響力更大。而一旦把F和T都歸一化到相同的比較基準內,則推薦列表中同時出現(xiàn)F和T的概率就會大幅增加。另外,歸一化也能降低熱門項目對于計算用戶之間相似度的影響。對于冷門商品來說,盡管銷量少,但是對其有過行為交集的用戶的相似度應該更大。
鑒于此,采用公式(10)對項目相似度進行歸一化處理。其中,wij是原始相似度,w′ij是歸一化的相似度。
在眾籌平臺上,融資者和投資者通常會標注自己的位置。圖2展示了Kickstarter上的一個項目主頁,該項目已經有111位投資者,地理位置為“Bedford-Stuyvesant,Brooklyn,NY”。同理,在用戶主頁上,也能看到用戶標注的位置,據(jù)此計算投資者與項目之間的距離。
圖2 Kickstarter上一個典型的項目主頁Figure 2A snapshot of a project′s home page on Kickstarter
圖3展示了本文樣本數(shù)據(jù)中投資者的本地偏好趨勢統(tǒng)計。其中,具有本地偏好的實際值表示基于Kickstarter真實數(shù)據(jù)的距離計算值,而無本地偏好的理論均值是指剝離用戶本地偏好后的距離分布,即所有投資者與融資者的平均距離[14]。顯然,投資者更傾向于投資距離近的項目。以投融雙方來自同一國家的情形為例,由于Kickstarter上的投資者與融資者來自100多個國家和地區(qū),理論上,如果不存在本地偏好,投資者選擇來自同一國家項目的概率約為6%,但是實際值約為63%。由于Kickstarter平臺位于美國,投融雙方大都來自美國,因此,以國家為單位存在數(shù)據(jù)不均衡。以美國的州和城市進行計算,仍然顯示了顯著的本地偏好趨勢。投融雙方之間的距離更能衡量本地偏好,Kickstarter上投融雙方之間的平均距離是3911公里;而如果不存在本地偏好,雙方之間的平均距離理論值為8611公里。
圖3 在線投資者的本地偏好實際值與真實值對比Figure 3Actual value vs.real value for investor′s home preference
圖4展示了數(shù)據(jù)的統(tǒng)計結果。實驗數(shù)據(jù)包括4340個用戶對275個項目的37018次投資行為,稀疏度為96.90%。就投資者來說,絕大多數(shù)參與投資的項目數(shù)量都較少,投資超過10個項目的投資者占28.16%;而投資超過20個項目的投資者占5.41%,也就是說,絕大多數(shù)用戶不活躍,因而導致數(shù)據(jù)較稀疏。就項目而言,投資者小于100人的項目較多,占26.91%;投資者大于150人的項目占24.36%,即約50%的項目能夠吸引到100~150位投資者參與。
圖4 數(shù)據(jù)統(tǒng)計展示Figure 4Statistics results
本文采用基于項目的推薦算法,首先計算項目之間的相似度,然后依據(jù)該相似度推薦用戶列表給目標項目。為了比較算法的性能,采用Top-N推薦,分別測試推薦列表數(shù)為5個和10個的情形。同時,測試協(xié)同過濾算法鄰域數(shù)量對推薦性能的影響。
PersonalRank推薦算法、基于二分圖的CF分別以PersonalRank構建二分圖模型進行推薦[7]?;趦热莸耐扑]表示推薦用戶曾經支持過的相似項目給目標用戶,例如某用戶曾經支持過電影類項目,那么就認為該用戶對電影具有一定的偏好。在對比實驗中,我們選擇的項目相似度指標包括:項目類別、籌資者的社會化網(wǎng)絡、項目融資狀態(tài)、參與等級數(shù)量、最低參與金額以及平均籌資金額等6項指標?;跓岫鹊耐扑]是指直接推薦最熱門的項目給用戶?;跓岫鹊耐扑]與鄰域無關,即對任何用戶來說,得到的推薦列表都是相同的[7]。協(xié)同過濾算法采用余弦函數(shù)計算項目(用戶)之間的相似度,這種算法是較早采用的相似度算法[28]。
距離推薦算法采用距離進行升序排列,然后推薦前N個用戶(項目)給項目(用戶)。距離推薦算法在線下場景中常常非常有效,因為用戶常常選擇距離最近的項目(電影院、餐廳、酒店、咖啡館等),但這種算法在眾籌項目推薦中是否有效懸而未決。距離過濾+協(xié)同過濾是一種首先按照投資者與項目之間的距離進行排序,然后選擇前N項作為推薦的候選列表,再在候選列表中采用協(xié)同過濾算法進行推薦[19]。這種方法在一些特定領域取得了不錯的效果,我們試圖比較這種算法對在線眾籌項目推薦的性能差異。基于本地偏好的協(xié)同過濾算法是本文提出的對距離的懲罰方法,目的是在計算用戶(項目)相似度時考慮距離指標對相似度的影響,在推薦時對距離因素進行懲罰。當項目與用戶的位置較近時,懲罰因子小;反之,對興趣度進行較大的懲罰。表2歸納了本文的比較算法以及說明。
表2 比較算法以及說明Table 2Comparative algorithms and descriptions
早期推薦系統(tǒng)評價標準通常是預測用戶是否會購買某物品,因此準確率成為重要指標。后來發(fā)現(xiàn),單純依靠準確率會誤導推薦系統(tǒng)的發(fā)展[29]。例如:對于熱門商品的推薦,準確率會很高。但即使不推薦這類商品,用戶依然會購買。相反,當推薦用戶不熟悉卻有興趣的商品時,用戶會更加滿意[30]。同時,實踐顯示,大量的長尾商品匯集起來,會對銷量產生很大的影響。鑒于此,長尾商品的推薦成為商界的關注點[31]。如果忽視產品覆蓋率,而片面追求準確率和召回率,推薦系統(tǒng)會逐漸推薦更加熱門的商品,“馬太效應”愈加明顯[32]。為此,把推薦系統(tǒng)的評價標準歸為4類:準確率、召回率、覆蓋率和流行度。公式(11)到公式(14)分別給出4類指標的計算方法。
其中,Ru是推薦系統(tǒng)產生的推薦列表,Tu是用戶實際喜歡的項目列表,代表所有產品數(shù)量,RecommendListu為給用戶u的推薦列表,U為用戶集合,I為項目集合,代表項目i被推薦的次數(shù)。值得注意的是,推薦列表的長度會對準確率和召回率產生影響。如果長度為1,即當只有1個推薦產品,如果這個推薦正確,那么準確率為100%,否則為0%;當推薦列表為全部商品時,召回率恒為1。我們在實驗中選擇在實際應用中常用的列表長度(N=5以及N=10)。
對于距離懲罰因子而言,如果太小,不能對推薦的性能產生足夠影響;如果太大,則不能準確衡量用戶偏好的相似度。為此,先在較小的數(shù)據(jù)集上進行實驗,以確定距離懲罰系數(shù)對個性化推薦性能的影響。圖5展示了距離懲罰因子的對比,采用TOP-N進行測試(N=10)。顯然,距離懲罰因子對于覆蓋率和流行度的影響極小。但距離懲罰因子提升了推薦的準確率和召回率。以準確率為例,當距離懲罰系數(shù)為0時,準確率最低;取值0.3時準確率最高。召回率呈現(xiàn)了類似的趨勢。這種趨勢在鄰域數(shù)量K≤75時尤其明顯;而在K>75時,懲罰系數(shù)不存在顯著影響,但是當K>75時,準確率和召回率都極低。因此,在基于距離的推薦算法中,歸一化后的距離懲罰因子設置為0.3是比較合理的系數(shù)。
圖5 距離懲罰系數(shù)的對比(N=10)Figure 5Comparison of distance penalty coefficients (N=10)
基于距離的推薦參照用戶之間的地理位置衡量興趣相似度。該算法不同于協(xié)同過濾算法,是一種只推薦距離最近的項目(用戶)給目標用戶(項目)的方法。換句話說,兩個地理位置相同的用戶得到的推薦列表是相同的,這種推薦算法在離線消費場景中常常非常有效,因為離線消費受距離的約束較大,用戶很難選擇距離較遠的場所。表3展示了距離推薦算法的推薦結果,顯然,距離推薦算法效果并不好,準確率和召回率都極低,具有較大的提升空間;而覆蓋率較高,同時流行度較低。這表明該算法能夠覆蓋更寬廣的用戶群體,同時降低熱門商品對推薦算法的影響。
表3 距離推薦算法的推薦結果Table 3Recommendation results of the distance recommendation
該算法將協(xié)同過濾和基于地理位置的推薦相結合,即從臨近的地理距離中選擇M個項目作為候選集,然后依據(jù)協(xié)同過濾算法推薦M個候選集中用戶興趣度最大的N個項目給目標用戶[19]。本實驗中,選擇10倍推薦數(shù)量的候選用戶作為候選集,然后在候選集上進行協(xié)同過濾推薦。
表4展示了距離過濾+協(xié)同過濾的推薦結果。列表長度N=5時,各項指標均高于距離推薦算法。當鄰域數(shù)為10時,綜合性能最佳。召回率和準確率分別為4.86%和16.21%,而覆蓋率和流行度分別是13.57%和2.969。而當列表長度N=10時,鄰域數(shù)為15時推薦性能最佳。盡管推薦性能得到了一定程度的提升,但是較難解釋這種推薦結果,因為該算法首先排除距離較遠的投資者,實質上是只將一定距離內(距離較近)的用戶推薦給項目,而沒有考慮較遠距離的用戶也可能對項目感興趣。在對推薦結果的解釋上,忽略遠距離的投資者顯然是不合理的。此算法受限于推薦場景,線下消費場景適宜采用此類算法。但是,在眾籌領域,投資者與融資者的平均距離為3911公里。顯然,不能把較遠距離的潛在投資者排除在推薦列表外。
表4 距離過濾+協(xié)同過濾的推薦結果Table 4Recommendation results for distance filtering + collaborative filtering
對距離的懲罰算法是在協(xié)同過濾算法基礎上,對用戶和項目之間距離實施懲罰。距離懲罰因子和相似度因子都采用歸一化計算。表5展示了距離懲罰算法的推薦結果。當列表長度N=5時,鄰域數(shù)為10時,推薦性能最佳,召回率、準確率、覆蓋率和流行度分別為4.87%、16.24%、13.62%和2.967。
表5 對距離的懲罰算法的推薦結果Table 5Recommendation results for home bias-based CF with penalty
當列表長度N=10時,相對于推薦列表為5(N=5)的推薦性能,該結果在召回率、覆蓋率和流行度上有所提高;但降低了推薦的準確率。換句話說,當推薦的列表長度為10時,以降低準確率的代價,提升了推薦的召回率、覆蓋率和流行度。
表6對各種算法進行了綜合對比??傮w上看,基于熱度的推薦算法性能最差。因為基于熱度的推薦是一種不考慮鄰域的推薦算法,把所有用戶和項目視為同質,向所有用戶(項目)推薦相同的項目(用戶)。而在眾籌社區(qū)中,每個投資者的特征不一樣,不能以相同的項目列表推薦給所有用戶,因此,這類算法在眾籌項目推薦中性能極差?;诰嚯x的推薦比基于熱度的推薦性能更好,這可能是因為,眾籌參與者大多青睞距離較近的項目,他們通常是融資者的親朋好友[33]。由于這部分投資者的大量參與(尤其是在融資初期),投融雙方之間的距離較近?;诰嚯x的推薦會優(yōu)先推薦這部分投資者,但是這種推薦存在以下問題:(1)距離較近的投資者有很多,并不意味著近距離的投資者都對項目感興趣;(2)只考慮了投資者的距離偏好,而沒有考慮投資者的其他偏好?;趦热莸耐扑]算法改進了基于熱度和基于距離推薦算法的缺陷,以項目的內容作為衡量投資者興趣的指標,一定程度上提升了推薦性能,但仍有較大的提升空間。
表6 各類算法綜合對比結果Table 6Comprehensive comparison results of various algorithms
選取兩類網(wǎng)絡推薦算法進行比較:PersonalRank和基于二分圖的CF,網(wǎng)絡推薦算法適合對極端稀疏數(shù)據(jù)的處理[7]。本文數(shù)據(jù)稀疏度為96.90%,即在用戶行為矩陣中,約有97%的矩陣元素為空。數(shù)據(jù)集相對稠密,在Kickstarter上全部數(shù)據(jù)的稀疏度約為99.99%[7],數(shù)據(jù)極端稀疏。網(wǎng)絡推薦算法對極端稀疏數(shù)據(jù)推薦具有一定的效果,但是不適合對較稠密數(shù)據(jù)的處理。
基于余弦函數(shù)的CF極大提高了推薦性能。例如:當列表長度為5時,準確率達16.11%,覆蓋率為13.73%,召回率和流行度分別為4.83%和2.971。而當列表長度為10時,鄰域數(shù)K=10時,準確率達到13.21%。這表明了協(xié)同過濾算法在眾籌項目推薦的優(yōu)勢。當采用距離過濾+協(xié)同過濾時,推薦性能進一步提升,召回率和準確率分別為4.86%和16.21%,這表明考慮項目和投資者之間的距離有利于更加準確的識別用戶偏好,并準確推薦眾籌項目。在對距離變量的處理上,采用距離懲罰因子的CF推薦性能最佳,召回率、準確率、覆蓋率和流行度分別為4.87%、16.24%、13.62%和2.967。因此,在基于本地偏好的眾籌項目個性化推薦中,采用距離懲罰因子的本地偏好算法值得推廣?;诒镜仄玫膮f(xié)同過濾算法在各項指標上均優(yōu)于基于位置的推薦、協(xié)同過濾算法、基于內容的推薦和網(wǎng)絡推薦算法,表明了本文提出的方法具有理論價值和實踐意義。
本文提出基于本地偏好的協(xié)同過濾算法,并應用于眾籌項目的個性化推薦。理論上,改進了互聯(lián)網(wǎng)金融的投資者偏好識別并提升了推薦系統(tǒng)的性能。本文首先識別項目和投資者的地理位置,并轉化為經緯度,依此計算項目與投資者之間的地理距離。然后,把項目與投資者之間的距離作為計算用戶相似度的一個指標。把用戶本地偏好分別用于以下兩種推薦方法:(1)先對用戶進行距離過濾,然后采用協(xié)同過濾算法進行推薦;(2)具有距離懲罰因子的協(xié)同過濾算法。研究表明,考慮本地偏好的推薦算法能提升推薦性能。更進一步,歸一化后的距離懲罰因子設為0.3時,具有距離懲罰因子的協(xié)同過濾算法能夠獲得最佳推薦性能,超越距離過濾+協(xié)同過濾算法。
實踐上,眾籌市場空間極大,據(jù)調查2014年眾籌市場規(guī)模達到162億美元;2015 年超過340億美元;2016年達到500億美元[34]。面對如此巨大的市場規(guī)模,準確把握用戶需求將是促進這一商業(yè)模式可持續(xù)發(fā)展的重要手段。眾籌推薦不同于線下環(huán)境的電影院、咖啡館、餐館等的推薦,因為用戶難以物理地消費遠距離項目,已有的基于距離的推薦并不適合眾籌融資模式。創(chuàng)業(yè)者在融資階段最大的擔心來自融資失敗,因為一旦項目融資失敗,創(chuàng)業(yè)者將一無所獲,項目因此不能繼續(xù)下去[35]。對本地資源的偏好是由于經濟、文化、傳統(tǒng)、習俗等多方面因素導致的,創(chuàng)業(yè)者在考慮項目推介時有必要深入分析本地偏好產生的原因,例如:對于食品類眾籌項目的本地偏好可以理解為飲食習慣的相似性,因此,在項目的推廣階段,對具有相似飲食習慣的潛在投資者需要重點關注,考慮本地偏好的協(xié)同過濾算法為提升融資成功率提供了一種手段。
未來的研究方向有:(1)本文采用球面距離度量用戶距離,事實上,投資者與項目之間的距離分為若干層次,例如:國家級偏好、州省級偏好以及城市級別偏好等,這種層次可以采用“金字塔”模型進行建模[36],從而得到更加細致的用戶偏好模型;(2)眾籌項目都設有投資期限,通常是30~60天[37]。在此期限內,投資者的來源呈現(xiàn)顯著性差異,早期投資者一般是融資者的親朋好友,一方面是因為社會關系促使這部分投資者在項目初期參與項目投資;另一方面是因為距離較近,投資者更能了解融資者的能力和信用。鑒于投資者參與行為受到時間因素的影響[38],推薦系統(tǒng)可以嘗試考慮這種動態(tài)地理位置變化對推薦性能的影響;(3)眾籌項目分為若干類別,投資者對每個類別的評價標準存在較大的差異。投資者對某些類別(如科技類)的地理位置不敏感;而對另一些類別(如食品類)的地理位置極其敏感。因此,考慮不同項目類別之間的差異在理論上可以提高推薦的準確率,未來計劃嘗試對不同項目類別進行分組,并比較不同類別下本地偏好對推薦性能的影響。