薛井紅
[摘 要]隨著在線眾籌的快速發(fā)展,用戶從海量的眾籌項(xiàng)目中搜尋感興趣的項(xiàng)目信息越發(fā)困難。本文提出了基于文本挖掘的在線眾籌項(xiàng)目推薦方法:首先,利用LDA主題模型挖掘眾籌項(xiàng)目的隱主題;其次,基于隱主題構(gòu)建眾籌項(xiàng)目間的關(guān)聯(lián)網(wǎng)絡(luò);最后,對(duì)相關(guān)眾籌項(xiàng)目進(jìn)行推薦?;诰〇|眾籌數(shù)據(jù)的實(shí)驗(yàn)表明,基于文本挖掘的在線眾籌項(xiàng)目推薦方法能夠?qū)Ρ娀I項(xiàng)目進(jìn)行有效推薦。
[關(guān)鍵詞]在線眾籌;文本挖掘;項(xiàng)目推薦;關(guān)聯(lián)網(wǎng)絡(luò)
doi:10.3969/j.issn.1673 - 0194.2020.10.069
[中圖分類號(hào)]F724.6;F832.4 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2020)10-0-02
0? ? ?引 言
在線眾籌平臺(tái)的快速發(fā)展雖然為企業(yè)籌措資金、推廣產(chǎn)品提供了有效渠道,但是,隨著平臺(tái)上眾籌項(xiàng)目越來(lái)越多,消費(fèi)者從海量的眾籌項(xiàng)目中搜尋感興趣的項(xiàng)目信息越發(fā)困難。因此,如何幫助用戶從眾多的眾籌項(xiàng)目中找到感興趣的項(xiàng)目、如何幫助眾籌項(xiàng)目準(zhǔn)確定位目標(biāo)用戶是項(xiàng)目眾籌成功的關(guān)鍵,也是眾籌平臺(tái)關(guān)心的重要問(wèn)題。研究者對(duì)在線眾籌中的用戶行為機(jī)制、眾籌項(xiàng)目成功率預(yù)測(cè)方法和個(gè)性化推薦等問(wèn)題進(jìn)行了廣泛研究,但是眾籌項(xiàng)目的文本描述等信息在現(xiàn)有研究中應(yīng)用不足。對(duì)眾籌項(xiàng)目的描述文本進(jìn)行深入分析,構(gòu)建眾籌項(xiàng)目的個(gè)性化推薦方法,可以有效利用項(xiàng)目之間的內(nèi)在關(guān)聯(lián),提高眾籌項(xiàng)目的推薦精度。本文從京東眾籌平臺(tái)下載了7 334個(gè)眾籌項(xiàng)目的描述文本,在此基礎(chǔ)上進(jìn)行實(shí)驗(yàn)驗(yàn)證。本文實(shí)驗(yàn)表明,所提方法可以對(duì)項(xiàng)目的關(guān)聯(lián)關(guān)系進(jìn)行有效分析,有效提高眾籌項(xiàng)目的推薦準(zhǔn)確性。
1? ? ?眾籌項(xiàng)目推薦模型構(gòu)建
1.1? ?基于LDA的眾籌項(xiàng)目隱主題建模
假設(shè)是眾籌項(xiàng)目描述的語(yǔ)料集合,是項(xiàng)目m對(duì)應(yīng)的描述詞集合,其中M是眾籌項(xiàng)目的數(shù)量。設(shè)V是預(yù)先給定的隱主題數(shù)量,V是語(yǔ)料中不重復(fù)的詞的數(shù)量,Nm是項(xiàng)目m的描述中詞的數(shù)量。用Wm,n來(lái)標(biāo)記項(xiàng)目m的描述中的第n個(gè)詞,用Zm,n標(biāo)記該詞所屬的主題。為了估計(jì)文檔-主題分布和主題-詞分布,需要計(jì)算聯(lián)合分布。
其中,語(yǔ)料中每個(gè)詞的生成概率和可以分別計(jì)算如下。
其中,Γ(x)是伽馬函數(shù)。因此,我們可以得到聯(lián)合分布的計(jì)算公式如下。
基于聯(lián)合分布和Dirichlet-Multinomial共軛分布,我們可以得到θ和Φ的計(jì)算公式如下。
其中,表示項(xiàng)目m的描述文檔中所有詞的主題分布?;贒irichlet期望計(jì)算方法,可以得到眾籌項(xiàng)目描述的主題-詞分布和文檔-主題分布如下。
基于φk,v,可以得到所有眾籌項(xiàng)目描述的主題分布,對(duì)深入了解眾籌項(xiàng)目的內(nèi)容和類型起到?jīng)Q策支持作用。θm,k有助于分析每個(gè)眾籌項(xiàng)目所屬的眾籌主題,對(duì)分析項(xiàng)目之間的關(guān)聯(lián)關(guān)系、準(zhǔn)確推薦眾籌項(xiàng)目具有決策支持作用。
1.2? ?基于隱主題分布的眾籌項(xiàng)目關(guān)聯(lián)分析與推薦
假設(shè)眾籌項(xiàng)目的關(guān)系網(wǎng)絡(luò)用G=(D,E,W)表示,其中D表示眾籌項(xiàng)目,E表示邊的集合,即項(xiàng)目之間的關(guān)聯(lián)關(guān)系集合,W表示項(xiàng)目?jī)蓛芍g的關(guān)聯(lián)程度。為了構(gòu)造項(xiàng)目關(guān)系網(wǎng)絡(luò)G,本文假設(shè)兩個(gè)眾籌項(xiàng)目i和j屬于同一主題,則他們之間存在一條連邊,同時(shí)屬于的主題數(shù)越多,連邊的權(quán)重Wij則越大,即Wij等于項(xiàng)目i和j同時(shí)屬于的主題數(shù)量。由于主題模型中每個(gè)項(xiàng)目幾乎在所有主題上都有概率分布,而大量主題上的概率值極小。因此,針對(duì)每個(gè)項(xiàng)目,本文只取概率值最大的5個(gè)主題,并以此為基礎(chǔ)構(gòu)建眾籌項(xiàng)目的關(guān)系網(wǎng)絡(luò)G。
基于眾籌項(xiàng)目的關(guān)系網(wǎng)絡(luò)G,本文構(gòu)建的眾籌項(xiàng)目推薦策略如下。①針對(duì)新用戶,本文利用結(jié)點(diǎn)介數(shù)(node betweenness)對(duì)眾籌項(xiàng)目在關(guān)聯(lián)網(wǎng)絡(luò)中的重要性和流行性進(jìn)行排序,推薦項(xiàng)目集合中最重要和最流行的項(xiàng)目。項(xiàng)目i的介數(shù)定義為:。其中,njk表示從項(xiàng)目j到項(xiàng)目k的最短路徑數(shù),而nijk表示njk條最短路徑中經(jīng)過(guò)項(xiàng)目i的路徑數(shù)。②如果用戶搜索或點(diǎn)擊了某一眾籌項(xiàng)目i,本文推薦與該項(xiàng)目相連的T個(gè)項(xiàng)目。即從與項(xiàng)目i相連的所有項(xiàng)目j中,找出Wij最大的前T個(gè)項(xiàng)目,推薦給該用戶。當(dāng)與項(xiàng)目i直接相連的項(xiàng)目數(shù)量少于T時(shí),本文采取k核方法對(duì)相關(guān)項(xiàng)目進(jìn)行選擇。
2? ? ?實(shí)驗(yàn)驗(yàn)證
2.1? ?眾籌項(xiàng)目主題發(fā)現(xiàn)
在本文實(shí)驗(yàn)中,文檔主題數(shù)量設(shè)置為50,利用基于LDA的眾籌主題建模,可以得到眾籌項(xiàng)目的隱含特征。例如,眾籌項(xiàng)目與眼睛保護(hù)相關(guān),特征詞包括“眼鏡”“眼睛”“藍(lán)光”“時(shí)尚”等;與室內(nèi)空氣健康有關(guān),特征詞包括“空氣”“凈化”“加濕”“霾”等;與智能硬件相關(guān),特征詞包括“產(chǎn)品”“智能”“科技”“市場(chǎng)”等。
2.2? ?眾籌項(xiàng)目關(guān)聯(lián)分析
表1給出了“你家里能有晴空萬(wàn)里么”和“穿在身上的低音炮SubPac”兩個(gè)目標(biāo)眾籌項(xiàng)目的關(guān)聯(lián)項(xiàng)目。可以看出,“你家里能有晴空萬(wàn)里么”產(chǎn)品的關(guān)聯(lián)項(xiàng)目均與空氣凈化、室內(nèi)健康等主題相關(guān)聯(lián);“穿在身上的低音炮SubPac”產(chǎn)品的關(guān)聯(lián)項(xiàng)目均與智能家居、新奇設(shè)計(jì)等主題相關(guān)。表1表明,所提方法可以對(duì)項(xiàng)目的關(guān)聯(lián)關(guān)系進(jìn)行有效度量。
2.3? ?推薦精度對(duì)比試驗(yàn)
本文邀請(qǐng)50名志愿者參與推薦精度對(duì)比試驗(yàn)。從所獲取的京東眾籌項(xiàng)目中隨機(jī)選擇特定項(xiàng)目作為目標(biāo)項(xiàng)目,利用不同方法產(chǎn)生推薦列表,將推薦列表提交給志愿者,讓志愿者判斷每個(gè)推薦項(xiàng)目與目標(biāo)項(xiàng)目是否相關(guān)。將相關(guān)項(xiàng)目的數(shù)量與推薦產(chǎn)品數(shù)量的比值作為推薦準(zhǔn)確度。本文選取的對(duì)比推薦方法為基于類目的推薦方法。從表2中可以看出,與基于類目的推薦策略相比,本文方法可以得到準(zhǔn)確的眾籌項(xiàng)目推薦結(jié)果?;陬惸康耐扑]方法雖然可以從同一類目中選擇產(chǎn)品推薦給用戶,由于同一類目中的產(chǎn)品數(shù)量眾多,推薦難以得到準(zhǔn)確效果。本文所提方法可以充分利用眾籌項(xiàng)目的隱主題信息和關(guān)聯(lián)關(guān)系,取得更高的推薦精度。
3? ? ?結(jié) 語(yǔ)
本文利用眾籌項(xiàng)目的描述文本挖掘項(xiàng)目特征的隱主題,基于隱主題分布構(gòu)建眾籌項(xiàng)目之間的關(guān)聯(lián)網(wǎng)絡(luò),并提出了個(gè)性化項(xiàng)目推薦方法?;诰〇|眾籌項(xiàng)目數(shù)據(jù)的實(shí)驗(yàn)表明,所提方法可以對(duì)眾籌項(xiàng)目主題和關(guān)聯(lián)關(guān)系進(jìn)行有效分析,得到準(zhǔn)確的個(gè)性化推薦結(jié)果。在后續(xù)研究中,本文將在LDA主題模型的基礎(chǔ)上,研究基于眾籌主題和項(xiàng)目標(biāo)簽的二部圖模型,進(jìn)而構(gòu)建更加有效的眾籌項(xiàng)目推薦方法。
主要參考文獻(xiàn)
[1]畢功兵,楊云紳,梁樑.策略延遲下眾籌項(xiàng)目的定價(jià)和激勵(lì)決策[J].中國(guó)管理科學(xué),2019(11):1-10.
[2]李清香,王念新,呂爽,等.發(fā)起人與出資者的在線交互對(duì)眾籌項(xiàng)目成功的影響[J].管理工程學(xué)報(bào),2020(2):1-9.