張書濤,楊志強(qiáng),王世杰,劉世鋒,張凡,周愛民
(1.蘭州理工大學(xué) 設(shè)計(jì)藝術(shù)學(xué)院,甘肅 蘭州 730050;2.蘭州理工大學(xué) 機(jī)電工程學(xué)院,甘肅 蘭州 730050)
隨著網(wǎng)絡(luò)通信技術(shù)的飛速發(fā)展,信息內(nèi)容的接收與傳播呈現(xiàn)高度對(duì)等狀態(tài),用戶群體參與并驅(qū)動(dòng)著產(chǎn)品形態(tài)設(shè)計(jì)發(fā)展,致使產(chǎn)品設(shè)計(jì)面臨群決策問題[1].產(chǎn)品包含的感性意象集中反映用戶的情感需求,并且意象的精準(zhǔn)提取是設(shè)計(jì)創(chuàng)新的關(guān)鍵因素[2].穩(wěn)定的用戶決策體系尚未形成,導(dǎo)致決策過程存在較大的隨機(jī)性,催生出大量離散復(fù)雜成分(決策意見).得益于感性工學(xué)相關(guān)理論的發(fā)展,借助語義差分法、生理測量、深度學(xué)習(xí)等技術(shù)實(shí)現(xiàn)了產(chǎn)品意象的轉(zhuǎn)譯識(shí)別,使產(chǎn)品感性意象的提取及量化成為可能[3].其中語義差分法和生理測量技術(shù)可以完成產(chǎn)品意象的快速聚類,但它們高度依賴被試者,且實(shí)驗(yàn)設(shè)計(jì)前期需要大量人工成本投入;深度學(xué)習(xí)技術(shù)利用計(jì)算機(jī)編程手段,對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化加工處理,有效拓展了分析數(shù)據(jù)的體量,提升了產(chǎn)品意象提取的泛化能力.雖然在技術(shù)層面,基于算法的聚類研究將群決策問題進(jìn)行降維處理,推動(dòng)了產(chǎn)品意象研究發(fā)展,但仍存在以下不足:1) 意象的聚類局限于用戶的淺層描述,特別是高頻詞匯極大地影響了聚類結(jié)果,對(duì)于用戶的潛在關(guān)聯(lián)需求描述不夠深入;2) 簡化了群體效應(yīng)下時(shí)間維度對(duì)聚類結(jié)果的影響,針對(duì)設(shè)計(jì)需求的動(dòng)態(tài)演化解釋性不全面,難以實(shí)現(xiàn)用戶需求轉(zhuǎn)變結(jié)果的預(yù)測.
復(fù)雜網(wǎng)絡(luò)模型具備小世界性[4]和無標(biāo)度性[5]特征,可構(gòu)建符合真實(shí)網(wǎng)絡(luò)統(tǒng)計(jì)性質(zhì)的演化模型.精準(zhǔn)的網(wǎng)絡(luò)節(jié)點(diǎn)屬性劃分能夠提高算法的社區(qū)發(fā)現(xiàn)質(zhì)量[6].例如,楊延璞等[7]通過構(gòu)建工業(yè)設(shè)計(jì)決策網(wǎng)絡(luò)模型,模擬產(chǎn)品設(shè)計(jì)決策過程,析出噪聲節(jié)點(diǎn)以縮減產(chǎn)品開發(fā)迭代歷程;楊旭華等[8]提出無參數(shù)復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法,通過綜合節(jié)點(diǎn)相似性和網(wǎng)絡(luò)嵌入Node2Vec的方法實(shí)現(xiàn)自動(dòng)化社區(qū)劃分.隨著復(fù)雜網(wǎng)絡(luò)相關(guān)研究的發(fā)展,大量的社區(qū)發(fā)現(xiàn)算法出現(xiàn).基于模塊度優(yōu)化的Louvain算法通迭代計(jì)算網(wǎng)絡(luò)模塊度增量,至增量收斂時(shí)完成網(wǎng)絡(luò)結(jié)構(gòu)社區(qū)劃分,其聚類結(jié)果優(yōu)于K均值聚類算法[9];Leiden算法通過節(jié)點(diǎn)的局部移動(dòng),利用非細(xì)化分區(qū)的方法建立模糊分區(qū),加強(qiáng)了社區(qū)中節(jié)點(diǎn)與連邊的關(guān)系,保證了社區(qū)內(nèi)部的關(guān)聯(lián)效果[10].重疊模塊識(shí)別算法(overlapping community discriminated algorithm, OCDL)[11]通過計(jì)算連邊相似度,獲取最佳模塊識(shí)別效果的同時(shí),最大化地保留了網(wǎng)絡(luò)聚類模塊間的關(guān)聯(lián)信息[12].鏈路預(yù)測為社區(qū)演變提供分析基礎(chǔ),如LSTM主題預(yù)測模型[13].在網(wǎng)絡(luò)構(gòu)建過程中,目標(biāo)節(jié)點(diǎn)間具有明確的方向性(有向網(wǎng)絡(luò)),用戶評(píng)價(jià)屬于模糊決策問題[14],不是統(tǒng)一的線性關(guān)系,可以采用鏈路預(yù)測的方法,解決僅以節(jié)點(diǎn)特征屬性作為社區(qū)劃分依據(jù)造成的節(jié)點(diǎn)關(guān)聯(lián)信息缺失問題.如劉琳嵐等[15]提出基于網(wǎng)絡(luò)表示學(xué)習(xí)的鏈路預(yù)測方法,并通過改進(jìn)注意力機(jī)制循環(huán)神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)整網(wǎng)鏈路預(yù)測.因此,采用OCDL開展適用于產(chǎn)品評(píng)價(jià)的無向網(wǎng)絡(luò)聚類研究,并融合用戶信息交互的時(shí)序性,能夠明晰用戶需求動(dòng)態(tài)轉(zhuǎn)變關(guān)系,以加強(qiáng)設(shè)計(jì)師對(duì)用戶群體特征的理解.
本研究引入復(fù)雜網(wǎng)絡(luò)理論,結(jié)合社區(qū)子群聚類方法,提出復(fù)雜網(wǎng)絡(luò)社區(qū)子群聚類模型,改進(jìn)OCDL,并利用改進(jìn)算法對(duì)用戶評(píng)論特征詞匯進(jìn)行重疊社區(qū)檢測,提升感性工學(xué)中意象聚類效果.以用戶評(píng)論時(shí)間序列為約束條件,通過多路徑相似度計(jì)算結(jié)果開展網(wǎng)絡(luò)鏈路預(yù)測,從而明確用戶需求轉(zhuǎn)化趨勢,輔助設(shè)計(jì)師挖掘用戶潛在需求.
如圖1所示,基于復(fù)雜網(wǎng)絡(luò)的用戶社區(qū)子群需求聚類模型研究流程包含4個(gè)部分:1)確立目標(biāo)產(chǎn)品研究對(duì)象,使用網(wǎng)絡(luò)爬蟲工具獲取樣本圖文評(píng)論信息;依據(jù)詞典方法對(duì)評(píng)論文本執(zhí)行分詞預(yù)處理,利用PageRank算法計(jì)算產(chǎn)品意象重要度并排序.2)篩選同一詞性下排名靠前的詞匯構(gòu)建特征詞匯集,依據(jù)共現(xiàn)關(guān)系建立用戶層面的無向加權(quán)網(wǎng)絡(luò);改進(jìn)OCDL,利用改進(jìn)算法計(jì)算用戶社區(qū)集群相似度值;通過改進(jìn)的模塊度Qod檢驗(yàn)網(wǎng)絡(luò)模塊劃分;保留用戶子群需求聚類結(jié)果.3)對(duì)原始無向加權(quán)網(wǎng)絡(luò)進(jìn)行多路徑節(jié)點(diǎn)鏈路預(yù)測,利用網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)及意見動(dòng)力學(xué)分析,融合時(shí)間序列因素,開展用戶子群需求聚類演化預(yù)測.4)結(jié)合預(yù)測精度指標(biāo)曲線下面積(area under curve,AUC)[16]及模塊度Qod對(duì)預(yù)測結(jié)果進(jìn)行驗(yàn)證,最終輸出用戶社區(qū)子群需求聚類演化結(jié)果.
圖1 用戶社區(qū)子群需求聚類模型的研究流程Fig.1 Research process of user community subgroup demand clustering model based on complex networks
電商平臺(tái)的發(fā)展推動(dòng)用戶輸出海量評(píng)論信息,同時(shí)也反映出大量用戶的潛在需求信息[17],可借此開展集群偏好判斷,挖掘消費(fèi)者偏好差異性,達(dá)到用戶子群需求聚類的研究目的[18].用戶信息的獲取方式涉及網(wǎng)頁數(shù)據(jù)爬取技術(shù),相比于問卷調(diào)查,該方法回收效率更高且內(nèi)容信息更豐富,能夠?yàn)榫珳?zhǔn)描述用戶特征提供數(shù)據(jù)來源.
在數(shù)據(jù)獲取方面,基于Scrapy爬蟲模型可以對(duì)電商平臺(tái)進(jìn)行精準(zhǔn)的用戶評(píng)論信息獲取[19],相關(guān)流程如圖2所示.符合信息公開性、非侵入性、非商業(yè)性的網(wǎng)絡(luò)爬蟲由人工轉(zhuǎn)為機(jī)器自動(dòng)的信息整合操作,完善了網(wǎng)絡(luò)爬蟲技術(shù)中立工具的規(guī)范性[20].當(dāng)利用網(wǎng)絡(luò)爬蟲獲取用戶評(píng)論信息時(shí),須針對(duì)用戶自然評(píng)論語句編碼,目標(biāo)樣本X1的評(píng)論信息域?yàn)?/p>
圖2 網(wǎng)絡(luò)爬蟲技術(shù)流程Fig.2 Web crawler technology flow
式中:X1-n為X1的第n條評(píng)論信息,S1為非空集.全體用戶評(píng)論信息域?yàn)?/p>
式中:Sm為第m個(gè)樣本包含的用戶評(píng)論信息.在本研究中,取m的最大值為121,表示篩選的121款水壺樣本.用戶在線評(píng)論具有非結(jié)構(gòu)化文本屬性(評(píng)論內(nèi)容長短不一,且存在口語化表述特征),會(huì)產(chǎn)生大量離散化信息,基于詞典的Jieba分詞處理可以實(shí)現(xiàn)詞性過濾,加速用戶評(píng)論內(nèi)容收斂.為此,使用該方法對(duì)全體分析樣本評(píng)論信息域S進(jìn)行分詞處理,處理結(jié)果存儲(chǔ)于集合P,表示為
式中:i為分詞處理結(jié)果編號(hào),取i的最大值為14 657.
PageRank算法[21]能夠利用網(wǎng)頁鏈接間的從屬關(guān)系構(gòu)建龐雜的有向圖,通過迭代排序確定網(wǎng)頁的優(yōu)先等級(jí).如圖3所示為有向鏈路網(wǎng)絡(luò)生成示意圖,其中用戶評(píng)論分詞結(jié)果為獨(dú)立節(jié)點(diǎn),詞匯從屬關(guān)系為生成邊的條件,即依據(jù)分詞排序建立有向鏈路.基于PageRank算法,迭代計(jì)算詞匯節(jié)點(diǎn)的重要度值,表示為
圖3 有向鏈路網(wǎng)絡(luò)示意圖Fig.3 Schematic diagram of directed link network
式中:S(pi)為分詞i的重要度值,初始值設(shè)定為1;In(Vi)為指向分詞i的鄰接分詞集合數(shù)量;Out(Vj)為分詞j指向其他鄰接分詞集合的數(shù)量;d為阻尼系數(shù),通常取d=0.8[22].迭代循環(huán)計(jì)算全體分詞的PageRank值,滿足收斂條件時(shí),輸出S(pi)作為詞匯描述集的初始值,通過設(shè)定閾值篩選出用戶需求的特征詞匯集V={v1,v2,v3, ···,vz},其中z為篩選出的特征詞匯個(gè)數(shù),對(duì)應(yīng)的PageRank值記作R={r1,r2,r3, ···,rz}.
傳統(tǒng)K-Means算法可以高效、便捷地實(shí)現(xiàn)目標(biāo)聚類,但隨機(jī)選取初始化質(zhì)心會(huì)產(chǎn)生限定用戶的強(qiáng)局部收斂數(shù)據(jù),因此初始質(zhì)心的設(shè)定質(zhì)量決定了聚類效果.復(fù)雜網(wǎng)絡(luò)社區(qū)利用網(wǎng)絡(luò)連通圖表示非線性的個(gè)體用戶關(guān)系,通過圖的網(wǎng)絡(luò)指標(biāo)屬性量化用戶聚類制約關(guān)系,聚類效果較K-Means更好,即利用網(wǎng)絡(luò)中介中心性指標(biāo)輸出分類子群間協(xié)同因素,使用戶大群體決策規(guī)律透明化.
如圖4所示為無向加權(quán)網(wǎng)絡(luò)生成過程,如圖5所示為用戶聚類和模塊劃分過程.基于圖論(graph theory)的OCDL通過網(wǎng)絡(luò)的邊屬性開展相似性判斷,將原始有向網(wǎng)絡(luò)轉(zhuǎn)化為新的無向加權(quán)網(wǎng)絡(luò),通過計(jì)算新網(wǎng)絡(luò)中各節(jié)點(diǎn)的度完成層次聚類,實(shí)現(xiàn)網(wǎng)絡(luò)模塊社區(qū)劃分,即輸出針對(duì)包含重疊節(jié)點(diǎn)的最優(yōu)聚類識(shí)別結(jié)果.改進(jìn)的OCDL分為以下5個(gè)步驟.
圖4 無向加權(quán)網(wǎng)絡(luò)的生成過程Fig.4 Generation process of undirected weighted network
圖5 聚類和模塊劃分過程Fig.5 Clustering and module division process
1) 構(gòu)建目標(biāo)有向網(wǎng)絡(luò).有向網(wǎng)絡(luò)G=(V,E),其中E為網(wǎng)絡(luò)節(jié)點(diǎn)連邊集合.參考各用戶評(píng)論分詞結(jié)果排序建立有向評(píng)論鏈路, 組合全體用戶評(píng)論鏈路構(gòu)建目標(biāo)有向網(wǎng)絡(luò),獨(dú)立及重復(fù)節(jié)點(diǎn)不存在自身連接,僅記錄出現(xiàn)頻次.
2) 轉(zhuǎn)換特征詞匯無向網(wǎng)絡(luò).依據(jù)現(xiàn)有節(jié)點(diǎn)數(shù)量,判別各節(jié)點(diǎn)間無向網(wǎng)絡(luò)的連邊條件,能夠?yàn)榫W(wǎng)絡(luò)轉(zhuǎn)換提供限定.雖然有向網(wǎng)絡(luò)借助實(shí)體鏈路的方向性反映信息傳播路徑,例如航空網(wǎng)絡(luò)、合作網(wǎng)絡(luò)、蛋白質(zhì)網(wǎng)絡(luò)等,但用戶信息往往不具備明確的線性指向關(guān)系,而是以相對(duì)復(fù)雜的社區(qū)屬性共存.可以通過計(jì)算已構(gòu)建的目標(biāo)有向網(wǎng)絡(luò)邊相似度,將其轉(zhuǎn)換為符合社區(qū)屬性的無向網(wǎng)絡(luò).通過目標(biāo)有向網(wǎng)絡(luò)中節(jié)點(diǎn)的指向關(guān)系建立鄰接矩陣:
保留網(wǎng)絡(luò)連接數(shù)據(jù).如果vi指向vj,則記rij=1;否則記為0.網(wǎng)絡(luò)中邊的鏈路距離反映邊的相似度.通過目標(biāo)有向網(wǎng)絡(luò)中邊的鏈路距離可以計(jì)算節(jié)點(diǎn)間的關(guān)聯(lián)程度,即鏈路距離路徑越短,共現(xiàn)占比越高,隸屬于相同模塊的概率越高,其聚類效果越理想.如圖6所示為網(wǎng)絡(luò)中的邊相似度關(guān)系計(jì)算示意圖,邊相似度函數(shù)值越高,表示用戶特征詞匯連接越緊密,表示為
式中:Sn(eil,ejk)為邊eil與邊ejk的連接緊密度,d(eil,ejk)為eil到ejk的距離,α、β均為權(quán)值參數(shù).eil與ejk的連接緊密度表示為
式中:n-(i)為第i個(gè)詞匯節(jié)點(diǎn)指向的相鄰節(jié)點(diǎn)數(shù),n+(l)為第l個(gè)詞匯節(jié)點(diǎn)的相鄰節(jié)點(diǎn)數(shù).eil到ejk的距離表示為
式中:ndia為網(wǎng)絡(luò)直徑內(nèi)的節(jié)點(diǎn)數(shù),即整體網(wǎng)絡(luò)最短路徑包含的詞匯數(shù);sij為詞匯節(jié)點(diǎn)i到j(luò)的最短路徑包含的詞匯數(shù)量與直徑的差值;dlj為詞匯節(jié)點(diǎn)l與j的間距;δ(dlj,dki)為判別函數(shù):
通過式(6)~(9)計(jì)算無向網(wǎng)絡(luò)中節(jié)點(diǎn)的連邊相似性,獲得相應(yīng)的用戶特征詞匯無向網(wǎng)絡(luò).
3) 更新無向網(wǎng)絡(luò)中各節(jié)點(diǎn)權(quán)值.在概率論中,Softmax函數(shù)通過對(duì)分類結(jié)果賦予概率值的方法,避免了僅以數(shù)據(jù)極大值進(jìn)行線性判斷的局限性,被廣泛應(yīng)用于非線性數(shù)據(jù)的標(biāo)準(zhǔn)化處理.本研究將式(4)計(jì)算的各節(jié)點(diǎn)PageRank值作為網(wǎng)絡(luò)中節(jié)點(diǎn)的權(quán)值,利用Softmax函數(shù)對(duì)PageRank數(shù)據(jù)集R進(jìn)行標(biāo)準(zhǔn)化處理,表示為
式中:ri為節(jié)點(diǎn)vi的PageRank值,w(vi)為標(biāo)準(zhǔn)化處理后的節(jié)點(diǎn)權(quán)值.通過連邊相似性計(jì)算,用戶特征詞匯無向網(wǎng)絡(luò)連邊結(jié)構(gòu)得以更新,結(jié)合新生成的連邊計(jì)算更新節(jié)點(diǎn)權(quán)值.
4) 無向網(wǎng)絡(luò)邊權(quán)值計(jì)算.網(wǎng)絡(luò)連邊強(qiáng)度反映節(jié)點(diǎn)之間的緊密關(guān)系,若2個(gè)詞匯存在鏈路關(guān)系,則連邊強(qiáng)度加1,統(tǒng)計(jì)全部鏈路強(qiáng)度信息.
式中:w(eij)為節(jié)點(diǎn)vi與vj連邊的權(quán)值,f(eij)為節(jié)點(diǎn)vi與vj連邊強(qiáng)度,為整體網(wǎng)絡(luò)的連邊強(qiáng)度.依據(jù)式(12),采用基于圖論的層次聚類算法進(jìn)行聚類.
5) 檢驗(yàn)社區(qū)集群劃分信度.模塊度Q用于衡量傳統(tǒng)無向網(wǎng)絡(luò)的模塊劃分質(zhì)量.針對(duì)本研究提出的無向加權(quán)網(wǎng)絡(luò),在Q值計(jì)算基礎(chǔ)上加入邊權(quán)值計(jì)算,提升模塊劃分效果.改進(jìn)后的模塊度判別函數(shù)表示為
式中:k為網(wǎng)絡(luò)劃分的模塊數(shù);ωi為模塊i內(nèi)邊權(quán)數(shù)值和,ψij為模塊i與j的互連邊權(quán)數(shù)值和.
節(jié)點(diǎn)鏈路關(guān)系的變更催生網(wǎng)絡(luò)的動(dòng)態(tài)演化特性,針對(duì)鏈路預(yù)測的相關(guān)研究為社區(qū)聚類演化提供了理論基礎(chǔ).在加權(quán)社會(huì)網(wǎng)絡(luò)鏈路預(yù)測中,通過多路徑節(jié)點(diǎn)相似性(similarity based on transmission nodes of multipath, STNMP)[23]計(jì)算,增強(qiáng)量化相鄰用戶子群間的潛在關(guān)聯(lián),可以輸出精準(zhǔn)的更新鏈路,益于判斷用戶子群的發(fā)展趨勢.
節(jié)點(diǎn)相似性是鏈路預(yù)測的重要度量指標(biāo)之一.相似度越高的節(jié)點(diǎn)間往往具有越大的連邊可能性,其處于模塊間重疊社區(qū)的概率也越高.在網(wǎng)絡(luò)節(jié)點(diǎn)路徑的相似性計(jì)算中,為了解決數(shù)據(jù)的稀疏性問題,采用加權(quán)Jaccard距離[24]進(jìn)行度量,
式中:lsim (vi,vj)為意象節(jié)點(diǎn)對(duì)(vi,vj)最短路徑的邊權(quán)相似度,Nij為連通vi與vj的節(jié)點(diǎn)集,N*(vi)為節(jié)點(diǎn)vi的鄰居集.網(wǎng)絡(luò)鏈路包含傳播路徑信息.考慮到非鄰居節(jié)點(diǎn)間的鏈路具有復(fù)雜性和多樣性,進(jìn)行路徑的相似度計(jì)算,以篩選符合網(wǎng)絡(luò)更新的鏈路,避免過擬合狀態(tài)下的無效鏈路預(yù)測.依據(jù)式(14)計(jì)算邊權(quán)相似度,
式中:SLk為由節(jié)點(diǎn)鏈路{vi,v1,v2, ···,vr,vj}組成的路徑Lk(vi,vj)的路徑相似性得分.由于復(fù)雜的網(wǎng)絡(luò)圖具有較強(qiáng)的連通性,vi與vj間可能存在多條連接,路徑k僅反映該路徑對(duì)vi與vj的全局相似性的數(shù)值大小.為了提高預(yù)測路線的精準(zhǔn)性,須計(jì)算全局路線來確定預(yù)測鏈路,即進(jìn)行多路徑節(jié)點(diǎn)相似性計(jì)算.將連接vi到vj的所有路徑組成的集合記作L={l1,l2, ···,lp},計(jì)算多路徑相似度
式中:ST(vi,vj)為連接vi與vj的所有路徑對(duì)于節(jié)點(diǎn)(vi,vj)的相似性貢獻(xiàn)總和.利用式(15)、(16),可以得到總體路徑與其中一條路徑的相似性得分比值,以確立更新后的鏈路,實(shí)現(xiàn)用戶社區(qū)子群需求聚類演化鏈路預(yù)測.
隨機(jī)劃分訓(xùn)練集和測試集的無監(jiān)督評(píng)價(jià)模型驗(yàn)證方法能夠快速地輸出預(yù)測結(jié)果,但訓(xùn)練集在判別條件上受限于原有聚類主題,對(duì)更新網(wǎng)絡(luò)預(yù)測適用性較差,即新連邊概率難以驗(yàn)證AUC可以驗(yàn)證預(yù)測鏈路信度.如果不考慮網(wǎng)絡(luò)自身連接,n個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)的邊的上限集合U由n×(n-1)/2條邊組成,Eu為潛在構(gòu)成鏈路的邊,Eu=U-E,同時(shí)將E劃分為訓(xùn)練集Etr和測試集Ete,滿足隨機(jī)在Ete、Eu中各選一條邊,對(duì)比路徑相似性得分,獨(dú)立比較n次后,計(jì)算AUC,計(jì)算式為
式中:n′為Ete得分大于Eu的次數(shù),n′′為得分相同的次數(shù).
以水壺的用戶在線評(píng)論為研究案例,詳細(xì)闡述用戶購買決策的聚類過程.涉及水壺產(chǎn)品銷售的線上平臺(tái)較多,為了避免重復(fù)數(shù)據(jù)干擾實(shí)驗(yàn)結(jié)果,從淘寶、京東購物平臺(tái)獲取用戶信息,選取上述電商平臺(tái)的2022年度水壺銷售數(shù)據(jù).采集內(nèi)容包括評(píng)論文本、滿意度打分、購買時(shí)間、產(chǎn)品款式、商品效果圖等5類信息,涵蓋影響用戶購買行為發(fā)生的主要決策條件.剔除重復(fù)產(chǎn)品后,甄選出121款水壺樣本,保留17 811條有效評(píng)論,以“.CSV”格式存儲(chǔ)表示用戶需求信息,使用Jieba分詞工具進(jìn)行自動(dòng)化分詞處理,以構(gòu)建用戶需求詞典.部分商品效果圖如圖7所示.部分爬取的原始用戶評(píng)論數(shù)據(jù)包含評(píng)論文本、購買日期、樣本編號(hào)m,如表1所示.設(shè)定檢索步長Max Len=5,部分評(píng)論分詞處理結(jié)果如表2所示.
表1 用戶評(píng)論文本數(shù)據(jù)爬取結(jié)果(部分)Tab.1 User comment text data crawling results (partial)
表2 用戶評(píng)論文本分詞結(jié)果(部分)Tab.2 User comment text word segmentation results (partial)
圖7 商品效果圖(部分)Fig.7 Products renderings (partial)
為了篩選符合用戶需求的特征詞匯,結(jié)合語境對(duì)評(píng)論分詞進(jìn)行詞性過濾,最終確定4類基本詞性: 動(dòng)詞(Verb)、形容詞或序數(shù)詞(JJ)、形容詞(Adj)、名詞(Noun).依據(jù)各評(píng)論中詞匯出現(xiàn)次序的從屬關(guān)系確立評(píng)論鏈路,逐條整合全部評(píng)論數(shù)據(jù),構(gòu)建各詞性約束下的有向網(wǎng)絡(luò)圖,輔助進(jìn)行下一步的特征詞匯提取工作,如圖8所示為所選4類詞性的鏈路網(wǎng)絡(luò).利用式(4)計(jì)算不同詞性下的PageRank值,為了消除低頻無意義詞匯噪點(diǎn),保留4類詞性中排名前80%的詞匯作為特征詞匯,構(gòu)建水壺用戶評(píng)論描述特征集,部分篩選結(jié)果如表3所示.依據(jù)表3構(gòu)建用戶描述特征集V,消除冗余詞匯的同時(shí)保留了大量用戶訴求信息,為構(gòu)建特征詞匯無向網(wǎng)絡(luò)提供精準(zhǔn)可靠的數(shù)據(jù)來源.
表3 篩選后的特征詞匯(部分)Tab.3 Filtered feature vocabulary (partial)
圖8 4類詞性鏈路網(wǎng)絡(luò)Fig.8 Four types of part-of-speech link networks
用戶需求的量化受個(gè)體及環(huán)境的多維因素影響,須構(gòu)建無向加權(quán)網(wǎng)絡(luò)以明晰用戶決策模式.利用網(wǎng)絡(luò)全局性及子群的收斂性消除單一屬性劃分導(dǎo)致的需求割裂問題.通過設(shè)定檢索步長為1,排除詞匯自身連接,保留146個(gè)強(qiáng)鏈路關(guān)系節(jié)點(diǎn),依據(jù)評(píng)論次序建立有向目標(biāo)網(wǎng)絡(luò),利用式(5)計(jì)算得到146×146的鄰接矩陣R,部分?jǐn)?shù)據(jù)如表4所示.將網(wǎng)絡(luò)節(jié)點(diǎn)連邊的相似度作為4類詞性組建的意象詞匯無向網(wǎng)絡(luò)的連邊條件,利用式(6)~(9)將特征詞匯鄰接矩陣轉(zhuǎn)換為連邊相似性矩陣,以反映連接強(qiáng)度.相似度值較高的節(jié)點(diǎn)連邊建立強(qiáng)連接,相似度值較低的建立弱連接,所建立的無向網(wǎng)絡(luò)表征用戶購買決策關(guān)聯(lián)信息.針對(duì)已確定的146個(gè)特征詞匯,利用式(4)迭代計(jì)算輸出收斂的PageRank值,使用式(10)對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,部分?jǐn)?shù)據(jù)如表5所示.針對(duì)新構(gòu)建的無向網(wǎng)絡(luò)結(jié)構(gòu)特征,利用式(11)更新節(jié)點(diǎn)權(quán)值,其結(jié)果如表6所示.為了進(jìn)一步量化網(wǎng)絡(luò)信息關(guān)聯(lián)屬性,利用式(12)計(jì)算無向網(wǎng)絡(luò)連邊權(quán)值,保留146個(gè)特征詞匯的1 000條連邊信息,部分計(jì)算結(jié)果如表7所示,建立的評(píng)論特征詞匯無向加權(quán)網(wǎng)絡(luò)如圖9所示.
表4 特征詞匯無向網(wǎng)絡(luò)鄰接矩陣(部分)Tab.4 Adjacency matrix of feature vocabulary undirected network (partial)
表5 特征詞匯PageRank值及標(biāo)準(zhǔn)化(部分)Tab.5 Feature vocabulary PageRank values and standardization(partial)
表6 節(jié)點(diǎn)權(quán)值更新結(jié)果(部分)Tab.6 Node weight updated results (partial)
表7 節(jié)點(diǎn)連邊權(quán)值(部分)Tab.7 Weight of edges between nodes (partial)
圖9 評(píng)論特征詞匯無向加權(quán)網(wǎng)絡(luò)Fig.9 Undirected weighted network of comment feature vocabulary
基于圖論的層次聚類能夠?qū)崿F(xiàn)評(píng)論特征詞匯的快速聚類分析.依據(jù)加權(quán)網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合最小生成樹方法將146個(gè)特征詞匯劃分成7個(gè)評(píng)論社區(qū),邀請(qǐng)5名工業(yè)設(shè)計(jì)專家和3名深度訪談?dòng)脩魧?duì)評(píng)論社區(qū)特征進(jìn)行討論,得出7類用戶購買行為決策維度:產(chǎn)品質(zhì)感、造型設(shè)計(jì)、服務(wù)性、實(shí)用性、操控性、安全性、體驗(yàn)感.采用Jaccard距離計(jì)算連接強(qiáng)度.其中社區(qū)內(nèi)部采用實(shí)線連接,反映特征詞匯間映射關(guān)系;社區(qū)間采用虛線連接,映射產(chǎn)品描述維度之間的制約關(guān)聯(lián)條件,以此對(duì)完整的用戶評(píng)論信息關(guān)系進(jìn)行可視化描述.使用最小生成樹的方法,消除網(wǎng)絡(luò)圖中因連線數(shù)量過大導(dǎo)致聚類結(jié)果可讀性差的問題.無向加權(quán)網(wǎng)絡(luò)特征詞匯聚類結(jié)果如圖10所示,用戶購買行為發(fā)生的7類決策維度信息如表8所示.
表8 用戶購買行為發(fā)生的決策維度Tab.8 Decision dimension of user purchase behavior
圖10 特征詞匯無向加權(quán)網(wǎng)絡(luò)聚類結(jié)果Fig.10 Undirected weighted network clustering results of feature vocabulary
如圖11所示,構(gòu)建產(chǎn)品樣本與決策維度映射關(guān)系,進(jìn)行交叉匯總.其中底部橫坐標(biāo)表示樣本編號(hào),頂部樹狀圖反映各樣本間樹狀聚類關(guān)系;右側(cè)為7類決策維度,左側(cè)表示決策維度樹狀聚類關(guān)系;圖中色塊純度反映關(guān)聯(lián)程度rda.交叉匯總圖可以輔助設(shè)計(jì)師篩選各決策維度的參考樣本,以便他們進(jìn)行方案優(yōu)化設(shè)計(jì).以“操控性”為例,樣本17在造型設(shè)計(jì)上可作為參考樣本,借鑒其形態(tài)及要素特征開展產(chǎn)品形態(tài)設(shè)計(jì)能夠極大滿足用戶“操控性”的需求.利用式(13)計(jì)算網(wǎng)絡(luò)社區(qū)劃分的Qod值進(jìn)行信度檢驗(yàn),其中模塊1~7的內(nèi)部邊權(quán)值總和分別為4.417 533、0.964 068、9.773 802、5.658 013、1.543 370、4.207 739、3.153 114.模塊與模塊間互連邊權(quán)值的和如表9所示,計(jì)算得到Qod=0.72.網(wǎng)絡(luò)結(jié)構(gòu)中模塊度Q的計(jì)算結(jié)果截圖如圖12所示,其中解析度反映聚類數(shù)量的精準(zhǔn)度,取值越接近1,結(jié)果越理想.模塊度反映聚類效果,當(dāng)Q∈[0.3,0.7]時(shí),認(rèn)為達(dá)到理想的網(wǎng)絡(luò)聚類效果[25].本實(shí)驗(yàn)設(shè)定解析度為1.0,Q=0.36,聚類結(jié)果為7類,與所構(gòu)建的無向加權(quán)網(wǎng)絡(luò)聚類結(jié)果一致.采用改進(jìn)后的OCDL,計(jì)算得Qod=0.72,相比模塊度Q=0.36,檢驗(yàn)數(shù)值精度增加0.36,能夠較好地提升用戶特征詞匯的聚類效果.
表9 模塊間互連邊權(quán)值Tab.9 Interconnect edge weights between modules
圖11 樣本及決策維度交叉匯總Fig.11 Cross-summarization of sample and decision dimensions
圖12 網(wǎng)絡(luò)模塊度計(jì)算結(jié)果截圖Fig.12 Calculated screenshot of network modularity
網(wǎng)絡(luò)圖中固定的節(jié)點(diǎn)數(shù)量限定了連邊總數(shù)的上限,通過式(14)~(16)計(jì)算節(jié)點(diǎn)間路徑相似度實(shí)現(xiàn)鏈路預(yù)測,其中預(yù)測網(wǎng)絡(luò)的新增鏈路集合E*共有139條鏈路,利用邊權(quán)值計(jì)算方法計(jì)算新增鏈路權(quán)值,部分結(jié)果如表10所示.利用特征詞匯無向加權(quán)網(wǎng)絡(luò)模型對(duì)預(yù)測網(wǎng)絡(luò)進(jìn)行基于圖屬性的層次聚類,結(jié)果如圖13所示.分析預(yù)測網(wǎng)絡(luò)聚類結(jié)果,將用戶購買行為決策維度確定為5類,通過專家討論分別對(duì)各維度包含的特征詞匯進(jìn)行總結(jié),得出相應(yīng)的描述維度為產(chǎn)品質(zhì)感(觸感)、實(shí)用性、衍生功能、造型設(shè)計(jì)(視覺)、體驗(yàn)感.預(yù)測的用戶購買行為決策維度結(jié)果如 表11所示.
表10 新增鏈路權(quán)值(部分)Tab.10 New edges weights between nodes (partial)
表11 用戶購買行為決策維度的預(yù)測結(jié)果Tab.11 Prediction results of user purchase behavior decision dimension
圖13 特征詞匯無向加權(quán)預(yù)測網(wǎng)絡(luò)聚類結(jié)果Fig.13 Undirected weighted prediction network clustering results of feature vocabulary
鏈路預(yù)測精度和聚類效果均影響用戶社區(qū)子群需求演化結(jié)果輸出的可信度.使用AUC衡量鏈路精度,由式(17)得到本實(shí)驗(yàn)的AUC=0.86,遠(yuǎn)高于0.5[26],相較于隨機(jī)生成邊的方法,AUC具有更高的可信度.鏈路曲線下面積的計(jì)算結(jié)果如圖14所示.圖中,RFP為錯(cuò)誤識(shí)別率,RTP為正確識(shí)別率.Qod可以反映社區(qū)子群劃分信度,預(yù)測網(wǎng)絡(luò)計(jì)算得到Qod=0.69,相比傳統(tǒng)模塊度計(jì)算結(jié)果Q=0.33,改進(jìn)的OCDL滿足子群最佳聚類效果,明顯提升了數(shù)值驗(yàn)證信度.結(jié)果表明,利用鏈路預(yù)測方法可以有效解決用戶需求演化預(yù)測問題.
圖14 鏈路曲線下面積的計(jì)算結(jié)果Fig.14 Area under curve calculation result of link
由實(shí)驗(yàn)結(jié)果可知,改進(jìn)后的OCDL對(duì)無向加權(quán)網(wǎng)絡(luò)具有更精準(zhǔn)的模塊識(shí)別能力.原因是傳統(tǒng)模塊度Q反映網(wǎng)絡(luò)劃分后的模塊集團(tuán)邊占比問題,忽略了網(wǎng)絡(luò)邊權(quán)值信息,僅以連邊數(shù)量比值驗(yàn)證聚類效果.本研究構(gòu)建的評(píng)論特征詞匯無向加權(quán)網(wǎng)絡(luò)隸屬于社會(huì)網(wǎng)絡(luò),考慮到將用戶評(píng)論特征詞匯作為網(wǎng)絡(luò)節(jié)點(diǎn)會(huì)導(dǎo)致連邊數(shù)量繁多且存在重復(fù)連邊的情況,若采用無權(quán)模塊值計(jì)算方法會(huì)陷入以連邊數(shù)量判別社區(qū)劃分質(zhì)量的誤區(qū),忽略網(wǎng)絡(luò)邊權(quán)值差異對(duì)用戶購買行為決策聚類效果的影響.通過水壺案例驗(yàn)證,利用式(12)將邊數(shù)量信息轉(zhuǎn)換為邊權(quán)值信息,計(jì)算得到特征詞匯無向加權(quán)網(wǎng)絡(luò)Qod=0.72,明顯高于模塊度Q=0.36,結(jié)果表明,以邊屬性開展相似性判斷的網(wǎng)絡(luò)連邊權(quán)值方法利于提升模塊劃分的精度,能夠確定最佳聚類k值,輔助評(píng)論特征詞匯無向加權(quán)網(wǎng)絡(luò)開展用戶購買決策維度的聚類.
在自然語言處理的研究領(lǐng)域,無監(jiān)督的機(jī)器學(xué)習(xí)借助特征詞匯的上下文關(guān)系,開展主題的提取和聚類,揭示分析文本內(nèi)的潛在變量及隱藏結(jié)構(gòu).其中基于潛在狄利克雷分布(latent Dirichlet allocation, LDA)的主題模型,無論是對(duì)文本潛在主題的解釋層面還是數(shù)據(jù)運(yùn)算能力方面,都具有優(yōu)異的處理效果[27].為了驗(yàn)證特征詞匯無向加權(quán)網(wǎng)絡(luò)聚類結(jié)果的可靠性,使用LDA主題模型對(duì)用戶購買行為決策維度聚類結(jié)果進(jìn)行一致性檢驗(yàn),LDA主題模型聚類結(jié)果如圖15所示.圖中,NT為主題聚類數(shù)量,η為困惑度值,η越小聚類效果越理想;圓圈面積反映模塊成分占比,深色柱狀條代表選中模塊的主要特征詞統(tǒng)計(jì)結(jié)果;利用“手肘圖”方法確定當(dāng)NT=7時(shí),主題聚類效果最佳,與特征詞匯無向加權(quán)網(wǎng)絡(luò)聚類結(jié)果在主題數(shù)量上具有一致性.對(duì)比分析表8中的各決策維度與LDA各聚類主題發(fā)現(xiàn),二者存在大量相近的特征詞匯,表明改進(jìn)的OCDL可以針對(duì)用戶購買行為輸出較為準(zhǔn)確的決策維度.
圖15 潛在狄利克雷分布主題模型驗(yàn)證決策維度聚類結(jié)果Fig.15 Latent Dirichlet allocation topic model verifies decision dimension clustering results
特征詞匯無向加權(quán)網(wǎng)絡(luò)的Q=0.36,Qod=0.72,二者均高于預(yù)測網(wǎng)絡(luò)的Q=0.33,Qod=0.69.分析導(dǎo)致預(yù)測數(shù)據(jù)偏低的原因:作為檢驗(yàn)社區(qū)聚類效果的重要衡量指標(biāo)之一,模塊度的數(shù)值越大,網(wǎng)絡(luò)中社區(qū)結(jié)構(gòu)越趨于“內(nèi)緊外松”.本研究對(duì)現(xiàn)有節(jié)點(diǎn)基于網(wǎng)絡(luò)邊相似性進(jìn)行鏈路預(yù)測,側(cè)重挖掘由群體間信息交流導(dǎo)致聚類主題發(fā)生變化的因素,隨著用戶的意見交換,預(yù)測網(wǎng)絡(luò)“內(nèi)緊”結(jié)構(gòu)將會(huì)削弱,產(chǎn)生新的網(wǎng)絡(luò)結(jié)構(gòu),即用戶群將析出潛在需求組成新的購買決策維度.因此預(yù)測網(wǎng)絡(luò)中Q、Qod是對(duì)新網(wǎng)絡(luò)社區(qū)聚類效果的檢驗(yàn),不涉及原始網(wǎng)絡(luò),其Q、Qod在數(shù)值上的降低不代表預(yù)測網(wǎng)絡(luò)聚類效果低于特征詞匯無向加權(quán)網(wǎng)絡(luò)聚類效果.
網(wǎng)絡(luò)圖結(jié)構(gòu)包含的信息數(shù)據(jù)具有明確的權(quán)值關(guān)系,可以反映各聚類結(jié)果間的非線性關(guān)系,研究結(jié)果有助于設(shè)計(jì)師多角度全面把握具有突出貢獻(xiàn)的特征詞匯.例如,由圖10中“造型設(shè)計(jì)(視覺)”聚類結(jié)果可知,在“造型設(shè)計(jì)(視覺)”購買決策維度的宏觀層面,用戶的直接需求集中于產(chǎn)品的“外觀、顏色、材質(zhì)”層面,設(shè)計(jì)師應(yīng)著力于產(chǎn)品外觀樣式的變化,以滿足用戶對(duì)“大氣”“高端”“時(shí)尚”等感性詞匯的理解,引導(dǎo)購買決策行為的發(fā)生;“造型設(shè)計(jì)(視覺)”購買決策維度同時(shí)以“材質(zhì)”為連接樞紐,綜合產(chǎn)品“材質(zhì)—操作方式”“材質(zhì)—安全”“材質(zhì)—容量”的協(xié)同價(jià)值,分別與“操控性”“安全性”“實(shí)用性”購買決策之間存在跨維度微觀關(guān)聯(lián).本研究提出的加權(quán)網(wǎng)絡(luò)鏈路預(yù)測,是對(duì)實(shí)際購買用戶之間的需求信息傳播的模擬,目的是探究當(dāng)下用戶需求信息的聚類效果以及需求發(fā)展趨勢.與現(xiàn)有方法對(duì)比,本研究方法具備豐富的數(shù)據(jù)基數(shù),網(wǎng)絡(luò)連邊結(jié)構(gòu)保留了潛在需求關(guān)聯(lián)特性, 為需求動(dòng)態(tài)發(fā)展提供預(yù)測.例如,由圖10、13可知,用戶購買行為決策維度由初始的7類轉(zhuǎn)化為5類,其中產(chǎn)品質(zhì)感、造型設(shè)計(jì)、實(shí)用性、體驗(yàn)感等4個(gè)購買決策維度得以延續(xù),屬于相對(duì)穩(wěn)定的需求,產(chǎn)品的服務(wù)性(性價(jià)比)、操控性、安全性決策維度轉(zhuǎn)變?yōu)檠苌δ苄枨?,屬于待開發(fā)的需求.未來在開展水壺設(shè)計(jì)時(shí),可以在優(yōu)化4個(gè)穩(wěn)定需求的基礎(chǔ)上,將衍生功能維度作為創(chuàng)新設(shè)計(jì)的切入點(diǎn),例如開發(fā)智能溫控、手機(jī)交互及智慧監(jiān)測等功能,推進(jìn)產(chǎn)品的智能化設(shè)計(jì).
STNMP算法受初始節(jié)點(diǎn)數(shù)量限制,本研究主要針對(duì)現(xiàn)有網(wǎng)絡(luò)的新、舊鏈路的產(chǎn)生與消失進(jìn)行集群聚類的動(dòng)態(tài)預(yù)測.考慮流行元素對(duì)產(chǎn)品造型設(shè)計(jì)的時(shí)效性價(jià)值,其延續(xù)周期較短,不利于用戶深層次需求的轉(zhuǎn)化預(yù)測.因此,本研究在構(gòu)建預(yù)測網(wǎng)絡(luò)時(shí)未加入新節(jié)點(diǎn),面向用戶短期購買決策維度的預(yù)測效果有待進(jìn)一步驗(yàn)證.在用戶需求交互鏈路更新中,對(duì)于用戶評(píng)論按月份建立時(shí)間序列集合D={D1,D2, ···,Dn},其中Dn為第n月份用戶評(píng)論中所包含的特征詞匯.利用式(14)~(16)計(jì)算時(shí)序集不同時(shí)間段的各節(jié)點(diǎn)相似度,并對(duì)計(jì)算結(jié)果進(jìn)行均值化處理,以獲取完整的鏈路更新結(jié)果,避免主觀設(shè)定預(yù)測時(shí)序范圍造成的用戶顯性需求集中表達(dá)而隱性需求表達(dá)不完全的問題.為了精準(zhǔn)判斷預(yù)測結(jié)果的有效期限,使用爬蟲工具重新爬取2018—2021年的水壺購買評(píng)價(jià)信息,并按季度存儲(chǔ).以1—3月、1—6月、1—9月、1—12月作為時(shí)間跨度,利用LDA主題模型計(jì)算不同時(shí)間跨度內(nèi)的用戶需求數(shù)量,用戶需求預(yù)測結(jié)果有效期檢驗(yàn)結(jié)果如表12所示.表中,NTP為預(yù)測網(wǎng)絡(luò)主題聚類數(shù)量.當(dāng)時(shí)間跨度為1年(1—12月)時(shí),除2020年實(shí)際需求聚類數(shù)量和預(yù)測數(shù)量存在差異外,其余結(jié)果均一致,整體預(yù)測效果具有良好的解釋性.線上評(píng)論數(shù)據(jù)還受商業(yè)環(huán)境影響,偽用戶評(píng)論會(huì)對(duì)聚類結(jié)果造成嚴(yán)重影響,甚至使用戶需求預(yù)測失去價(jià)值.前期甄選數(shù)據(jù)的真實(shí)性制約著聚類模型的可靠性,本研究對(duì)偽用戶評(píng)論的判別主要采用一致性文本、指定詞匯、人工判別相結(jié)合的方法.隨著數(shù)據(jù)量的增加,今后的研究將開發(fā)自動(dòng)化數(shù)據(jù)處理程序,以減輕工作任務(wù)并提升數(shù)據(jù)信度.
表12 用戶需求預(yù)測結(jié)果有效期檢驗(yàn)結(jié)果Tab.12 User demand forecast result validity test
本研究針對(duì)用戶購買行為決策的多指標(biāo)非線性融合特質(zhì),借助復(fù)雜網(wǎng)絡(luò)重疊模塊識(shí)別和鏈路預(yù)測相關(guān)理論,模擬用戶固有特性與群體效應(yīng)相互作用推動(dòng)設(shè)計(jì)需求動(dòng)態(tài)變化的規(guī)律,實(shí)現(xiàn)用戶社區(qū)聚類結(jié)果輸出及其動(dòng)態(tài)演變結(jié)果預(yù)測.1)利用評(píng)論大數(shù)據(jù)信息構(gòu)建無向加權(quán)網(wǎng)絡(luò),確定用戶購買行為決策維度,提升了決策維度的一致性和聚類模型的泛化能力.2)利用網(wǎng)絡(luò)多路徑相似度計(jì)算,更新網(wǎng)絡(luò)鏈路結(jié)構(gòu),輸出用戶決策維度動(dòng)態(tài)調(diào)整結(jié)果,為明晰用戶需求轉(zhuǎn)變提供關(guān)鍵特征詞匯量化數(shù)據(jù),輔助設(shè)計(jì)師精準(zhǔn)判斷市場需求.3)通過案例研究驗(yàn)證預(yù)測預(yù)網(wǎng)絡(luò)的精度,輸出用戶決策轉(zhuǎn)變結(jié)果,為用戶需求預(yù)測提供新的思路及研究方法.下一步研究工作:1)本研究分別利用Matlab和Gephi軟件進(jìn)行基于圖屬性的層次聚類和網(wǎng)絡(luò)參數(shù)計(jì)算,后續(xù)將整合開發(fā)操作環(huán)境,優(yōu)化操作界面并內(nèi)嵌數(shù)據(jù)轉(zhuǎn)換模塊,提升數(shù)據(jù)處理的連貫性與可讀性,通過參數(shù)調(diào)節(jié)快速輸出可視化結(jié)果.2)在用戶子群演化聚類結(jié)果預(yù)測中,借助現(xiàn)有節(jié)點(diǎn)調(diào)整新舊連邊,更新網(wǎng)絡(luò)結(jié)構(gòu),模擬用戶需求的變化發(fā)展;實(shí)際決策過程受井噴流行元素影響,須進(jìn)一步結(jié)合時(shí)效性熱點(diǎn)驗(yàn)證短期消費(fèi)決策預(yù)測維度的信度.