趙志杰 劉 巖 張艷榮 周婉婷 孟令躍
(哈爾濱商業(yè)大學(xué)計(jì)算機(jī)與信息工程學(xué)院 黑龍江 哈爾濱 150028)(哈爾濱商業(yè)大學(xué)黑龍江省電子商務(wù)與信息處理重點(diǎn)實(shí)驗(yàn)室 黑龍江 哈爾濱 150028)
互聯(lián)網(wǎng)與新興信息技術(shù)的快速發(fā)展使得人們不再只是信息的傳遞者同時(shí)也是信息的創(chuàng)造者?;ヂ?lián)網(wǎng)海量數(shù)據(jù)的存在,使用戶難以高效地獲取自己感興趣的數(shù)據(jù),導(dǎo)致“信息過載”現(xiàn)象的存在。2018年年末在線旅游數(shù)據(jù)生態(tài)與治理峰會(huì)上八大OTA平臺(tái)聯(lián)合發(fā)布行業(yè)數(shù)據(jù)治理倡議書《在線旅游行業(yè)內(nèi)容和數(shù)據(jù)生態(tài)共建》。這一倡議書建議為消費(fèi)者提供更真實(shí)可靠的旅游數(shù)據(jù),幫助用戶正確、高效地選擇和決策。隨著移動(dòng)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的不斷完善,互聯(lián)網(wǎng)的普及率急速上升,多元化、專業(yè)化的酒店顧客需求開始覺醒。中國互聯(lián)網(wǎng)絡(luò)信息中心發(fā)布的《第43次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截止到2018年12月,30.3%的網(wǎng)民在網(wǎng)上預(yù)訂酒店[1],這一舉措給酒店業(yè)的建設(shè)提出挑戰(zhàn)。由此可見,研究消費(fèi)者的用戶偏好對(duì)如今的酒店業(yè)而言意義非凡。
本文以O(shè)TA巨頭“攜程網(wǎng)”上的五種類型酒店顧客產(chǎn)生的酒店評(píng)論為基礎(chǔ)數(shù)據(jù),運(yùn)用文本挖掘技術(shù)、情感分析技術(shù)和機(jī)器學(xué)習(xí)算法分別對(duì)五類用戶評(píng)論數(shù)據(jù)進(jìn)行分析處理,通過對(duì)文本數(shù)據(jù)進(jìn)行特征聚類、權(quán)值計(jì)算、情感傾向性估計(jì)值計(jì)算、特征優(yōu)選,構(gòu)建基于Lasso-LDA的用戶偏好模型。采用LDA主題模型聚類,總體得出顧客對(duì)于酒店的一系列偏好因素;運(yùn)用Lasso回歸進(jìn)行特征篩選,基于每一類型的顧客剔除不重要的特征因素以達(dá)到特征優(yōu)選,最后得到用戶偏好模型。模型有助于顧客根據(jù)自己的需求精準(zhǔn)地選擇適合的酒店,而對(duì)于商家,也可以依此有針對(duì)性地打造出個(gè)性化服務(wù)和創(chuàng)新經(jīng)營方式,提升市場競爭力。
LDA是最先由Blei等在2003年提出的包含文檔-主題-詞3層貝葉斯文檔主題生成模型,LDA是一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,用來識(shí)別隱藏在文檔集或語料庫中的主題信息。對(duì)于LDA在文本挖掘中的應(yīng)用,文獻(xiàn)[2]使用LDA對(duì)小紅書中的評(píng)價(jià)文本數(shù)據(jù)進(jìn)行主題建模,將聚類得出的高頻詞劃分為8個(gè)主類目,構(gòu)建結(jié)構(gòu)方程模型研究小紅書用戶粘性形成的動(dòng)態(tài)機(jī)制。文獻(xiàn)[3]將LDA這種半監(jiān)督方法與其他的半監(jiān)督方法和監(jiān)督分類方法對(duì)比,結(jié)果表明,在文本分類精度方面LDA方法遠(yuǎn)優(yōu)于其他方法。同時(shí),實(shí)驗(yàn)證明LDA方法可適用于標(biāo)簽文本缺失的情況下。
隨著LDA模型的不斷完善,LDA被廣泛應(yīng)用于各行各業(yè)的文本分析。文獻(xiàn)[4]采用LDA模型對(duì)汽車保險(xiǎn)欺詐索賠中的文字信息進(jìn)行文本分析,結(jié)合深度神經(jīng)網(wǎng)絡(luò)對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,結(jié)合深度神經(jīng)網(wǎng)絡(luò)和LDA的框架適用于判斷汽車保險(xiǎn)欺詐問題。文獻(xiàn)[5]描述一個(gè)使用電子請(qǐng)?jiān)笖?shù)據(jù)訓(xùn)練和驗(yàn)證LDA的框架,通過嚴(yán)格的訓(xùn)練和評(píng)估,87%的LDA生成的主題對(duì)法官了解請(qǐng)?jiān)刚叩闹饕V求有參考意義,發(fā)現(xiàn)LDA主題可以比通過手動(dòng)內(nèi)容分析提取的主題更具一些優(yōu)勢(shì)。LDA能夠反映文本中表達(dá)的多個(gè)主題,提取人類編碼器未突出顯示的新主題,并且不易受人類偏見的影響。
Lasso是由Robert Tibshirani于1996年首次提出的一種基于壓縮估計(jì)的特征選擇方法并且應(yīng)用于各個(gè)行業(yè)領(lǐng)域。文獻(xiàn)[6]將Lasso框架應(yīng)用于虛擬金融上,把返回的21個(gè)潛在因素優(yōu)化替換為8個(gè)因素,找出影響強(qiáng)度最重要的兩種變量。文獻(xiàn)[7]將Lasso應(yīng)用于船舶業(yè)中,用以預(yù)測不同海況和天氣下船舶的燃油消耗,得到大量的特征變量,應(yīng)用Lasso實(shí)現(xiàn)特征選擇,提出一種新的預(yù)測模型。文獻(xiàn)[8]應(yīng)用Lasso研究與金融因素、市場驅(qū)動(dòng)指標(biāo)和宏觀經(jīng)濟(jì)預(yù)測因素相關(guān)的市場隱含信用評(píng)級(jí)的決定因素,記錄了實(shí)質(zhì)性的預(yù)測能力,將Lasso選擇的模型與基準(zhǔn)有序概率模型進(jìn)行比較,發(fā)現(xiàn)Lasso選擇的模型具有卓越的預(yù)測能力,在全部樣本預(yù)測中都優(yōu)于基準(zhǔn)有序概率模型。文獻(xiàn)[9]將Lasso應(yīng)用在醫(yī)藥行業(yè)上,提出一種新的藥物-靶標(biāo)相互作用預(yù)測方法,使用Lasso減少提取的特征信息維度,然后使用合成少數(shù)過采樣技術(shù)(SMOTE)方法處理不平衡數(shù)據(jù)。最后,將處理后的特征向量輸入隨機(jī)森林(RF)分類器以預(yù)測藥物-目標(biāo)相互作用。文獻(xiàn)[10]提出一種自適應(yīng)特征提取算法,預(yù)先生成各種大氣條件下的光譜特征,然后利用Lasso算法進(jìn)行快速特征優(yōu)選,選擇出最優(yōu)目標(biāo)-背景組合重構(gòu)背景光譜,最后提取目標(biāo)特征。文獻(xiàn)[11]將Lasso應(yīng)用于金融領(lǐng)域,不同于以往常規(guī)的變量選擇,提出針對(duì)時(shí)間序列的改進(jìn)自適應(yīng)Lasso方法,提高對(duì)未來的預(yù)測能力。
新興信息技術(shù)推動(dòng)著消費(fèi)結(jié)構(gòu)從生存型消費(fèi)向享受型、發(fā)展型消費(fèi)轉(zhuǎn)變,消費(fèi)者不再被動(dòng)地接受來自商家提供的服務(wù),而是通過自身的參與和網(wǎng)絡(luò)生成內(nèi)容主動(dòng)地發(fā)表自己的偏好。文獻(xiàn)[12]提出一種從一組評(píng)論中提取評(píng)論貢獻(xiàn)者偏好的方法。提取的偏好用于酒店推薦,使得貢獻(xiàn)者給出的具有類似于用戶偏好的評(píng)估值被賦予更大的權(quán)重,用此方法可以推薦符合用戶偏好的酒店。文獻(xiàn)[13]提出用于從評(píng)論文本中學(xué)習(xí)和表示用戶的偏好知識(shí),利用所獲得的表示來支持評(píng)級(jí)預(yù)測的一種混合方法,并用此方法對(duì)亞馬遜產(chǎn)品數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),揭示用戶偏好知識(shí)表現(xiàn)的能力以及對(duì)評(píng)論預(yù)測的影響。文獻(xiàn)[14]利用用戶的評(píng)分與評(píng)論數(shù)據(jù),提出一種基于貝葉斯網(wǎng)絡(luò)的用戶偏好建模方法。利用隱變量確定模型的初始結(jié)構(gòu)約束和初始參數(shù)約束,使用亞馬遜電影評(píng)價(jià)數(shù)據(jù)集作為測試數(shù)據(jù),對(duì)用戶偏好模型進(jìn)行驗(yàn)證。文獻(xiàn)[15]針對(duì)高維、稀疏的評(píng)分?jǐn)?shù)據(jù)提出一種基于深度信念網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)的用戶偏好建模方法,分別利用深度信念網(wǎng)絡(luò)和貝葉斯網(wǎng)絡(luò)對(duì)評(píng)分?jǐn)?shù)據(jù)進(jìn)行分類以及描述相關(guān)屬性間的不確定性,最后使用MovieLens和大眾點(diǎn)評(píng)數(shù)據(jù)對(duì)模型進(jìn)行驗(yàn)證。
CNNIC報(bào)告顯示,截止到2019年6月我國在線旅行預(yù)訂用戶占網(wǎng)民整體的48.9%。隨著中國經(jīng)濟(jì)發(fā)展加速,“人均GDP 1萬美金俱樂部”成員呈指數(shù)上升,越來越多的新人口進(jìn)入旅游消費(fèi)市場,使得酒店預(yù)訂需求進(jìn)一步增長。Trustdata移動(dòng)大數(shù)據(jù)監(jiān)測平臺(tái)于2019年8月29日發(fā)布的《2019上半年中國在線酒店預(yù)訂行業(yè)發(fā)展分析報(bào)告》顯示,主流在線酒店預(yù)訂平臺(tái)用戶粘性均超20%,其中攜程表現(xiàn)最優(yōu)達(dá)24.3%。因此,本文基于攜程網(wǎng)平臺(tái)進(jìn)行調(diào)研,將本文所得情感傾向性估計(jì)值與之相比,發(fā)現(xiàn)存在評(píng)論與分值具有偏差的問題。本文利用AipNLP計(jì)算情感傾向性估值對(duì)存在偏差的數(shù)據(jù)進(jìn)行剔除,以便得到實(shí)驗(yàn)所需的真實(shí)數(shù)據(jù),本文構(gòu)建的模型進(jìn)一步提升酒店的管理經(jīng)營模式。攜程有著自有的評(píng)價(jià)指標(biāo),分別是環(huán)境、設(shè)施、服務(wù)和衛(wèi)生四個(gè)方面,但分析大量的評(píng)論數(shù)據(jù)后,發(fā)現(xiàn)評(píng)論的文本與攜程自有的用戶偏好特征不能完全地進(jìn)行匹配,評(píng)論文本本身包含更多和更詳細(xì)的信息。為了獲得更加客觀和細(xì)致化的用戶偏好特征,本文在評(píng)價(jià)指標(biāo)的獲取中使用LDA模型進(jìn)行用戶偏好特征聚類,為使獲取的特征更理想,使用Lasso算法剔除掉聚類中不重要的特征,得以分辨出五種不同類型的顧客所關(guān)注的特征指標(biāo)的不同,使得不同類型的顧客個(gè)性化偏好存在差異。例如,假設(shè)用戶重視交通的便利程度,則對(duì)于這類顧客而言個(gè)性化偏好為交通方面,使用Lasso特征優(yōu)選盡可能地剔除與偏好特征不一致的特征,從而使商家有效地對(duì)不同類型的顧客提供不同的酒店服務(wù)。
綜上所述,目前國內(nèi)對(duì)酒店用戶偏好模型的構(gòu)建還有待完善,大多數(shù)學(xué)者只是從酒店本身總體的經(jīng)營情況進(jìn)行建模,得出的一系列特征指標(biāo)是針對(duì)酒店總體性的,并沒有從酒店客戶群體進(jìn)行考慮,未細(xì)分顧客群體,盲目地將總體的偏好強(qiáng)加于各類顧客上。因此,本文基于這一問題,首先使用LDA主題模型將所得到的數(shù)據(jù)進(jìn)行總體聚類,得出一系列特征因素;然后針對(duì)每種類型客戶的TF-IDF權(quán)值計(jì)算每種類型客戶的個(gè)性化偏好屬性值;最后通過對(duì)比三類回歸方法,利用更為精準(zhǔn)的Lasso特征優(yōu)選得到每種類型客戶的優(yōu)選特征,構(gòu)建基于Lasso-LDA的用戶偏好模型,為酒店管理者隨時(shí)追蹤顧客認(rèn)知和服務(wù)質(zhì)量提供客觀、真實(shí)、有效的信息,從而能快速有效地為不同的用戶群體提供其滿意的個(gè)性化服務(wù),而不再局限于現(xiàn)有酒店行業(yè)一成不變的服務(wù),為酒店提升行業(yè)競爭力。
本文主要運(yùn)用LDA模型對(duì)用戶偏好特征聚類,基于TF-IDF對(duì)用戶偏好權(quán)值進(jìn)行計(jì)算,結(jié)合情感傾向性分析方法對(duì)酒店用戶評(píng)論進(jìn)行統(tǒng)計(jì)分析,確定用戶偏好程度,最后運(yùn)用Lasso算法對(duì)用戶偏好特征進(jìn)行篩選,構(gòu)建出基于Lasso-LDA的用戶偏好模型。該模型按照信息處理的先后順序分為三個(gè)部分:數(shù)據(jù)的采集及預(yù)處理,基于LDA的用戶特征偏好的確定,基于Lasso-LDA的用戶偏好模型的構(gòu)建。本文的研究框架如圖1所示。
圖1 基于Lasso-LDA用戶偏好模型研究基本框架
(1) 數(shù)據(jù)來源。攜程財(cái)報(bào)公布數(shù)據(jù)顯示,截至2018年12月31日,攜程全年住宿預(yù)訂收入為116億元人民幣,同比增長21%,全年旅游度假業(yè)務(wù)營業(yè)收入為38億元,同比增長27%,整體行業(yè)發(fā)展呈上升趨勢(shì),行業(yè)優(yōu)勢(shì)明顯。因此,本文主要以攜程網(wǎng)上的酒店評(píng)論數(shù)據(jù)為數(shù)據(jù)源,借助網(wǎng)絡(luò)信息采集工具“八爪魚采集器”對(duì)數(shù)據(jù)進(jìn)行采集,并將采集到的每一條記錄內(nèi)容通過八爪魚采集器以Excel表格形式導(dǎo)出。
(2) 基于AipNLP的反差評(píng)論數(shù)據(jù)剔除。由于在所收集的數(shù)據(jù)中會(huì)存在評(píng)論數(shù)據(jù)與評(píng)分?jǐn)?shù)據(jù)不一致的數(shù)據(jù),因此采用情感傾向性分析方法對(duì)這類數(shù)據(jù)進(jìn)行排除,確保數(shù)據(jù)的有效性。本文采用百度自然語言處理平臺(tái)進(jìn)行情感傾向性估值計(jì)算,該平臺(tái)可自動(dòng)對(duì)包含主觀信息的文本進(jìn)行情感傾向性判斷,為口碑分析、話題監(jiān)控和輿情分析等應(yīng)用提供基礎(chǔ)技術(shù)支持。同時(shí),該平臺(tái)基于深度學(xué)習(xí)訓(xùn)練,在相對(duì)長的句子上仍能確保較高的效果,可得到整體精度很高的情感傾向性分析結(jié)果。此外,該平臺(tái)垂直類效果優(yōu),在酒店、汽車等多個(gè)垂直類上情感傾向性分析可達(dá)到95%以上的準(zhǔn)確率,并且已應(yīng)用于實(shí)際電商產(chǎn)品銷售分析中。在測試過程中本文應(yīng)用情感傾向分析接口對(duì)包含主觀觀點(diǎn)信息的文本進(jìn)行情感傾向性類別(積極、消極和中性)的判斷,例如用戶評(píng)論:“前臺(tái)的服務(wù)意識(shí)沒有達(dá)到星級(jí)標(biāo)準(zhǔn),體驗(yàn)超差!直接給安排的吸煙區(qū)房間,這季節(jié)根本不滿房,離店時(shí)又說沒提早和她說開發(fā)票,服務(wù)和體驗(yàn)超差!”經(jīng)過AipNLP處理之后,可得到表1所示的結(jié)果,其中:positive代表積極類別的概率;negative代表消極類別的概率;confidence代表分類的置信度;sentiment代表情感傾向性分類結(jié)果。在測試過程中主要應(yīng)用post方式進(jìn)行調(diào)用,JSON作為返回格式。由于攜程平臺(tái)上的酒店用戶評(píng)分采用5分制原則,為了便于對(duì)比,本文根據(jù)5×′positive′將得出的情感傾向性估值與酒店評(píng)分進(jìn)行對(duì)比,將評(píng)論數(shù)據(jù)與評(píng)分?jǐn)?shù)據(jù)不一致的數(shù)據(jù)剔除。通過分析示例用戶評(píng)價(jià)內(nèi)容可知該評(píng)論為差評(píng),而用戶給出的星級(jí)評(píng)分為5分,這明顯高于情感傾向性估值0.03分,為無效數(shù)據(jù),需剔除。在實(shí)驗(yàn)數(shù)據(jù)處理中將采集到的每條評(píng)論數(shù)據(jù)運(yùn)用AipNLP進(jìn)行上述處理,將反差數(shù)據(jù)排除,由于AipNLP計(jì)算出的情感傾向性估值較攜程平臺(tái)上用戶星級(jí)評(píng)分值更加客觀和具體,因此,將得到的情感傾向性估值數(shù)據(jù)進(jìn)行保存,方便后續(xù)建模使用。
表1 反差數(shù)據(jù)用例
(3) 數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是為了保證數(shù)據(jù)的有效性,是數(shù)據(jù)處理過程和分析過程中不可缺少的關(guān)鍵步驟。在本文數(shù)據(jù)預(yù)處理過程中主要對(duì)數(shù)據(jù)進(jìn)行清洗、分詞、去停用詞及去噪處理。為了保證模型構(gòu)建的準(zhǔn)確度,采用中科院譚松波教授整理的酒店評(píng)論數(shù)據(jù)集作為本文模型構(gòu)建時(shí)數(shù)據(jù)處理的數(shù)據(jù)集。該數(shù)據(jù)集共10 000篇評(píng)論,將其80%的評(píng)論作為訓(xùn)練集,20%的評(píng)論作為測試集。在對(duì)所收集到的數(shù)據(jù)進(jìn)行分析測試時(shí)發(fā)現(xiàn),需要清洗掉的數(shù)據(jù)主要包括:① 同一個(gè)用戶進(jìn)行多次評(píng)論,且評(píng)論內(nèi)容相同,此時(shí)必須對(duì)重復(fù)數(shù)據(jù)進(jìn)行刪除,否則會(huì)對(duì)所測試的真實(shí)的正負(fù)面評(píng)論產(chǎn)生“虛高”影響;② 有些用戶評(píng)論為無效評(píng)論,比如評(píng)論內(nèi)容全部為標(biāo)點(diǎn)符號(hào)或表情符號(hào),這些數(shù)據(jù)需全部刪除。接下來針對(duì)清洗后的評(píng)論語句,在處理過程中運(yùn)用jieba分詞工具進(jìn)行分詞處理,同時(shí)加載哈工大的停用詞表,停用詞表會(huì)根據(jù)本文的需要剔除一些詞匯。最后利用過濾函數(shù)過濾如日期、英文等噪聲數(shù)據(jù),將經(jīng)過預(yù)處理后的數(shù)據(jù)保存進(jìn)行后續(xù)處理。
本文采用LDA(隱含狄利克雷分布)主題模型聚類方法面向處理過的數(shù)據(jù),聚類一定量的因素來確定用戶對(duì)酒店服務(wù)的特征偏好。LDA是判斷兩個(gè)文檔的關(guān)聯(lián)程度使用的方法,主要查看兩個(gè)文檔中出現(xiàn)相同單詞的個(gè)數(shù),一個(gè)文檔表示一些主題所構(gòu)成的概率分布,一個(gè)主題代表一些單詞所構(gòu)成的概率分布。同時(shí),詞袋方法被應(yīng)用于LDA中,該方法使每篇文檔被看作一個(gè)詞頻向量,并將文本信息轉(zhuǎn)化為易于建模的數(shù)字信息。由于詞袋方法不考慮兩個(gè)詞之間的順序,因此問題的復(fù)雜性也就被簡單化。LDA概率圖模型如圖2所示。
圖2 LDA的概率圖模型結(jié)構(gòu)
圖2中,m表示文章序號(hào);k表示主題個(gè)數(shù);n表示詞袋長度;Nm表示第m篇文章中單詞的總數(shù);α表示每篇文章的主題分布的先驗(yàn)分布狄利克雷(Dirichlet)分布的參數(shù)(也被稱為超參數(shù),簡稱Dir);β表示每個(gè)主題的詞分布的先驗(yàn)分布Dirichlet分布的參數(shù),是一個(gè)V維向量,V代表詞匯表里的所有詞的個(gè)數(shù);θm是一個(gè)K維列向量,表示第m篇文章的主題分布;θm~Dir(α)表示本文所需參數(shù);φk是一個(gè)V維向量,表示第k個(gè)主題的詞分布;φk~Dir(β)也為本文所需參數(shù);zm,n表示第m篇文章第n個(gè)詞被賦予的主題;wm,n表示第m篇文章第n個(gè)詞。主題分布表示為:
(1)
詞分布表示為:
p(w,z|α,β)=p(w|z,β)p(z|α)=
(2)
根據(jù)式(1)-式(2)結(jié)合代碼可知LDA工作流程為:① 將預(yù)處理后的數(shù)據(jù)集、關(guān)鍵詞數(shù)量、主題數(shù)量三個(gè)參數(shù)傳入主題模型函數(shù)中,并使用gensim接口,將文本轉(zhuǎn)為向量化表示,構(gòu)建詞空間,使用BOW模型向量化,根據(jù)TF-IDF算法對(duì)每個(gè)詞進(jìn)行加權(quán)計(jì)算,得到加權(quán)后的向量表示;② 選擇加載的模型LDA,得到數(shù)據(jù)集的主題-詞分布;③ 對(duì)詞分布和文檔分布的相似度進(jìn)行計(jì)算,將相似度最高的詞作為關(guān)鍵詞,再對(duì)輸入文本與每個(gè)詞的主題分布進(jìn)行相似度計(jì)算;④ 取相似度最高的前8個(gè)詞作為用戶特征偏好影響因素。LDA實(shí)驗(yàn)結(jié)果如表2所示。
表2 主題分布相似度
數(shù)據(jù)結(jié)果顯示,酒店用戶在總體感受、設(shè)備設(shè)施、餐飲、位置、交通、價(jià)格、服務(wù)和衛(wèi)生八個(gè)方面的主題分布相似度測試數(shù)據(jù)位于測試結(jié)果的前八位,其中:主題分布相似度最高的是服務(wù)屬性,設(shè)備設(shè)施屬性位于第二。因此可知酒店用戶通常會(huì)將入住酒店的服務(wù)作為首要關(guān)注點(diǎn),其次為酒店提供的設(shè)備設(shè)施條件。毋庸置疑,好的服務(wù)水平和設(shè)備設(shè)施條件從感官上會(huì)直接帶給用戶舒適的入住體驗(yàn)。同時(shí),總體感受、交通、價(jià)格、餐飲、位置、衛(wèi)生這六個(gè)用戶特征偏好也會(huì)得到很高的用戶關(guān)注,因此,酒店管理人員應(yīng)及時(shí)調(diào)整各方面的服務(wù)水平,確保酒店良好運(yùn)營。
(1) 基于TF-IDF的用戶偏好權(quán)值計(jì)算。TF-IDF是詞頻和反文檔頻率兩個(gè)算法的綜合應(yīng)用,利用TF-IDF算法結(jié)合情感傾向性分析方法對(duì)評(píng)論文本數(shù)據(jù)特征進(jìn)行賦值,并將情感傾向性估計(jì)值作為用戶的偏好程度。一個(gè)文檔里的詞匯重要性計(jì)算式表示為:
(3)
(4)
式中:|D|表示語料庫中存在的文件總數(shù)。如果該詞不在庫中,則被除數(shù)為零,因此式(4)被除數(shù)由式子1+|{j:ti∈dj}|代替,最后得到TF-IDF值為:
tfidfi,j=tfi,j×idfi
(5)
由式(5)可知,一個(gè)文件內(nèi)的詞頻率乘以該詞在整個(gè)文件集合中的文件頻率,可得到TF-IDF值。一般來說,文本表示方式分為離散式和分布式兩種,結(jié)合本文的數(shù)據(jù)情況,采用離散式文本表示方法中的TF-IDF算法對(duì)評(píng)論數(shù)據(jù)進(jìn)行權(quán)重計(jì)算以得到特征屬性表示值,具體執(zhí)行過程為:① 獲取總的文檔數(shù),記錄每個(gè)詞出現(xiàn)的文檔數(shù);② 按公式將其轉(zhuǎn)換為IDF值,然后進(jìn)行拉普拉斯平滑處理,使用該方法目的是將分母加1,對(duì)于沒有在字典中出現(xiàn)的詞,將該詞默認(rèn)為只在其中一個(gè)文檔中出現(xiàn)過,最后得到默認(rèn)的IDF值;③ 按公式計(jì)算TF-IDF值,根據(jù)TF-IDF的排序,取排名前keyword_num個(gè)詞作為關(guān)鍵詞,在評(píng)論中每個(gè)因素如果有多個(gè)就進(jìn)行TF-IDF值的求和運(yùn)算,如果評(píng)論中未出現(xiàn)某影響因素,則賦值為0。例如評(píng)論:“位置距離哈站只有幾分鐘的車程,打車起步價(jià)。剛開業(yè)三個(gè)月大堂豪華,室內(nèi)干凈高檔完全不像這個(gè)價(jià)位的酒店,性價(jià)比極高,就是距離地鐵站有點(diǎn)小遠(yuǎn)步行大概十幾分鐘,總之住宿體驗(yàn)很好”,實(shí)驗(yàn)結(jié)果如表3所示。
表3 TF-IDF實(shí)驗(yàn)結(jié)果
(2) 基于Lasso的用戶特征偏好篩選。本文主要利用Lasso回歸,剔除相關(guān)性較小因素,得到Lasso預(yù)測模型,對(duì)用戶特征偏好進(jìn)行篩選。Lasso是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì),它利用所構(gòu)造的懲罰函數(shù)確定相對(duì)精煉的模型,利用這個(gè)模型壓縮一些系數(shù),同時(shí)設(shè)定某些系數(shù)為零,通過這個(gè)方法能夠?qū)⒆蛹湛s的優(yōu)點(diǎn)保留下來。Lasso回歸又叫線性回歸的L1正則化,它通過對(duì)最小二乘估計(jì)加入L1范數(shù)作為罰約束,使某些系數(shù)估計(jì)為0,因此可以減少參數(shù)數(shù)量,Lasso回歸預(yù)測模型目標(biāo)函數(shù)表示為:
(6)
式中:RSS是實(shí)際值減去估計(jì)值的差的平方和;λ是調(diào)優(yōu)參數(shù);p為參數(shù)個(gè)數(shù)。根據(jù)式(6)可知,由于Lasso回歸模型的目標(biāo)函數(shù)包含懲罰項(xiàng)系數(shù)λ,因此在計(jì)算模型回歸系數(shù)前,需要得到最理想的λ值,λ值的確定可以通過定性的可視化方法和定量的交叉驗(yàn)證方法。同時(shí),Lasso作為一種λ特征選擇方法相比于嶺回歸,其在完成系數(shù)估計(jì)的同時(shí)就能夠完成特征的選擇,還能夠降低過擬合,是近幾年備受關(guān)注的特征選擇工具,綜合以上研究結(jié)果結(jié)合用戶偏好相關(guān)理論研究,可得不同類型用戶的偏好模型表示為:
(7)
式中:user_preferences代表用戶偏好;Intercept代表截距項(xiàng);si代表用戶偏好特征因素;ωi代表對(duì)應(yīng)si的系數(shù)。
本文利用八爪魚數(shù)據(jù)采集器從攜程網(wǎng)的酒店社區(qū)共采集15 000條用戶評(píng)論數(shù)據(jù)作為數(shù)據(jù)源,在采集過程中主要以用戶類型為獨(dú)自出行、朋友出游、親子旅行、情侶出游、商務(wù)出差的五類人士,對(duì)酒店進(jìn)行的評(píng)論以及對(duì)應(yīng)的酒店總評(píng)分和環(huán)境、設(shè)施、服務(wù)、衛(wèi)生四個(gè)方面的評(píng)分為采集數(shù)據(jù)。采集后利用AipNLP剔除評(píng)論反差數(shù)據(jù),對(duì)剩余有效數(shù)據(jù)再進(jìn)行預(yù)處理,然后采用LDA主題聚類的方法提取用戶特征偏好,并通過TF-IDF統(tǒng)計(jì)特征值對(duì)評(píng)論文本數(shù)據(jù)特征進(jìn)行賦值,利用情感傾向性估計(jì)值作為用戶的偏好程度,最后采用Lasso進(jìn)行特征的篩選及預(yù)測。
在篩選過程中針對(duì)用戶類型為獨(dú)自出行、朋友出游、親子旅行、情侶出游、商務(wù)出差這五類人士在總體感受、設(shè)備設(shè)施、餐飲、位置、交通、價(jià)格、服務(wù)和衛(wèi)生八個(gè)方面的數(shù)據(jù)利用Lasso回歸與線性回歸和嶺回歸做對(duì)比,以商務(wù)出差用戶評(píng)論數(shù)據(jù)為例,將80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測試集,采用sklearn子模塊linear_model中的Lasso類及Ridge類對(duì)Lasso回歸和嶺回歸中目標(biāo)函數(shù)所包含的懲罰項(xiàng)系數(shù)進(jìn)行計(jì)算,如圖3和圖4所示。
圖3 LASSO回歸結(jié)果圖
圖4 嶺回歸結(jié)果圖
可以看出,初始迭代的λ值落在10-5~102之間,圖中的每條曲線指代不同的變量。由于出現(xiàn)了喇叭形曲線,說明該變量存在多重共線性,圖3中λ值落在0.000 5附近,圖4中λ值落在0.05附近,此時(shí)絕大多數(shù)變量的回歸系數(shù)趨于穩(wěn)定,所以可以鎖定合理的λ值范圍。接下來分別采用sklearn子模塊linear_model中的LassoCV類及RidgeCV類,采用10重交叉驗(yàn)證的方法分別得到Lasso回歸與嶺回歸的最佳的λ值,Lassoλ=0.000 8,Ridgeλ=0.074 1,與可視化方法確定的λ值范圍基本一致。最后基于最佳的λ值分別得到Lasso和嶺回歸的模型回歸系數(shù),采用statmdels子模塊api類對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練得到多元線性回歸模型的系數(shù)?;谝陨匣貧w系數(shù)分別得到多元線性回歸、嶺回歸及Lasso回歸的表達(dá)式:
Y1=3.511 3+0.017 2X1-0.166 8X2+
0.708 5X3+0.403 5X4+0.125 0X5+
0.021 3X6+0.649 1X7-1.299 8X8
(8)
Y2=3.570 6+0.023 5X1-0.168 3X2+
0.646 7X3+0.369 6X4+0.111 6X5-
0.057 2X6+0.577 7X7-1.226 2X8
(9)
Y3=3.594 9-0.161 6X2+0.629 8X3+0.373 3X4+
0.052 4X5+0.580 4X7-1.258 2X8
(10)
利用上述回歸模型,分別在測試集上進(jìn)行預(yù)測后,采用均方根誤差RMSE對(duì)模型的預(yù)測效果進(jìn)行衡量,三種回歸的RMSE值如表4所示。
表4 Lasso回歸與線性回歸及嶺回歸比較數(shù)據(jù)
從商務(wù)出差類型用戶的三種回歸所對(duì)應(yīng)的RMSE值中可知使用Lasso回歸進(jìn)行測試所得到的RMSE值最小,這表明使用Lasso回歸確定的特征值更接近實(shí)際特征值。對(duì)比式(8)、式(9)和式(10)發(fā)現(xiàn)在X1和X6兩個(gè)特征中,嶺回歸和線性回歸測試結(jié)果雖然很小,但還有其測試值,不能貿(mào)然對(duì)該特征偏好進(jìn)行刪除。然而在Lasso回歸測試結(jié)果中,發(fā)現(xiàn)其值為零,這就更加直觀地反映出總體感受和價(jià)格對(duì)于商務(wù)出差用戶來講屬于相關(guān)性較小特征因素,因此根據(jù)式(10)可知在計(jì)算用戶特征偏好中X1和X6兩個(gè)特征因素不加以考慮。同理,對(duì)用戶類型為獨(dú)自出行、朋友出游、親子旅行、情侶出游的用戶進(jìn)行計(jì)算分析可知X1為獨(dú)自出行用戶的相關(guān)性較小特征偏好,X4和X5為朋友出游用戶的相關(guān)性較小特征偏好,X2、X6和X7為親子旅行用戶的相關(guān)性較小特征偏好。
在對(duì)比剩余四類出行用戶的三種回歸方法中的RMSE值后發(fā)現(xiàn)四組數(shù)據(jù)中運(yùn)用Lasso回歸方法進(jìn)行剔除相關(guān)性較小特征值所產(chǎn)生的數(shù)據(jù)離散程度比嶺回歸及線性回歸方法產(chǎn)生的離散程度都要小,這進(jìn)一步表明使用Lasso回歸方法進(jìn)行測試產(chǎn)生的數(shù)據(jù)結(jié)果更接近真實(shí)情況。
分析實(shí)驗(yàn)數(shù)據(jù)可知,用戶類型為獨(dú)自出行、朋友出游、親子旅行、情侶出游和商務(wù)出差這五類人士的特征偏好主要表現(xiàn)在總體感受、設(shè)備設(shè)施、餐飲、位置、交通、價(jià)格、服務(wù)和衛(wèi)生這八個(gè)方面,其中:用戶類型為獨(dú)自出行和朋友出游以及情侶出游的用戶在服務(wù)和飲食兩個(gè)特征方面表現(xiàn)出極高的興趣;用戶類型為親子旅行的用戶最為關(guān)注的是酒店位置及入住的總體感受;商務(wù)出差的用戶比較關(guān)注飲食及酒店服務(wù)。同時(shí)通過對(duì)五種類型用戶在八個(gè)特征方面運(yùn)用Lasso回歸和嶺回歸以及線性回歸的方法進(jìn)行測試,可知運(yùn)用Lasso回歸方法對(duì)特征偏好進(jìn)行過濾所產(chǎn)生的RMSE(均方根誤差)值相對(duì)較小,因此本實(shí)驗(yàn)應(yīng)用Lasso方法進(jìn)行特征偏好篩選是符合實(shí)驗(yàn)要求的。
本文根據(jù)實(shí)驗(yàn)結(jié)果及分析對(duì)酒店提出幾點(diǎn)建議:酒店作為服務(wù)行業(yè),不單單要注重客戶的總體感受、餐飲服務(wù)、酒店衛(wèi)生,對(duì)酒店內(nèi)的設(shè)備設(shè)施進(jìn)行定期檢查,制定合理的住宿價(jià)格,良好的服務(wù)態(tài)度也是至關(guān)重要的。針對(duì)本文研究成果,酒店管理人員可針對(duì)不同類型的用戶提供不同的服務(wù)標(biāo)準(zhǔn)。面向獨(dú)自出行及情侶出游類型的顧客,酒店需提供優(yōu)質(zhì)的入住環(huán)境。面向朋友出游類型顧客,由于除位置和交通兩類特征偏好以外其余六種均為用戶關(guān)注的特征偏好,因此酒店人員可在定期檢查設(shè)備設(shè)施、及時(shí)滿足顧客要求、制定合理價(jià)格等方面進(jìn)行優(yōu)化。面向親子旅行類型客戶需提供新鮮營養(yǎng)的餐飲服務(wù),同時(shí)酒店可規(guī)劃出足夠的停車區(qū)域等。面向商務(wù)出差類型的顧客,酒店可為其提供安靜的辦公區(qū)域、舒適的入住房間等。綜上,酒店管理人員可為不同類型的顧客制定不同的服務(wù)方案,有助于提高酒店的服務(wù)標(biāo)準(zhǔn)。
酒店在線評(píng)論反映了用戶對(duì)入住酒店的真實(shí)感受,如何分析用戶評(píng)論并從中挖掘用戶對(duì)酒店的需求是現(xiàn)如今酒店競爭情報(bào)研究領(lǐng)域的熱點(diǎn)問題,對(duì)酒店經(jīng)營領(lǐng)域具有重要的商業(yè)價(jià)值。本文根據(jù)酒店用戶評(píng)論的直接性和客觀性,將TF-IDF算法、LDA聚類算法、情感分析技術(shù)、Lasso特征優(yōu)選方法結(jié)合起來,構(gòu)建基于Lasso-LDA的用戶偏好模型。通過該模型能夠客觀地對(duì)不同類型用戶對(duì)入住酒店的影響因素進(jìn)行量化打分,確定用戶特征偏好,彌補(bǔ)酒店經(jīng)營者和酒店住戶之間信息交流的延遲性。實(shí)驗(yàn)結(jié)果表明:針對(duì)酒店用戶可應(yīng)用該方法對(duì)各酒店評(píng)論進(jìn)行不同維度的情感傾向分析,并以此分析該酒店各項(xiàng)服務(wù)標(biāo)準(zhǔn)是否滿足自己的需求,最終做出合理決策。面向酒店經(jīng)營人員,能夠及時(shí)準(zhǔn)確地反饋用戶特征偏好程度,幫助其準(zhǔn)確地調(diào)整酒店經(jīng)營模式及設(shè)備設(shè)施建設(shè)。本文主要是利用酒店預(yù)訂系統(tǒng)中高星級(jí)酒店的用戶評(píng)價(jià)數(shù)據(jù)進(jìn)行建模,使得應(yīng)用該研究模型分析出的用戶特征偏好更適用于高星級(jí)酒店的調(diào)查。在后續(xù)調(diào)查研究中會(huì)結(jié)合市場中低星級(jí)酒店用戶評(píng)價(jià)進(jìn)行改進(jìn),為不同需求的用戶提供合理的住宿條件,合理分配酒店流動(dòng)資源。