王鵬越 西安理工大學(xué)電氣工程學(xué)院
關(guān)鍵字:電商評論 文本分析 邏輯回歸
亞馬遜在線市場上有一項售后服務(wù),使客戶能夠?qū)徺I進行評分和評論,其中包括“星級評定”、“評論”和“幫助評分”。陽光公司計劃在網(wǎng)上市場上出售微波爐,嬰兒奶嘴和吹風機。本文主要對上述售后服務(wù)中提供的三個產(chǎn)品數(shù)據(jù)集進行分析和支持,以幫助該公司能夠成功開發(fā)三個新產(chǎn)品。
根據(jù)現(xiàn)有要求,需要預(yù)處理三個指標的數(shù)據(jù)集-星級,評論和幫助等級。因此,首先要對數(shù)據(jù)進行基本清理,然后提取與上述三個指標有關(guān)的數(shù)據(jù)字段。分析結(jié)果表明,對產(chǎn)品給予高評價的購買者應(yīng)該在評價內(nèi)容中寫正面評價的評論,反之亦然。在此基礎(chǔ)上,本文嘗試提取評論中的關(guān)鍵詞,并以評論的有用性作為判斷評論中關(guān)鍵詞正確性的基礎(chǔ)。通過查找評論中關(guān)鍵詞與用戶評分之間的相關(guān)性,可以建立星級、評論和幫助評分的相關(guān)公式,并可以計算其準確性。
由于產(chǎn)品的類別不能影響產(chǎn)品評論的內(nèi)容與用戶對產(chǎn)品的評價之間的關(guān)系,用戶的惡意否定評論應(yīng)反映在所尋找的數(shù)學(xué)關(guān)系中,因此本文暫時忽略了數(shù)據(jù)內(nèi)容邏輯的清除,僅清除存在明顯問題的數(shù)據(jù)記錄。在確認數(shù)據(jù)的基本有效性之后,將著重分析與評論相關(guān)的字段,包括兩個字段:verified_purchase 和review_body。對于這兩個字段將使用“單詞袋”的思想進行單詞分割,即將這兩個字段的內(nèi)容分為一個單詞列表,每個單詞的頻率將被記錄。然后將標點符號和停止詞過濾掉,保留具有實際意義的詞。
在獲得每個評論的關(guān)鍵詞之后,再計算每個評論的每個關(guān)鍵詞的數(shù)目。由于兩位有用的字段可以有效地表達評論的有用性,因此很明顯,表明該評論無用的票數(shù)是total_votes-helpful_votes,將評論的參考值設(shè)置為V,用下式表示為:
為了避免當有用票數(shù)等于無用票數(shù)時V 為零,將V+1 用作評論的權(quán)重W。
本文將每個評論的權(quán)重W 乘以每個評論的關(guān)鍵詞數(shù),最終結(jié)果視為每個評論的預(yù)期關(guān)鍵詞數(shù)。計算評論中帶有負色或正色的預(yù)期關(guān)鍵字數(shù)(評估得分不等于3),并由所有關(guān)鍵字及其對應(yīng)的頻率構(gòu)成字典。同時去除那些頻率太低的關(guān)鍵詞,評論權(quán)重W 將影響關(guān)鍵詞的排名,從而影響它們是否被去除。最后,找到在高頻下使用的關(guān)鍵詞,這些關(guān)鍵詞將根據(jù)頻率排列以形成關(guān)鍵詞組。
將每段文本劃分為關(guān)鍵詞,并判斷上述關(guān)鍵詞組是否分別出現(xiàn)在文本中。如果有,則在文本向量的相應(yīng)位置將其標記為1,否則將其標記為0。E 反映了關(guān)鍵字組中的第j 個關(guān)鍵字是否存在于評論內(nèi)容的第i 行中,具體可以用下式表示:
由于星級評定既反映了負面態(tài)度也反映了積極態(tài)度,因此被認為是衡量反對派重要性的指標。星級被標準化為(-1,1)范圍內(nèi)的值,以適用于邏輯回歸[2]。得分是標準化的得分指標,可以通過下式計算:
由于邏輯回歸可以很好地建立文本向量Xi和得分之間的相關(guān)性,因此通過提供的三種商品的數(shù)據(jù)集訓(xùn)練邏輯回歸模型,可以寫成:
綜上,模型訓(xùn)練結(jié)束后即可以確定θ的值。
本文結(jié)合亞馬遜在線市場的三種產(chǎn)品的數(shù)據(jù),通過建立Logistic回歸模型以定量評估商品評論。首先,基于文本挖掘清理了文本數(shù)據(jù)集,并考慮了關(guān)鍵字頻率統(tǒng)計信息。同時,考慮到有效投票對詞頻的影響,通過自建詞庫對文本進行矢量化處理。最后與購買者的評價標準建立了邏輯回歸模型,以獲取定量得分。本文模型合理地消除了高頻人稱代詞和低頻詞的干擾,使結(jié)果更加準確。