陳興達(dá)
?
長租公寓租戶退租原因分類模型的構(gòu)建
陳興達(dá)
(天津商業(yè)大學(xué),天津 300000)
隨著長租公寓行業(yè)的發(fā)展,市場規(guī)模不斷擴(kuò)大,為了保證產(chǎn)品和服務(wù)的質(zhì)量,長租公寓的管理需要更加科學(xué)、精準(zhǔn)。用戶退租的原因能夠反應(yīng)出用戶對于產(chǎn)品和服務(wù)存在哪些不滿,進(jìn)而,長租公寓企業(yè)可以通過這些信息進(jìn)行改善。為了通過這些退租用戶留下的文本信息挖掘有用的信息,利用某長租公寓2018-01—2018-08的退租用戶在退租時(shí)留下的文本新息,構(gòu)建了一個(gè)可以用來對用戶退租原因進(jìn)行分類的決策樹模型,并且模型的準(zhǔn)確性較高。通過此模型可以準(zhǔn)確發(fā)現(xiàn)用戶退租是因?yàn)榻?jīng)營中的哪些問題造成的,借此有針對性地改善長租公寓提供給用戶的產(chǎn)品和服務(wù)。
文本分類;機(jī)器學(xué)習(xí);決策樹模型;長租公寓
隨著房價(jià)的不斷上漲,尤其是2016年之后,一、二線城市房價(jià)的大幅上漲,租房已經(jīng)成為工作在一、二線城市上班族的“必選項(xiàng)”。由于傳統(tǒng)租賃市場的種種問題,越來越多的人選擇管理更加規(guī)范、服務(wù)更加專業(yè)的長租公寓。在這樣的背景下,長租公寓的品牌如雨后春筍一般出現(xiàn),并且整個(gè)行業(yè)的規(guī)模也在迅速擴(kuò)大。體量的增長對長租公寓企業(yè)管理的各個(gè)環(huán)節(jié)提出了更高的要求。只有及時(shí)發(fā)現(xiàn)產(chǎn)品和服務(wù)中存在的問題,及時(shí)解決問題,才能為廣大租客提供更優(yōu)質(zhì)的服務(wù)。顯而易見,對提供租賃服務(wù)的長租公寓公司的哪些服務(wù)不滿意,租戶是最了解的。其中一部分用戶在不滿達(dá)到一定程度后,就會(huì)選擇不再租住該品牌的公寓,進(jìn)而進(jìn)行退租。這部分用戶的流失原因就是對產(chǎn)品和服務(wù)中的薄弱環(huán)節(jié)最好的反映。所以市場上的長租公寓品牌在服務(wù)流程設(shè)計(jì)時(shí),都會(huì)記錄用戶的退租原因,這部分信息在用戶退租時(shí)客服會(huì)記錄,或者客戶在退租時(shí)通過手機(jī)客戶端進(jìn)行反饋。但是這些有意義的信息往往是通過文本記錄的,無法直接進(jìn)行統(tǒng)計(jì)和分析。本文通過構(gòu)建決策樹模型對于用戶退租時(shí)留下的文本信息作為特征,將不同退租用戶進(jìn)行分類,確定退租用戶因何原因退租。
本文所采用的樣本數(shù)據(jù)集為某長租公寓公司20182-01—2018-08的退租用戶退租時(shí)留下的退租原因文本,主要記錄了用戶因何原因選擇退租。最終的目標(biāo)是希望構(gòu)建一個(gè)機(jī)器學(xué)習(xí)模型,能夠自動(dòng)將用戶退租文本進(jìn)行分類,確定用戶的退租原因。
訓(xùn)練集的構(gòu)建思路為,首先將樣本集內(nèi)的用戶根據(jù)其退租時(shí)留下的文本信息進(jìn)行人工分類,判斷其因何原因退租;然后給數(shù)據(jù)集中的每一個(gè)樣本標(biāo)記一個(gè)標(biāo)簽,代表其退租的原因。在所有樣本中的用戶都被標(biāo)記完成后,再將其留下的文本進(jìn)行處理,將每個(gè)用戶留下的退租原因文本進(jìn)行處理,形成一個(gè)特征向量,特征向量中的元素為1或者0,代表某一個(gè)詞語是否出現(xiàn)。所有的工作完成后,獲得一個(gè)可以用來訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集。
2.1.1 訓(xùn)練樣本標(biāo)簽
根據(jù)行業(yè)運(yùn)營的經(jīng)驗(yàn),目前長租公寓租戶的退租原因主要分為以下幾大類:①銷售人員在銷售過程中沒能詳實(shí)介紹房屋的實(shí)際情況,以及在入住后租客和長租公寓企業(yè)各自的責(zé)任和義務(wù),租客實(shí)際入住后發(fā)現(xiàn)與預(yù)期不符合,產(chǎn)生退租,簡稱“銷售原因”;②對于房屋質(zhì)量不滿意,例如對空氣質(zhì)量、房屋內(nèi)設(shè)施質(zhì)量,以及其他配套設(shè)施不滿意,簡稱“房屋質(zhì)量原因”;③租客自身信用問題無法通過信貸審核,不能分期付款作為支出房租,只能選擇退租,簡稱“金融分期被拒”;④租客對于長租公寓企業(yè)提供的客戶服務(wù)不滿意,例如400客服電話無法接通,或無法提供有效的客服支持等,簡稱“客服原因”;⑤客戶自身需求結(jié)構(gòu)發(fā)生變化導(dǎo)致的退租,例如公司提供宿舍、自住購房等,簡稱“客戶自身原因”;⑥由于政策原因,需要將出租房內(nèi)隔斷墻強(qiáng)制拆除等原因造成的退租,簡稱“外部原因”;⑦由于工作調(diào)動(dòng)造成的退租,簡稱“工作調(diào)動(dòng)原因”。
按照上述分類原則,將45 276條樣本數(shù)據(jù)進(jìn)行人工分類,分類后每類樣本的數(shù)量如表1所示。
2.1.2 特征向量構(gòu)造
本文構(gòu)建樣本的特征向量思路為:首先將所有的文本進(jìn)行分詞,分詞后將重復(fù)出現(xiàn)的單詞去除,僅留下一個(gè),這樣就構(gòu)成了一個(gè)所有出現(xiàn)過的單詞的集合,為了方便,之后在本文中簡稱這個(gè)集合為“詞典”。特征向量的維度與詞典的維度相同,特征向量中每個(gè)位置對應(yīng)詞典中對應(yīng)位置的單詞,并且特征向量中的每個(gè)元素的取值為1或者0,代表對應(yīng)單詞是否出現(xiàn)在此樣本中。
取樣本中的某一個(gè)退租用戶退租原因的文本舉例,該用戶退租原因的文本為“房屋空氣問題無責(zé)退租、押金全退、結(jié)算剩余房租、結(jié)清水電燃”,按照此方法構(gòu)建特征向量的方法可以得到特征向量如圖1所示。
表1 數(shù)據(jù)集中各類樣本的數(shù)量
類別樣本數(shù)量 銷售原因567 房屋質(zhì)量原因649 金融分期被拒2 940 客服原因16 客戶自身原因2 060 外部原因1 083 工作調(diào)動(dòng)原因37 691
依照上文中闡述的詞典和特征向量的構(gòu)造方法,通過Python中的jieba分詞以及scikit-learn模組將45 276條樣本進(jìn)行處理,得到每條樣本的特征向量。
本文采用的機(jī)器學(xué)習(xí)模型為決策樹模型。決策樹模型本質(zhì)上就是一個(gè)完備的定義在特征空間與類空間的條件概率分布。決策樹模型存在以下一些優(yōu)點(diǎn):①相較于支持向量機(jī)模型等模型,決策樹模型更容易解釋,并且可以通過決策樹將分類規(guī)則可視化;②決策樹模型對于數(shù)據(jù)處理等要求比較低,不需要進(jìn)行正態(tài)化,特征間不同量綱不會(huì)對于模型的學(xué)習(xí)和預(yù)測造成影響;③模型的初始假設(shè)比較簡單,相較于樸素貝葉斯等模型那樣嚴(yán)格對于特征間關(guān)系的假設(shè)來說,決策樹模型對于特征間關(guān)系的要求較低。
決策樹模型學(xué)習(xí)算法主要包括以下3個(gè)步驟:①特征選擇,也就是選擇哪個(gè)特征進(jìn)行分類;②決策樹的生成;③為了防止過擬合,需要將第二步生成的決策樹進(jìn)行剪枝。
本文在學(xué)習(xí)決策樹模型時(shí)選用的為CART算法。CART算法在決策樹生成的過程中通過遞歸的方法構(gòu)造二叉樹形式的決策樹,并且利用基尼指數(shù)作為最優(yōu)特征選擇的標(biāo)準(zhǔn)。所謂基尼指數(shù)就是指在分類問題中,假設(shè)存在個(gè)類別,某一個(gè)樣本屬于第個(gè)類別的概率為n,則概率分布的基尼指數(shù)定義為:
訓(xùn)練樣本已經(jīng)確定的情況下,假設(shè)樣本數(shù)據(jù)集合用表示,可以通過如下公式計(jì)算基尼指數(shù):
式(2)中:是樣本中類的個(gè)數(shù);n為樣本中第類樣本的子集;∣n∣代表樣本中第類子集內(nèi)樣本的數(shù)量。
在決策樹生成階段,從決策樹的根節(jié)點(diǎn)開始,對于每個(gè)特征以及該特征的每個(gè)可能取值作為分割點(diǎn),將樣本進(jìn)行分割,計(jì)算當(dāng)選擇該特征及特征取值作為分割點(diǎn)后,樣本的基尼指數(shù),最終選擇某一個(gè)特征及其特征值的取值作為分割點(diǎn)。當(dāng)這個(gè)特征的特定取值分割樣本后,得到的基尼指數(shù)最小。從根節(jié)點(diǎn)開始按照這個(gè)原則遞歸的向下分割,直到所有的節(jié)點(diǎn)都為葉節(jié)點(diǎn)。但是按照這個(gè)方法生成的決策樹,在泛化的能力上比較差,需要通過剪枝降低過擬合的風(fēng)險(xiǎn)。
在剪枝階段,首先從上一步生成的整體樹0開始進(jìn)行剪枝。選擇整體樹中的某一個(gè)內(nèi)部節(jié)點(diǎn),那么以為單節(jié)點(diǎn)樹的損失函數(shù)則為:
α()=()+. (3)
以為根節(jié)點(diǎn)的子樹t的損失函數(shù)為:
α(t)=(t)+∣t∣. (4)
當(dāng)=0及充分小時(shí),存在如下關(guān)系:
α(t)<α(). (5)
當(dāng)增大時(shí),存在某一使得:
α(t)=α(). (6)
按照機(jī)器學(xué)習(xí)訓(xùn)練的一般方法,通過Python語言中的scikit-learn模組隨機(jī)抽取數(shù)據(jù)集中的70%作為模型訓(xùn)練的訓(xùn)練集,剩余30%的樣本作為模型評估的測試集,拆分后訓(xùn)練集和測試集中各類退租用戶的數(shù)量如表2所示。
表2 訓(xùn)練集和測試集中各類樣本數(shù)量
類別訓(xùn)練集測試集 銷售原因419148 房屋質(zhì)量原因496153 金融被拒2 200740 客服原因124 客戶自身原因1 559501 外部原因798285 工作調(diào)動(dòng)原因28 4739 488
在確定訓(xùn)練集后,通過訓(xùn)練集利用Python語言中的scikit-learn模組對于決策樹模型進(jìn)行學(xué)習(xí),然后通過測試集對模型預(yù)測能力進(jìn)行評估,模型準(zhǔn)確率的相關(guān)指標(biāo)如表3所示。從預(yù)測準(zhǔn)確程度的3個(gè)指標(biāo)來看,由于銷售原因、房屋質(zhì)量原因退租的用戶樣本相對較少,所以對于這兩類樣本的預(yù)測能力相對較差,但是學(xué)習(xí)到的決策樹模型的綜合預(yù)測準(zhǔn)確率達(dá)到97%,說明學(xué)習(xí)到的決策樹模型分類能力出色。
本文通過構(gòu)建決策樹模型對長租公寓退租用戶的退租原因進(jìn)行分類,通過此模型可以為長租公寓經(jīng)營者提供一個(gè)量化的數(shù)據(jù)支持。在實(shí)際應(yīng)用中可以通過本模型對不同時(shí)期的退租用戶對退租原因進(jìn)行預(yù)測,并統(tǒng)計(jì)各個(gè)時(shí)期不同原因退租用戶的變化。假設(shè)由于“銷售原因”退租的用戶增加,長租公寓管理者就可以判斷在銷售環(huán)節(jié)自己存在不足。本文提供了一個(gè)進(jìn)行文本分類的方法,即先構(gòu)建詞典,再通過詞典將每條文本轉(zhuǎn)化為特征向量,最后通過特征向量學(xué)習(xí)機(jī)器學(xué)習(xí)模型。
表3 模型準(zhǔn)確率的相關(guān)指標(biāo)
PrecisionRecallF1-score 銷售原因0.490.500.50 房屋質(zhì)量原因0.610.590.60 金融被拒0.920.950.93 客服原因0.000.000.00 客戶自身原因0.910.930.92 外部原因0.960.920.94 工作調(diào)動(dòng)原因0.990.990.99 平均值0.970.970.97
2095-6835(2019)05-0130-03
F299.23
A
10.15913/j.cnki.kjycx.2019.05.130
陳興達(dá)(1989—),男,遼寧西豐人,主要研究方向?yàn)閿?shù)量經(jīng)濟(jì)學(xué)、經(jīng)濟(jì)預(yù)測與決策。
〔編輯:嚴(yán)麗琴〕