趙長(zhǎng)江 吳樂(lè)云
摘?要:在稅務(wù)領(lǐng)域如何對(duì)納稅人的稅收優(yōu)惠政策推廣更具有針對(duì)性、引導(dǎo)性,使能享受稅收優(yōu)惠政策的納稅人及時(shí)充分享受稅收優(yōu)惠政策的紅利,是稅務(wù)機(jī)關(guān)精準(zhǔn)服務(wù)的難點(diǎn)之一。本文利用文本相似度以及改進(jìn)的推薦算法確定兩個(gè)目標(biāo)集合,然后通過(guò)兩個(gè)集合取并集的方式確定最終目標(biāo)納稅人群體,實(shí)現(xiàn)稅收優(yōu)惠政策的精準(zhǔn)推薦服務(wù)。
關(guān)鍵詞:稅收優(yōu)惠政策;精準(zhǔn)推薦;文本相似度;推薦算法
中圖分類(lèi)號(hào):TP3?文獻(xiàn)標(biāo)識(shí)碼:A
引言
現(xiàn)有的稅收優(yōu)惠政策宣傳主要通過(guò)納稅學(xué)堂輔導(dǎo)、專(zhuān)題講座、網(wǎng)站政策公告等傳統(tǒng)的方式,傳統(tǒng)方式一方面時(shí)效性較差,另一方面對(duì)納稅人沒(méi)有針對(duì)性,使很多滿足要求的納稅人無(wú)法及時(shí)享受優(yōu)惠政策的紅利。
推薦系統(tǒng)[1]的應(yīng)用已經(jīng)在多個(gè)領(lǐng)域進(jìn)行使用,本文旨在將推薦系統(tǒng)在稅務(wù)精準(zhǔn)服務(wù)中進(jìn)行運(yùn)用,又考慮到稅收優(yōu)惠政策自身的業(yè)務(wù)性,通過(guò)運(yùn)用NLP(自然語(yǔ)言處理)分析稅收優(yōu)惠政策和納稅人之間的關(guān)聯(lián)關(guān)系,同時(shí)結(jié)合推薦算法構(gòu)建融合模型,以便更精準(zhǔn)地把稅收優(yōu)惠政策推薦給真正需要該政策的納稅人。
1材料與方法
1.1使用NLP獲取第一目標(biāo)集合
步驟101:獲取納稅人的基本信息,包括行業(yè)類(lèi)型、經(jīng)營(yíng)范圍、資格類(lèi)型、企業(yè)類(lèi)型、組織機(jī)構(gòu)類(lèi)型、繳稅信息、職工信息以及已享受稅收優(yōu)惠政策信息。
步驟102:利用TF-IDF[2][3]對(duì)所述基本信息進(jìn)行數(shù)據(jù)提取轉(zhuǎn)換,得到基本信息特征向量。
步驟103:獲取納稅人當(dāng)前享受的稅收優(yōu)惠政策。
步驟104:對(duì)所述稅收優(yōu)惠政策進(jìn)行數(shù)據(jù)提取,得到稅收優(yōu)惠政策特征向量。對(duì)所述稅收優(yōu)惠政策進(jìn)行分詞,得到多個(gè)第二關(guān)鍵詞;對(duì)多個(gè)所述第二關(guān)鍵詞進(jìn)行優(yōu)化,得到優(yōu)化后的第二關(guān)鍵詞;根據(jù)所述優(yōu)化后的第二關(guān)鍵詞,確定稅收優(yōu)惠政策特征向量。
Step1:生成稅收優(yōu)惠政策關(guān)鍵詞。獲取正在享受的所有稅收優(yōu)惠政策的文件,根據(jù)文件內(nèi)容結(jié)合已享受納稅人信息,通過(guò)分詞生成稅收優(yōu)惠政策的關(guān)鍵詞;
Step2:利用TF-IDF計(jì)算稅收優(yōu)惠政策特征向量,計(jì)算與已享受納稅人的相似度,針對(duì)與已享受納稅人相似度較低的稅收優(yōu)惠政策進(jìn)行關(guān)鍵詞優(yōu)化;
Step3:重復(fù)Step2直至60%以上的稅收優(yōu)惠政策與已享受納稅人的相似度均不為0,確定最終關(guān)鍵詞并形成稅收優(yōu)惠政策特征向量。
步驟105:計(jì)算所述基本信息特征向量與所述稅收優(yōu)惠政策特征向量之間的相似度。
相似度S計(jì)算如下[4]:
其中Ai為第i個(gè)稅收優(yōu)惠政策的n維特征向量,Bi為第i個(gè)納稅人的n維特征向量,θ為兩特征向量的夾角。
步驟106:根據(jù)所述相似度以及設(shè)定閾值,獲取第一目標(biāo)納稅人集合。通過(guò)設(shè)定相似度S大于閾值T獲取目標(biāo)納稅人;閾值T根據(jù)稅收優(yōu)惠政策不同而不同,設(shè)定為某一稅收優(yōu)惠政策與已享受納稅人的相似度的最小值?;趦?nèi)容利用NLP分析獲取的目標(biāo)納稅人集合U1={U1(i),i=1,2,...,n},其中U1(i)為NLP獲取的稅收優(yōu)惠政策i的第一目標(biāo)納稅人集合。
1.2使用推薦算法獲取第二目標(biāo)集合
通過(guò)協(xié)同過(guò)濾算法[5],基于改進(jìn)的相似度,獲取第二目標(biāo)納稅人集合。
步驟1:計(jì)算納稅人同現(xiàn)相似度,找出與目標(biāo)納稅人相似的納稅人集合。納稅人同現(xiàn)相似度為改進(jìn)的余弦相似度,計(jì)算如下:
其中表示納稅人和納稅人的相似度,表示納稅人享受的稅收優(yōu)惠政策集合,表示納稅人享受的稅收優(yōu)惠政策集合,是享受稅收優(yōu)惠政策的納稅人集合,分子中的倒數(shù)懲罰了納稅人和納稅人共同享受的稅收優(yōu)惠政策中熱門(mén)稅收優(yōu)惠政策對(duì)他們的相似度影響[6]。
步驟2:找出納稅人集合中相似納稅人享受的、但目標(biāo)納稅人沒(méi)有享受的稅收優(yōu)惠政策推薦給目標(biāo)納稅人。納稅人對(duì)稅收優(yōu)惠政策的興趣度計(jì)算如下:
其中表示納稅人對(duì)稅收優(yōu)惠政策的興趣度,表示納稅人對(duì)稅收優(yōu)惠政策的興趣,此處等于納稅人享受稅收優(yōu)惠政策的次數(shù)?;谛袨槔酶倪M(jìn)的基于用戶(hù)的協(xié)同過(guò)濾算法獲取的目標(biāo)納稅人集U2={U2(i)i=1,2,...,n},其中U2(i)為改進(jìn)的基于用戶(hù)的協(xié)同過(guò)濾算法獲取的稅收優(yōu)惠政策i的第二目標(biāo)納稅人集合。
1.3最終目標(biāo)集合確定
根據(jù)所述第一目標(biāo)集合U1以及所述第二目標(biāo)集合U2,最終目標(biāo)集合通過(guò)兩者取并集來(lái)獲取。享受稅收優(yōu)惠政策i的納稅人集合U(i)=U1(i)∪U2(i),最終目標(biāo)集合U={U(j),j=1,2,...,n},其中j代表第j個(gè)稅收優(yōu)惠政策。
2結(jié)論
(1)基于稅收優(yōu)惠政策內(nèi)容與已享受的納稅人信息的關(guān)聯(lián)性,利用NLP不斷訓(xùn)練稅收優(yōu)惠政策關(guān)鍵詞,建立“稅收優(yōu)惠政策詞庫(kù)”;
(2)改進(jìn)的基于用戶(hù)的協(xié)同過(guò)濾算法,納稅人相似度計(jì)算中消除了熱門(mén)稅收優(yōu)惠政策對(duì)納稅人的相似度影響,使算法得到的結(jié)果更具有現(xiàn)實(shí)意義;
(3)將NLP與協(xié)同過(guò)濾算法相結(jié)合,取兩種模型獲取的納稅人集合并集作為最終目標(biāo)群體,實(shí)現(xiàn)稅收優(yōu)惠政策的精準(zhǔn)服務(wù),在避免傳統(tǒng)的無(wú)針對(duì)性的廣撒網(wǎng)模式的同時(shí)又能盡量保證目標(biāo)群體無(wú)遺漏,精準(zhǔn)找到目標(biāo)群體;在給稅務(wù)干部提供管理決策支撐的同時(shí),為納稅人推送個(gè)性化服務(wù),為稅務(wù)行業(yè)的精準(zhǔn)服務(wù)提供便捷。
參考文獻(xiàn)
[1]?孟祥武,胡勛,王立才,等 . 移動(dòng)推薦系統(tǒng)及其應(yīng)用 [J]. 軟件學(xué)報(bào),2013,24(1):91-108.
[2]?Gu Y,Yang Z,Xu G,et al. Exploration on efficient similar sentences extraction[J]. World Wide Web,2014,17(4):595-626..
[3]?周麗杰,于偉海,郭成. 基于改進(jìn)的TF-IDF方法的文本相似度算法研究[J]. 泰山學(xué)院學(xué)報(bào),2015,37(003):18-22.
[4]?張啟宇,朱玲,孫愛(ài)娥. 文本相似度的計(jì)算[J]. 電腦知識(shí)與技術(shù):學(xué)術(shù)交流,2008.