張書娟,董喜雙,關(guān) 毅
(哈爾濱工業(yè)大學,黑龍江 哈爾濱, 150001)
隨著互聯(lián)網(wǎng)的發(fā)展,電子商務(wù)逐步發(fā)展起來。對于電子商務(wù)網(wǎng)站的站內(nèi)搜索引擎而言,應(yīng)該在準確理解買方意圖的基礎(chǔ)上,盡可能多的檢索出相關(guān)商品,所以需要對查詢進行擴展。要準確擴展查詢,同義詞表是必須的也是最基礎(chǔ)的資源。目前國內(nèi)還不具備電子商務(wù)領(lǐng)域的同義詞典,而手工構(gòu)建又費時費力,所以需要采用同義詞自動識別的方法。
《牛津字典》對同義詞的定義為:在用同一種語言表達的意義相同或者相近的兩個詞或者短語[1]。由定義可知,通常來講同義詞和近義詞并不做嚴格的區(qū)分。而電子商務(wù)中不但需要做嚴格區(qū)分,而且要求意義完全相同。電子商務(wù)中同義詞定義為對同一事物(同一概念)的不同表達形式,即在商品檢索和商品描述中可以互相替換的詞或者短語[2]。同義詞具體表現(xiàn)為兩個或者多個詞語、短語,電子商務(wù)領(lǐng)域中的多為名詞、名詞短語、日常用語、網(wǎng)絡(luò)用語等。
在對大量的數(shù)據(jù)進行研究后,我們把電子商務(wù)領(lǐng)域中同義詞分為六大類。
(1) 英文—中文名稱 這類同義詞主要是對同一個品牌的中文和英文兩種表達,例如,Nestle-雀巢,Adidas-阿迪達斯。
(2) 學名與俗名 多指一個事物的書面用語和非正式用語。例如,圣女果—小西紅柿,鱉—甲魚。
(3) 全稱與簡稱 指概念的原名稱和簡化形式。例如,美特斯邦威—美邦,中國旅行社—中旅。
(4) 新稱與舊稱 由概念現(xiàn)在的稱呼方法和古代或者近代稱呼方法不同而引起。例如,自行車—腳踏車,硅—矽。
(5) 同音同義詞 這類詞一部分由對同一英文詞翻譯用詞差異引起,另一部分由高頻使用的錯別字引起,若許多人習慣性使用錯別字搜索,則此錯別字也不可忽略。例如,雪佛蘭—雪福蘭,瑜伽—瑜珈。
(6) 傳統(tǒng)同義詞 指兩詞都比較常用且指同一事物,且不歸入以上類別的詞。例如,儲物柜—收納柜,擋板—隔板。
電子商務(wù)中同義詞特點如下。
(1) 新詞多 隨著科學技術(shù)的迅猛發(fā)展和新消費潮流的涌現(xiàn),國內(nèi)外的品牌和商品可謂日新月異,另一方面人類在不斷地創(chuàng)造新詞,互聯(lián)網(wǎng)用詞尤其明顯。所以,同義詞對中亦有大量的新詞存在。例如,Mintpie-尼派,Tablet PC-平板電腦,五分褲—五褲。
(2) 錯別字多 錯別字已成為一種普遍社會現(xiàn)象,出版物,電視上,網(wǎng)絡(luò)上,都大量存在。有些錯別字被大量使用,以至于我們不可以忽略它的存在。如此,一個詞的錯誤拼寫就與正確拼寫構(gòu)成同義詞。例如,瑜伽—瑜珈,耐克—奈克。
(3) 定義嚴格 每個產(chǎn)品都有一系列與之相似的產(chǎn)品,他們的名稱也相似,另外上下位關(guān)系的事物名稱亦相似,但是他們不是指向同一事物,所以不為同義詞。例如,黑木耳—秋木耳,木耳—黑木耳。
本文在研究電子商務(wù)中賣方用戶和買方用戶行為特點的基礎(chǔ)之上,提出了基于用戶行為的同義詞自動識別方法。首先根據(jù)用戶行為特點獲取候選集,進而提取兩詞的字面特征以及標題、查詢、點擊等用戶行為特征,然后借助GBDT模型判斷是否同義。本文結(jié)構(gòu)組織如下:第二節(jié)介紹國內(nèi)外相關(guān)研究;第三節(jié)介紹基于用戶行為的同義詞識別方法;第四節(jié)分析實驗結(jié)果;第五節(jié)做總結(jié)和展望。
目前國內(nèi)外對同義詞自動識別的研究,根據(jù)所使用資源可分為以下五類。
這種方法是根據(jù)兩個詞匯中相同字的個數(shù)來計算相似度。文獻[3]根據(jù)詞匯之間字面相似度將待歸類詞與被匹配詞之間的聚類關(guān)系分為正確、不確定和無法判斷三個級別,然后依賴專家對后兩種情況進行判定,形成一種人機結(jié)合的同義詞識別方法。文獻[4]對上述方法進行了改進,根據(jù)漢語構(gòu)詞特點,引入重心后移,對詞語中的每個語素根據(jù)其對主題表達的貢獻進行加權(quán)處理,提高了準確率。
這種方法借助現(xiàn)有語義詞典或者自己構(gòu)建語義詞典來計算詞匯相似度。文獻[5]用自己建立的詞素語義詞典將待識別的詞切分成多個詞素,以計算兩詞匯相似度。文獻[6]將《同義詞詞林》語義分類編碼體系構(gòu)成一棵樹,通過計算樹中結(jié)點距離得到詞匯之間的相似度。文獻[7]利用《知網(wǎng)》,在《知網(wǎng)》中每個詞的語義由多個義原組成,將所有義原根據(jù)上下位關(guān)系構(gòu)成一個樹狀層次體系,通過計算路徑距離得到相似度,將兩個詞各自義原中相似度最大的作為兩詞的相似度。
根據(jù)詞典中詞匯之間的相互注釋關(guān)系,構(gòu)造關(guān)系圖,字典中的每個詞都是圖中的一個結(jié)點,詞到它的每個注釋都有一條邊。將同義詞的識別問題轉(zhuǎn)化為互聯(lián)網(wǎng)中超鏈接分析問題。文獻[8]用HITS算法分析關(guān)系圖,得到詞匯之間相似度。文獻[9]在PageRank算法的基礎(chǔ)上提出ArcRank算法來計算詞匯之間相似度。
這種方法將詞匯的上下文表示成空間向量。文獻[10]將向量的余弦相似度作為兩詞的語義相似度。文獻[11]在此基礎(chǔ)上引入部分句法分析,只處理名詞,在語料庫中此名詞的所有修飾詞作為上下文,用Jaccard相似度來度量語義相似度?;谡Z料庫方法所識別的同義詞受語料庫所屬領(lǐng)域局限,且有數(shù)據(jù)稀疏的問題。
這種方法借助搜索引擎的檢索結(jié)果來統(tǒng)計詞匯的出現(xiàn)次數(shù),從一定程度上解決了統(tǒng)計的數(shù)據(jù)稀疏問題。文獻[12]提出PIM-IR算法,通過計算互信息得到兩詞相似度。文獻[13]對文獻[12]的方法進行改進,提出了LC_IR算法,要求兩詞必須完全相鄰,并且過濾搭配和修飾等噪聲,提高了準確率。文獻[14]則用Dice測度度量兩詞的相關(guān)性。
電子商務(wù)領(lǐng)域同義詞與傳統(tǒng)同義詞定義的差異和新詞較多的特點使得現(xiàn)有同義詞自動識別方法的效果大打折扣。因此,本文在充分研究電子商務(wù)領(lǐng)域數(shù)據(jù)的基礎(chǔ)上,根據(jù)用戶行為特點獲取候選集合,然后提取字面相似度、共現(xiàn)信息、上下文、用戶行為等方面的特征,運用機器學習方法對候選集合中的詞對進行判定。
電子商務(wù)中用戶行為包括賣方用戶行為和買方用戶行為。本文主要研究賣方用戶行為中的標題編輯行為,包括用詞特點、詞與詞之間的分割方式等方面和買方用戶行為中的查詢和點擊行為,包括查詢中詞的個數(shù)、詞與詞之間的分割方式、所點擊的商品標題等方面。根據(jù)賣方行為特點從商品標題中獲取候選集,并根據(jù)買方行為特點從查詢集合中獲取候選集,抽取部分候選進行標注,然后提取字面特征和標題、查詢、點擊等用戶行為特征,最后訓練GBDT模型以判定所有候選同義詞對。
3.1.1 并列關(guān)系符號切分商品標題
研究發(fā)現(xiàn)賣方在編輯商品標題時,除了寫入商品常用名稱之外,還會將該商品的別稱、簡稱、全稱、俗語、常用錯別字等擴展寫入標題之中,以使更多的買方檢索到。并且標題多用空格、“/”、“”等表示并列關(guān)系的符號(稱之為并列關(guān)系符號)分割表義相同或相近的詞。研究某電子商務(wù)網(wǎng)站3百萬商品標題,發(fā)現(xiàn)72.4%的標題使用并列關(guān)系符號,因此我們用并列關(guān)系符號切分標題得到候選同義詞對。
例如,對于商品標題“正品促銷 拉桿包/拉桿箱/旅行包/拉桿旅行包/旅行箱 情侶搭配”,用并列關(guān)系符號切分得到拉桿包、拉桿箱、旅行包、拉桿旅行包、旅行箱五個詞,兩兩組合行成候選詞對。
3.1.2 基于SimRank思想聚合查詢
SimRank由G.Jeh和J.Widom于2002年提出,基本思想是關(guān)聯(lián)到相似事物的兩個事物相似[15-16]?;谶@一思想我們認為,點擊到同一商品的所有查詢相似。將點擊到同一標題的所有查詢聚合成查詢集合,并從中獲取候選同義詞對。
研究某電子商務(wù)網(wǎng)站七天的查詢?nèi)罩?共2 000萬查詢)發(fā)現(xiàn)關(guān)鍵詞個數(shù)為1或者2的查詢占總查詢的73.2%,而用空格分隔的查詢占總查詢的89.4%。也就是說,大部分買方搜索商品時,僅使用簡短的1~2個詞匯進行搜索,且習慣于用空格自然分割查詢。所以我們在查詢集合內(nèi),用空格切分每個查詢,去掉相同詞段,剩余詞段兩兩組合為候選同義詞對。
例如,title^A特價新款 拉桿箱 旅行箱 行李箱 密碼箱 托運箱24寸^A 50012019
query^A旅行箱^A 1
query^A拉桿箱^A 1
query^A箱^A 3
query^A行李箱^A 1
標題數(shù)據(jù)格式:標記^A標題^A類目;查詢數(shù)據(jù)格式:標記^A查詢^A頻率;^A為分隔符。
旅行箱、拉桿箱、箱、行李箱這四個詞兩兩組合行成候選詞對。
對于機器學習的分類方法而言,最重要的是選擇一系列能夠區(qū)分各類別的特征。由上文示例可見候選集合中大多是詞義相近的詞對,所以僅根據(jù)簡單特征很難區(qū)分兩詞是否同義。因此本文在考慮簡單字面特征的基礎(chǔ)之上,著重選擇與用戶行為相關(guān)的特征。經(jīng)過實驗,選擇的特征主要包括以下四類。
(1) 字面特征
同義詞是指向同一事物的兩個不同的詞語,故常常含有共同的語素,例如,連身褲和連體褲,跑步鞋和跑鞋,因此考慮其字面相似度。網(wǎng)絡(luò)用語常出現(xiàn)錯別字,如運動品牌“阿迪達斯”一詞,很多人由于輸入錯誤使用“啊迪達斯”,當很多人都習慣于如此使用時,我們就不可以忽略這個問題,因此考慮兩詞的讀音相似度。
(1)
(2)
(3)
其中,Sim_charmin代表對較短詞長的字面相似度,Sim_charmax代表對較長詞長的字面相似度,Simdis代表讀音相似度,same(w1,w2)代表在詞w1,w2中相同字的個數(shù),|wi|代表詞長,Swi代表的wi讀音,minDis(Sw1,Sw2)代表最小編輯距離。
(2) 標題特征
如果兩個詞同義,根據(jù)賣方書寫標題的習慣,應(yīng)該大量出現(xiàn)在同一標題中,且兩者的前后順序應(yīng)該是隨機的。因此計算在所有商品標題中,兩詞共現(xiàn)比例,互信息和互換比例?;Q比例用一個詞總出現(xiàn)在另一個詞前的概率來度量,這個特征可以很好的區(qū)分將修飾關(guān)系和同義關(guān)系。
(4)
(5)
(6)
以上各量都是對商品標題而言的,CO_ratiotitle表示兩詞共現(xiàn)比例,C(wi)表示包含詞wi的數(shù)目,C(w1w2)表示同時包含詞w1和w2的數(shù)目。MItitle表示兩詞共現(xiàn)互信息,p(w1w2)表示兩詞共現(xiàn)頻率,p(wi)表示詞wi的頻率。Front_ratiotitle表示兩詞互換比例,Cf(w1w2)表示w1在w2前面的數(shù)目,Cb(w1w2)表示w1在w2后面的數(shù)目。
(3) 查詢特征
同樣考慮在查詢中兩詞的共現(xiàn)比例,互信息和互換比例(計算公式同title)。除此之外,還考慮每個詞的上下文信息,即取這個詞在查詢中的前一個詞和后一個詞作為上下文,計算兩詞上下文的余弦相似度。
(7)
Simcos表示兩詞上下文向量的余弦相似度,V(wi)表示wi的上下文向量,|V(wi)|表示wi的上下文中詞個數(shù)。
(4) 點擊特征
如果w1出現(xiàn)在查詢中,但沒有出現(xiàn)在點擊標題中,而w2卻出現(xiàn)在點擊標題中,這種情況下兩詞很可能同義。因此需要考慮一個詞出現(xiàn)在查詢中,而另一個詞出現(xiàn)在點擊標題中這種共現(xiàn)的比例,互信息和互換比例。同時也需要 考慮兩個詞都出現(xiàn)在標題中時,查詢中只出現(xiàn)詞w1與只出現(xiàn)詞w2的比例。
Co_ratioclick
(8)
(9)
(10)
(11)
以上各量都是對商品標題而言的,Co_ratioclick表示兩詞共現(xiàn)比例,C(witwjq)表示詞wi在點擊標題中且wj在查詢中的數(shù)目。MIclick表示兩詞共現(xiàn)互信息,p(witwjq)表示詞wi在點擊標題中且wj在查詢中的頻率,p(wi)表示詞wi的頻率。Front_ratioclick表示兩詞互換比例,Query_ratioclick表示兩個詞都出現(xiàn)在標題中時,查詢中只出現(xiàn)詞w1與只出現(xiàn)詞w2的比例,cq(wi)表示查詢中只出現(xiàn)wi的數(shù)目。
Gradient Boost Decision Tree(GBDT)模型是一種組合模型,它的基本思想是迭代的構(gòu)建決策樹,最后得到一個由M棵決策樹組合而成的模型從而避免了單棵決策樹過擬合的缺點[17]。
(12)
訓練過程就是根據(jù)已知特征集合x和相關(guān)性分數(shù)集合y,用式(2)求參數(shù)集合P,即使得每個詞對在模型F(x,P)下的損失函數(shù)L(y,F(x,P))最小。
(13)
將式(13)寫成梯度下降的形式為式(14),表示將要得到的模型fm=βmh(x,αm)的參數(shù)使得fm的方向是之前所得模型Fm-1(x)的損失函數(shù)下降最快的方向。
(14)
對每個候選都計算偏導數(shù)gm(xi):
(15)
最終得到一個N維梯度下降方向向量:
(16)
使用最小二乘法得αm:
(17)
進而得到βm:
(18)
如此迭代M次最終得到參數(shù)集合P。
組合模型是多個簡單模型的組合,但效果比單個復雜模型更好,這一優(yōu)勢使得越來越多的人青睞于組合模型。GBDT被廣泛應(yīng)用于分類、回歸、排序等機器學習問題之中,表現(xiàn)出特有的優(yōu)勢[18-20]。
基于電子商務(wù)用戶行為的同義詞識別系統(tǒng)結(jié)構(gòu)如圖1所示。首先根據(jù)電子商務(wù)中賣方編輯標題的特點用并列關(guān)系符號切分標題獲取候選集合,并根據(jù)買方查詢特點從點擊了同一商品的所有查詢集合中獲取候選集合;然后從候選集合隨機抽取一部分詞對進行標注作為訓練集和測試集,提取訓練集特征并訓練模型;最后提取測試集特征并應(yīng)用上一步所得模型進行判定,得到判定結(jié)果。
圖1 基于用戶行為同義詞識別系統(tǒng)結(jié)構(gòu)圖
本實驗使用某電子商務(wù)網(wǎng)站280萬條商品標題,和點擊到這些標題的360萬個查詢。共得到150萬候選同義詞對,對其中3 900詞對進行手工標注,對GBDT模型標注值為0或1,對SVM的標注值為-1或1。將標注數(shù)據(jù)均分為四份,輪流將其中三份用作訓練集,一份用作測試集。使用上文特征集合構(gòu)造特征,分別訓練和測試,四次平均值作為模型的實驗結(jié)果。GBDT模型的相似度取閾值為0.5,即大于等于此閾值為同義詞,反之則不同義。
4.2.1 GBDT模型實驗結(jié)果
依次加入字面、標題、查詢、點擊等特征進行實驗,各個模型效果如表1和圖2所示,相應(yīng)的特征權(quán)重如表2所示。
表1 GBDT模型實驗結(jié)果
圖2 特征逐漸增多時的效果提升圖
表2 特征權(quán)重變化表
從表1和圖2可以看出,隨著各類特征的加入,準確率、召回率和F值都有顯著的提高。這說明電子商務(wù)領(lǐng)域同義詞的識別問題,單純從字面特征入手很難取得好的效果,同時說明我們選取的標題、查詢、點擊等用戶行為特征可以有效提高電子商務(wù)領(lǐng)域同義詞識別的精度。
從表2看出,當標題特征這一類用戶行為特征加入的時候,標題特征所占總權(quán)重達到60%以上,進一步說明用戶行為特征的重要度。當所有的特征都用來訓練模型時,從權(quán)重列表可以得出,字面特征占比19.6%,標題特征占比19.1%,查詢特征占比21%,點擊特征占比37.3%??芍c擊特征對結(jié)果有最大的貢獻,從效果對比圖2也可以看出,點擊特征加入后,各項指標都有顯著提高。
4.2.2 GBDT模型和SVM模型結(jié)果對比
四方面特征都加入時,兩個模型對比試驗如表3所示。
表3 兩模型結(jié)果對比
兩個模型都沒有采用使得F值最高的參數(shù),因為應(yīng)用到電子商務(wù)檢索中的同義詞表必須是絕對準確的,這樣才能有效地擴展查詢,提高檢索精度。另外,需要在此結(jié)果的基礎(chǔ)上進行人工校驗,出于對成本考慮,更側(cè)重于準確率。
分析實驗結(jié)果可知,影響準確率的因素主要是兩詞大量共現(xiàn)或互相點擊,而不是同義詞,例如,新娘—伴娘。影響召回的因素主要是數(shù)據(jù)稀疏導致特征得分低,例如,阿童木—鐵臂阿童木。這些影響因素也是與電子商務(wù)領(lǐng)域用戶用詞特點和同義詞特點緊密相關(guān),可以說正是這些特點增加了同義詞識別的難度。
本文在充分研究電子商務(wù)中用詞特點的基礎(chǔ)上,提出基于賣方用戶行為和買方用戶行為的同義詞識別方法。通過并列關(guān)系符號切分商品標題和基于SimRank思想聚集查詢兩種方法獲取侯選集合,獲取字面特征及其標題、查詢、點擊等用戶行為特征,采用GBDT模型對候選集合中的詞進行判定。實驗表明這種方法識別的準確率達到56.52%。下一步將繼續(xù)深入挖掘標題、查詢、點擊等用戶行為相關(guān)的特征,以期達到更好的效果。
[1] H. Coleridge,J.Murray,H.Sweet, et al. The Oxdord English Dictionary[M]. Oxford :Oxford University Press,2005.
[2] N. Kanhabua, K.Norvag. Determing time-based synonyms in searching document archives[C]// Proceedings of ECDL. 2010.
[3] 宋明亮. 漢語詞匯字面相似性原理與后控制詞表動態(tài)維護研究[J]. 情報學報, 1996, (4).
[4] 吳志強.經(jīng)濟信息檢索后控制詞表的研究[D].南京:南京農(nóng)業(yè)大學,1999.
[5] 朱毅華. 智能搜索引擎中的同義詞識別算法研究[D]. 南京:南京農(nóng)業(yè)大學,2001.
[6] 穗志方,俞士汶. 主題概念規(guī)范化研究中的自然語言處理策略[C]// 第二屆術(shù)語學、標準化與技術(shù)傳播學術(shù)會議論文集.北京:科學出版社,1998:367-374.
[7] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].中文計算語言學,2002,7(2):59-76.
[8] Vincent D. Blondel, Pierre P. Senellart. Automatic extraction of synonyms in a dictionary[C]// Presented at the Text Mining Workshop.Arlington:2002.
[9] J. Jannink. Thesaurus entry extraction from an on-line dictionary[C]// Proceedings of Fusion’99,Sunnyvale CA:1999.
[10] Hsinchun Chen, Kevin J. Lynch. Automatic construction of networks of concepts characterizing document database[C]// Proceeding of IEEE Transactions on Systems, Man and Cybernetics. 1992,22(5):885-902.
[11] Gregory Grefenstette. Automatic thesaurus generation from raw text using knowledge-poor techniques[C]// Proceeding of Making Sense of Words. Ninth Annual Conference of the UW Centre for the New OED and text Research. 1993,9.
[12] Peter D. Turney. Mining the web for synonyms: PMI-IR versus LSA on TOEFL[C]// Proceeding of European Conference on Machine Learning. 2001:491-502.
[13] Derrick Higgins. Which statistic reflect semantics? Rethinking synonymy and word similarity[C]// Proceeding of International Conference on Linguistic Evidence. 2004.
[14] 劉華梅,侯漢清. 基于情報檢索的漢語同義詞識別初探[J].理論與探索.2005,28(4):373-375.
[15] Glen Jeh, Jennifer Widom. Simrank: a measure of structural-context similarity[C]// Proceeding ofKDD02: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, 2002:538-543.
[16] Ioannis Antonellis, Hector Garcia Molina , Chi Chao Chang. Simrank++: query rewriting through link analysis of the click graph[C]// Proceedings of VLDB Endowment, 2008:1(1).
[17] Jerome H. Friedman. Greedy function approximation: a gradient boosting machine[J]. Ann. Statist.,2001,29(5):1189 .
[18] Jing Bai, Fernando Diaz, Yi Chang, et al. Keke Chen: Cross-Market Model Adaptation with Pairwise Preference Data for Web Search Ranking[C]// Proceeding of COLING (Posters) 2010: 18-26.
[19] Zheng, Z, K.Chen, G. Sun, et al. A regression framework for learning ranking functions using relative relevance judgments[C]// Proceedings of the 30thannual international ACM SIGIR conference on Rsearch and development in information retrieval 2007:287-294.
[20] Bang Zhang, Getian Ye, Yang Wang, et al., Gunawan Herman: Finding shareable informative patterns and optimal coding matrix for multiclass boosting[C]// Proceeding of ICCV 2009: 56-63.