付中正 方逵 王娟
[摘要]瓜果種植信息推薦有利于實(shí)現(xiàn)瓜果種植規(guī)范化、標(biāo)準(zhǔn)化管理,推進(jìn)瓜果產(chǎn)業(yè)化。通過(guò)建立瓜農(nóng)用戶興趣模型和文檔特征模型,并進(jìn)行用戶興趣分類(lèi),使用基于內(nèi)容推薦技術(shù),建立了瓜果種植信息推薦模型,為瓜果種植用戶提供個(gè)性化的農(nóng)業(yè)信息服務(wù)。
[關(guān)鍵詞]推薦系統(tǒng);特征提取;用戶興趣模型;信息推薦模型;瓜果種植
[中圖分類(lèi)號(hào)]TP3[文獻(xiàn)標(biāo)識(shí)碼]A
1 引言
信息推薦技術(shù)包括了基于協(xié)同過(guò)濾推薦、基于內(nèi)容推薦、混合型推薦、基于數(shù)據(jù)挖掘推薦等,國(guó)內(nèi)外有許多學(xué)者在這方面開(kāi)展了廣泛研究。1992年Goldberg等提出了協(xié)同過(guò)濾概念,這是目前研究和應(yīng)用最廣泛而且效率較高的一類(lèi)推薦技術(shù)。自 20 世紀(jì) 90 年代初期第一個(gè)推薦系統(tǒng)問(wèn)世,推薦系統(tǒng)開(kāi)始成為一個(gè)獨(dú)立的研究領(lǐng)域,并一直保持著較高的研究熱度。信息推薦是根據(jù)用戶特征推薦滿足用戶需求的對(duì)象,實(shí)現(xiàn)個(gè)性化服務(wù)。推薦系統(tǒng)的優(yōu)點(diǎn)在于能主動(dòng)收集用戶的特征資料,通過(guò)對(duì)用戶個(gè)性、習(xí)慣、偏好的分析,為用戶定制并提供其感興趣的信息;同時(shí)能及時(shí)跟蹤用戶的需求變化,根據(jù)變化自動(dòng)調(diào)整信息服務(wù)的方式和內(nèi)容。協(xié)同過(guò)濾推薦的優(yōu)勢(shì)是不依賴(lài)于項(xiàng)目?jī)?nèi)容,而是通過(guò)計(jì)算用戶行為之間的相似度來(lái)進(jìn)行信息推薦。
基于內(nèi)容過(guò)濾推薦技術(shù)與協(xié)同過(guò)濾推薦不同,它是利用信息內(nèi)容特征和用戶興趣特征的相似性來(lái)進(jìn)行過(guò)濾的。在基于內(nèi)容過(guò)濾推薦系統(tǒng)中,每個(gè)用戶都用一個(gè)用戶的興趣模型來(lái)表示其興趣特征;對(duì)每個(gè)項(xiàng)目的內(nèi)容進(jìn)行特征提取形成特征向量。當(dāng)對(duì)目標(biāo)用戶進(jìn)行推薦時(shí),需要把該用戶的用戶興趣模型與所有項(xiàng)目的特征向量進(jìn)行相似度計(jì)算,系統(tǒng)通過(guò)相似度比較來(lái)推薦項(xiàng)目。
基于內(nèi)容的推薦系統(tǒng)由于沒(méi)有考慮到用戶行為,這就沒(méi)有了協(xié)同過(guò)濾中的第一評(píng)價(jià)、稀疏性、特殊用戶等問(wèn)題。但是,由于基于內(nèi)容的推薦系統(tǒng)必須分析信息的內(nèi)容,因此這導(dǎo)致了基于內(nèi)容的推薦系統(tǒng)只能處理文本類(lèi)信息,而對(duì)于音樂(lè)、圖像、視頻等媒體信息是無(wú)能為力的,也無(wú)法對(duì)用戶的需求或興趣提供準(zhǔn)確的推薦。
由于協(xié)同過(guò)濾推薦和基于內(nèi)容推薦兩種技術(shù)各有其優(yōu)點(diǎn)和缺點(diǎn),于是就產(chǎn)生了混合推薦技術(shù),通過(guò)混合、切換、加權(quán)、層疊、特征組合、特征放大等方法將以上兩種技術(shù)進(jìn)行混合,這樣能同時(shí)繼承協(xié)同推薦和基于內(nèi)容推薦的優(yōu)點(diǎn),提高推薦質(zhì)量。
基于數(shù)據(jù)挖掘的推薦技術(shù)主要是通過(guò)數(shù)據(jù)挖掘技術(shù),從中挖掘出有價(jià)值的知識(shí),再將這些知識(shí)對(duì)用戶進(jìn)行推薦,但對(duì)農(nóng)民用戶這個(gè)方法不太實(shí)用。
2 瓜果種植信息推薦模型
基于內(nèi)容的推薦是通過(guò)計(jì)算項(xiàng)目的內(nèi)容特征與用戶興趣特征的相似度來(lái)進(jìn)行推薦的。它的目的是用用戶的興趣模型來(lái)表征用戶的興趣特征,將項(xiàng)目?jī)?nèi)容進(jìn)行特征提取形成特征向量,然后通過(guò)用戶的用戶興趣模型與項(xiàng)目的特征向量進(jìn)行相似度計(jì)算,以此來(lái)推薦結(jié)果項(xiàng)目集,該技術(shù)的核心是用戶的興趣模型的表示、特征提取以及相似度計(jì)算。
瓜果種植信息推薦模型是基于南方瓜果種植標(biāo)準(zhǔn)化體系設(shè)計(jì)的,該模塊主要采用基于內(nèi)容的推薦技術(shù),通過(guò)建立農(nóng)民興趣模型和文檔特征模型,對(duì)瓜農(nóng)進(jìn)行個(gè)性化的農(nóng)業(yè)信息推薦服務(wù)。在傳統(tǒng)的基于內(nèi)容的推薦技術(shù)基礎(chǔ)上,充分考慮瓜農(nóng)不同的興趣需求,以及整個(gè)模塊的自適應(yīng)修正問(wèn)題,使得瓜果種植信息推薦模塊更符合瓜農(nóng)的需求。其主要技術(shù)內(nèi)容包括如下幾個(gè)方面:
2.1 數(shù)據(jù)采集與預(yù)處理
為了建立用戶興趣向量模型、文檔特征向量模型和實(shí)際的用戶興趣特征模型,系統(tǒng)需要搜集能反映出用戶興趣的信息,主要根據(jù)用戶注冊(cè)信息、用戶日志數(shù)據(jù)等作為用戶興趣特征模型中的原始數(shù)據(jù)。
針對(duì)收集到的大量網(wǎng)頁(yè)信息內(nèi)容,進(jìn)行清洗,并且去除網(wǎng)頁(yè)中的HTML標(biāo)簽,然后,通過(guò)分詞器對(duì)這些內(nèi)容進(jìn)行分詞,并在分詞的過(guò)程中對(duì)一些停用詞無(wú)用詞進(jìn)行清理。
2.2 文本表示
為了使計(jì)算機(jī)能更有效地處理和計(jì)算文本資源,必須首先將文本數(shù)據(jù)進(jìn)行結(jié)構(gòu)化的數(shù)學(xué)表示。因此,建立了向量空間模型來(lái)進(jìn)行文本表征,它是目前運(yùn)用最廣泛也是最為成功的一種文本表示方法。在向量空間模型中,每一篇文本都被形式化的表示成為的詞條集合。其中,每一個(gè)詞條都被賦予一定的權(quán)值,每個(gè)文本可以表示成為如下向量形式:
其中是特征項(xiàng),與之相對(duì)應(yīng)的是權(quán)重,反映了特征詞在文本中的重要程度。每一篇文本的內(nèi)容都被離散化為一個(gè)一個(gè)的特征詞,并且將這些特征詞形式化為數(shù)值的形式。以為項(xiàng)的向量表示方法,把原來(lái)極其復(fù)雜的問(wèn)題,變?yōu)榱讼蛄靠臻g中的普通計(jì)算,這大大提高了運(yùn)算速度和效率。
在向量空間模型中,可以采用不同的權(quán)重衡量方法以及相似度計(jì)算方法,使用者可以根據(jù)不同的數(shù)據(jù)選擇不同的方法,這使得向量空間模型有較為廣泛的適應(yīng)性。
2.3 特征提取
在向量空間模型中,特征項(xiàng)權(quán)值的計(jì)算會(huì)直接影響到推薦模型的計(jì)算精確度,因此,選擇權(quán)重計(jì)算方法是一個(gè)比較重要的問(wèn)題。當(dāng)文本經(jīng)過(guò)分詞、清理停用詞等處理后,得到的向量空間的維度是一個(gè)異常高維度的空間,也即是我們通常所說(shuō)的維數(shù)災(zāi)難的問(wèn)題,它導(dǎo)致系統(tǒng)資源被大量占用,計(jì)算效率低下。為了降低特征空間的維數(shù),減少存儲(chǔ)空間的使用,我們必須選擇合適的特征提取算法,首先通過(guò)對(duì)特征權(quán)重進(jìn)行排序,然后根據(jù)TOP-N原則,選擇前N個(gè)特征進(jìn)行處理,或者根據(jù)事先設(shè)定好的閾值,將特征權(quán)重超過(guò)該閾值的所有特征項(xiàng)納入考慮范圍。特征提取不僅能避免維數(shù)災(zāi)難問(wèn)題,而且還能降低整個(gè)系統(tǒng)的計(jì)算復(fù)雜度,最終提高整個(gè)系統(tǒng)的準(zhǔn)確率。
所謂特征選擇,即是從原始特征空間選擇了一部分特征項(xiàng)組成一個(gè)新的低維空間,選擇的這些特征項(xiàng)雖然只是原始空間中的一部分,但是他們能代表原始特征空間的特征。想要進(jìn)行特征選擇,權(quán)重計(jì)算是其核心影響因素。目前,特征權(quán)重計(jì)算方法有很多,如布爾函數(shù)、詞語(yǔ)頻率等。我們選用了目前比較實(shí)用的方法,即TF-IDF-IG算法。該算法通過(guò)引入了信息增益,由魯松等人提出,它將文本集合看成是符合某種概率分布的信息源,通過(guò)訓(xùn)練數(shù)據(jù)集合的信息熵與文本中特征詞的條件熵之間信息量增益情況來(lái)衡量該特征詞在類(lèi)別中所能夠提供的信息量,也就是特征詞在類(lèi)別中的重要程度。將傳統(tǒng)的詞語(yǔ)權(quán)重計(jì)算公式IF-IDF改進(jìn)為:
其中,為文檔中特征詞的個(gè)數(shù);為隨機(jī)事件在獲得信息之前結(jié)果的不確定程度;代表觀測(cè)信息后,信息空間的不確定程度;為信息增益,即是與這兩種不確定程度的差,也就是特征詞對(duì)分類(lèi)的作用,或者是特征詞提供的用于分類(lèi)信息量。
2.4 分詞技術(shù)
如果向量空間模型來(lái)對(duì)文檔進(jìn)行形式化的表示,通過(guò)一組離散的相互獨(dú)立的詞語(yǔ)來(lái)表征一個(gè)文本,這就需要對(duì)收集的原始信息進(jìn)行分詞,在分詞的過(guò)程中還需要考慮方言等。瓜果種植信息推薦模塊的分詞技術(shù)為我們自主研發(fā)的農(nóng)業(yè)分詞系統(tǒng)。
2.5 相似度計(jì)算
為了最終實(shí)現(xiàn)向目標(biāo)用戶推薦其感興趣的項(xiàng)目,在衡量用戶對(duì)類(lèi)別文本集中的文檔感興趣的程度時(shí),需要將用戶興趣向量與文檔特征向量進(jìn)行相似度計(jì)算。本文使用余弦相似度進(jìn)行計(jì)算。
2.6 用戶興趣
就用戶而言,所謂的興趣實(shí)際上僅僅反映的是用戶目前的興趣偏好。但是,即使是同一時(shí)期,用戶興趣可能有短期和長(zhǎng)期之分,所以我們將用戶興趣模型劃分為用戶的短期興趣和長(zhǎng)期興趣。實(shí)踐表明:用戶曾經(jīng)通過(guò)搜索引擎搜索的字符串反映的是用戶短期的興趣偏好,用戶瀏覽過(guò)的網(wǎng)頁(yè)則反映的既是用戶短期的興趣偏好又是用戶長(zhǎng)期興趣偏好,而用戶個(gè)人注冊(cè)信息則反映了用戶長(zhǎng)期興趣偏好。根據(jù)以上幾種信息分析,具體的用戶短期和長(zhǎng)期興趣模型算法如下。
長(zhǎng)期興趣算法:
輸入:用戶的注冊(cè)信息、曾經(jīng)瀏覽的網(wǎng)頁(yè)
輸出:用戶的長(zhǎng)期興趣
步驟1:收集用戶的注冊(cè)信息以及曾經(jīng)瀏覽的網(wǎng)頁(yè)并進(jìn)行分詞。
步驟2:將分詞后得到的特征詞進(jìn)行權(quán)重計(jì)算,計(jì)算公式使用本文提出的特征提取改進(jìn)算法。
步驟3:通過(guò)TOP-N進(jìn)行降維。
步驟4:退出。
短期興趣算法:
輸入:用戶曾經(jīng)瀏覽的網(wǎng)頁(yè)和用戶在搜索欄里輸入的內(nèi)容
輸出:用戶短期興趣
步驟1:收集用戶u曾經(jīng)瀏覽過(guò)的網(wǎng)頁(yè)和搜索信息并進(jìn)行分詞。
步驟2:將分詞后特到的特征詞進(jìn)行權(quán)重計(jì)算,計(jì)算公式使用本文提出的特征提取算法。
步驟3:通過(guò)TOP-N進(jìn)行降維。
2.7 用戶興趣分類(lèi)
為了減少用戶興趣向量和文檔特征向量相似度計(jì)算的計(jì)算量,必須對(duì)用戶興趣進(jìn)行分類(lèi)處理,使其能映射到湖南省農(nóng)村農(nóng)業(yè)信息化綜合服務(wù)平臺(tái)的十二大表空間中的瓜果類(lèi),這樣可以大大減少相似度的計(jì)算量,節(jié)約了系統(tǒng)的開(kāi)銷(xiāo)。
2.8 信息推薦
利用相似度公式,計(jì)算出相似度結(jié)果,采用TOP-N推薦方法,將相似度最靠前的N條信息推薦給用戶。
2.9 反饋修正
在用戶操作完畢之后,系統(tǒng)需要自動(dòng)將用戶操作結(jié)果反饋給模型。一般來(lái)說(shuō)用戶短期興趣變化較快,因此每次進(jìn)行推薦時(shí),都需要重新定位用戶的短期興趣。而用戶長(zhǎng)期興趣在短時(shí)間內(nèi)發(fā)生較大變化的可能性比較小,但用戶原來(lái)感興趣的偏好會(huì)隨時(shí)間變化而被漸漸遺忘,并且會(huì)培養(yǎng)出新的興趣偏好來(lái)。其長(zhǎng)期興趣的變化情況,在模塊的設(shè)計(jì)中使用時(shí)間窗口來(lái)對(duì)用戶長(zhǎng)期興趣模型進(jìn)行適當(dāng)修正。當(dāng)一個(gè)給定的時(shí)間期限結(jié)束后需要重新判斷用戶的長(zhǎng)期興趣,這樣既能減少每次推薦時(shí)都計(jì)算長(zhǎng)期興趣的計(jì)算量又能夠把握用戶的長(zhǎng)期興趣變化程度和方向,模型能有效進(jìn)行收集和響應(yīng)。
3 結(jié)束語(yǔ)
湖南瓜果種植面積不是很大,地方比較分散,品種多樣化。因此,開(kāi)展瓜果種植信息推薦比較困難。我們依托湖南省農(nóng)村農(nóng)業(yè)信息化綜合服務(wù)平臺(tái),充分利用平臺(tái)農(nóng)民用戶信息,有效收集瓜農(nóng)用戶信息,優(yōu)化用戶興趣模型,不斷提高瓜果種植信息推薦的實(shí)效性和有效性。
[參考文獻(xiàn)]
[1] Goldberg D,Nichols D,Oki B M,et al.Using Collaborative Filtering to Weave an Information Tapestry [J] .Communications of the ACM ,1992,35(12) : 61-70.
[2] 冷亞軍, 陸青, 梁昌勇.協(xié)同過(guò)濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能, 2018, 27(8):720-733.
[3] Mostafa,J.,Lam.W.,Palakal,M.A multilevel approach to intelligent information filtering: model , system ,and evaluation[J].ACM Transactions on Informatin Systems,1997,15(4):368-399.
[4] Bollaeker,K.D.,Lawrence,Giles,C.L. Discovering relevant seientific literature on the Web[J].IEEE Intelligent Systems,2000,15(2):42-47.
[5] 曾艷,麥永浩.基于內(nèi)容預(yù)測(cè)和項(xiàng)目評(píng)分的協(xié)同過(guò)濾推薦[J].計(jì)算機(jī)應(yīng)用, 2004,24(1):111-113.
[6] 單京晶.基于內(nèi)容的個(gè)性化推薦系統(tǒng)研究[D].長(zhǎng)春:東北師范大學(xué),2015.
[7] 魯松,李曉黎,白碩,等.文檔中詞語(yǔ)權(quán)重計(jì)算方法的改進(jìn)[J].中文信息學(xué)報(bào),2000,l4(6):8-13.
[8] 方逵,羅武.中文農(nóng)業(yè)專(zhuān)業(yè)分詞器設(shè)計(jì)與實(shí)現(xiàn)[J].農(nóng)業(yè)工程,2012, 2(3):23-29.
[9] 朱幸輝,方逵.農(nóng)業(yè)信息服務(wù)關(guān)鍵技術(shù)研究與應(yīng)用[M].長(zhǎng)沙:國(guó)防科技大學(xué)出版社,2013.
[收稿日期]2018-09-03
[基金項(xiàng)目]本文得到湖南省重點(diǎn)研發(fā)項(xiàng)目(編號(hào)No2017NK2381)的資助。
[作者簡(jiǎn)介]付中正(1996—),男,研究生,研究方向:農(nóng)業(yè)信息化技術(shù);方逵(1963—),男,博士,教授,研究方向:大數(shù)據(jù)與智慧農(nóng)業(yè);
王娟(1986—),女,碩士,主要從事軟件開(kāi)發(fā)與管理工作。