• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于ElasticSearch的推薦系統(tǒng)架構(gòu)

    2018-01-08 22:52:34郝勝男趙領(lǐng)杰
    電腦知識(shí)與技術(shù) 2017年36期
    關(guān)鍵詞:搜索引擎排序物品

    郝勝男 趙領(lǐng)杰

    摘要:該文在研究了推薦系統(tǒng)和搜索技術(shù)以后,提出了一種利用搜索引擎來(lái)進(jìn)行數(shù)據(jù)召回的方式,首先采用關(guān)鍵詞抽取算法對(duì)用戶(hù)的歷史記錄進(jìn)行概率分析,抽取出個(gè)性化的關(guān)鍵詞并給到ElasticSearch搜索引擎進(jìn)行候選集的召回,然后提出一種特征融合的方法對(duì)樣本集進(jìn)行了整合,最后利用機(jī)器學(xué)習(xí)算法對(duì)樣本進(jìn)行了訓(xùn)練并預(yù)測(cè)輸出。與協(xié)同過(guò)濾和純粹的基于內(nèi)容的推薦系統(tǒng)進(jìn)行對(duì)比,利用基于ElasticSearch的推薦系統(tǒng)架構(gòu)將推薦系統(tǒng)的點(diǎn)擊率提高到了17.5%。

    關(guān)鍵詞: 推薦系統(tǒng); ElasticSearch; 機(jī)器學(xué)習(xí); SVM; GBDT

    中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)36-0230-03

    Abstract: Based on the research of the recommendation system and search technology, this paper puts forward a method of data to recall the use of search engines, the first probability analysis using keyword extraction algorithm to extract the user record, and personalized keywords to the ElasticSearch search engine recall candidate set, the sample sets for the integration method a fusion feature is then proposed, finally using machine learning algorithm to training samples and predictive output. Compared with collaborative filtering and pure content-based recommendation system, the recommendation rate of recommendation system is increased to 17.5% by using ElasticSearch based recommendation system architecture.

    Key words: recommendation system; ElasticSearch; machine learning; SVM; GBDT

    1 概述

    21世紀(jì)以來(lái),信息技術(shù)的不斷發(fā)展和互聯(lián)網(wǎng)規(guī)模的不斷擴(kuò)大,使得數(shù)據(jù)量有了指數(shù)級(jí)的增長(zhǎng),不同的用戶(hù)在接受來(lái)自世界各地海量的數(shù)據(jù),如何有效地將數(shù)據(jù)轉(zhuǎn)化為信息,成為一個(gè)亟待解決的問(wèn)題[1]。從用戶(hù)的角度來(lái)看,用戶(hù)更加想接收到對(duì)自己有用的信息,或者自己感興趣的信息,而不是海量信息的集合;從信息提供者的角度來(lái)看,想提供一種對(duì)于不同用戶(hù)展示不同信息的平臺(tái),而這個(gè)展示的信息是跟用戶(hù)緊密聯(lián)系的。在這種情況下,推薦系統(tǒng)應(yīng)運(yùn)而生[2]。推薦系統(tǒng)的產(chǎn)生主要完成以下的工作內(nèi)容:將用戶(hù)和信息緊密結(jié)合,對(duì)于不同的用戶(hù)進(jìn)行個(gè)性化的定制,通過(guò)分析特定用戶(hù)的偏好,幫助用戶(hù)從海量數(shù)據(jù)中篩選出用戶(hù)偏好的信息,然后將這些個(gè)性化的信息呈現(xiàn)給用戶(hù)。

    推薦系統(tǒng)最核心的部分為推薦算法,本文首先研究了當(dāng)前最流行的推薦算法,主要包括基于內(nèi)容的推薦算法,基于協(xié)同過(guò)濾的推薦算法。其中還包括在模型建立過(guò)程中用到的數(shù)據(jù)降維方法,特征提取方法等。這些算法在不同的場(chǎng)景應(yīng)用中都會(huì)有各自的優(yōu)缺點(diǎn),因此會(huì)有不同的適用范圍。在用戶(hù)使用有一定基礎(chǔ)的情況下,基于物品的協(xié)同過(guò)濾算法在目前來(lái)說(shuō)是一種比較穩(wěn)定的通用推薦算法,它預(yù)測(cè)準(zhǔn)確度較高,而且算法的解釋性較高。

    搜索技術(shù)是一項(xiàng)比較成熟的技術(shù),它將因特網(wǎng)上的信息進(jìn)行整合,對(duì)用戶(hù)開(kāi)放查詢(xún)。搜索引擎主要工作原理分為三部分:從網(wǎng)絡(luò)中搜集數(shù)據(jù);將數(shù)據(jù)進(jìn)行整理;接受用戶(hù)的查詢(xún)。搜索引擎有著快速返回搜索結(jié)果的優(yōu)勢(shì),因此可以將搜索技術(shù)應(yīng)用于實(shí)時(shí)推薦系統(tǒng)中。這樣對(duì)于推薦系統(tǒng)的實(shí)時(shí)性和準(zhǔn)確性都會(huì)有一定的提高。

    本文對(duì)基于搜索技術(shù)的推薦系統(tǒng)關(guān)鍵技術(shù)進(jìn)行研究,對(duì)于數(shù)據(jù)到推薦結(jié)果之間進(jìn)行了搜索和推薦兩步篩選,并對(duì)實(shí)時(shí)推薦系統(tǒng)提供了一種通用架構(gòu)。在推薦算法的選用中,提供了一種將推薦問(wèn)題轉(zhuǎn)化為二分類(lèi)問(wèn)題的特征合并方法,與普通的基于協(xié)同過(guò)濾的算法相比較,解決了“冷啟動(dòng)”的問(wèn)題,同時(shí)在算法內(nèi)部隱含用戶(hù)和物品聚類(lèi)的數(shù)學(xué)依據(jù),對(duì)于數(shù)據(jù)量大而用戶(hù)量少的推薦場(chǎng)景提高了推薦準(zhǔn)度,也解決了“冷啟動(dòng)”問(wèn)題。

    2 基于ElasticSearch的推薦系統(tǒng)架構(gòu)

    基于ElasticSearch的推薦系統(tǒng)架構(gòu),將推薦任務(wù)分為兩步排序,第一步排序使用高并發(fā)的ElasticSearch搜索引擎返回相關(guān)的候選集,第二步通過(guò)機(jī)器學(xué)習(xí)算法對(duì)候選集進(jìn)行排序最終生成推薦結(jié)果。

    搜索引擎的輸入為關(guān)鍵詞,因此本文中推薦系統(tǒng)的架構(gòu)第一步是搜集到用戶(hù)的歷史記錄以后進(jìn)行關(guān)鍵詞的提取,關(guān)鍵詞的提取采用了更改的TF-IDF算法,提取到多維度的關(guān)鍵詞之后放到ElasticSearch中搜索,會(huì)得到不同維度的搜索結(jié)果,從而解決了推薦系統(tǒng)的多樣性的問(wèn)題,再進(jìn)行第二步推薦算法的排序,這里采用了不同的機(jī)器學(xué)習(xí)的算法,離線訓(xùn)練的模型持久化到內(nèi)存,然后對(duì)候選集進(jìn)行二次排序最終得到推薦列表展示給用戶(hù)。

    搜索技術(shù)主要解決實(shí)時(shí)推薦系統(tǒng)的速度問(wèn)題和搜索結(jié)果的多樣性問(wèn)題,推薦算法主要解決推薦結(jié)果的個(gè)性化問(wèn)題。

    2.1 基于用戶(hù)的ElasticSearch關(guān)鍵詞抽取

    關(guān)鍵詞抽取其實(shí)是TF-IDF的一種在應(yīng)用場(chǎng)景的實(shí)現(xiàn),將某一個(gè)用戶(hù)的歷史記錄作為一整篇文檔,所有數(shù)據(jù)作為總的文檔。用戶(hù)所有的歷史記錄數(shù)目為M,其中一條記錄標(biāo)記為[I={i1,i2,...,in}],公式中i為記錄中的詞。endprint

    2.2 推薦系統(tǒng)的機(jī)器學(xué)習(xí)算法排序

    用戶(hù)與物品之間的信息協(xié)同過(guò)濾等算法之外,還可以使用統(tǒng)計(jì)學(xué)習(xí)方法,例如分類(lèi)和回歸來(lái)做排序,為了實(shí)現(xiàn)這種方式,本文提供了一種將用戶(hù)信息和物品信息提取特征并融合的算法。將融合后的特征作為正負(fù)樣本來(lái)用在分類(lèi)或者回歸上面。

    用戶(hù)在系統(tǒng)中留下的瀏覽和點(diǎn)擊日志分別表明了用戶(hù)對(duì)于物品的不同喜好,可以根據(jù)用戶(hù)的不同隱性反饋計(jì)算出用戶(hù)對(duì)于物品的顯性得分,然后根據(jù)已知的用戶(hù)-物品的得分來(lái)做回歸,而本文中使用的是分類(lèi)方法,即用戶(hù)對(duì)于物品有點(diǎn)擊或者瀏覽行為即為正樣本,對(duì)于負(fù)樣本的選擇可以使用隨機(jī)方法,這樣有了正負(fù)樣本以后就可以使用LogisticRegression等二分類(lèi)方法來(lái)做排序。在做分類(lèi)和回歸之前,本文特征提取算法可以描述為以下算法:

    這樣就得到了正負(fù)樣本,就可以使用分類(lèi)方法來(lái)對(duì)候選集做二次排序得到最終推薦列表。

    正負(fù)樣本生成:在特征向量生成過(guò)程中,可以采用用戶(hù)-物品特征融合的方式進(jìn)行正負(fù)樣本的提取,用戶(hù)的基本信息的特征向量為User,物品的特征向量為Item,若用戶(hù)對(duì)物品感興趣則正樣本可以選擇為,兩個(gè)向量的橫向擴(kuò)展為一個(gè)向量。若未表示明確的感興趣,則認(rèn)為該向量為負(fù)樣本。當(dāng)正負(fù)樣本確立之后,就可以選擇機(jī)器學(xué)習(xí)算法進(jìn)行模型確立了。本文中使用了Logistic Regression,SVM和GBDT三種機(jī)器學(xué)習(xí)方法進(jìn)行了模型的訓(xùn)練。

    2.3 基于ElasticSearch的推薦系統(tǒng)架構(gòu)設(shè)計(jì)

    推薦系統(tǒng)架構(gòu)設(shè)計(jì)如圖1所示。

    系統(tǒng)總架構(gòu)分為一下幾個(gè)模塊:表現(xiàn)層,分析層,推薦引擎層。表現(xiàn)層是用戶(hù)與推薦系統(tǒng)連接的橋梁,用戶(hù)可以通過(guò)瀏覽,點(diǎn)擊等行為留下自己的行為信息,而日志分析層則可以通過(guò)這些點(diǎn)擊瀏覽行為推斷出用戶(hù)的基本信息或者在表現(xiàn)層誘導(dǎo)用戶(hù)去填寫(xiě)自己的基本信息。日志分析層還承擔(dān)了評(píng)價(jià)用戶(hù)對(duì)某些物品的喜好程度,通過(guò)不同的點(diǎn)擊瀏覽次數(shù)來(lái)對(duì)喜好程度進(jìn)行分級(jí)。推薦引擎模塊拿到分析模塊的分析結(jié)果來(lái)對(duì)用戶(hù)未瀏覽過(guò)或者點(diǎn)擊過(guò)的物品進(jìn)行評(píng)價(jià),將評(píng)價(jià)高的物品推薦給用戶(hù)。

    整個(gè)推薦系統(tǒng)借用了搜索引擎的信息聚合和排序的功能,利用搜索引擎可以快速將海量的物品列表排序并取回一小部分的候選集。在搜索引擎的選擇上,使用了開(kāi)源的ElasticSearch搜索引擎,ElasticSearch是一個(gè)基于Lucene的搜索服務(wù)器。它提供了一個(gè)分布式多用戶(hù)能力的全文搜索引擎,基于RESTful web接口,能夠達(dá)到實(shí)時(shí)搜索,穩(wěn)定,可靠,快速,安裝使用方便。而且ElasticSearch提供了不同種文檔相關(guān)度的排序,使得與搜索詞更加相近的文檔排序更高,內(nèi)部使用倒排索引來(lái)實(shí)現(xiàn),從而達(dá)到了快速的效果。

    3 效果對(duì)比

    3.1 機(jī)器學(xué)習(xí)算法的效果對(duì)比

    利用上文的機(jī)器學(xué)習(xí)算法,以及特征融合方法,本文抓取了某客戶(hù)管理系統(tǒng)的用戶(hù)信息,并對(duì)于用戶(hù)的特征以及物品的特征進(jìn)行了提取融合,分成了訓(xùn)練集和測(cè)試集合進(jìn)行了算法的對(duì)比,主要對(duì)比了算法的AUC和算法線上預(yù)測(cè)的速度。

    橫軸是訓(xùn)練集合的大小,縱軸是AUC值,從圖中可以看出,隨著訓(xùn)練集合的增多,AUC的值整體會(huì)提升,說(shuō)明算法的準(zhǔn)確性與數(shù)據(jù)的多少有直接關(guān)系,達(dá)到一定量以后,準(zhǔn)確性達(dá)到平穩(wěn)狀態(tài),由于機(jī)器的性能問(wèn)題,SVM算法在訓(xùn)練到10萬(wàn)量級(jí)的時(shí)候花費(fèi)時(shí)間過(guò)長(zhǎng),因此沒(méi)有曲線,說(shuō)明SVM算法較其他算法計(jì)算復(fù)雜度要高;整體對(duì)比上,GBDT算法的AUC一直高于其他算法,最終可以達(dá)到AUC=0.85的準(zhǔn)確性。

    隨后比較了三種模型在線上運(yùn)行對(duì)于不同數(shù)量召回集合預(yù)測(cè)的速度對(duì)比,如表1所示:

    表中可以看出,隨著召回?cái)?shù)量級(jí)的增多,算法的預(yù)測(cè)時(shí)間都會(huì)增長(zhǎng),邏輯回歸花費(fèi)的時(shí)間最短,而SVM算法花費(fèi)的時(shí)間已經(jīng)超出了線上推薦系統(tǒng)的要求,GBDT算法的時(shí)間勉強(qiáng)可以接受。

    3.2 推薦效果對(duì)比

    本文抓取了某客戶(hù)管理系統(tǒng)的用戶(hù)信息,進(jìn)行了協(xié)同過(guò)濾推薦,基于內(nèi)容的推薦和基于ElasticSearch的推薦的效果推薦,在同樣每次為用戶(hù)展示20條推薦結(jié)果的條件下,三種算法的點(diǎn)擊率如表2所示。

    從線上點(diǎn)擊率來(lái)看,基于ElasticSearch的推薦系統(tǒng)架構(gòu)能夠?yàn)橛脩?hù)帶來(lái)更高的點(diǎn)擊率,因此效果要略好于純粹的協(xié)同過(guò)濾和基于內(nèi)容的推薦系統(tǒng)。

    4 結(jié)論

    本文在研究了關(guān)鍵詞抽取和ElasticSearch搜索引擎的搜索性能以后,提出了一種關(guān)鍵詞抽取方式,利用不同用戶(hù)的歷史記錄來(lái)抽取關(guān)鍵詞并借助ElasticSearch來(lái)召回候選集,大大提高了召回速度,并提出一種用戶(hù)-物品特征融合的方式,借助機(jī)器學(xué)習(xí)算法來(lái)對(duì)候選集進(jìn)行了重新排序,并將結(jié)果返回給用戶(hù),并與協(xié)同過(guò)濾和純粹的基于內(nèi)容的推薦系統(tǒng)進(jìn)行了比較,提高了推薦系統(tǒng)的點(diǎn)擊率。

    參考文獻(xiàn):

    [1] 劉建國(guó), 周濤, 汪秉宏. 個(gè)性化推薦系統(tǒng)的研究進(jìn)展[J]. 自然科學(xué)進(jìn)展, 2009(19):1-15.

    [2] PAUL Z, CHRIS E. Understanding Big Data[M]. McGraw-Hill Osborne Media, 2011.

    [3] 常江. 基于ApacheMahout的推薦算法的研究與實(shí)現(xiàn)[D]. 成都:電子科技大學(xué), 2013.

    [4] 項(xiàng)亮. 推薦系統(tǒng)實(shí)踐[M]. 北京:人民郵電出版社, 2012.

    [5] 任磊. 推薦系統(tǒng)關(guān)鍵技術(shù)研究[D]. 上海:華東師范大學(xué), 2012.

    [6] 劉源. 基于云計(jì)算的分布式推薦引擎算法研究[D]. 成都:電子科技大學(xué), 2013.

    [7] ADOMAVICIUS G, TUZHILIN A. Toward the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions[J]. IEEE Trans, 2005(17):734-749.

    [8] GOLDBERG D, NICHOLS D. Using collaborative filtering to weave an information tapestry[J]. Commun ACM, 1992, 35(12):61-70.

    [9] RESNICK P, LAKOVOUL N, SUSHAK M. GroupLens:An Open Architecture for Collaborative Filtering of Netnews[C]. In Proceedings of ACM 1994 Computer Supported Cooperative Work, Boston, 1994:175-186.

    猜你喜歡
    搜索引擎排序物品
    稱(chēng)物品
    排序不等式
    “雙十一”,你搶到了想要的物品嗎?
    恐怖排序
    誰(shuí)動(dòng)了凡·高的物品
    節(jié)日排序
    刻舟求劍
    兒童繪本(2018年5期)2018-04-12 16:45:32
    網(wǎng)絡(luò)搜索引擎亟待規(guī)范
    找物品
    基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
    荥阳市| 临江市| 平顶山市| 靖边县| 抚州市| 衡南县| 双流县| 博爱县| 疏附县| 江西省| 浪卡子县| 绥化市| 阿拉尔市| 嘉义县| 开平市| 仙游县| 阿城市| 龙泉市| 马龙县| 克什克腾旗| 镇平县| 绥芬河市| 崇阳县| 霍山县| 兴业县| 宁阳县| 察隅县| 蕲春县| 浮山县| 西盟| 泰安市| 永吉县| 华宁县| 五台县| 辉县市| 平果县| 房山区| 庆元县| 易门县| 惠来县| 濮阳县|