• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于協(xié)同過(guò)濾的商品個(gè)性化推薦算法應(yīng)用研究

      2020-12-21 03:58:56梁家富
      關(guān)鍵詞:余弦顧客協(xié)同

      梁家富

      (廣州科技職業(yè)技術(shù)大學(xué),廣州 510550)

      0 引言

      隨著互聯(lián)網(wǎng)的快速發(fā)展,電子商務(wù)平臺(tái)的商品交易規(guī)模越來(lái)越大,平臺(tái)中的商品數(shù)量和種類呈幾何倍數(shù)增長(zhǎng),人們的網(wǎng)上購(gòu)物頻率愈來(lái)愈高。顧客在網(wǎng)絡(luò)購(gòu)物時(shí),在海量的商品中選取出需要的商品是不容易的,所以商品推薦系統(tǒng)的開(kāi)發(fā)與完善受到了大家的追捧。商品推薦系統(tǒng)作為電子商務(wù)平臺(tái)系統(tǒng)的重要組成部分,推薦效率的高低直接影響著平臺(tái)系統(tǒng)商品交易量的提升,因此電子商務(wù)平臺(tái)非常重視推薦系統(tǒng)的應(yīng)用開(kāi)發(fā)。

      電子商務(wù)平臺(tái)推薦系統(tǒng)的主要技術(shù)是協(xié)同過(guò)濾算法(collaborative filtering,CF),以顧客購(gòu)物需求為目標(biāo),在海量的商品數(shù)據(jù)中形成信息推薦模型,具有商品信息收集、數(shù)據(jù)處理、信息分析和商品推薦預(yù)測(cè)等功能。[1]協(xié)同過(guò)濾算法是根據(jù)相似購(gòu)買特征的顧客或者相似屬性特征的商品數(shù)據(jù)進(jìn)行線性分析,將偏好接近的顧客或者特征相似度高的商品形成鄰集,最終把它們推薦給顧客的一種決策方法。[2]該算法被廣泛應(yīng)用在電子商務(wù)平臺(tái)推薦系統(tǒng)中,如美國(guó)的Amazon、億貝以及國(guó)內(nèi)的阿里、當(dāng)當(dāng)、美團(tuán)等。

      當(dāng)前大型電子商務(wù)平臺(tái)的各類數(shù)據(jù)激增,單機(jī)版機(jī)器學(xué)習(xí)模式R Studio 和分布式機(jī)器學(xué)習(xí)模式Spark MLib 的電子商務(wù)推薦系統(tǒng)處理海量數(shù)據(jù)質(zhì)效都有所下降,具體表現(xiàn)在商品推算的正確率下降、誤差增大和推薦的商品信息滿足不了顧客的個(gè)性化需求等方面。采用企業(yè)級(jí)阿里云機(jī)器學(xué)習(xí)平臺(tái)(Platform of Artificial Intelligence,簡(jiǎn)稱PAI)進(jìn)行協(xié)同過(guò)濾算法的商品個(gè)性化推薦系統(tǒng),能有效處理大規(guī)模的商品數(shù)據(jù)信息,解決商品信息的離線調(diào)度問(wèn)題,進(jìn)而提升商品推薦預(yù)測(cè)能力和顧客推薦服務(wù)滿意度。

      1 商品個(gè)性化推薦系統(tǒng)工作原理

      協(xié)同過(guò)濾算法的核心內(nèi)容是在已有顧客購(gòu)買行為或意見(jiàn)的數(shù)據(jù)基礎(chǔ)上,預(yù)測(cè)該顧客的購(gòu)買意向,如喜歡哪些商品或者對(duì)哪些商品感興趣。常用的協(xié)同過(guò)濾算法有兩種,即基于顧客的協(xié)同過(guò)濾算法和基于商品的協(xié)同過(guò)濾算法。[3]

      基于顧客的協(xié)同過(guò)濾算法是根據(jù)顧客以往的購(gòu)買行為數(shù)據(jù)(如商品的點(diǎn)擊、收藏、評(píng)論、購(gòu)買或分享)分析出顧客喜歡的商品或內(nèi)容,針對(duì)喜歡程度進(jìn)行量分,通過(guò)量分高低計(jì)算出具有相同喜好的顧客,最后對(duì)他們進(jìn)行商品推薦。基于商品的協(xié)同過(guò)濾算法就是在基于顧客的協(xié)同過(guò)濾算法上將顧客換成商品,通過(guò)分析顧客對(duì)各種物品的量分獲得物品之間的線性關(guān)系,進(jìn)而把相似的商品推薦給顧客。[4]

      PAI 是阿里云提供的海量數(shù)據(jù)處理智能機(jī)器學(xué)習(xí)平臺(tái),具備機(jī)器學(xué)習(xí)和深度學(xué)習(xí)一站式服務(wù)功能。機(jī)器學(xué)習(xí)PAI 提供了數(shù)據(jù)處理、模型創(chuàng)建、機(jī)器訓(xùn)練、項(xiàng)目部署、項(xiàng)目預(yù)測(cè)等功能。在數(shù)據(jù)資源處理上,PAI 兼容了大數(shù)據(jù)處理的MaxCompute、OSS、NAS 和HDFS 等平臺(tái);在計(jì)算框架上,PAI提供了完整的生態(tài)系統(tǒng)框架,如MR、MPI、Graph、SQL、Tensorflow、Caffe、PYTorch 和 Flink;在產(chǎn)品開(kāi)發(fā)工具上,PAI 提供了3 個(gè)產(chǎn)品,即可視化開(kāi)發(fā)工具PAI-STUDIO、云端交互開(kāi)發(fā)工具PAI-DSW(Data science workshop)和模型服務(wù)工具PAIEAS(Elastic Algorithm Service)。

      本文采用PAI-STUDIO 開(kāi)發(fā)工具,通過(guò)底層MaxCompute 進(jìn)行數(shù)據(jù)處理,使用PAI 提供的分布式、大數(shù)據(jù)、封裝算法,以Restful API 的形式與系統(tǒng)業(yè)務(wù)打通,實(shí)現(xiàn)智能商品個(gè)性化推薦系統(tǒng)功能,最后以推算監(jiān)測(cè)數(shù)據(jù)為例驗(yàn)證系統(tǒng)的計(jì)算性能。[5]

      2 推薦系統(tǒng)的關(guān)鍵技術(shù)設(shè)計(jì)

      電子商務(wù)平臺(tái)商品推薦系統(tǒng)的關(guān)鍵內(nèi)容是推薦算法,它是商品推薦平臺(tái)系統(tǒng)效果的核心因素,即推薦系統(tǒng)的關(guān)鍵是協(xié)同過(guò)濾算法。

      2.1 顧客對(duì)商品的偏好設(shè)計(jì)

      應(yīng)用協(xié)同過(guò)濾算法進(jìn)行商品應(yīng)用推薦時(shí),應(yīng)對(duì)顧客和商品特征進(jìn)行設(shè)定,用 u、i、t、d 分別表示顧客、電子商務(wù)項(xiàng)目商品、顧客購(gòu)買行為和顧客購(gòu)買時(shí)間。用N 表示顧客的數(shù)量,所有顧客表示為:User={u1,u2,…,uj,…,uN};設(shè)項(xiàng)目商品的數(shù)量為P,所有項(xiàng)目商品表示為:Item={i1,i2,…,ij,…,iP};設(shè)顧客的購(gòu)買行為類型為G,購(gòu)買行為表示為:Active_type={t1,t2,…,tj,…,tG},其中 A 的取值為(0,1,2),0 表示顧客點(diǎn)擊行為,1 表示顧客購(gòu)買行為,2 表示顧客收藏行為;設(shè)顧客購(gòu)買日期為D,購(gòu)買時(shí)間表示為:Active_Date={d1,d2,…,dj,…,dD}。

      2.2 項(xiàng)目商品余弦相似度

      余弦相似度(cosine similarity)是利用兩個(gè)向量形成的夾角計(jì)算它們的余弦值,評(píng)估它們的相似水平,常用在二維空間中,使用歐幾里得點(diǎn)積定理求它們的余弦值,公式如下:

      已知屬性向量a 和b 的夾角兩邊長(zhǎng)度,那么它們的余弦相似度cosθ 可通過(guò)轉(zhuǎn)換進(jìn)行計(jì)算,余弦相似度公式如下:

      為了平滑余弦相似度的誤差引入平均值,改進(jìn)的余弦相似度公式如下:

      余弦相似度在商品的協(xié)同過(guò)濾推薦算法中廣泛應(yīng)用,相似度 sim(a,b)值的范圍在[0,1]區(qū)間,離1 越近表示兩個(gè)項(xiàng)目商品的相似度越高,反之表示相似度越低。

      2.3 項(xiàng)目商品杰卡德距離相似度

      Jaccard 相似系數(shù)(Jaccard similarity coefficient)又稱為杰卡德系數(shù),常用來(lái)計(jì)算有限數(shù)量的項(xiàng)目商品樣本集之間的差異度和相似度。已知項(xiàng)量 a,b,Jaccard 系數(shù)就是 a 與 b 的交集數(shù)值與它們的并集數(shù)值的比值,公式如下:

      公式中 J(a,b)的數(shù)值越大,則表示項(xiàng)目商品集a,b 相似度越高。與Jaccard 系數(shù)密切相關(guān)的是Jaccard 距離,常用于表示商品集的不相似度,公式如下:

      公式中dj(a,b)的數(shù)值越大,則說(shuō)明項(xiàng)目商品集a,b 的不相似度越高。

      3 實(shí)驗(yàn)分析

      3.1 實(shí)驗(yàn)環(huán)境和工作過(guò)程

      在阿里云機(jī)器學(xué)習(xí)PAI 平臺(tái)下進(jìn)行協(xié)同過(guò)濾推薦實(shí)驗(yàn),步驟如下所述。

      (1)在阿里云平臺(tái)注冊(cè)賬號(hào),開(kāi)通機(jī)器學(xué)習(xí)PAI。由于 PAI-Studio 是在 MaxCompute 環(huán)境上執(zhí)行的,所以還要開(kāi)通MaxCompute 服務(wù),需要選擇所屬區(qū)域、付費(fèi)方式、是否開(kāi)啟GPU 集群等。

      (2)數(shù)據(jù)集的準(zhǔn)備和管理。數(shù)據(jù)集的上傳需要在PAI 平臺(tái)注冊(cè)數(shù)據(jù)集,可將本機(jī)數(shù)據(jù)集導(dǎo)入到PAI 平臺(tái),導(dǎo)入的數(shù)據(jù)集文件支持.manifest 和.csv格式。數(shù)據(jù)集上傳時(shí)小于20M 可以用IDE 環(huán)境上傳,大于 20M 建議使用 MaxCompute Tunnel 上傳,默認(rèn)執(zhí)行壓縮后上傳。在PAI 中數(shù)據(jù)集存儲(chǔ)為對(duì)象存儲(chǔ)(Object Storage Service,OSS),可在RAM訪問(wèn)控制中開(kāi)通Aliyun PAI Accessing OSS Role的權(quán)限。

      (3)基于PAI 的協(xié)同過(guò)濾推薦算法的工作過(guò)程?;赑AI 的協(xié)同過(guò)濾商品推薦系統(tǒng)是建立在MaxCompute 平臺(tái)之上的,本次實(shí)驗(yàn)在PAI Studio可視化建模中進(jìn)行,利用阿里云的多種云端計(jì)算資源,能快速高效地從多維度完成企業(yè)級(jí)的機(jī)器學(xué)習(xí)實(shí)驗(yàn)。協(xié)同過(guò)濾商品推薦系統(tǒng)的工作過(guò)程如圖1 所示。

      圖1 協(xié)同過(guò)濾商品推薦系統(tǒng)工作過(guò)程

      3.2 推薦商品的數(shù)據(jù)集

      本實(shí)驗(yàn)基于商品的協(xié)同過(guò)濾的推薦系統(tǒng),采用了某電子商務(wù)購(gòu)物平臺(tái)的公開(kāi)數(shù)據(jù)集進(jìn)行測(cè)試,數(shù)據(jù)集分為cf_訓(xùn)練集和cf_測(cè)試集兩部分。cf_訓(xùn)練集有 user_id、Item_id、active_type 和active_data四個(gè)字段,分別表示顧客ID、商品id、商品購(gòu)買行為和商品購(gòu)買時(shí)間,記錄數(shù)為104 097,顧客人數(shù)為847,商品數(shù)目為 7017,顧客行為用 0,1,2 表示(0表示點(diǎn)擊,1 表示購(gòu)買,2 表示收藏),顧客購(gòu)買行為時(shí)間采用的是2018 年6 月4 日之前的數(shù)據(jù)。cf_測(cè)試集字段和cf_訓(xùn)練集一樣,記錄數(shù)為78 783,顧客人數(shù)為854,商品數(shù)目為6604,顧客購(gòu)買行為時(shí)間采用了 2018 年 7 月 10、23、26 日和 8 月 7 日共4 天的數(shù)據(jù)。具體研究數(shù)據(jù)集情況如表1 所示。

      表1 研究數(shù)據(jù)集情況

      表1 中總顧客、總商品和顧客行為的數(shù)據(jù)是原始數(shù)據(jù),包含了只點(diǎn)擊或者只收藏的顧客信息,測(cè)試主要是采用有購(gòu)買行為的數(shù)據(jù),即整理后購(gòu)買人數(shù)、被購(gòu)買商品和購(gòu)買行為的數(shù)據(jù)。

      3.3 協(xié)同過(guò)濾推薦算法測(cè)試

      在PAI 平臺(tái)進(jìn)行協(xié)同過(guò)濾商品推薦測(cè)試時(shí),采用PAI 平臺(tái)協(xié)同過(guò)濾etrec 組件的三種相似度計(jì)算方法,分別進(jìn)行jaccard、wbcosine 和asymcosine 三組測(cè)試。

      使用訓(xùn)練集進(jìn)行實(shí)驗(yàn)測(cè)試,為保證測(cè)試的公平,協(xié)同過(guò)濾的參數(shù)設(shè)置為一致。其中Top-N 設(shè)置為1,主要考慮商品兩兩之間的相似度,不考慮多商品之間的相似度問(wèn)題;計(jì)算行為,即同一位顧客的某個(gè)商品出現(xiàn)多次時(shí)的處理playload 行為,實(shí)驗(yàn)設(shè)置為add;最小物品值minUserBehavior 設(shè)為2,最大物品值maxUserBehavior 設(shè)為500,平滑因?yàn)?.5,權(quán)重系數(shù)為1。三組協(xié)同過(guò)濾實(shí)驗(yàn)測(cè)試結(jié)果每組都有1343 對(duì)數(shù)據(jù),前15 條數(shù)據(jù)如表2 所示。

      表2 中第一行數(shù)據(jù)分析如下:jaccard 的值為1000 和 11 849:1,表示商品編號(hào) 1000 和商品編號(hào)11 849 相似度為1,表明具有較高相似性;wbcosine 的值和jaccard 的值解析一樣,表明具有較高的相似度;asymcosine 的值為 1000 和 11 849:18.045,表示商品編號(hào)1000 和商品編號(hào)11 849 的相似度值為18.045,在該列中數(shù)據(jù)較高,表明具有較高的相似度。

      根據(jù)圖1 的工作過(guò)程進(jìn)行試驗(yàn),通過(guò)對(duì)數(shù)據(jù)的拆分 SPLIT_PART、內(nèi)連接、SQl 去重 distinct 和全表統(tǒng)計(jì)等操作,得到商品推薦總數(shù)。

      使用測(cè)試集進(jìn)行實(shí)驗(yàn)測(cè)試,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾與映射、與訓(xùn)練集內(nèi)連接、SQl 去重distinct 和全表統(tǒng)計(jì)等操作,得到商品準(zhǔn)確推薦總數(shù),具體如表3所示。

      表2 協(xié)同過(guò)濾后的商品間的相似度

      表3 協(xié)同過(guò)濾算法性能測(cè)試結(jié)果

      表3 中,協(xié)同過(guò)濾推薦式樣采用 jaccard、wbcosine 和asymcosine 測(cè)試的商品推薦總數(shù)都是18 065,而商品準(zhǔn)確推薦總數(shù)不一樣,分別是60、46 和42。這說(shuō)明基于商品的協(xié)同過(guò)濾推薦系統(tǒng)采用jaccard 類型進(jìn)行行為相關(guān)性的度量效果更優(yōu),更加符合顧客的需求,推薦的商品信息更容易讓顧客購(gòu)買,具有較高的應(yīng)用性。

      4 結(jié)語(yǔ)

      電子商務(wù)協(xié)同過(guò)濾的商品推薦問(wèn)題一直都是行業(yè)研究的重點(diǎn),本文設(shè)計(jì)了采用阿里云PAI 平臺(tái)基于協(xié)同過(guò)濾算法的商品推薦系統(tǒng)。首先,準(zhǔn)備平臺(tái)環(huán)境,開(kāi)通MaxCompute 大數(shù)據(jù)功能,了解PAI 平臺(tái)的工作過(guò)程;然后,整理商品數(shù)據(jù)集;接著使用協(xié)同過(guò)濾etrec 組件進(jìn)行jaccard、wbcosine和asymcosine 三組測(cè)試,結(jié)果表明采用jaccard 類型進(jìn)行商品購(gòu)買預(yù)測(cè)效果更佳。

      猜你喜歡
      余弦顧客協(xié)同
      “一站式”服務(wù)滿足顧客
      蜀道難:車與路的協(xié)同進(jìn)化
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      兩個(gè)含余弦函數(shù)的三角母不等式及其推論
      三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
      讓顧客自己做菜
      山東青年(2016年1期)2016-02-28 14:25:27
      分?jǐn)?shù)階余弦變換的卷積定理
      圖像壓縮感知在分?jǐn)?shù)階Fourier域、分?jǐn)?shù)階余弦域的性能比較
      以顧客為關(guān)注焦點(diǎn)
      離散余弦小波包變換及語(yǔ)音信號(hào)壓縮感知
      阳春市| 靖西县| 若羌县| 三河市| 望都县| 双鸭山市| 余姚市| 清涧县| 涿鹿县| 凭祥市| 积石山| 托克逊县| 萝北县| 沙雅县| 诸暨市| 芒康县| 弋阳县| 永仁县| 雷州市| 林甸县| 宁都县| 泰来县| 沂水县| 花莲县| 丁青县| 珠海市| 辽阳市| 福鼎市| 赞皇县| 友谊县| 竹溪县| 西和县| 汤原县| 隆回县| 吕梁市| 赤水市| 鄯善县| 抚州市| 白朗县| 巴林左旗| 镇康县|