白 玉 馬 然
(北京物資學(xué)院 北京 101149)
面對(duì)互聯(lián)網(wǎng)上眼花繚亂的海量信息,通常會(huì)讓用戶感到無(wú)所適從,每個(gè)用戶都希望通過(guò)互聯(lián)網(wǎng)快速的得到有用的信息。基于市場(chǎng)的需求,許多算法都被采用。比如深度學(xué)習(xí)以及隱語(yǔ)義方法[1]。但傳統(tǒng)的推薦算法有許多缺點(diǎn),比如內(nèi)容過(guò)于相似等等。因此,為了解決此類問(wèn)題,產(chǎn)生了強(qiáng)化學(xué)習(xí)算法。
在中國(guó)有句古話叫“物以類聚,人以群分”,就很好的詮釋了協(xié)同過(guò)濾[2-3]的基本思想。比如,你現(xiàn)在想買(mǎi)一本書(shū),但你不知道買(mǎi)哪一本,你就會(huì)去問(wèn)和你興趣類似的人,將他喜歡的書(shū)籍推薦給你。
基于內(nèi)容的算法[4-5]應(yīng)用的時(shí)間最早。從字面理解就是,依照用戶的喜好來(lái)尋找興趣相似的用戶,將物品作為推薦。例如:在京東購(gòu)物的小伙伴都知道,每當(dāng)你瀏覽完一個(gè)界面時(shí),重新在打開(kāi)瀏覽時(shí),都會(huì)出現(xiàn)“猜你喜歡”欄目。它會(huì)根據(jù)你之前購(gòu)買(mǎi)的物品,來(lái)為你推薦你可能喜歡的物品。
強(qiáng)化學(xué)習(xí)[6-7]與監(jiān)督學(xué)習(xí)的區(qū)別是,沒(méi)有已經(jīng)準(zhǔn)備好的訓(xùn)練數(shù)據(jù)輸出值,強(qiáng)化學(xué)習(xí)只有獎(jiǎng)勵(lì)值。與非監(jiān)督學(xué)習(xí)的區(qū)別,在非監(jiān)督學(xué)習(xí)中即沒(méi)有輸出值也沒(méi)有獎(jiǎng)勵(lì)值,只有數(shù)據(jù)特征,而強(qiáng)化學(xué)習(xí)有獎(jiǎng)勵(lì)值。強(qiáng)化學(xué)習(xí)的特點(diǎn)是沒(méi)有監(jiān)督數(shù)據(jù),只有獎(jiǎng)勵(lì)信號(hào)、獎(jiǎng)勵(lì)信號(hào)不一定是實(shí)時(shí)的、時(shí)間序列是一個(gè)很重要的因素。強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的算法有DQN算法、A2C算法以及DDPG和PPO算法。
當(dāng)今時(shí)代,面對(duì)海量的信息,人們要想快速找到自己所需要的信息,是離不開(kāi)推薦算法的?;诒疚?,主要講述了傳統(tǒng)的推薦算法以及新興的強(qiáng)化學(xué)習(xí)算法。無(wú)論哪一種,都有自己的優(yōu)點(diǎn)以及缺點(diǎn)。在合適的應(yīng)用場(chǎng)景選擇合適的推薦算法尤為重要。