李文俊 LI Wen-jun
(蘇州工業(yè)職業(yè)技術(shù)學(xué)院,蘇州 215000)
在數(shù)字經(jīng)濟(jì)快速發(fā)展的背景下,網(wǎng)絡(luò)數(shù)據(jù)的規(guī)模也急劇擴(kuò)大,我們越來越依賴于以數(shù)據(jù)為驅(qū)動的算法系統(tǒng)。例如,從選擇餐廳和商品,到交友和求職,推薦系統(tǒng)已經(jīng)滲透進(jìn)在線生活的各領(lǐng)域。盡管推薦系統(tǒng)已經(jīng)得到廣泛的社會和商業(yè)認(rèn)可,但進(jìn)一步改進(jìn)的一個關(guān)鍵方面是推薦對參與者的有用性。一個推薦系統(tǒng)通常服務(wù)于兩類參與者,用戶和商品提供者/生產(chǎn)者,因此推薦的有用性也應(yīng)該是雙重的。一方面,推薦系統(tǒng)為用戶提供他們潛在的興趣項目,緩解信息過載給用戶帶來的困擾,強化用戶在平臺上的粘性;另一方面,推薦系統(tǒng)也應(yīng)該幫助商品提供者增加商品的銷售量,特別是暫時不受歡迎的商品,為其創(chuàng)造價值。
推薦系統(tǒng)的有效性通常是通過準(zhǔn)確性指標(biāo)來進(jìn)行評估,但是現(xiàn)在很多研究也從其他不同的角度來衡量推薦結(jié)果的質(zhì)量,最常用的非精度指標(biāo)包括多樣性、新穎性、驚喜性、可解釋性,以及近年來廣受關(guān)注的公平性[1-5]。相關(guān)研究認(rèn)為,決策支持系統(tǒng)會在無意中對已有的用戶偏見進(jìn)行建模或引入新的偏見[6],而推薦算法的不公平問題將對長尾弱勢商家或特定用戶造成傷害。例如,音樂平臺可能會根據(jù)歷史收聽數(shù)據(jù)從而過多地曝光男性藝術(shù)家創(chuàng)作的音樂作品[7],社交平臺會不成比例的向男性和女性展示某些類型的招聘廣告[8]。隨著相關(guān)領(lǐng)域研究不斷的發(fā)展,公平性在推薦算法的研究仍存在許多挑戰(zhàn)需要探索。因此,本文從推薦算法公平性問題的定義、研究現(xiàn)狀和關(guān)鍵技術(shù)進(jìn)行了總結(jié)和分析。
推薦系統(tǒng)不公平問題的來源主要有兩個方面:偏見和歧視。
偏見可以分為兩類,一類是數(shù)據(jù)偏見,數(shù)據(jù)在生成、收集和存儲的過程中都有可能引入偏見。例如,采用了帶偏見的采樣策略收集數(shù)據(jù),使用模型對數(shù)據(jù)進(jìn)行訓(xùn)練時,模型很可能會學(xué)習(xí)那些代表性過高的群體樣本,在排名結(jié)果中將其排在前列,最終導(dǎo)致某些弱勢群體的曝光度變低。另一類偏見是算法模型導(dǎo)致的。例如,算法會進(jìn)一步增強訓(xùn)練數(shù)據(jù)中已有的偏見和偏態(tài)分布。流行度偏見是比較著名的例子,越活躍的用戶交互的越多的商品將被更加頻繁的出現(xiàn)在推薦結(jié)果中,獲得更多的曝光量。雖然流行商品可能可以較好的匹配用戶的偏好,提高系統(tǒng)的預(yù)測精確度,但是用戶通常并不認(rèn)為它們是非常有用的推薦,因為他們很容易從其他地方獲取到這些流行商品的信息,例如銷售排行榜、廣告或者朋友圈。
除了偏見以外,歧視也是一個因為人類有意無意的導(dǎo)致不公平問題的原因,例如對特定種族、性別和宗教等因素的敏感程度。
大多數(shù)關(guān)于公平性問題的算法都將公平解釋為“缺乏歧視”[9],要求算法不應(yīng)該根據(jù)與當(dāng)前任務(wù)無關(guān)的屬性來歧視不同的輸入對象。這類屬性被稱為受保護(hù)或者敏感屬性,通常包括性別、宗教、年齡、性取向和種族等。例如,在招聘網(wǎng)站中,JAVA程序員的崗位應(yīng)該等比例的同時推薦給男性和女性求職者。
推薦系統(tǒng)的目的是根據(jù)用戶的個人資料和歷史記錄為用戶檢索感興趣的商品。根據(jù)不同的應(yīng)用程序和推薦場景,歷史記錄可能是對商品的顯性用戶評分或者是隱性的商品選擇(例如查看或點擊行為)。推薦系統(tǒng)會為用戶u和商品i評估一個分?jǐn)?shù),這個分?jǐn)?shù)反映了用戶u對商品i的偏好程度,或者稱為商品i對用戶u的相關(guān)性。最終,系統(tǒng)為用戶u形成一個推薦列表I,其中包括對用戶u評估分?jǐn)?shù)最高的若干商品。對于推薦系統(tǒng),這些評估分?jǐn)?shù)可以被視為效用分?jǐn)?shù)。抽象的說,如果用戶或商品的受保護(hù)屬性不會影響推薦結(jié)果的輸出,則該推薦系統(tǒng)被視為是“公平”的。
公平是一個復(fù)雜的概念,可以從不同的角度進(jìn)行定義,尤其是在推薦場景中,情況將變的更加復(fù)雜。公平性的概念可以從四個角度進(jìn)行定義,分別是個體公平和群體公平、消費者公平和生產(chǎn)者公平、關(guān)聯(lián)公平和因果公平以及靜態(tài)公平和動態(tài)公平。
個體公平vs群體公平。
個體公平假設(shè)類似的實體應(yīng)該受到類似的對待,即相似的用戶應(yīng)該收到相似的推薦列表。衡量類似的一種方式是基于距離,給定兩個實體之間的距離測量d和算法輸出之間的距離測量D。在公平的推薦系統(tǒng)上,當(dāng)兩個實體的距離d很小時,希望算法輸出的距離D也很小。
群體公平指在通過受保護(hù)屬性劃分的群體間,平均評價指標(biāo)應(yīng)該相同。根據(jù)上述定義,研究人員提出了許多平均指標(biāo),例如機(jī)會均等、平均賠率、人口平等。例如根據(jù)訓(xùn)練集中用戶交互的商品數(shù)量將用戶分為活躍用戶組和非活躍用戶組,要求不同的用戶組應(yīng)獲得類似的推薦質(zhì)量,如F1和NDCG指標(biāo)。
消費者公平vs生產(chǎn)者公平。
考慮到推薦系統(tǒng)中的公平需求可能來自不同的利益相關(guān)者,推薦系統(tǒng)中的公平也可以分為用戶(消費者)一方的公平和商品(生產(chǎn)者)一方的公平。此外,還有一些情況下,系統(tǒng)可能要求對消費者和生產(chǎn)者都公平。
消費者公平性衡量的是對不同消費者用戶組的不同推薦影響。用戶組通過受保護(hù)屬性進(jìn)行分組,如種族、性別屬性等,也可以是主觀賦予的屬性。有研究根據(jù)用戶與推薦系統(tǒng)的交互頻率對用戶進(jìn)行分組,發(fā)現(xiàn)只有一小部分(5%)的活躍用戶享有比其他用戶(95%)高得多的推薦質(zhì)量。
生產(chǎn)者公平性考慮了商品和商品生產(chǎn)者在推薦系統(tǒng)中的公平,目的是確保市場公平,避免壟斷支配或馬太效應(yīng)。例如,商品受歡迎程度普遍存在著偏見,受歡迎的商品(頻繁評級、點擊或購買的商品)得到不成比例的更多曝光,而不太受歡迎的商品很少被推薦。
關(guān)聯(lián)公平vs因果公平。
在推薦場景下,現(xiàn)有的大多數(shù)工作都是考慮關(guān)聯(lián)(或稱基于相關(guān)性)的公平性概念。然而,最近一些工作發(fā)現(xiàn),僅僅基于關(guān)聯(lián)概念不能很好地評估公平性,因為這樣的公平性定義不能推導(dǎo)導(dǎo)致不公平的潛在因果機(jī)制。
關(guān)聯(lián)公平也被稱為基于相關(guān)性/統(tǒng)計的公平,它衡量個體或者子集之間的統(tǒng)計差異,如平等機(jī)會,平均賠率和人口平等。
因果公平不僅僅是建立在數(shù)據(jù)的基礎(chǔ)上,還考慮了對整體結(jié)構(gòu)的因果模型的額外知識。它的研究重點是在受保護(hù)屬性與模型輸出之間的因果關(guān)系,而不僅僅是關(guān)聯(lián)關(guān)系。
靜態(tài)公平vs動態(tài)公平。
大多數(shù)機(jī)器學(xué)習(xí)中的公平性主要是在靜態(tài)環(huán)境中研究的,沒有考慮決策如何隨著時間的推移而改變數(shù)據(jù)。然而,推薦中的公平性需要考慮系統(tǒng)的動態(tài)特性,因為許多特征會隨著時間的推移而變化,比如用戶的偏好和商品的流行程度。
靜態(tài)公平性提供了一種基于公平約束優(yōu)化的一次性公平性解決方案,重點研究在靜態(tài)或者一次性上下文中決策的公平性定義?,F(xiàn)有的公平性推薦研究都是置于靜態(tài)環(huán)境中的。
動態(tài)公平性需要考慮環(huán)境中的動態(tài)因素,并學(xué)習(xí)適應(yīng)這種動態(tài)的公平策略。例如,GE研究了推薦系統(tǒng)中商品曝光的動態(tài)公平性。這些商品根據(jù)訓(xùn)練數(shù)據(jù)中暴露的數(shù)量分為流行組和長尾組。這項工作的直覺是,在基于推薦策略和用戶反饋的推薦過程中,商品受歡迎程度可能會發(fā)生變化,導(dǎo)致底層組標(biāo)簽隨著時間的推移而變化,也就是說,一個曾經(jīng)不受歡迎的商品現(xiàn)在可能變得受歡迎,反之亦然。為了解決這個問題,作者將這個問題表述為一個帶有項目曝光時間變化的公平性約束的馬可夫決策過程CMDP,并使用約束型策略優(yōu)化算法CPO來解決這個問題。
現(xiàn)有的公平性推薦主要集中在三個方面:①公平量化,在各種公平定義下提出量化指標(biāo)來衡量算法的公平性;②公平性推薦算法建模,開發(fā)算法或者模型來提高輸出的公平性;③公平評估,開發(fā)可解釋的算法來識別模型不公平的原因,從而解釋模型為什么是公平或不公平的。
公平量化旨在開發(fā)和研究量化指標(biāo),衡量排名或者推薦中的算法差異。關(guān)于公平量化的工作集中在推薦中定義各種類型的不公平概念,例如性別和年齡等敏感特征的不公平,受歡迎和不受歡迎商品的不公平,用戶推薦質(zhì)量的不公平。
公平推薦模型側(cè)重于基于一定的公平定義輸出公平的推薦結(jié)果,該類算法大致可以分為三類:預(yù)處理方法,中處理方法和后處理方法。
由于用戶交互數(shù)據(jù)是觀察數(shù)據(jù),用戶交互數(shù)據(jù)庫的不平衡成為造成偏差的主要因素之一。預(yù)處理方式通常旨在改變訓(xùn)練推薦算法的數(shù)據(jù)來減少這種偏差,再對模型進(jìn)行訓(xùn)練。因此,當(dāng)可以接觸原始數(shù)據(jù)時,可以采用預(yù)處理方法。這類方法并不顯示地包含在模型輸出定義的公平性度量上。最具代表性的預(yù)處理方法包括:①數(shù)據(jù)收集過程中的基于公平感知的采樣技術(shù),以覆蓋所有群體的商品;②平衡技術(shù),以增加少數(shù)群體的覆蓋面,以及修復(fù)技術(shù)以確保標(biāo)簽正確性。
中處理方法旨在通過修改現(xiàn)有模型或引入新模型來消除模型訓(xùn)練過程中的偏見[10,11]。一種通用的方法是將公平性要求編碼為目標(biāo)函數(shù)的一部分,通常作為正則化項,其優(yōu)化策略除了最小化原始損失函數(shù)之外必須最小化不公平程度。這種方法還試圖在推薦的準(zhǔn)確性和公平性之間找到一個平衡點。例如Ge研究了推薦場景中公平-效用的平衡關(guān)系,并提出了一個基于多目標(biāo)強化學(xué)習(xí)的公平感知推薦框架,該框架能夠在公平和效用之間的所有可能偏好空間上學(xué)習(xí)最優(yōu)推薦策略的單個參數(shù)表示。
后處理方法通常旨在對已經(jīng)生成的推薦列表進(jìn)行重新排序,或者根據(jù)一些特定的約束創(chuàng)建一個新的推薦列表。這類方法是減輕偏見的最常用方法,因為它們可以很容易地應(yīng)用于任何推薦算法的輸出上。
公平評估側(cè)重于回答一個更基本的問題:什么是導(dǎo)致模型不公平的原因?人工智能領(lǐng)域已經(jīng)有一些開創(chuàng)性的工作,試圖推導(dǎo)出模型公平性的解釋。例如,Begley利用Shapley值將特征貢獻(xiàn)歸因于模型差異,從而產(chǎn)生解釋[8]。他提出的方法估計來自輸入特征的個體貢獻(xiàn)的總和,從而理解哪個特征對模型差異貢獻(xiàn)最大。雖然這種方法可以解釋模型間的差異,但由于推薦系統(tǒng)中的商品/用戶特征空間較大,不適用于推薦系統(tǒng)。為了解決這個問題,Ge設(shè)計了一個基于學(xué)習(xí)的反事實推理方法來發(fā)現(xiàn)顯著影響公平-效用平衡的關(guān)鍵特征,并將它們用作黑盒特征感知推薦系統(tǒng)的公平解釋。
隨著數(shù)字經(jīng)濟(jì)在國內(nèi)迅速發(fā)展,越來越多的內(nèi)容創(chuàng)作者在互聯(lián)網(wǎng)上提供了越來越多的在線商品,用戶對商品的個性化需求也日益膨脹,推薦系統(tǒng)在在線平臺上的作用也日趨重要。能否向用戶和商家提供公平的推薦內(nèi)容和推薦機(jī)會,將是在線平臺長期生存下去留住用戶和商家的重要因素。本文遵循系統(tǒng)和結(jié)構(gòu)化的方法來簡述了公平性問題的各個方面和方法。首先歸納了推薦系統(tǒng)場景下公平性問題產(chǎn)生的來源,從不同視角闡述了公平性的定義,總結(jié)了解決公平性問題的模型方法,并提出了目前存在的問題和未來的可能研究方向。希望相關(guān)內(nèi)容能夠為研究人員在該領(lǐng)域的嘗試提供幫助。
到目前為止,研究人員已經(jīng)意識到了在推薦系統(tǒng)中改善公平性的重要意義,并且開始了相關(guān)研究的探索。但是,相關(guān)領(lǐng)域的研究仍然相對有限,許多重要的問題仍需解決。
首先,在公平性研究領(lǐng)域最大的問題就是沒有一個通用的公平性定義。如上文所述,在不同的場景下,公平性考慮的視角相差很大,對公平性的定義也就不統(tǒng)一,甚至有些定義是不能同時滿足的。
其次,缺乏支撐公平性研究的數(shù)據(jù)。公平性研究目前遇到的一個重要挑戰(zhàn)就是缺乏數(shù)據(jù)的支持,現(xiàn)有數(shù)據(jù)十分有限。大部分實驗數(shù)據(jù)都是通過研究人員獨立獲得的,收集更多通用數(shù)據(jù)將可以發(fā)現(xiàn)更多的偏見類型和內(nèi)在規(guī)律。
然后,公平約束的長期影響。盡管一些現(xiàn)有的研究表明,某些公平性和效用指標(biāo)可能在短期內(nèi)相互平衡,但推薦中公平性的好處應(yīng)該在動態(tài)和長期的背景下考慮。這是因為從長遠(yuǎn)來看,如果使用者和生產(chǎn)者感到他們受到該系統(tǒng)的公平對待,他們對該系統(tǒng)的留存、興趣、信任和參與將會增加,這反過來有助于在該平臺上創(chuàng)造和培育一個可持續(xù)的經(jīng)濟(jì)生態(tài)系統(tǒng)。
推薦系統(tǒng)涉及用戶、內(nèi)容創(chuàng)作者和商品三類群體,需要兼顧考慮的問題涉及很多。在信息化、智能控制高度發(fā)展的今天,工業(yè)界系統(tǒng)中為解決公平性問題,需要考慮以下幾個方面:①需要構(gòu)建一個可控的公平系統(tǒng)。推薦系統(tǒng)的精準(zhǔn)性、多樣性、新穎性、公平性等指標(biāo)在理論上被證明是不可能同時滿足最優(yōu)的。同時,多種類型的公平性也無法同時滿足。為了能夠在現(xiàn)實中的系統(tǒng)上應(yīng)用公平性研究成果,需要構(gòu)建一個可控的公平系統(tǒng),使得用戶和生產(chǎn)者可以選擇他們最關(guān)心的公平類型和性能指標(biāo),以此滿足不同群體的使用需求,實現(xiàn)千人千面。②除了考慮改進(jìn)個性化推薦算法模型,還需要融合經(jīng)濟(jì)學(xué)和社會科學(xué)的理論和知識,例如經(jīng)濟(jì)學(xué)的帕累托優(yōu)化方法、邊際效益、最低工資、嫉妒公平等理論、社會學(xué)的基尼系數(shù)、壟斷指數(shù)等[5]。文獻(xiàn)[2]從帕累托視角出發(fā),通過曝光的負(fù)采樣策略在一定程度上平衡了用戶和物品的雙重公平性,并且提高了系統(tǒng)準(zhǔn)確率。③需要了解現(xiàn)實系統(tǒng)中不同利益相關(guān)者的各種公平要求之間的差異和關(guān)系,以及將面向開發(fā)者的知識轉(zhuǎn)化為面向用戶的,從而直接造福于用戶也是非常重要的一面。工業(yè)界公平性模型的應(yīng)用大致可以分為兩類,面向用戶的和面向開發(fā)人員的。面向用戶的應(yīng)用側(cè)重于向真實用戶提供公平性推薦結(jié)果,從而直接影響用戶的服務(wù),而面向開發(fā)者的應(yīng)用主要是幫助開發(fā)者了解系統(tǒng)的不公平性。例如,LinkedIn是一個面向用戶應(yīng)用的典型例子,他們開發(fā)了一個大規(guī)模應(yīng)用框架,以確保照片領(lǐng)域的公平性,在人才搜索的時候?qū)崿F(xiàn)候選人排名中的機(jī)會均等和人口平等等公平標(biāo)準(zhǔn)。TikTok的視頻推薦也是一個面向用戶的應(yīng)用[5],他們在視頻推薦中確保非知名博主的新作品與網(wǎng)紅明顯的視頻一樣有機(jī)會被廣大用戶所看到。Amazon SageMaker Clarify則是一個面向開發(fā)者的應(yīng)用,它為開發(fā)者提供了可解釋工具包并部署在AWS云上。基于這些工具包,世界各地的開發(fā)者可以容易地檢測自己的數(shù)據(jù)和模型是否存在偏差,以及他們的結(jié)構(gòu)是否公平。