□文│張 超
如今人類置身算法世界,算法成為人們洞察現(xiàn)實(shí)、進(jìn)行決策的新中介。在新聞傳播領(lǐng)域,算法已滲入從選題到分發(fā)的各個(gè)新聞生產(chǎn)環(huán)節(jié)。路透新聞研究所《數(shù)字新聞報(bào)告2017》顯示,54%的受訪者更喜歡通過算法篩選故事。在中國的資訊信息分發(fā)市場上,算法推送的內(nèi)容已超過50%。[1]
在西方新聞業(yè)信任危機(jī)和專業(yè)性危機(jī)的背景下,算法中立的支持者試圖通過算法的中立與傳統(tǒng)媒體的編輯價(jià)值觀劃清界限。算法對新聞生產(chǎn)的介入似乎用“技術(shù)中立”的姿態(tài)昭示著新聞客觀性的“回歸”與“在場”。與此同時(shí)有關(guān)“算法偏見”(algorithmic bias)和“算法歧視”(algorithm discrimination)的討論日漸興起。人們發(fā)現(xiàn)算法并非萬能,也非完美。美國非盈利新聞機(jī)構(gòu)“為了公眾”(ProPublica)對一家公司開發(fā)的犯罪評估系統(tǒng)“替代性制裁的懲戒性罪犯管理分析”(Correctional Offender Management Profiling for Alternative Sanctions,COMPAS)的評分方式進(jìn)行研究,發(fā)現(xiàn)針對同樣罪行有色人種可能會(huì)得到比白人更高的犯罪分?jǐn)?shù)。
在新聞生產(chǎn)中,算法偏見帶來的后果是嚴(yán)重的,尤其在內(nèi)容生產(chǎn)階段,算法偏見將導(dǎo)致結(jié)論錯(cuò)誤,媒體將不是社會(huì)的“瞭望者”,而是“誤導(dǎo)者”。算法偏見何以產(chǎn)生,又該如何應(yīng)對新聞生產(chǎn)中的算法偏見?本文將展開探討。
算法是解題方案的準(zhǔn)確而完整的描述,是一系列解決問題的清晰指令,能對一定規(guī)范的輸入在有限時(shí)間內(nèi)獲得所要求的輸出。[2]算法是一種求解的方法,它是程序設(shè)計(jì)的核心(見圖1)。
圖1 用計(jì)算機(jī)求解問題的一般過程[3]
從技術(shù)的角度看算法是計(jì)算機(jī)求解中的一個(gè)抽象“裝置”,是橫亙在輸入數(shù)據(jù)和輸出數(shù)據(jù)之間的中介(mediation)?!爸薪椤币辉~強(qiáng)調(diào)在傳播過程中“引起”任何主體與其他主體或者與環(huán)境產(chǎn)生關(guān)系的刻意舉動(dòng)。[4]作為中介的算法不是透明的、中立的,其本質(zhì)是“轉(zhuǎn)譯者”,在新聞生產(chǎn)中算法可分為5種類型(見表1)。
表1 算法中介的類型
作為新聞價(jià)值判斷的中介,算法用于新聞選題,通過把關(guān)和決策將熱點(diǎn)事件轉(zhuǎn)化為新聞事件;作為表征現(xiàn)實(shí)的中介,算法應(yīng)用于內(nèi)容生產(chǎn),通過對客觀現(xiàn)實(shí)的量化處理“映射”出表征現(xiàn)實(shí);作為體驗(yàn)現(xiàn)實(shí)的中介,算法用于新聞?dòng)螒蛑?,借由程序修辭(procedural rhetoric)進(jìn)行觀點(diǎn)說服;作為監(jiān)測用戶的中介,算法用于新聞推送,通過對用戶數(shù)據(jù)的分析描摹用戶畫像,有針對性地推送內(nèi)容;作為現(xiàn)實(shí)決策的中介,算法用于決策服務(wù),幫助用戶判斷問題、做出選擇?!都~約時(shí)報(bào)》的數(shù)據(jù)新聞《租房還是買房》,用戶輸入居住年限、抵押貸款利率以及首付等數(shù)值可判斷租房劃算還是買房劃算。
與以往一些新聞生產(chǎn)技術(shù)不同,算法由于其復(fù)雜性和晦澀性被視為“黑箱”(black box)?!昂谙洹痹诜▏軐W(xué)家布魯諾·拉圖爾看來體現(xiàn)的是一種“客觀性”:只要人們認(rèn)為所有“黑箱”密封完好,它們就像科學(xué)家一樣擺脫了虛構(gòu)、表示、象征、近似與管理構(gòu)成的世界,就是絕對正確的。[5]當(dāng)算法被貼上“中立的”“客觀的”“權(quán)威的”“萬能的”標(biāo)簽時(shí),這種認(rèn)知帶來的危害也是巨大的:人們將被算法所控制。世界上沒有完美的算法,也沒有超越人的意志的算法,甚至包括搜索引擎也有偏見。
算法偏見如何產(chǎn)生?回答這個(gè)問題或許可以“算法是人工產(chǎn)物(artifact)”來回答,但這種解釋并不全面和具體。算法偏見存在于算法設(shè)計(jì)和運(yùn)行的每一個(gè)環(huán)節(jié),主要包括算法設(shè)計(jì)者的偏見、輸入數(shù)據(jù)的偏見和算法局限的偏見(見圖2)。任何一個(gè)環(huán)節(jié)出現(xiàn)偏見都將導(dǎo)致算法偏見,區(qū)別在于有的算法偏見是潛在的、不可避免的,有的算法偏見則是人為的、有意圖的。
圖2 算法偏見的產(chǎn)生機(jī)制
算法設(shè)計(jì)者的偏見是指由于算法設(shè)計(jì)者自身有意或無意的偏見造成算法設(shè)計(jì)出現(xiàn)偏差。算法設(shè)計(jì)一般包括理解問題、選擇算法設(shè)計(jì)技術(shù)、設(shè)計(jì)并描述算法、手工運(yùn)行算法、分析算法的效率、實(shí)現(xiàn)算法等6個(gè)步驟。[6]算法設(shè)計(jì)者在算法設(shè)計(jì)中居于核心地位。對問題的理解、對數(shù)據(jù)的選取、對變量的選擇、對算法的綜合評價(jià)等都貫穿著人為因素。當(dāng)然即便算法設(shè)計(jì)者力求做到客觀、公正,其無意識(shí)的認(rèn)知偏見也會(huì)通過算法設(shè)計(jì)中對標(biāo)準(zhǔn)的選擇體現(xiàn)出來,如指標(biāo)標(biāo)準(zhǔn)、數(shù)據(jù)提取、語用分析和結(jié)果解讀等。[7]
既然算法是由人設(shè)計(jì)的,那么算法不可能比算法設(shè)計(jì)者更客觀。算法不可避免地會(huì)反映設(shè)計(jì)者對周遭事物和問題的認(rèn)識(shí)。2015年平面設(shè)計(jì)師約翰娜·布萊(Johanna Burai)用谷歌搜索“手”的圖片,發(fā)現(xiàn)檢索結(jié)果上邊的全是白人的手。社會(huì)學(xué)家澤奈普·圖費(fèi)克奇(Zeynep Tufekci)認(rèn)為,要想真正讓算法變得更加公正,算法設(shè)計(jì)者要清醒地意識(shí)到自己并不代表中立和公正的立場,而是有著天然偏見的人。[8]
在被數(shù)據(jù)量化的世界中,數(shù)據(jù)本身與現(xiàn)實(shí)世界重合的程度決定了數(shù)據(jù)的可靠性。在現(xiàn)實(shí)中算法依賴的數(shù)據(jù)往往是有局限的、有缺陷的,甚至是錯(cuò)誤的。因?yàn)樗惴ㄊ菑挠芯窒薜挠?xùn)練數(shù)據(jù)集中學(xué)習(xí),可以說,任何一個(gè)數(shù)據(jù)集都會(huì)蘊(yùn)含偏見。
無論算法多完美,輸入數(shù)據(jù)有偏見,最后的結(jié)論必定有偏見。微軟紐約研究院高級研究員漢娜·瓦拉赫(Hanna Wallach)認(rèn)為,機(jī)器學(xué)習(xí)的程序是通過社會(huì)中已存在的數(shù)據(jù)進(jìn)行訓(xùn)練,只要這個(gè)社會(huì)還存在偏見,機(jī)器學(xué)習(xí)便會(huì)重現(xiàn)這些偏見。[9]例如采用算法進(jìn)行自動(dòng)化新聞寫作的美聯(lián)社,需要時(shí)常向系統(tǒng)輸入報(bào)道范本、更新數(shù)據(jù),如果自動(dòng)化新聞寫作系統(tǒng)輸入數(shù)據(jù)出錯(cuò),則算法生成的新聞就會(huì)出錯(cuò)。[10]
雖然在大數(shù)據(jù)時(shí)代一切皆可量化,但現(xiàn)實(shí)生活并不能總是被數(shù)學(xué)“模仿”。即使是最復(fù)雜的算法和最大限度的大數(shù)據(jù)挖掘,也會(huì)將多維度的問題變成簡單的模型,把復(fù)雜的世界模擬得簡單。因此,算法系統(tǒng)本身不是十全十美的,也是有局限的。
以新聞推送為例,如果算法僅依賴點(diǎn)擊量來推薦內(nèi)容,用戶可能只會(huì)收到觀點(diǎn)偏激、獵奇吸睛的低俗文章,看不到點(diǎn)擊量不大的高質(zhì)量文章。如果算法想避免推送低俗的內(nèi)容,還需要考慮用戶的停留時(shí)長、轉(zhuǎn)發(fā)分享、收藏評論等指標(biāo),以此確定文章的推薦權(quán)重。[11]即便如此,由于技術(shù)的限制,再完善的算法也達(dá)不到完美。例如基于協(xié)同過濾的新聞內(nèi)容推薦算法雖然可以推薦新的信息,發(fā)掘潛在用戶的興趣愛好,但算法本身存在打分稀疏性問題、冷啟動(dòng)問題和算法可擴(kuò)展問題。[12]當(dāng)臉書解雇人工編輯,完全用算法推送熱門新聞話題后,小錯(cuò)、烏龍不斷。因此算法決策不可能完全替代人工判斷,在算法充斥的世界中,人的判斷依然很重要。
媒介即訊息。算法有形塑社會(huì)和文化形態(tài)并直接作用于個(gè)體的能力。[13]在算法不成熟、不完善的情況下,算法塑造的擬態(tài)環(huán)境可能會(huì)出現(xiàn)更多“假新聞”和“噪音”。新聞從業(yè)者和公眾需考慮算法的介入給新聞生產(chǎn)帶來的負(fù)面影響,對算法進(jìn)行監(jiān)督尤為必要。但監(jiān)督算法并非易事,算法很復(fù)雜,需投入大量的人力和財(cái)力,往往被視為商業(yè)機(jī)密不予公開。監(jiān)督算法的前提是打開“黑箱”并對其祛魅,作為新聞生產(chǎn)流程的一部分,算法偏見需要依靠新聞倫理解決,新聞生產(chǎn)中的透明性(transparency)倫理可以成為應(yīng)對算法偏見的有效措施之一。
透明性指一個(gè)組織通過允許其內(nèi)部活動(dòng)或績效處在外部行為者監(jiān)督之下的方式,積極地公開自身信息。[14]在新聞倫理中,透明性被視為“新聞業(yè)內(nèi)部和外部人士對新聞流程進(jìn)行監(jiān)督、檢查、批評,甚至介入的各種方式”,[15]透明性原則在一些科學(xué)研究中被采用,研究者在公布研究結(jié)果時(shí)需要附上數(shù)據(jù)、編碼和補(bǔ)充材料,證明其研究是可重復(fù)的。
作為新聞透明性的一部分,算法透明(algorithmic transparency)旨在讓人們知道某一算法的設(shè)計(jì)意圖、設(shè)計(jì)目標(biāo)、運(yùn)行效率、適用條件和存在的缺陷,了解算法的運(yùn)行機(jī)制和做出特定決定的原因。
算法透明包括五個(gè)方面:①用于優(yōu)先(prioritize)、排序(rank)、強(qiáng)調(diào)(emphasize)或發(fā)表意見(editorialize)時(shí)的標(biāo)準(zhǔn),包括定義、操作和可能的替代。②數(shù)據(jù)算法的數(shù)據(jù)。如哪些數(shù)據(jù)被關(guān)注,運(yùn)行算法的其他因素。③準(zhǔn)確性,包括分類中誤報(bào)(false positive)和漏報(bào)(false negative)的錯(cuò)誤比率以及如何設(shè)置這些錯(cuò)誤平衡點(diǎn)的說明。④描述測試數(shù)據(jù)(training data)以及潛在的偏見,包括算法的演變和運(yùn)行。⑤用于相似性或分類算法的定義、操作或閾值(thresholds)。[16]
算法透明的邏輯起點(diǎn)在于新聞業(yè)是一項(xiàng)公共服務(wù),當(dāng)涉及公共利益時(shí),公眾有權(quán)知道算法的運(yùn)行機(jī)制及其缺陷。在新聞生產(chǎn)中有兩種不同利益導(dǎo)向的新聞服務(wù)(見圖3):一種是完全基于公共利益的非盈利新聞生產(chǎn),如非盈利新聞業(yè)、公共廣播事業(yè);另一種是兼顧公共利益和商業(yè)利益的新聞生產(chǎn),這是全球新聞業(yè)的主流。
圖3 新聞生產(chǎn)中的算法透明
對應(yīng)以上兩種新聞服務(wù)取向,在新聞生產(chǎn)中,有兩種不同屬性的算法,筆者將其命名為開源算法和專有算法。
開源算法是指算法設(shè)計(jì)本身旨在服務(wù)社會(huì),通過透明和參與式編碼,讓所有的源代碼都能被人使用和修改,最終生成具有共創(chuàng)、共享的透明算法。這種算法出現(xiàn)的社會(huì)背景主要與開源運(yùn)動(dòng)有關(guān),國外現(xiàn)在已經(jīng)有開放人工智能(OpenAI)等一些人工智能開源運(yùn)動(dòng)。開源算法一旦被設(shè)計(jì)出來,可以被所有人免費(fèi)使用、修改。因此涉及公共利益、不涉及商業(yè)利益的算法可以是開源算法,經(jīng)由各方不斷修改、完善的開源算法會(huì)更大限度地服務(wù)社會(huì)。
專有算法在使用和修改上有限制,這種算法作為知識(shí)產(chǎn)品是受法律保護(hù)的,算法所有者對此持有知識(shí)產(chǎn)權(quán)。目前新聞生產(chǎn)中的各類算法大多屬于這種。當(dāng)涉及商業(yè)利益時(shí),算法透明不容易實(shí)現(xiàn),此時(shí)算法往往被視為商業(yè)機(jī)密有權(quán)不予公開。當(dāng)涉及公共利益時(shí),作為使用者和被影響者的公眾就擁有了關(guān)于算法的知情權(quán),這時(shí)需要區(qū)分兩種算法透明的方式:主動(dòng)的算法透明和被動(dòng)的算法透明。
“主動(dòng)的算法透明”是指新聞生產(chǎn)者主動(dòng)將算法的運(yùn)行機(jī)制與設(shè)計(jì)意圖公之于眾,接受社會(huì)監(jiān)督,開源算法都采用主動(dòng)的算法透明。計(jì)算機(jī)科學(xué)家漢森(Hansen)認(rèn)為:“公開代碼是社會(huì)的責(zé)任,這樣的過程可以使得公眾參與進(jìn)來,不論它成為何種格式,基于算法的報(bào)道將很快成為一種必須技能,記者得跟上這游戲,不僅要理解對算法透明度的要求,還要提高現(xiàn)有的新聞業(yè)務(wù)能力,這樣我們才能利用人類與日俱增的智慧。”[17]
2016年調(diào)查性數(shù)據(jù)新聞報(bào)道《網(wǎng)壇騙局》的制作媒體公布了原始數(shù)據(jù)、算法程序和分析過程,詳細(xì)說明了該報(bào)道的數(shù)據(jù)獲取、數(shù)據(jù)準(zhǔn)備、賽事排除、賠率變化計(jì)算、選手選擇、仿真和顯著性檢驗(yàn)等細(xì)節(jié),公眾可以對數(shù)據(jù)結(jié)論進(jìn)行驗(yàn)證。在《金融時(shí)報(bào)》的數(shù)據(jù)新聞《世界到底在采取哪些措施阻止氣候變化》中,用戶通過操作“氣候變化計(jì)算器”對不同國家碳排放量進(jìn)行“控制”,從而洞察全球變暖的趨勢。該報(bào)道提供了“氣候變化計(jì)算器”的設(shè)計(jì)和運(yùn)行資料,讓用戶了解該計(jì)算器的運(yùn)行機(jī)制。
“主動(dòng)的算法透明”由于媒體坦誠算法設(shè)計(jì)與應(yīng)用中的局限,不僅可以規(guī)避一些風(fēng)險(xiǎn)(如不必為錯(cuò)誤的預(yù)測或產(chǎn)生的偏見結(jié)論負(fù)責(zé)),還有助于建立媒體與用戶的信任關(guān)系。隨著算法在新聞生產(chǎn)中的應(yīng)用越來越普遍,未來可能會(huì)出現(xiàn)更多針對新聞生產(chǎn)各環(huán)節(jié)的算法模板,主動(dòng)的算法透明會(huì)越來越多,也會(huì)在不斷的開源分享中越來越完善。
算法不透明(algorithmic opacity)在各行各業(yè)中是一個(gè)普遍問題。如果想讓算法透明,必須采取一種強(qiáng)制性手段,即法律手段,筆者稱之為“被動(dòng)的算法透明”,即依據(jù)法律規(guī)定、按照法律程序公布有關(guān)算法的全部或部分內(nèi)容。假定在新聞生產(chǎn)中,用戶懷疑或發(fā)現(xiàn)涉及公共利益的某專有算法涉嫌種族歧視、誤導(dǎo)公眾時(shí),可依據(jù)法律規(guī)定要求媒體披露該新聞算法運(yùn)行的相關(guān)信息,保障公眾的“知情權(quán)”。
由于算法在新聞生產(chǎn)中的應(yīng)用時(shí)間不長,各國缺少監(jiān)督、審計(jì)算法的法律法規(guī)。目前意識(shí)到“被動(dòng)的算法透明”的是歐盟,在2018年5月生效的《一般性數(shù)據(jù)保護(hù)法案》(General Data Protection Regulation,GDPR)中,歐盟給予用戶申請某項(xiàng)基于算法得出結(jié)論的解釋權(quán)(right to explanation),但該法案實(shí)際上并沒有從根本上保證算法的問責(zé)和透明度。[18]在算法時(shí)代,如何針對不同領(lǐng)域、不同用途的算法制定契合實(shí)際的法律條款對算法實(shí)現(xiàn)有效監(jiān)督,是當(dāng)前各國信息立法的新課題。
從技術(shù)上說,完全的算法透明很難實(shí)現(xiàn)。現(xiàn)實(shí)世界的很多算法都是“黑箱”,在深度學(xué)習(xí)領(lǐng)域一些算法即便對算法設(shè)計(jì)者來說也是難以理解的。因此切實(shí)可行的方式是為“被動(dòng)的算法透明”確定一個(gè)合適的透明程度,即有意義的透明(meaningfultransparency),這是一種較低標(biāo)準(zhǔn)的算法透明,利益相關(guān)者(stakeholders)借此能夠介入、使用、執(zhí)行算法,保證算法過程是負(fù)責(zé)任的。[19]當(dāng)然“有意義的透明”是相對的,需要“具體算法具體分析”,對于不同的利益相關(guān)者,透明性的具體要求是不同的。因此在算法透明中,如何在不同情況下做到“有意義”,并不是設(shè)定一個(gè)統(tǒng)一的標(biāo)準(zhǔn)就能解決的,需要立法、相關(guān)行業(yè)、公眾和技術(shù)人員充分討論。
在媒體層面,為保障公眾對涉及公共利益的新聞算法的知情權(quán),媒體需要制定相應(yīng)政策,或由行業(yè)協(xié)會(huì)出臺(tái)相關(guān)指導(dǎo)意見。由于算法的專業(yè)性與復(fù)雜性,一般公眾很難對其實(shí)現(xiàn)有效監(jiān)督,比較可行的方式是讓值得信賴的第三方核查機(jī)構(gòu)介入,對公眾關(guān)心或存有爭議的新聞算法進(jìn)行檢查和評估,看算法是否透明和公平,這也會(huì)打消算法所有者對商業(yè)機(jī)密泄露的顧慮。但在社會(huì)上如何組建核查算法的第三方機(jī)構(gòu)、如何對其賦權(quán),是算法時(shí)代社會(huì)治理的新問題。
當(dāng)前我們正處于弱人工智能(Artificial Narrow Intelligence,ANI)階段,算法偏見的問題雖然存在,但還沒有給社會(huì)帶來嚴(yán)重危害,相關(guān)立法和行業(yè)倫理規(guī)范并未成熟。隨著人類奔向強(qiáng)人工智能(Artificial General Intelligence,AGI)階段,算法的中介本質(zhì)、主體地位和社會(huì)影響會(huì)愈來愈突出,人們需要思考如何設(shè)計(jì)、應(yīng)用、監(jiān)督、規(guī)制算法等問題。在未來的新聞生產(chǎn)和媒介素養(yǎng)教育中,筆者認(rèn)為“算法素養(yǎng)”(algorithm literacy)應(yīng)納入專業(yè)技能培養(yǎng)和通識(shí)教育體系中,新聞從業(yè)者和公眾都要意識(shí)到算法的中介屬性和設(shè)計(jì)局限。在算法主體地位日益凸顯的算法時(shí)代,認(rèn)識(shí)算法、理解算法、批判算法是善用算法的前提,也是新聞生產(chǎn)面對的新命題。
參考文獻(xiàn):
[1][7]方師師.新聞業(yè)和你我的宿命,就是被算法“算計(jì)”[EB/OL].http://www.jfdaily.com/news/detail?id=58922
[2]呂國英.算法設(shè)計(jì)與分析(第2版)[M].北京:清華大學(xué)出版社,2009:7
[3][6]王紅梅,胡明.算法設(shè)計(jì)與分析(第2版)[M].北京:清華大學(xué)出版社,2013:8,6-7
[4]唐士哲.重構(gòu)媒介?“中介”與“媒介化”概念爬梳[J].新聞學(xué)研究,2014(3)
[5]盧克·多梅爾.算法時(shí)代:新經(jīng)濟(jì)的新引擎[M].胡小銳,鐘毅,譯.北京:中信出版集團(tuán),2016:220
[8]Kelly.開除了所有編輯 Facebook算法為什么還沒有消除新聞偏見?[EB/OL].http://www.evolife.cn/html/2016/88787_2.html
[9]Princeton University, Engineering School.Biased bots:Human prejudices sneak into artificial intelligence systems[EB/OL].www.sciencedaily.com/releases/2017/04/170413141055.htm
[10]余婷.美聯(lián)社推出新聞編輯部“人工智能”使用手冊[EB/OL].http://mp.weixin.qq.com/s/kGINkWfIN1c_EeO_rt7dbA
[11]劉爽.人工智能時(shí)代如何通過編輯讓算法更閃亮[EB/OL].http://tech.ifeng.com/a/20161018/44471576_0.shtml
[12]王博.新聞內(nèi)容推薦算法研究[J].信息與電腦(理論版),2016(6)
[13]Beer.Power through the algorithm? Participatory web cultures and the technological unconscious[J].New Media & Society,2009(6)
[14]Grimmelikhuijsen,.Transparency of Public DecisionMaking:Towards Trust in Local Government?.Policy&Internet,2010(1)[15]Deuze.What Is Journalism? Professional identity and ideology of journalists Reconsidered.Journalism,2005(4)
[16]Diakopoulos. Algorithmic Accountability. Digital Journalism,2015(3)
[17]肖敏樹.那些算計(jì)著我們生活的算法[EB/OL].http://mp.weixin.qq.com/s/tgvKybyZArluu7c51_sioA
[18]Sample.AI watchdog needed to regulate automated decision-making, say experts[EB/OL].https://www.theguardian.com/technology/2017/jan/27/ai-artificial-intelligence-watchdog-needed-to-prevent-discriminatory-automated-decisions
[19]Brauneis&Goodman.Algorithmic Transparency for the Smart City[EB/OL].https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3012499