審核員：互聯(lián)網(wǎng)世界的“清潔工”

2022-04-25 00:41:22

讀報(bào)參考 2022年10期

? 中國每天有上億條短視頻和圖文內(nèi)容被生產(chǎn)出來，在5-10分鐘內(nèi)就能被分發(fā)至用戶的手機(jī)上。去年10月，平均每個(gè)中國人的手機(jī)接收了超過14GB的圖文、視頻。2015年，這個(gè)數(shù)字還不到0.4GB。

? 維持一個(gè)復(fù)雜的系統(tǒng)，常常需要一個(gè)龐大群體難以想象的體力付出。在大城市里，是無處不在又無人在意的清潔工、騎手、貨車司機(jī)。如同總能保持住高效、便利、整潔的大城市一樣，在互聯(lián)網(wǎng)世界，永遠(yuǎn)刷不盡的內(nèi)容背后，不僅在于他們有極力宣傳的算法系統(tǒng)，還離不開十萬數(shù)量級(jí)的審核員的勞動(dòng)。

延時(shí)、飄紅與準(zhǔn)確率

? 2019年，郭晉（化名）入職了字節(jié)跳動(dòng)在重慶的審核基地。與當(dāng)時(shí)字節(jié)的合作公司人瑞人才簽約，成為一名外包員工。

? 公布當(dāng)天績效是固定環(huán)節(jié)，像上學(xué)時(shí)班里貼的成績單，只不過，一點(diǎn)平常的可視化技巧讓它的焦點(diǎn)更明確——遠(yuǎn)超過規(guī)定績效考核的人會(huì)被標(biāo)紅，而低于規(guī)定則被標(biāo)黃。月底績效會(huì)根據(jù)日常績效和錯(cuò)誤率分出ABCD四個(gè)等級(jí)，連續(xù)拿兩次D，就可能被辭退。

單日審核數(shù)字以“千”為單位計(jì)算，是所有受訪審核員們的工作日常。知乎員工劉坊（化名）在職時(shí)，一小時(shí)最多可以看3000條評(píng)論。秦崤（化名）在B站視頻審核組每天要處理1500條視頻。

? 時(shí)間對(duì)他們來說是最奢侈的。審核員都要被“延時(shí)”約束。一位曾對(duì)接過快手、字節(jié)、騰訊審核外包團(tuán)隊(duì)的技術(shù)人員介紹，短視頻平臺(tái)對(duì)延時(shí)容忍度最低，上限是10分鐘，但實(shí)際上3-5分鐘內(nèi)就要審?fù)攴懦鲆粭l內(nèi)容。延時(shí)直接影響創(chuàng)作者的用戶體驗(yàn)。

? 為了控制延時(shí)，公司風(fēng)險(xiǎn)控制部門為審核員設(shè)計(jì)的輔助系統(tǒng)會(huì)加上一個(gè)“報(bào)警系統(tǒng)”。有的放在審核頁面的左下角或右下角，當(dāng)審核員超時(shí)，將彈出提醒;還有的會(huì)設(shè)計(jì)成一個(gè)倒計(jì)時(shí)窗口，掛在審核頁面上。

? 為了提高審核準(zhǔn)確率，公司都會(huì)引入“盲審機(jī)制”，即“背靠背審核”。從文章庫中設(shè)定10%-15%的文章，分配給兩人審閱，如果審核結(jié)果不一致，將交給經(jīng)驗(yàn)豐富的審核員三審。爭議案例會(huì)進(jìn)入案例庫，供團(tuán)隊(duì)第二天復(fù)盤學(xué)習(xí)。

? 今日頭條前審核員章埕（化名）回憶，組內(nèi)“背靠背審核”的一致率通常能達(dá)到90%，說明之前的一次次培訓(xùn)有效。

疲憊感與良心

審核工作機(jī)械、重復(fù)，像鞋里的小石子一樣磨人，令人滋生難以承受的疲憊感。審核員們?nèi)粘Ｅ龅阶疃嗟牟皇敲舾性掝}，而是沒完沒了的 “垃圾內(nèi)容”。

? UGC（用戶原創(chuàng)內(nèi)容）帶來內(nèi)容大爆發(fā)?？焓?、抖音等短視頻平臺(tái)的崛起，更是帶來全民創(chuàng)作時(shí)代。每一次字節(jié)審核團(tuán)隊(duì)人數(shù)的爆發(fā)都是新產(chǎn)品增長的時(shí)候。

? 劉坊認(rèn)為，視頻審核的壓力要比文字高5-10倍。比起圖文，視頻給人的沖擊力更大。視頻內(nèi)容的審核、舉報(bào)后臺(tái)充斥著各種軟色情、真色情、暴力和血腥畫面。劉坊覺得，自己作為用戶看短視頻都會(huì)感受到這些內(nèi)容在撩撥和刺激人的情緒。

? 審核員除了是清道夫外，也會(huì)被時(shí)代風(fēng)向所塑造。

? 劉坊對(duì)自己審核經(jīng)歷最為驕傲的一件事情是，曾參與建立了“自殺預(yù)警”機(jī)制。知乎上每年有幾百人提問——想自殺怎么辦？為此，他擴(kuò)充了抓取關(guān)鍵詞詞庫，從一個(gè)詞“自殺”，到以“想死”“不想活了”兩個(gè)方向?yàn)檠由?，收集?0-40個(gè)關(guān)鍵詞。系統(tǒng)抓到關(guān)鍵詞后，會(huì)先屏蔽該內(nèi)容，然后鎖定用戶位置，審核員會(huì)視情況聯(lián)系當(dāng)?shù)鼐健?/p>

機(jī)器永遠(yuǎn)沒法取代人

? 2014、2015年，今日頭條審核員退回每篇文章都要手打理由。后臺(tái)技術(shù)完善后，他們只需用鼠標(biāo)勾選理由選項(xiàng)就行了。2016年開始，機(jī)器可以自動(dòng)審核通過一部分文章，其他自動(dòng)退回給人工審核。

? 但AI（人工智能）永遠(yuǎn)沒法取代人，今天的AI距離人類的智慧還有很遠(yuǎn)距離。當(dāng)人們感知到審核的存在，總會(huì)想方設(shè)法繞開固定的規(guī)則。能最快填上縫隙的不是算法，一定是活生生的人。

? B站一些用戶喜歡和秦崤玩貓鼠游戲，不斷修改或投稿同一條視頻，試探審核底線。最夸張的一次，有個(gè)博主來回和他拉扯了17次。按照B站當(dāng)時(shí)的規(guī)定，一條投稿如果兩次被退回，就會(huì)鎖定。這名博主試圖發(fā)表的是一個(gè)動(dòng)漫混剪，集合了至少5部 “18禁動(dòng)漫” 的片段。秦崤清楚地記得，對(duì)方一直借助視頻簡介向后臺(tái)的他示威，態(tài)度從憤怒、咒罵到哀求，被鎖定5次都無法發(fā)表后，他才作罷。

? 2018年Facebook整改時(shí)，人們發(fā)現(xiàn)其自主檢測的仇恨言論只占到了所有被標(biāo)記內(nèi)容的38%，而有超過60%的內(nèi)容需要靠用戶舉報(bào)來發(fā)現(xiàn)。一部分原因是，其人工智能系統(tǒng)仍然難以辨別言論中的仇恨情緒。其創(chuàng)始人馬克·扎克伯格在當(dāng)時(shí)的國會(huì)證詞中，表達(dá)了將來使用 AI 清除仇恨言論的計(jì)劃。

? 但計(jì)劃仍然是計(jì)劃。“哪怕到現(xiàn)在，也是人工審核為主，機(jī)器審核為輔，永遠(yuǎn)都會(huì)是如此?！痹趯徍藣徫还ぷ鬟^6年的楊陽（化名）說。

（摘自《財(cái)經(jīng)》劉璐天、朱珊琨）