(武漢數(shù)字工程研究所 武漢 430205)
隨著深度學(xué)習(xí)的興起,訓(xùn)練集標(biāo)簽的質(zhì)量問題越來越被重視,樣本訓(xùn)練集需要海量標(biāo)簽樣本,僅憑個人的力量難以完成,本文將群智眾包與圖片標(biāo)注兩者相結(jié)合[1~3],通過網(wǎng)絡(luò)上在線標(biāo)注人對需要標(biāo)注的圖像分工標(biāo)注來減輕工作量。由于群智標(biāo)注是網(wǎng)絡(luò)上的眾多標(biāo)注人進(jìn)行標(biāo)注,人的自主性導(dǎo)致標(biāo)注質(zhì)量存在波動。本文設(shè)計(jì)了一個通用的智能標(biāo)注系統(tǒng),適用于各類目標(biāo)物的標(biāo)注工作,以群智眾包的形式將標(biāo)注任務(wù)分派給+各個標(biāo)注人,標(biāo)注人僅需對智能標(biāo)注后的圖像進(jìn)行補(bǔ)充優(yōu)化,增加的質(zhì)量監(jiān)督模塊用來剔除標(biāo)注質(zhì)量較差的結(jié)果,提高和保障了用于訓(xùn)練的標(biāo)注數(shù)據(jù)的質(zhì)量。
一個典型的群智系統(tǒng)包括:任務(wù)分析、任務(wù)分配、任務(wù)執(zhí)行、結(jié)果篩選,并最終得出系統(tǒng)想要獲取的結(jié)果。如圖1所示,首先任務(wù)分析在本系統(tǒng)中具象為“標(biāo)注圖片”,當(dāng)需要某類目標(biāo)物的樣本標(biāo)簽時,將包含此類物體的圖片分配給網(wǎng)絡(luò)上各個標(biāo)注人。然后由標(biāo)注人執(zhí)行標(biāo)注工作,同時系統(tǒng)采集其操作行為,隨后進(jìn)入篩選環(huán)節(jié),判斷該結(jié)果是否滿足質(zhì)量保障要求,對不滿足要求的結(jié)果進(jìn)行剔除。
能快速獲得結(jié)果不是系統(tǒng)唯一目的,人具有自主性,在動態(tài)開發(fā)的互聯(lián)網(wǎng)環(huán)境中,可能受到時間環(huán)境等多因素影響,從而導(dǎo)致提交的結(jié)果具有不確定性,因此設(shè)計(jì)出的群智系統(tǒng)不僅要滿足任務(wù)需求,還需要保證系統(tǒng)輸出結(jié)果的質(zhì)量[4~5]。典型的質(zhì)量保障方法一般是從三個方面進(jìn)行研究[6]:1)任務(wù)設(shè)計(jì):系統(tǒng)任務(wù)為標(biāo)注圖片,較為簡單,界面設(shè)計(jì)容易。2)標(biāo)注人高效管理:在本例中通過使用已知答案的黃金標(biāo)準(zhǔn)數(shù)據(jù)對標(biāo)注人進(jìn)行測試,考察標(biāo)注人的標(biāo)注態(tài)度及能力,制定分級規(guī)則,激勵標(biāo)注人在閑暇之余更認(rèn)真完成標(biāo)注任務(wù),發(fā)揮個人價值。3)任務(wù)結(jié)果處理:結(jié)果篩選是指系統(tǒng)對標(biāo)注人提交的結(jié)果進(jìn)行預(yù)處理,篩選掉質(zhì)量較差的結(jié)果,本文添加質(zhì)量管理模塊,有效剔除低質(zhì)量結(jié)果。
圖1 典型的群智標(biāo)注系統(tǒng)的組成與流程
本文設(shè)計(jì)的標(biāo)注人行為分析模型共分為4個階段:模型定義、行為采集、行為分析、任務(wù)分配及激勵。行為采集模塊用于采集標(biāo)注人的行為信息并保存為json文件;行為分析模塊用于分析保存下來的文件,判斷標(biāo)注結(jié)果是否滿足要求。任務(wù)分配及激勵模塊對標(biāo)注人的行為進(jìn)行刻畫[7],給標(biāo)注人貼上標(biāo)簽,有助于后續(xù)系統(tǒng)進(jìn)行任務(wù)分配,將預(yù)處理后圖片困難的分配給標(biāo)注態(tài)度認(rèn)真的標(biāo)注人,將簡單地分配給標(biāo)注態(tài)度較差的標(biāo)注人,合理地分配任務(wù),建立出高效率的分配模型。
標(biāo)注人的行為建模主要從五個方面詮釋[8]:及時性、結(jié)果評價、標(biāo)注人刻畫、性能以及任務(wù)本身因素。
從圖2構(gòu)造的模型可看出,及時性主要判斷出該標(biāo)注人提交的結(jié)果是否滿足時效性。結(jié)果評價通過對比各個標(biāo)注人畫出的標(biāo)注框數(shù)量和標(biāo)注框之間中心位置的偏差判斷標(biāo)注人結(jié)果是否可靠。標(biāo)注人刻畫用來刻畫標(biāo)注人的標(biāo)注能力。性能方面通過各個方面情況綜合判斷標(biāo)注質(zhì)量是否與外因有關(guān)。最后還存在任務(wù)本身的因素,任務(wù)自身較為復(fù)雜或者任務(wù)報酬較低也可能會影響任務(wù)質(zhì)量。
圖2 標(biāo)注人行為建模
在對標(biāo)注人的行為進(jìn)行采集后,形成了標(biāo)注人的標(biāo)注行為模型,通過將新的標(biāo)注人標(biāo)注行為與已存在的標(biāo)注人標(biāo)注行為進(jìn)行橫向?qū)Ρ纫约皹?biāo)注人自身新標(biāo)注行為與歷史標(biāo)注行為縱向?qū)Ρ?,判斷?biāo)注人的標(biāo)注結(jié)果是否存在異常,以此為依據(jù)剔除該標(biāo)注結(jié)果[9]。在標(biāo)注質(zhì)量方面,圖片內(nèi)標(biāo)注個數(shù)是決定一幅圖片是否標(biāo)注足夠正確的重要因素[10],因此標(biāo)注個數(shù)應(yīng)占有最大的權(quán)重。
表1 標(biāo)注人行為記錄表
標(biāo)注人的操作記錄能側(cè)面反映標(biāo)注人的態(tài)度是否認(rèn)真,圖片信息內(nèi)標(biāo)注框數(shù)量、面積、偏移量等則能反映出標(biāo)注結(jié)果是否正確。
群智工作在理想情況下能夠加速工作的進(jìn)程,節(jié)約時間以及費(fèi)用,但是在實(shí)際情況下,不少標(biāo)注者由于各種原因會提交低質(zhì)量的標(biāo)注結(jié)果,如果不加以控制這種情況發(fā)生,會使得任務(wù)結(jié)果朝著錯誤方向回歸[9],引起群智任務(wù)的失敗。群智標(biāo)注工作中可能出現(xiàn)的惡意行為,即在標(biāo)注過程中,標(biāo)注人未注意到或者故意為之,從而出現(xiàn)錯誤的標(biāo)注結(jié)果。標(biāo)注人參與群智眾包任務(wù),主要是被金錢、聲譽(yù)等激勵所吸引,暫時還沒有哪一種算法能夠精準(zhǔn)給出標(biāo)注結(jié)果的對錯,因此可能產(chǎn)生不少惡意行為。但可以通過對標(biāo)注行為進(jìn)行分析,判斷結(jié)果是否異常。
圖3 惡意行為分析流程圖
如圖3所示,系統(tǒng)首先讀取采集模塊保存下的標(biāo)注人行為信息文件,進(jìn)而索引計(jì)算惡意評價BMN時需要的數(shù)據(jù),在各類惡意行為評價中,既有串行、并行,也有串并行綜合。經(jīng)綜合協(xié)同評價分析得出判斷結(jié)果,如果滿足各類惡意行為判斷閾值[11],則最終將該圖片標(biāo)注結(jié)果進(jìn)行保存。
第一類屬于隨機(jī)類型,產(chǎn)生這類惡意標(biāo)注行為的主要因素是該類標(biāo)注人主要是被激勵所吸引,但其毫無責(zé)任心而言,這類標(biāo)注人標(biāo)注圖片完全依賴心情,隨意標(biāo)注,隨機(jī)程度較高,因此標(biāo)注結(jié)果與其他認(rèn)真進(jìn)行標(biāo)注的標(biāo)注人標(biāo)注結(jié)果存在明顯偏差,對此可以使用歐幾里得距離計(jì)算相似度[12],相似度值為0~1之間,設(shè)計(jì)合適的閾值,低于閾值的標(biāo)注人屬于離群標(biāo)注行為,剔除該標(biāo)注結(jié)果。
對于第一類惡意標(biāo)注行為,標(biāo)注人對同一幅圖進(jìn)行標(biāo)注的結(jié)果,使用相似度算法進(jìn)行檢測,通過比較新標(biāo)注人操作內(nèi)容與原有標(biāo)注人操作的相似度來推測標(biāo)注人標(biāo)注的質(zhì)量,將相似度低于閾值的標(biāo)注人標(biāo)注結(jié)果視為不合格結(jié)果。
歐氏距離用來測量多維空間中個體之間的距離,距離越遠(yuǎn)說明個體差異越大,具體計(jì)算公式為
對于同一幅圖片,式中Sik表示第i個標(biāo)注人的第k個屬性值,將其與第j個標(biāo)注人的第K個屬性值進(jìn)行對比,得出新標(biāo)注人與原標(biāo)注人操作的歐式距離。
計(jì)算出歐氏距離后,使用式(2)計(jì)算相似度:
根據(jù)以往經(jīng)驗(yàn),計(jì)算出的相似度在0.8以上視為數(shù)據(jù)合格,反之剔除結(jié)果。
第二類惡意標(biāo)注行為屬于統(tǒng)一標(biāo)注類型,使用同一類型的標(biāo)注方法[11~13],如可能存在大量標(biāo)注人僅點(diǎn)擊智能識別后便提交結(jié)果,或者在點(diǎn)擊智能標(biāo)注后,每次添加標(biāo)注框后的操作步驟如出一轍,產(chǎn)生這類惡意標(biāo)注行為的主要因素是因?yàn)楸鞠到y(tǒng)添加了智能標(biāo)注算法,標(biāo)注人點(diǎn)擊智能標(biāo)注算法就能完成大部分工作,沒有耐心對存在的其他可能目標(biāo)物進(jìn)行判斷,并且由于這類標(biāo)注人可能較多,因此少數(shù)服從多數(shù)原則不再適用,此時可對標(biāo)注人標(biāo)注時間、標(biāo)注步驟進(jìn)行記錄,如果多幅連續(xù)圖片都存在標(biāo)注時間過短、標(biāo)注步數(shù)過少等行為,或智能識別置信度較低的標(biāo)注框未進(jìn)行優(yōu)化操作。則剔除該幅圖標(biāo)注結(jié)果。
對于第二類惡意標(biāo)注行為,Kouritzin等在研究如何將數(shù)據(jù)分類為真實(shí)數(shù)據(jù)或者偽造數(shù)據(jù)時,檢測了新一次投擲硬幣與之前硬幣投擲的序列差異,得出了一組計(jì)算公式[14~15]。該公式同樣適用于本文群智系統(tǒng)中的標(biāo)注質(zhì)量檢測算法,第二類惡意標(biāo)注人拒絕勤奮工作,每次使用同一種方法進(jìn)行標(biāo)注,就如同拋擲硬幣,每次都出現(xiàn)的是正面朝上一樣,如果標(biāo)注人消極工作,每次都進(jìn)行的是同一種操作,通過該序列差異,可以檢測出惡意標(biāo)注人的存在。
標(biāo)注人能進(jìn)行的操作包括:進(jìn)行智能識別、添加、刪除標(biāo)注框、放大、縮小標(biāo)注框、拖動標(biāo)注框。式中N集合是標(biāo)注人標(biāo)注圖片出現(xiàn)的各種操作組合的集合,Js表示標(biāo)注人s標(biāo)注圖片時操作記錄的集合,Dij表示標(biāo)注人對同一幅圖片做的相關(guān)操作組合與其他標(biāo)注人的操作組合不同的頻數(shù),fn,Js表示標(biāo)注人標(biāo)注圖片時生成的操作組合,在其作出所有判斷集合Js中出現(xiàn)的頻數(shù),根據(jù)相關(guān)文獻(xiàn)中的試驗(yàn)經(jīng)驗(yàn),K值取1.6能夠有效發(fā)現(xiàn)統(tǒng)一類型的惡意標(biāo)注人。
在執(zhí)行大型的群智任務(wù)過程時,不可避免地會遇到多類惡意行為發(fā)生,根據(jù)圖3流程將若干類惡意行為綜合協(xié)同分析,能夠有效剔除質(zhì)量較差的標(biāo)注結(jié)果。
本文相關(guān)原型系統(tǒng)可分為硬件部分和軟件部分,硬件部分包含一臺服務(wù)器,一臺交換機(jī)和若干終端;軟件部分主要包含標(biāo)注模塊、采集模塊和分析模塊,各模塊均采用JAVA語言編寫。標(biāo)注模塊在Android上編寫,智能識別算法置于服務(wù)器上,通過交換機(jī)與終端聯(lián)系,標(biāo)注人進(jìn)行標(biāo)注操作時,采集模塊同步記錄其各個操作,最終記錄成json文件并上傳到服務(wù)器保存。分析模塊在IDEA上完成,用于解析json文件,獲取用于公式計(jì)算的各個變量數(shù)據(jù),并生成結(jié)果。
本次試驗(yàn)給定100個圖片(所有圖片都事先認(rèn)真進(jìn)行標(biāo)注過,可視為黃金標(biāo)準(zhǔn)數(shù)據(jù)),試驗(yàn)?zāi)繕?biāo)物體為車輛,標(biāo)注人對未標(biāo)注過的圖片進(jìn)行標(biāo)注,總共獲得1000個標(biāo)注結(jié)果。運(yùn)行篩選程序可獲得剔除個數(shù),人工對比黃金標(biāo)準(zhǔn)數(shù)據(jù)可獲得實(shí)際不合格的個數(shù),記錄的試驗(yàn)結(jié)果如表2所示。
表2 試驗(yàn)結(jié)果
如表2所示,剔除個數(shù)為運(yùn)行篩選程序獲得的不合格個數(shù),實(shí)際不合格個數(shù)為對比標(biāo)注人標(biāo)注的結(jié)果與標(biāo)注數(shù)據(jù)得出的個數(shù),兩者的比值為剔除率。由試驗(yàn)結(jié)果可知,當(dāng)惡意標(biāo)注行為發(fā)生時,更容易出現(xiàn)第一類惡意行為。后續(xù)由于對標(biāo)注結(jié)果同時作了橫向、縱向比較,當(dāng)同時滿足兩類惡意行為時,剔除的個數(shù)會更多,剔除率甚至超過1,在群智眾包背景下,標(biāo)注人群體大,圖片標(biāo)注數(shù)量多,即使剔除率超過1,只要比例不是太高系統(tǒng)也能接受。
本文將群智眾包思想與圖像標(biāo)注進(jìn)行了結(jié)合,針對圖片標(biāo)注結(jié)果的質(zhì)量控制問題,研究了標(biāo)注人參與群智標(biāo)注任務(wù)中可能存在的不合格標(biāo)注行為,通過分析群智標(biāo)注過程中的兩類惡意標(biāo)注行為,將歐式距離相似度計(jì)算與仿硬幣序列算法結(jié)合運(yùn)用于質(zhì)量篩選過程,有效發(fā)現(xiàn)并剔除低質(zhì)量標(biāo)注人標(biāo)注結(jié)果。但是由于檢測算法需要大量標(biāo)注圖片進(jìn)行對比,因此當(dāng)一個標(biāo)注人僅標(biāo)注幾幅圖,或一幅圖只有幾個人標(biāo)注的時候,即無法進(jìn)行橫向、縱向?qū)Ρ?,系統(tǒng)不能很好地完成質(zhì)量檢測工作。
本文提出的系統(tǒng)模型還具有一定的通用性,不需要初始的智能識別算法也能通過群智獲得足夠多的標(biāo)注樣本,其可以檢測識別多類物體。下一步可將該系統(tǒng)在多個行業(yè)內(nèi)試驗(yàn),觀察系統(tǒng)執(zhí)行質(zhì)量檢測的效果。