• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      動態(tài)選取工作者模型的長時眾包質量控制策略

      2020-10-21 00:57:44高麗萍
      小型微型計算機系統(tǒng) 2020年10期
      關鍵詞:工作者聚類評估

      高麗萍,金 濤

      1(上海理工大學 光電信息與計算機工程學院,上海 200093) 2(復旦大學 上海數(shù)據(jù)科學重點實驗室,上海 200093)

      1 引 言

      近年來互聯(lián)網(wǎng)行業(yè)的快速發(fā)展,帶來了軟件行業(yè)的繁榮,同時見證了眾包技術的發(fā)展與進步.眾包[1]的概念由Jeff howe于2006年首次提出,指的是公司或組織公開地把自己遇到的問題發(fā)布到一個分布式公共網(wǎng)絡中,使得來自網(wǎng)絡的各個個體可以協(xié)作的解決問題.眾包作為一個新的任務調(diào)度方式,是一個分布式的問題解決平臺,將任務開放式地交給未知的互聯(lián)網(wǎng)用戶,將其聚集到一起,充分利用互聯(lián)網(wǎng)用戶的智慧來協(xié)同解決單靠個體或者計算機難以解決的相互獨立的微任務集合[2].

      質量控制是眾包活動的關鍵設計目標,因為請求者的目標是在有限的預算下獲得高質量的答案,在目前提出的一些策略中,質量控制都是這些平臺設計人員需要考慮的關鍵因素.一般而言,請求者需要依靠任務的冗余來確保質量和正確的答案,即將一個相同的簡單任務分配給多個工作者,根據(jù)工作者的表現(xiàn)來確定正確結果,并得到高質量的答案,但這不是一個可取的方案.一方面,眾包平臺的工作者來自互聯(lián)網(wǎng),這無法保證所有的工作者擁有相同的處理問題的能力,因此請求者會得到不同質量的答案.另一方面,即使考慮到工人的質量,如何設計最優(yōu)的任務分配方案并保留真實性等理想方案屬性,目前仍沒有很好的解決策略[3].

      本文提出了一種基于動態(tài)選取工作者模型的質量控制模型,從工作者的選取角度來進行眾包活動的質量控制.將長時間的眾包活動分為多個輪次,每個輪次分為兩個階段,在離線階段,將已經(jīng)完成的任務使用聚類方法分為不同的同質簇,并計算每個簇與工作者的屬性的關聯(lián)度.在在線階段,將發(fā)布的任務與已經(jīng)存在的每個簇進行匹配.與此同時,一個基于學習的模型(WST)將用于為每個任務選取目前在線的最合適的工作者.

      2 相關工作

      目前眾包質量控制方面的研究工作主要集中在3個方面:

      1)對眾包活動收集到的結果進行質量評估.使用各種方法對眾包活動中工作者提交的最終結果進行質量評估,并識別和剔除其中的惡意工作者;

      2)對參與眾包活動的工作者進行相應的組織管理.這類工作通常會設計工作者的組織模型,使用一種更好的組織管理模式達到控制眾包結果質量的目的;

      3)對眾包活動的任務進行優(yōu)化分配.對于請求者發(fā)布的眾包任務,通過設計任務的分配算法,將任務以最優(yōu)的形式分配給工作者,達到獲得高質量結果的目標.

      2.1 眾包的質量評估方法

      近年來,評估眾包環(huán)境下的工人或者答案的質量高低越來越成為研究的熱點.眾包的質量評估方面最經(jīng)典的方法是多數(shù)投票法[4].多數(shù)投票法將任務分配給多個工作者獨立完成,然后認為收集的數(shù)據(jù)中,大多數(shù)的意見就是最終的正確答案.由于沒有考慮工作者的多樣性,最終的結果往往不準確.因此吸引了眾多的研究人員對質量評估問題進行研究.例如Yang等[5]提出了基于質量的剩余共享方法,在參與式感知任務中,將數(shù)據(jù)質量作為其與聚類質心的偏差進行測量.Antoniou等[6]介紹了在評估VGI(自愿地理信息)質量過程中使用權威數(shù)據(jù)集的困難之處,并從數(shù)據(jù)、人口統(tǒng)計、社會經(jīng)濟狀況以及貢獻者四個類別來分類評估指標.Dumitrache等[7]提出了使用CrowdTruth指標來評估眾包收集的注解數(shù)據(jù)質量,該指標模擬了眾包系統(tǒng)中工作者,輸入數(shù)據(jù)以及注解之間的相互依賴關系.這個指標可以發(fā)現(xiàn)和解釋眾包中三者之間的分歧.Gaikwad[8]介紹Boomerang系統(tǒng),一個眾包的聲譽系統(tǒng),通過將反饋的后果直接反饋給提交任務的人,引出更準確的反饋.通過Boomerang,請求者可以讓更優(yōu)秀的工作者最早地訪問他們未來的任務,并且工作者可以在他們的任務集合中找到來自高評級請求者的任務.

      目前的質量評估方法中,某些評估方法需要個人、工作人員、專家或請求者的參與,例如評估給定輸出的準確性或撰寫評論;一些其他評估方法需要一組人的聯(lián)合行動來形成評估;還有一些其他評估方法可以在沒有人類參與的情況下執(zhí)行,即由機器自動執(zhí)行.

      上述的方法通過不同的方法對眾包的質量評估問題做出了貢獻,但這些方法都不可避免地將花費請求者更多的時間和精力.

      2.2 工作者的組織模型

      眾包的質量評估方法的目的是通過最大化所有的工作者提交的答案來控制眾包活動結果的質量.與此同時,工作者的組織管理通過工作者的選取方法來控制提交的每個答案的質量.也就是說,這些方法只允許可靠的工作者參與任務的解決過程.

      最基本的方法就是拒絕不符合要求的工作者參與任務,例如使用工作者審查機制.Amazon Mechanical Turk(1)https://www.mturk.com等商業(yè)平臺使用總體通過率(Overall Approval Rate)來選擇工作者.總體通過率是所有提交的答案中正確答案的百分比,用于反映工作者的工作經(jīng)驗.在現(xiàn)實情況中,在任務分配給工作者之前,就已經(jīng)完成了工作者審查活動.在工作者通過了審查機制以后,他的提交結果就不再受到檢查,容易發(fā)生工作者隨意提交答案的行為.為解決這個問題,可以使用基于黃金標準的質量控制方法[9],該方法使用已知答案的測試任務不斷地測試工作者,從而剔除不合格的工作者.

      Rzeszotarski等[10]認為工作者可以通過與他在任務解決期間與平臺交互過程中產(chǎn)生的相關的一系列行為特征來組織.例如完成任務的時間,鼠標點擊次數(shù)等.Zheng等[11]引入了專業(yè)準確率的概念對工作者進行評估,并結合黃金標準數(shù)據(jù)法完成對結果的準確高效評估.Mavridis等[12]提出使用技能分類法來表征工人和任務.然后,基于該分類法,他們建議在工作集和任務集之間執(zhí)行一對一的匹配.Li等[13]利用工作者的特征,如年齡,性別,技能,位置,研究領域和水平等,來解決冷啟動問題和執(zhí)行動態(tài)工作者選擇.

      不同于結果質量的評估,工作者組織模型通過不同的方式進行工作者的組織,選擇每一個任務最合適的工作者,采用更好的管理模式完成眾包活動的質量控制.

      2.3 眾包任務的分配

      推薦系統(tǒng)是尋求以偏好驅動的方式將系統(tǒng)中的一組項目與一組用戶匹配的系統(tǒng).在眾包環(huán)境中,推薦系統(tǒng)用于將任務分配給工作者.推薦方法通常假設工作者在完成他們喜歡的任務時表現(xiàn)更好.從任務的偏好角度,將工作者喜好的任務更多的分配給該工作者.因此,偏好驅動的推薦可以幫助改善眾包輸出的質量,完成質量控制的目的.

      Jin等[14]將任務分配問題定義為集合覆蓋問題,提出了移動眾包環(huán)境下的一個質量感知的機制.Ambati等[15]提出了兩個推薦方案,第一個使用詞袋方法找到任務和工人之間的匹配.第二個使用訓練好的分類器來決定工人是否對給定的任務感興趣.Yuen等[16]通過工作者與任務的交互行為推斷工作者的隱式評級以及手動的任務分類器來為工作者的偏好進行建模.Difallah等[17]提出一種從工作者社交媒體中收集工作者偏好的方法.以此來推薦不同的任務給工作者.Yu等[18]描述了一種方法,該方法在在線情形下使用隨機森林預測的動態(tài)閾值來分配眾包任務,有效的提高了任務分配率和總效用.不少文獻[19-21]也提出設計更好的眾包任務,通過優(yōu)化任務的屬性來滿足對質量的控制.

      目前沒有任何框架能夠為眾包服務提供強大而靈活的質量控制機制,大多數(shù)關于眾包質量控制的研究都集中在質量的單一、特定方面,例如工人聲譽或任務冗余.此外,構思的質量控制技術通常嵌入在專有平臺內(nèi),而不是一般化的.因此設計、構建和維護強大且靈活的眾包質量控制平臺仍然是一個極具挑戰(zhàn)性和部分未解決的問題.本文提出了一種基于工作者動態(tài)選取的質量控制模型,從工作者的選取角度來進行眾包活動的質量控制,通過選取高質量的用戶,排除了欺騙類型工作者的貢獻,避免了欺騙類型的工作者對活動的影響,對眾包質量控制方面進行了一定的補充.

      3 WST系統(tǒng)模型和問題定義

      本節(jié)將對WST系統(tǒng)模型中與任務和工作者相關的概念進行詳細的描述,然后介紹WST系統(tǒng)的工作流程,最后對工作者動態(tài)選取問題進行定義.

      3.1 相關概念及定義

      為了更加方便的對系統(tǒng)模型進行描述,對相關概念進行如下定義:

      定義1.眾包的任務

      眾包任務是由工作者回答的一個獨立的問題或指令.任務由三個部分組成:(a)輸入,例如圖像或文本,(b)問題或動作請求,例如標記圖像或提取信息,以及(c)輸出,例如填寫的文本內(nèi)容或建議答案中的選項.

      定義2.工作者的貢獻

      工作者的貢獻是工作者對一個任務提交的答案.

      眾包活動中任務的一個常用形式是多項選擇問題(Multiple Choice Questions).例如對于圖像分類任務來說,請求者發(fā)布一個任務,任務包含一張圖片,并提供多個標簽的選擇項.工作者通過觀察圖片,選擇正確的圖像標簽.

      一個眾包系統(tǒng)由多個工作者、一系列任務以及工作者的貢獻組成.在WST系統(tǒng)中,使用t來表示一個眾包的任務;使用Qt={1,2,…,q}來表示請求者發(fā)布的任務t的q個選項的集合;使用rt∈Qt來表示任務t的正確答案;使用w用來表示一個工作者,T={1,2,…,n}表示系統(tǒng)中所有任務的集合;W={1,2,…,m}表示系統(tǒng)中所有的注冊的工作者.

      與此同時,WST模型使用M來表示工作者的貢獻矩陣.M是一個(m×n)的矩陣,M的任意一個元素mwt表示一個工作w∈W者對于任務t∈T的一個答案.M的行向量表示所有的工作者對于任務t的貢獻,用Mt來表示;M的列向量表示工作者w的所有貢獻,用Mw表示.

      一個工作者不可能完成所有的任務,同時,所有的工作者也不可能對同一個任務均提交答案.所以,貢獻矩陣M是一個稀疏矩陣,其中的元素為空表示工作者對某任務沒有貢獻.也就是說,如果工作者w沒有對任務t進行提交答案,那么mwt為空,否則,mwt∈Qt.

      定義3.眾包任務的狀態(tài)

      眾包活動的實際過程中,任務可能處于三種狀態(tài):待運行狀態(tài)、運行狀態(tài)和完成狀態(tài).待運行狀態(tài)是指任務還沒有被分配給任意一個工作者;運行狀態(tài)是指任務被分配給至少一個工作者;完成狀態(tài)是指任務已經(jīng)滿足請求者的要求,任務不再進行分配.

      定義4.工作者的狀態(tài)

      眾包活動的實際過程中,工作者可能處于兩種狀態(tài),一種是離線狀態(tài),一種是在線狀態(tài).離線情況下,工作者不能被分配任務,在線情況下,工作者與平臺進行交互,可以被平臺分配任務.

      在WST系統(tǒng)中,使用D=來表示任務的分配情況.對于每一個任務t∈T,有:

      (1)

      因此,當Dt=0時,任務t處于待運行狀態(tài)時.當任務t被分配給工作者以后,在任務沒有達到請求者設定的貢獻次數(shù)pt的情況下,任務都將處于運行狀態(tài).也就是說任務t滿足:

      Dt=1∧|{m∈Mt,m≠null}|

      (2)

      表示任務處于運行狀態(tài).同理,當任務t滿足條件:

      Dt=1∧|{m∈Mt,m≠null}|=pt

      (3)

      表示任務已經(jīng)完成.

      (4)

      定義5.任務的特征

      任務的特征指的是可以用于表征任務的不同表達.

      定義6.工作者的特征

      工作者的特征指的是可以用于表征工作者的不同表達.

      在WST系統(tǒng)中,對于每一個任務t,定義任務t的r個特征為:

      (5)

      對于每一個工作者w,定義工作者w的s個特征為:

      (6)

      工作者的特征可以從工作者在平臺進行注冊時聲明的個人的信息進行提取,包括地址、語言、擅長的技能等內(nèi)容.也可以是從工作者與平臺進行交互的行為中推斷出來.例如工作者的信譽度、任務的完成度等.

      定義7.工作者的表現(xiàn)

      工作者的表現(xiàn)指的是工作者在其完成的所有任務中,提交正確答案的比例.

      在WST系統(tǒng)中,通過下面的公式進行計算工作者w的表現(xiàn):

      (7)

      其中,C代表的是工作者w完成任務的集合,I(x,y)是一個指示函數(shù),當x=y條件成立的時候,I(x,y)=1,否則為0.

      3.2 系統(tǒng)工作流

      WST模型是一個長時間質量控制模型,整個活動周期分為多個輪次r,每個輪次都分為兩個階段,分別是離線階段和在線階段.每個輪次里系統(tǒng)的工作流程(如圖1所示)如下:

      圖1 系統(tǒng)工作流程Fig.1 System workflow

      1)在離線階段,平臺將歷史階段完成的任務進行任務的特征提取,將所有的任務進行向量化表征;平臺對已注冊的工作者進行特征發(fā)現(xiàn),將所有的工作者進行向量化表征.

      2)平臺運行相應的聚類算法,將所以向量化的任務進行聚類,將所有的任務分為多個簇,每個簇的任務都是相似的任務類型.

      3)平臺運行相應的關聯(lián)度計算算法,將上一步得到的任務簇與平臺向量化的工作者進行關聯(lián)度計算,也就是計算工作者的每一個屬性的權重.

      4)在在線階段,平臺接收請求者發(fā)布的任務,將任務進行特征提取和向量化表征.

      5)平臺將待運行的任務與每一個任務簇進行匹配,當與某一個任務簇匹配時,利用每一個在線的工作者與該簇的關聯(lián)度評估工作者對于該任務的準確率,進行工人的選取.

      值得注意的是在WST系統(tǒng)在線時,通過統(tǒng)計與任務簇的質心距離大于某一閾值的任務的數(shù)量是否達到一定的數(shù)量來對WST的眾包輪次進行劃分.不難發(fā)現(xiàn),在系統(tǒng)初期,由于任務類型少,這樣的情況會頻繁發(fā)生,當達到系統(tǒng)規(guī)定的數(shù)量以后,系統(tǒng)進入新的輪次,并通過增加簇的數(shù)量來增加任務匹配的概率.可以想象,在系統(tǒng)達到穩(wěn)定運行階段,當擁有足夠的任務簇以后,任務不匹配的情況會變得更少,系統(tǒng)可以長期接受請求者發(fā)布的任務,并選擇優(yōu)質的工作者進行任務的分配.

      在實際眾包活動中,請求者發(fā)布任務以及工作者的登錄和登出都是動態(tài)且隨機的,這就阻止了平臺手動執(zhí)行任務表征和選擇工作者的可能性.WST系統(tǒng)不需要過多的人力的參與,選擇工作者的過程考慮的是目前在線的工作者,很好的滿足了工作者隨機到達和離開的情形.為解決系統(tǒng)冷啟動的問題,WST系統(tǒng)僅從工作者在平臺注冊時聲明的個人信息中提取工作者特征,并用于選擇可靠的工作者.

      3.3 問題定義

      在詳細描述了WST系統(tǒng)模型的相關概念以及對系統(tǒng)工作流有了一個直觀的了解以后,在這一小節(jié),對本文研究的問題進行公式化地表達.

      定義8.SRWS問題

      SRWS問題(Single Run Worker Selection problem)指的是在WST系統(tǒng)中單一輪次r里,選擇可靠的工作者問題.

      通過在WST系統(tǒng)中單一輪次r里面,每次都選取質量最高的工作者,并將任務分配給這些工作者,從而獲得更加高質量的答案,提高眾包活動的質量.

      假設有一個函數(shù)fM,π,知道系統(tǒng)中工作者的貢獻矩陣M,在給定的一個任務π,可以評估任意工作者w完成該任務的準確率.也就是說:

      (8)

      SRWS問題轉換為為任務π選擇準確率最高的λ個工作者.讓S表示工作者選擇函數(shù),則有:

      Sλ(π)=Topλ(fM,π(w),w∈Wo)

      (9)

      接下來的小節(jié)討論在每個輪次里面處理WST任務的模型的設計過程,為了簡單方便,對符號的上標r進行了省略.

      4 WST模型設計

      本節(jié)討論WST系統(tǒng)模型的設計過程.WST系統(tǒng)模型需要在系統(tǒng)每一個輪次里面進行工作者的選取,每一個輪次里面都將分為兩個階段,下面詳細介紹這兩個階段里面的工作內(nèi)容.

      4.1 離線階段

      WST系統(tǒng)在離線階段主要完成的工作是將已完成的任務使用聚類方法分為不同的同質簇,并計算每個簇與工作者屬性的關聯(lián)度.為此,需要將相應的任務進行向量化的表征,通過聚類的方法將其分為多個不同的簇,最后通過運行相關的算法來計算每個簇與工作者屬性的關聯(lián)度,離線階段的內(nèi)容分為三個部分進行說明.

      4.1.1 任務向量化

      WST模型設計的第一步是任務向量化.任務向量化指提取任務的特征,當任務是以文本的形式給出,需要得出這個文本向量化后的表征.文本向量化是指將文本表示成低維、稠密、實數(shù)向量的一種方法.目前存在很多的方法來完成一個文本的向量表示,例如:LSA、PLSA、LDA、Doc2Vec等.這些方法都能夠完成文本向量表示的任務.本文使用Doc2Vec作為文本向量化的方法.Doc2Vec也叫做sentence embeddings,是一種非監(jiān)督式算法,可以獲得句子、段落或者文本的向量表示,是word2vec的拓展.學出來的向量可以通過計算距離來找句子、段落以及文檔之間的相似性,可以用于文本聚類,這樣的功能也剛好滿足下一步對任務進行聚類的需求.

      4.1.2 任務聚類

      聚類作為一種常用的機器學習技術,試圖將數(shù)據(jù)集中的樣本劃分為若干個不相交的子集,每一個子集稱為一個簇.使得同一個簇內(nèi)的數(shù)據(jù)對象的相似性盡可能大,同時不在同一個簇中的數(shù)據(jù)對象的差異性也盡可能地大.即聚類后同一類的數(shù)據(jù)盡可能聚集到一起,不同類數(shù)據(jù)盡量分離.可以用聚類算法將一組數(shù)據(jù)中的每個數(shù)據(jù)點分到特定的組中,這樣屬于同一組的數(shù)據(jù)點應該有相似的屬性或特征,而屬于不同組的數(shù)據(jù)點應該有非常不同的屬性或特征.

      一旦完成任務向量化,下一步的工作就是將向量化后的任務進行聚類.離線階段的任務聚類部分起的作用就是將任務聚類成多個簇,每個簇表示屬于該簇的任務具有相同的特性.聚類的特性使得可以將每個簇中的任務看作同一類的任務,即表明每個簇中的任務是同質的,也就是說工作者完成該類任務所付出的努力是一樣的.

      常見的聚類算法有很多,例如:K-Means、DBSCAN、均值漂移聚類、使用高斯混合模型的最大期望聚類等.由于K-Means聚類方法簡單、運算速度快、容易理解.經(jīng)過簡單的實驗對比,K-Means聚類的效果更好,因此,本文使用K-Means聚類算法來完成任務聚類的要求.

      4.1.3 工作者特征發(fā)現(xiàn)

      工作者特征發(fā)現(xiàn)是用于推斷出工作者的特征以及最大化工作者對于上一步得到的每一個聚類結果的表現(xiàn).這部分分為兩個內(nèi)容,首先是通過計算工作者的完成任務的正確率來推斷工作者的表現(xiàn).第二個內(nèi)容是推斷工作者特征,通過使用線性回歸模型來推斷工作者的哪些特征與其獲得高表現(xiàn)相關.

      (10)

      (11)

      其中,ε是一個均值為零的隨機變量,并滿足正態(tài)分布.

      對于一個具體的任務簇cl,可以通過算法1來計算cl的工作者的特征對于工作者表現(xiàn)的重要程度.

      算法1.Workers′ Featue Learning

      Workers′Featue Learning算法

      輸入:worker′s history M

      workers set W

      task cluster cl

      1. initialize.Wcl={w∈W|?t∈cl,mwt≠?}

      2. foreach w inWcldo:

      4.2 在線階段

      在線階段,對于一個即將到來的任務t,首先對任務t的特征進行提取,然后將任務t的特征向量與已經(jīng)完成的任務簇進行匹配,選擇距離最小的一個任務簇,將其分配給這個任務簇中的在線工作者進行完成.可以通過算法2對任務t進行分配.

      算法 2.Workers′ Selection

      Worers′s Selection算法

      輸入:task t need to do

      online workersWo

      selection parameterλ

      cluster CL.

      輸出:selected workersWs

      1.Ft←textract_feature(t)

      2.clt←compute_distance(CLcenter,Ft)

      4. foreach w in Wodo:

      7. for i in range(0,λ)

      8.Ws[i]←sorted(Wo)[i]

      9. returnWs

      算法2將系統(tǒng)將要到來的任務t、在線的工作者集合、算法1的結果、需要選擇的工作者的數(shù)量以及任務簇集合作為輸入.輸出最終選擇的工作者集合Ws.算法2首先將任務t進行特征提取,并計算其與任務簇集合中每個簇的質心的距離,從而確定該任務t屬于任務簇clt.第3行和第5行迭代在線工作者,通過點乘計算工作者w的準確率的估計值.第6行按照估計值對在線工作者進行排序,第7行和第8行將排序后的工作者中前λ個工作者加入最終的結果集合.最后將被選擇的工作者集合進行輸出.

      5 實驗分析

      在這一部分,就WST的質量控制方面進行實驗分析.首先介紹了實驗使用的數(shù)據(jù)集,然后設計了WST模型的三個實驗的內(nèi)容,最后展示了各個實驗的結果.

      5.1 實驗數(shù)據(jù)集

      用于評估WST模型的質量的實驗數(shù)據(jù)集使用的是CrowdED[23]數(shù)據(jù)集,CrowdED是一個眾包評估數(shù)據(jù)集,它包括從400名工作者那里收集到的300000多份文件,涉及分布在500多個任務中的1000多個問題.它還包含每個員工的個人信息以及對不同知識領域的自我評估.CrowdED數(shù)據(jù)集中任務屬于各個領域,如體育、時尚、經(jīng)濟、政治等.并且具有不同的類型、數(shù)據(jù)標注以及圖像標注等.

      實驗僅考慮CrowdED中的多項選擇問題,其中包含的任務的數(shù)量是926個,并且劃分為16個子集.實驗考慮400個工作者,這些工作者在CrowdED數(shù)據(jù)集中,對于不同的問題都有至少100個答案,也就是說,這些工作者都作出了至少100的貢獻,其中,僅有200個工作者完成了所有的任務.工作者的特征選取了個人信息中的12個特征中的最重要的6個.

      根據(jù)前面章節(jié)的描述,在離線階段的時候,是假設對于每一個任務的都能夠獲得該任務的正確答案,也就是說每一個任務的GroundTruth是已知的.但是對于CrowdED數(shù)據(jù)集來說,數(shù)據(jù)集的GroundTruth并不存在.為了獲得正確的答案,每個任務需要大量的冗余答案,并從中預測出正確的答案.事實上,當工作者的數(shù)量足夠大的情況下,使用多數(shù)投票法(MajorityVoting)可以預測出一個非常接近GroundTruth的答案[24].因此,實驗使用多數(shù)投票發(fā)來獲取CrowdED數(shù)據(jù)集的GroundTruth.

      5.2 實驗過程

      為了評估WST模型的表現(xiàn),實驗設計過程如下:對于給定的一個任務子集P,對子集進行4折交叉驗證,在每一折上,每一次都將P分為兩個部分,Pl=3P/4和Pt=1P/4,分別作為訓練集和測試集,在訓練集上運行算法1,在測試集上運行算法2來選擇λ個工作者.最后,使用不同的收集策略來評估WST模型的準確率.使用Ac來表示W(wǎng)ST模型的準確率,Ac可以用下面的公式進行計算:

      (12)

      其中,t是任務集合P中的一個任務,re是預測出的答案,rt表示任務t的正確答案.I(x,y)是一個指示函數(shù),形式如下:

      (13)

      為了研究最終結果的影響因素,本文設計了三個實驗內(nèi)容,分別用于探討不同的學習模型、不同的收集策略以及用于學習的語料庫的大小對準確率的影響.

      實驗1.在離線階段,會使用不同的學習方法來學習工作者的特征的權重,在第一個實驗中,探討不同的學習方法對實驗結果的影響.為了對比不同的學習方法對結果的影響,實驗1對比了使用線性回歸和使用隨機森林兩種學習方法.隨機森林指的是利用多棵樹對樣本進行訓練并預測的一種分類器.通過在離線階段使用線性回歸和隨機森林兩種學習方法,并使用多數(shù)投票法作為收集策略來研究不同的學習方法的選擇對實驗的影響.

      實驗2.為了研究最終WST模型受到收集策略的影響,實驗2在使用線性回歸模型作為學習方法的基礎下,通過使用不同的收集策略來評估其對實驗結果的影響.一般而言,眾包活動中收集策略分為兩類:迭代方法和非迭代方法[4].非迭代方法中最常用的方法是多數(shù)投票法(MV),而最大期望算法(MV)是迭代方法中最常用的方法.EM算法是用于在模型包含未觀察到的數(shù)據(jù)時找到參數(shù)的最大似然估計的迭代方法.因此實驗2選取了兩類方法中最典型的收集策略進行研究.實驗2使用線性回歸作為WST模型的學習方法,通過比較MV和EM兩種收集策略來研究其對實驗結果的影響.

      實驗3.WST模型相比其他的模型一個優(yōu)點是在離線階段使用了大量的學習語料庫作為系統(tǒng)歷史,也就是工作者的貢獻矩陣.實驗3對比了語料庫大小對于實驗結果的影響.實驗3實現(xiàn)了三種方法的對比,WST模型通過隨機采樣的方式使用300名工作者的貢獻作為系統(tǒng)的歷史,將Li[25]等提出的方法記作Li-n,n表示使用n個任務來作為系統(tǒng)歷史.實驗3使用的n的值為5,5也是文獻中使用的數(shù)值.最后一種方法是使用隨機選擇方法,記作Random.表示使用隨機選擇的方式來選擇工作者的貢獻作為系統(tǒng)歷史.實驗3使用線性回歸作為學習方法,多數(shù)投票法作為收集策略,研究了用于學習的語料庫的大小對實驗的影響.

      5.3 實驗結果

      實驗1.圖2展示了在使用線性回歸和隨機森林兩種學習方法的WST模型中,準確率隨著選擇的工作者的變化曲線.從圖中可以看出,使用線性回歸方法的曲線總是處于在使用隨機森林的方法的上方,表明使用線性回歸學習方法取得的表現(xiàn)更加良好,尤其在選擇個工作者的數(shù)目比較少的情況下,使用線性回歸的方法可以取得更加突出的效果.這樣也解釋了后續(xù)的實驗為什么使用線性回歸作為學習方法.

      實驗2.圖3比較了不同的收集策略對實驗結果的影響.從圖3可以看出,在選取的工作者比較少的情況下,多數(shù)投票方法比最大期望算法表現(xiàn)更好,但當選取的工作者大于某一個值的時候,也就是圖中曲線相交的點對應的橫坐標,EM算法的表現(xiàn)比MV方法更好,取得的準確率也更高.這種情況的發(fā)生,可能是由于EM算法的理論特性所決定的,當選取的工人較少時,EM算法更加的不穩(wěn)定.

      實驗3.圖4展示了同一個任務子集上使用不同大小的語料庫對準確率的影響.實驗3對比了WST模型,Li等的方法,以及分別使用多數(shù)投票法和最大期望算法作為收集策略的Random方法.

      從圖4中可以看到,WST模型所對應的曲線位于其他所有的曲線的上方,表明使用300名工作者的貢獻作為系統(tǒng)的歷史的WST模型能夠取得最好的表現(xiàn).在低選取率的工作者時,不同語料庫的大小對結果影響較大,當選取的工作者比較多的時候,Li-n能夠取得和WST模型比較相近的性能,而使用不同收集方法的Random方法與兩者相比都有一定的差距.

      圖2 不同學習方法下準確率隨選取的工作者變化曲線Fig.2 Accuracy curve with selected worker under different learning method

      圖3 不同收集策略下準確率隨選取的工作者變化曲線Fig.3 Accuracy curve with selected worker under different collection stratage

      圖4 不同語料庫大小下準確率隨選取的工作者變化曲線Fig.4 Accuracy curve with selected worker under different corpus size

      6 結束語

      本文提出了WST模型,一個基于動態(tài)選取工作者的質量控制模型,利用基于學習的方法選擇高質量的工作者,通過對該模型進行實驗對比,結果表明了WST模型更具優(yōu)勢,進一步說明了算法的有效性.由于質量控制機制的復雜性,需要考慮很多的因素,本文就質量控制問題提出新的思路,但仍然還有很多方面需要考慮.例如考慮工作者的屬性是來自于工作者聲明的內(nèi)容,可能存在一定的偏差.以及在WST模型下,尚未考慮成本以及時間的花銷.在未來的工作中,我們會繼續(xù)對WST模型進行研究,繼續(xù)完善WST的算法,適應更加普遍的眾包環(huán)境.

      猜你喜歡
      工作者聚類評估
      關愛工作者之歌
      致敬科技工作者
      我們
      ——致敬殯葬工作者
      黃河之聲(2021年2期)2021-03-29 01:20:20
      普法工作者的“生意經(jīng)”
      基于DBSACN聚類算法的XML文檔聚類
      電子測試(2017年15期)2017-12-18 07:19:27
      基于改進的遺傳算法的模糊聚類算法
      評估依據(jù)
      一種層次初始的聚類個數(shù)自適應的聚類方法研究
      立法后評估:且行且盡善
      浙江人大(2014年5期)2014-03-20 16:20:25
      自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
      新邵县| 柳州市| 普格县| 锡林郭勒盟| 德江县| 唐山市| 梅州市| 若尔盖县| 剑川县| 克拉玛依市| 朝阳区| 电白县| 麦盖提县| 西华县| 新安县| 涿鹿县| 永新县| 彭州市| 巴中市| 平阴县| 博湖县| 大化| 旬邑县| 绍兴市| 金阳县| 法库县| 仲巴县| 新野县| 琼中| 甘肃省| 乐都县| 胶南市| 怀宁县| 佛教| 辰溪县| 平顶山市| 福贡县| 勃利县| 禄劝| 湘潭县| 昔阳县|