• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于用戶興趣度的垃圾郵件在線識(shí)別新方法*

      2014-08-16 07:59:50王友衛(wèi)劉元寧鳳麗洲朱曉冬
      關(guān)鍵詞:垃圾郵件增量郵件

      王友衛(wèi) 劉元寧 鳳麗洲 朱曉冬

      (吉林大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林 長春 130012)

      隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,電子郵件已成為人們?nèi)粘I钪兄匾耐ㄐ攀侄沃?日益增長的垃圾郵件常常附載大量虛假甚至危害社會(huì)穩(wěn)定與安全的信息.垃圾郵件在線識(shí)別具有區(qū)別于傳統(tǒng)文本分類的特點(diǎn)[1-2]:①識(shí)別過程需根據(jù)用戶興趣進(jìn)行,同一封郵件在不同用戶甚至處于不同階段的相同用戶眼中可能得到不同的分類結(jié)果;②郵件識(shí)別屬于在線應(yīng)用,因此對(duì)處理速度要求比較高;③在線郵件數(shù)量眾多、種類復(fù)雜,難以通過傳統(tǒng)人工標(biāo)注形成通用的訓(xùn)練樣本集.因此,如何有效解決以上問題成為垃圾郵件在線識(shí)別的首要任務(wù).

      增量學(xué)習(xí)方法已被廣泛應(yīng)用于垃圾郵件在線識(shí)別[3].與傳統(tǒng)方法相比,增量學(xué)習(xí)可以充分利用歷史學(xué)習(xí)結(jié)果,在不顯著降低樣本識(shí)別精度的前提下,減少訓(xùn)練時(shí)間及傳統(tǒng)人工標(biāo)注工作量.Syed 等[4]結(jié)合支持向量機(jī)(SVM)提出了Batch SVM 方法,該方法將增量樣本集與訓(xùn)練集中支持向量集合并形成新的訓(xùn)練集,對(duì)訓(xùn)練集中的冗余樣本處理過于簡單,導(dǎo)致識(shí)別精度不高.王學(xué)軍等[5]將SVM 和主動(dòng)學(xué)習(xí)結(jié)合起來,通過在增量學(xué)習(xí)過程中選擇正類樣本構(gòu)造新的最優(yōu)超平面;該算法能準(zhǔn)確識(shí)別正類樣本,但針對(duì)負(fù)類樣本的識(shí)別精度較低.劉伍穎等[2]根據(jù)用戶反饋構(gòu)建個(gè)性化的用戶興趣模型,通過組合郵件模型分類器與興趣模型分類器結(jié)果實(shí)現(xiàn)對(duì)郵件的準(zhǔn)確分類;該方法通過SVM 集成學(xué)習(xí)有效降低了特征向量空間維數(shù),算法執(zhí)行速度較快.陳榮等[6]結(jié)合基于最優(yōu)標(biāo)號(hào)和次優(yōu)標(biāo)號(hào)(BvSB)的主動(dòng)學(xué)習(xí)去挖掘那些對(duì)當(dāng)前分類器模型最有價(jià)值的樣本進(jìn)行人工標(biāo)注,并借助帶約束條件的自學(xué)習(xí)(CST)方法進(jìn)一步選擇待標(biāo)注樣本,使得當(dāng)標(biāo)注代價(jià)較小時(shí)仍能夠獲得良好的分類性能.

      現(xiàn)有增量學(xué)習(xí)方法普遍存在下面問題:①待標(biāo)注樣本選擇過程往往需要訓(xùn)練集中所有樣本參與,故計(jì)算復(fù)雜度較高;②傳統(tǒng)主動(dòng)學(xué)習(xí)要求用戶對(duì)待標(biāo)注樣本進(jìn)行類別標(biāo)注,忽略了用戶對(duì)樣本被正確分類的感興趣程度.針對(duì)這些問題,文中對(duì)傳統(tǒng)Batch SVM 方法做出改進(jìn),引入用戶興趣度的概念,實(shí)現(xiàn)了一種在線垃圾郵件識(shí)別新方法.

      1 相關(guān)理論

      1.1 Batch SVM 增量學(xué)習(xí)

      Batch SVM 由Syed 等[4]提出,現(xiàn)已成為機(jī)器學(xué)習(xí)中一種典型的增量學(xué)習(xí)方法.如圖1 所示,該方法實(shí)現(xiàn)的具體步驟如下.

      輸入:初始訓(xùn)練樣本集合A0、增量樣本集合S1,S2,…,Sn;

      (1)使用SVM 對(duì)A0進(jìn)行訓(xùn)練,獲得支持向量集合V0;

      (2)將S1加入V0生成訓(xùn)練集A1,對(duì)A1進(jìn)行SVM 訓(xùn)練繼而得到支持向量集合V1;

      (3)重復(fù)類似步驟(2)的過程直到所有的增量樣本集合都已參加訓(xùn)練.

      輸出:以An為訓(xùn)練集的分類器.

      圖1 Batch SVM 增量學(xué)習(xí)方法Fig.1 Incremental learning method of Batch SVM

      1.2 主動(dòng)學(xué)習(xí)模型

      主動(dòng)學(xué)習(xí)目的是在增量訓(xùn)練過程中有選擇地?cái)U(kuò)大有標(biāo)記樣例集合和循環(huán)訓(xùn)練的方法,使分類器獲得了更強(qiáng)的泛化能力.主動(dòng)學(xué)習(xí)模型一般分為學(xué)習(xí)引擎和采樣引擎兩個(gè)部分[7],如圖2 所示.

      圖2 主動(dòng)學(xué)習(xí)模型Fig.2 Active learning model

      其中,學(xué)習(xí)引擎先在初始樣本集合上構(gòu)造初始分類器,接著對(duì)增量樣本進(jìn)行分類;采樣引擎則使用不同的采樣算法從增量樣本集合中選擇樣本推薦給領(lǐng)域?qū)<疫M(jìn)行標(biāo)注,并使用標(biāo)注后樣本更新訓(xùn)練集以進(jìn)行迭代訓(xùn)練.根據(jù)采樣算法不同,可將主動(dòng)學(xué)習(xí)算法分為基于流的主動(dòng)學(xué)習(xí)和基于池的主動(dòng)學(xué)習(xí).理論研究表明,相對(duì)于監(jiān)督學(xué)習(xí)而言,主動(dòng)學(xué)習(xí)可以帶來指數(shù)級(jí)的樣本復(fù)雜度改善[8].

      2 垃圾郵件在線識(shí)別新方法

      結(jié)合傳統(tǒng)Batch SVM 和主動(dòng)學(xué)習(xí)理論實(shí)現(xiàn)了一種在線垃圾郵件識(shí)別新方法.給定訓(xùn)練樣本集Ai及增量郵件集合Si(i=1,2,…,ns,ns為增量集數(shù)目),文中方法的執(zhí)行過程如圖3 所示.

      圖3 文中方法的執(zhí)行過程Fig.3 Executing process of the proposed method

      2.1 特征提取、樣本訓(xùn)練及識(shí)別

      為了更好地兼顧算法執(zhí)行速度及特征提取效果,使用類間-類內(nèi)綜合測量特征提取方法(CMFS)進(jìn)行特征提取[9].將郵件訓(xùn)練集Ai中不同單詞對(duì)應(yīng)的CMFS 值按照從大到小的順序排列,選取前nf個(gè)單詞構(gòu)成特征詞集合Sfi.

      序列最小優(yōu)化算法(SMO)由Microsoft Research的Platt[10]在1998年提出,它能快速地解決SVM 分類過程面臨的二次規(guī)劃問題.基于SMO 在處理稀疏矩陣方面的優(yōu)異表現(xiàn),文中使用該算法對(duì)Ai進(jìn)行訓(xùn)練,接著使用所得分類器Oi對(duì)Si中每封郵件進(jìn)行識(shí)別.SMO 相關(guān)參數(shù)設(shè)置如下:懲罰因子ζ=1.0,容忍極限值=0.001,核函數(shù)為RBF Kernal,核函數(shù)參數(shù)γ=0.5.

      2.2 分類確定性評(píng)價(jià)

      Joshi 等[11]通過在主動(dòng)學(xué)習(xí)過程中統(tǒng)計(jì)未標(biāo)注樣本屬于各個(gè)類別的概率大小來尋找那些分類結(jié)果最不確定的樣本,將其推薦給專家進(jìn)行標(biāo)注.該方法將Si中增量樣本sij與Ai中每個(gè)樣本進(jìn)行比較,因此計(jì)算量較大.為此,文中考慮使用代表樣本,即從包含個(gè)已標(biāo)注樣本的訓(xùn)練集Ai中隨機(jī)選取/2個(gè)代表樣本(記為Ari)與sij進(jìn)行比較.若Ari中垃圾郵件、合法郵件集合分別為Arsi、Arhi,則郵件sij(j=1,2,…,)分類確定性u(píng)(sij)計(jì)算如下:

      式中,Sim ( sij,yk)、Sim ( sij,gl)分別表示郵件sij與郵件yk、gl之間的相似度,使用歐式距離表示.將Si中所有郵件對(duì)應(yīng)u(sij)按照從小到大的順序排列,選擇前Nt(文中取Nt=10)封郵件(記為Sri)推薦給用戶.

      2.3 樣本標(biāo)注

      文中主動(dòng)學(xué)習(xí)方法中領(lǐng)域?qū)<壹礊猷]件接收者(用戶).傳統(tǒng)主動(dòng)學(xué)習(xí)方法強(qiáng)制用戶對(duì)待標(biāo)注樣本的類別進(jìn)行標(biāo)注,而實(shí)際上,用戶未必對(duì)所有類型樣本都關(guān)心,且他們針對(duì)不同類型樣本的感興趣程度也不盡相同.文中提出了一種新的郵件樣本標(biāo)注模型,特點(diǎn)有:①用戶可根據(jù)郵件內(nèi)容決定是否對(duì)其進(jìn)行標(biāo)注;②引入了用戶興趣度的概念來區(qū)分用戶對(duì)不同類型樣本的感興趣程度.

      定義 用戶U 對(duì)郵件E 能被正確分類的感興趣程度,定義為U 對(duì)E 的用戶興趣度.

      文中樣本標(biāo)注模型將任意待標(biāo)注郵件E 表示為具有以下4 個(gè)域的結(jié)構(gòu)形式,如圖4(a)所示.

      (1)索引.郵件的唯一標(biāo)識(shí).

      (2)內(nèi)容.郵件的文本內(nèi)容包括郵件主題,正文等信息.

      (3)類別.E 為合法郵件還是垃圾郵件,記為C(E),該部分由用戶進(jìn)行手工標(biāo)注.

      (4)用戶興趣度.U 對(duì)E 的用戶興趣度記為I(E),該部分由用戶進(jìn)行手工標(biāo)注.

      給定Sri中郵件sij,則樣本標(biāo)注過程如下:

      (1)用戶查看sij內(nèi)容決定其對(duì)此類型樣本是否感興趣,若不,則丟棄sij(如圖4(b)所示),否則,轉(zhuǎn)至步驟(2);

      (2)用戶標(biāo)注sij的類別C(sij)及用戶對(duì)sij被正確分類的興趣度I(sij)(默認(rèn)為1).I(sij)由用戶根據(jù)經(jīng)驗(yàn)給出,如:若用戶對(duì)sij內(nèi)容特別感興趣,說明他對(duì)sij分類結(jié)果正確與否特別關(guān)注,故可標(biāo)記I(sij)=1.0,如圖4(c)所示.同理,若用戶對(duì)sij內(nèi)容感興趣程度一般,則可標(biāo)記I(sij)=0.5,如圖4(d)所示;若用戶對(duì)sij內(nèi)容有一點(diǎn)感興趣,則可標(biāo)記I(sij)=0.3,依此類推.

      (3)重復(fù)執(zhí)行步驟(1)、(2)直至遍歷完Sri中的所有郵件,至此便生成了標(biāo)注郵件集合Sdi對(duì)應(yīng)的標(biāo)注模型實(shí)例集合S'di.

      圖4 文中方法的郵件標(biāo)注模型及實(shí)例Fig.4 Email labeling model and examples of the proposed method

      2.4 訓(xùn)練樣本集更新

      傳統(tǒng)主動(dòng)學(xué)習(xí)訓(xùn)練樣本集更新時(shí)將用戶標(biāo)注后所有樣本直接加入原始訓(xùn)練集,一方面使得訓(xùn)練集樣本數(shù)量增長較快;另一方面無法有效區(qū)分不同類型樣本分類正確與否對(duì)用戶造成的影響(例如:相對(duì)于垃圾郵件而言,用戶對(duì)合法郵件被正確分類的需求更高).文中提出了一種基于“輪盤賭”[12]的樣本加入方法,針對(duì)已標(biāo)注的郵件集合Sdi處理步驟如下.

      1)為保證合法郵件優(yōu)先于垃圾郵件被加入訓(xùn)練集,設(shè)置權(quán)值μ(0 <μ <1,文中取μ=0.9).

      2)根據(jù)2.3 節(jié)樣本標(biāo)注結(jié)果,獲得Sdi對(duì)應(yīng)的標(biāo)注模型實(shí)例集合S'di;

      3)針對(duì)Sdi中每封郵件sij,先從S'di中獲得與之對(duì)應(yīng)的用戶興趣度I(sij),接著計(jì)算sij加入Ai的概率Pij:

      (1)if C(sij)=ham,then Pij=I(sij)

      (2)else Pij=I(sij)* μ(0 <μ <1)

      (3)endif

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集與評(píng)價(jià)方法

      將常用于在線仿真的非加密英文郵件TREC2007(包含50 199 封垃圾郵件、25 220 封合法郵件)作為實(shí)驗(yàn)數(shù)據(jù)集[13].去除郵件附件、標(biāo)簽、郵件頭、停用詞等信息,并使用Porter Stemming 算法進(jìn)行詞形還原[14].設(shè)置特征提取的對(duì)應(yīng)特征向量維數(shù)nf=600,測試集數(shù)目nt=5.為仿真在線學(xué)習(xí)過程,保證算法針對(duì)初始訓(xùn)練集A0的訓(xùn)練時(shí)間、針對(duì)增量樣本集Si(0 <i≤ns)的學(xué)習(xí)時(shí)間、針對(duì)測試集Tj(0 <j≤nt)的測試時(shí)間滿足圖5 所示的先后關(guān)系.進(jìn)一步地,在對(duì)Tj(0 <j≤nt)進(jìn)行仿真測試之前,先由用戶按照文中郵件標(biāo)注模型對(duì)Tj中每封郵件進(jìn)行標(biāo)注,生成標(biāo)注模型實(shí)例集合T'j.

      圖5 初始訓(xùn)練集A0、增量樣本集Si 及測試集Tj 的時(shí)間關(guān)系Fig.5 Time relationship among initial training corpus A0,incremental corpus Si and testing corpus Tj

      基于傳統(tǒng)垃圾郵件識(shí)別算法性能評(píng)價(jià)標(biāo)準(zhǔn)[15],文中提出了一種結(jié)合用戶興趣度的垃圾郵件識(shí)別召回率(r)、準(zhǔn)確率(p)評(píng)價(jià)新方法.針對(duì)標(biāo)注模型實(shí)例集合T'j(0 <j≤nt),若T'j中屬垃圾郵件的模型實(shí)例集合記為T'js,屬合法郵件的模型實(shí)例集合記為T'jh,則r、p 定義如下:

      式中,α 為用戶對(duì)某郵件的興趣度,Φs為T'js中所有郵件對(duì)應(yīng)的用戶興趣度集合,Φss為T'js中被正確分類的郵件對(duì)應(yīng)的用戶興趣度集合,hs為T'jh中被錯(cuò)分的郵件對(duì)應(yīng)的用戶興趣度集合,ns(α)為T'js中對(duì)應(yīng)興趣度為α 的郵件數(shù)目,nss(α)為T'js中對(duì)應(yīng)興趣度為α 且被正確分類的郵件數(shù)目,nhs(α)為T'jh中對(duì)應(yīng)興趣度為α 且被錯(cuò)分的郵件數(shù)目.由式(2)知,r 越大,系統(tǒng)發(fā)現(xiàn)垃圾郵件的能力就越強(qiáng);p 越大,合法郵件被漏讀的可能性就越小.

      3.2 耗時(shí)分析

      假設(shè)當(dāng)前郵件訓(xùn)練集Ai樣本數(shù)為,增量集Si樣本數(shù)為,對(duì)Ai進(jìn)行SVM 訓(xùn)練的耗時(shí)為tT(Ai)、從Si中選擇待標(biāo)注樣本的耗時(shí)為tS(Si).表1 評(píng)估了不同主動(dòng)學(xué)習(xí)方法對(duì)應(yīng)的tT(Ai)、tS(Si)值.其中,Sdi為用戶標(biāo)注后樣本集,Spdi為文中實(shí)際加入訓(xùn)練集的樣本集,tV(A)表示對(duì)樣本集A 進(jìn)行SVM 訓(xùn)練所需時(shí)間,tC()表示計(jì)算樣本集合Ai-1中所有樣本的分類確定性所需時(shí)間,tO()表示對(duì)個(gè)元素排序所需時(shí)間,δ表示CST 樣本選擇過程所需時(shí)間.可見,由于存在SpdiSdi,文中方法的tT(Ai)值不大于Joshi 方法、Chen 方法;進(jìn)一步知,由于tC()過程耗時(shí)依賴于大小,故文中方法所得tS(Ai)值將小于另外兩種方法.

      表1 不同主動(dòng)學(xué)習(xí)方法對(duì)應(yīng)的tT(Ai)、tS(Si)值Table 1 tT(Ai)and tS(Si)values corresponding to different active learning methods

      3.3 性能測試

      圖6 10 個(gè)用戶在不同ns 值下對(duì)應(yīng)的ra、pa 值Fig.6 ra and pa values of 10 users with different ns values

      3.3.1 多用戶情況下的性能測試

      表2 不同方法所得及值Table 2 andvalues obtained by different methods

      表2 不同方法所得及值Table 2 andvalues obtained by different methods

      方法 r t p t r p Batch SVM 0.933 0.929 0.934 0.933 Wang 方法 0.971 0.934 0.978 0.937 Joshi 方法 0.969 0.966 0.968 0.971 Chen 方法 0.964 0.967 0.966 0.967文中方法0.966 0.971 0.974 0.976

      3.3.2 單用戶情況下的性能測試

      單用戶仿真實(shí)驗(yàn)時(shí)應(yīng)考慮用戶興趣遷移對(duì)學(xué)習(xí)效果的影響[16].先從S1-S100中挑選5 個(gè)典型郵件內(nèi)容主題,接著給出某一用戶在不同增量學(xué)習(xí)階段針對(duì)這些主題的興趣度變化過程,如表3 所示.在增量學(xué)習(xí)不同階段由用戶自行對(duì)Tj(1 <j≤nt)進(jìn)行標(biāo)注,先使用傳統(tǒng)評(píng)價(jià)方法計(jì)算垃圾郵件識(shí)別召回率均值、準(zhǔn)確率均值,再使用文中新評(píng)價(jià)方法計(jì)算召回率均值、準(zhǔn)確率均值,結(jié)果如表4 所示.可見,相對(duì)于傳統(tǒng)評(píng)價(jià)方法,新評(píng)價(jià)方法下文中方法的召回率均值、準(zhǔn)確率均值提升明顯;文中方法所得值雖低于Wang 方法,但明顯高于其他方法;文中方法所得值為0.979,比全局次高值大0.010.綜上說明:新評(píng)價(jià)方法反映了用戶興趣度對(duì)分類結(jié)果的影響;文中方法在增量學(xué)習(xí)不同階段區(qū)分了用戶興趣度,有效降低了用戶興趣遷移對(duì)算法識(shí)別效果的影響.

      表3 不同增量學(xué)習(xí)階段用戶興趣度變化Table 3 Changes of user interest degree at different incremental learning stages

      表4 不同方法所得 及值Table 4 andvalues obtained by different methods

      表4 不同方法所得 及值Table 4 andvalues obtained by different methods

      方法 r t p t r p Batch SVM 0.921 0.909 0.913 0.897 Wang 方法 0.972 0.933 0.976 0.936 Joshi 方法 0.969 0.965 0.962 0.969 Chen 方法 0.956 0.958 0.955 0.961文中方法0.962 0.959 0.971 0.979

      3.3.3 不同算法耗時(shí)對(duì)比實(shí)驗(yàn)

      定義樣本訓(xùn)練平均耗時(shí)w 及待標(biāo)注樣本選擇平均耗時(shí)z 如下:

      式中,θ(Ai)為對(duì)Ai進(jìn)行SVM 訓(xùn)練的耗時(shí),?(Si)為主動(dòng)學(xué)習(xí)過程中從Si中選擇待標(biāo)注樣本的耗時(shí).使用不同方法分別計(jì)算相應(yīng)z 的值及當(dāng)ns=20,40,60,80,100 時(shí)對(duì)應(yīng)的w 值,結(jié)果如圖7(a)-7(d)所示.可見,Batch SVM 方法所得w 值受取值影響較大,與關(guān)系不大;而其他方法w 取值與關(guān)系密切,=200 時(shí)所得w 值較=50 時(shí)普遍偏高.由于使用了“輪盤賭”方法抑制訓(xùn)練集規(guī)模的快速增長,故相對(duì)于Wang 方法、Joshi 方法、Chen 方法而言,文中方法的樣本訓(xùn)練時(shí)間較短,且當(dāng)增量集樣本數(shù)目較大時(shí),在一定程度內(nèi)(ns≤40)優(yōu)于Batch SVM.對(duì)比結(jié)合主動(dòng)學(xué)習(xí)的Joshi 方法、Chen方法及文中方法對(duì)應(yīng)的z 值發(fā)現(xiàn),文中方法的結(jié)果明顯偏小,進(jìn)一步驗(yàn)證了該方法在降低待標(biāo)注樣本選擇耗時(shí)方面的有效性.

      4 結(jié)語

      提出了一種基于SVM 增量學(xué)習(xí)的垃圾郵件識(shí)別新方法,主要內(nèi)容如下:①為降低尋找待標(biāo)注郵件耗時(shí),通過從已標(biāo)注訓(xùn)練集中隨機(jī)選擇代表樣本計(jì)算郵件的分類確定性;②提出了用戶興趣度的概念和新樣本標(biāo)注模型,將用戶針對(duì)郵件被正確分類的感興趣程度融入模型中;③結(jié)合用戶興趣度,使用“輪盤賭”方法更新郵件訓(xùn)練集;④提出了結(jié)合用戶興趣度的分類器性能評(píng)價(jià)新標(biāo)準(zhǔn).實(shí)驗(yàn)結(jié)果證明:新樣本標(biāo)注模型有效融合了用戶對(duì)郵件被正確分類的感興趣程度,“輪盤賭”訓(xùn)練集更新方式在降低訓(xùn)練集規(guī)模增長速度的同時(shí)保證了用戶感興趣郵件被優(yōu)先加入;新方法針對(duì)垃圾郵件識(shí)別效果好,樣本訓(xùn)練及待標(biāo)注樣本選擇速度快,具有較高的實(shí)用價(jià)值.

      圖7 ns 取不同值時(shí)不同方法所得w、z 值Fig.7 w and z values obtained by different methods with different ns values

      [1]Liu W Y,Wang T.Active learning for online spam filtering[J].Information Retrieval Technology,2008,4993:555-560.

      [2]劉伍穎,王挺.集成學(xué)習(xí)和主動(dòng)學(xué)習(xí)相結(jié)合的個(gè)性化垃圾郵件過濾[J].計(jì)算機(jī)工程與科學(xué),2011,33(9):34-41.Liu Wu-ying,Wang Ting.Ensemble learning and active learning based personal spam email filtering[J].Computer Engineering & Science,2011,33(9):34-41.

      [3]Bouchachia A,Gabrys B,Sahel Z.Overview of some incremental learning algorithms[C]∥Proceedings of IEEE International Conference on Fuzzy Systems.London:IEEE,2007:1-6.

      [4]Syed N,Liu H,Sung K.Handling concept drifts in incremental learning with support vector machines[C]∥Proceedings of the Workshop on Support Vector Machines at the International Joint Conference on Articial Intelligence(IJCAI-99).Stockholm:IJCAII and the Scandinavian AI Societies,1999:317-321.

      [5]王學(xué)軍,趙琳琳,王爽.基于主動(dòng)學(xué)習(xí)的視頻對(duì)象提取方法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2013,43(3):51-54.Wang Xue-jun,Zhao Lin-lin,Wang Shuang.Video object extraction method based on active learning SVM [J].Journal of Jilin University:Engineering and Technology Edition,2013,43(3):51-54.

      [6]陳榮,曹永鋒,孫洪.基于主動(dòng)學(xué)習(xí)和半監(jiān)督學(xué)習(xí)的多類圖像分類[J].自動(dòng)化學(xué)報(bào),2011,37(8):954-962.Chen Rong,Cao Yong-feng,Sun Hong.Multi-class image classification with active learning and semi-supervised learning[J].Acta Automatica Sinica,2011,37(8):954-962.

      [7]Wu Y,Kozintsev I,Bouguet J Y,et al.Sampling strategies for active learning in personal photo retrieval[C]∥Proceedings of ICME 2006.Piscataway:IEEE,2006:529-532.

      [8]吳偉寧,劉揚(yáng),郭茂祖,等.基于采樣策略的主動(dòng)學(xué)習(xí)算法研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2012,49(6):1162-1173.Wu Wei-ning,Liu Yang,Guo Mao-zu,et al.Advances inactive learning algorithms based on sampling strategy[J].Journal of Computer Research and Development,2012,49(6):1162-1173.

      [9]Yang J M,Liu Y N,Zhu X D,et al.A new feature selection based on comprehensive measurement both in inter-category and intra-category for text categorization[J].Information Processing & Management,2012,48(4):741-754.

      [10]Platt John.Sequential minimal optimization:a fast algorithm for training support vector machines[R].[S.l.]:Microsoft Research,1998.

      [11]Joshi A J,Porikli F,Papanikolopoulos N.Multi-class active learning for image classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.Miami:IEEE,2009:2372-2379.

      [12]夏桂梅,曾建潮.一種基于輪盤賭選擇遺傳算法的隨機(jī)微粒群算法[J].計(jì)算機(jī)工程與科學(xué),2007,29(6):51-54.Xia Gui-mei,Zeng Jian-chao.A stochastic partical swarm optimization algorithm based on the genetic algorithm of roulette wheel selection [J].Computer Engineering &Science,2007,29(6):51-54.

      [13]Cormack G V.TREC 2007 spam track overview[C]∥Proceedings of the 16th Text Retrieval Conference.Gaithersburg:National Institute of Standards and Technology,2007:500-274.

      [14]Porter M F.An algorithm for suffix stripping[J].Program:Electronic Library and Information Systems,1980,14(3):130-137.

      [15]Yang J M,Liu Y N,Liu Z,et al.A new feature selection algorithm based on binomial hypothesis testing for spam filtering[J].Knowledge-Based Systems,2011,24(6):904-914.

      [16]Bouneffouf D,Bouzeghoub A,Gan?arski A L.Following the user's interests in mobile context-aware recommender systems:the hybrid-ε-greedy algorithm[C]∥Proceedings of 26th International Conference on Advanced Information Networking and Applications Workshops.Fukuoka:IEEE,2012:657-662.

      猜你喜歡
      垃圾郵件增量郵件
      基于James的院內(nèi)郵件管理系統(tǒng)的實(shí)現(xiàn)
      提質(zhì)和增量之間的“辯證”
      從“scientist(科學(xué)家)”到“spam(垃圾郵件)”,英語單詞的起源出人意料地有趣 精讀
      英語文摘(2021年10期)2021-11-22 08:02:36
      一種基于SMOTE和隨機(jī)森林的垃圾郵件檢測算法
      “價(jià)增量減”型應(yīng)用題點(diǎn)撥
      一封郵件引發(fā)的梅賽德斯反彈
      車迷(2018年12期)2018-07-26 00:42:32
      基于均衡增量近鄰查詢的位置隱私保護(hù)方法
      基于支持向量機(jī)與人工免疫系統(tǒng)的垃圾郵件過濾模型
      德州儀器(TI)發(fā)布了一對(duì)32位增量-累加模數(shù)轉(zhuǎn)換器(ADC):ADS1262和ADS126
      石器部落
      甘肃省| 贺兰县| 岱山县| 景德镇市| 贡嘎县| 朝阳区| 巴马| 阿克苏市| 土默特左旗| 河南省| 惠州市| 乡宁县| 平泉县| 扎赉特旗| 苏尼特右旗| 射阳县| 沁源县| 扎鲁特旗| 彩票| 瓮安县| 衡阳市| 定结县| 芦山县| 津市市| 孟津县| 龙山县| 麻城市| 延津县| 沙洋县| 汕尾市| 绵阳市| 建湖县| 壤塘县| 滨海县| 长武县| 武夷山市| 玉树县| 辉县市| 华容县| 株洲县| 桦川县|