摘 要:隨著微信息應用的發(fā)展,產(chǎn)生了對微信息分類識別的強烈需求。在自然算法中選擇人工免疫系統(tǒng)算法,應用于微信息識別領域。針對微信息系統(tǒng)本身的一些特點,提出了適應這些特點的人工免疫算法。實驗結果表明,基于人工免疫的微信息識別方法具有較低的錯誤否定率和錯誤肯定率。
關鍵詞:人工免疫;微信息;文本分類識別;匹配算法;檢測器生成
中圖分類號:TP181
自然計算(Nature Inspired Computation)具有模仿自然界的特點,通常是一類具有自適應、自組織、自學習能力的模型與算法,能夠解決傳統(tǒng)計算方法難于解決的各種復雜問題。人工免疫系統(tǒng)是受生物免疫學啟發(fā),模擬生物體免疫系統(tǒng)功能、原理和模型來解決復雜問題的自適應系統(tǒng)。[1]微信息是即時傳播的小容量文本信息。微信息既有傳統(tǒng)的短信,又有隨互聯(lián)網(wǎng)發(fā)展而產(chǎn)生的twitter、iMessage、微博、微信、陌陌等社交工具產(chǎn)生的簡短信息,按照ETIS的標準,最大字符數(shù)不超過140個字符[2],信息容量小,易于快速傳播。人工免疫系統(tǒng)可用于微信息的識別上,能夠適應微信息待識別類型的變化,保持極高的識別率。
1 仿生學定義對照、識別算法
生物體中,基因是指攜帶有遺傳信息的DNA序列,是生物體蛋白質(zhì)的決定信息,入侵生物體的病毒、細菌均由蛋白質(zhì)組成,這些特異性蛋白是進行自體/非自體識別的依據(jù)。在微信息識別中,特異性蛋白可以等同于待分類微信息所包含的字或詞;抗原是指待識別的這類微信息;抗體是指能與抗原能夠匹配的檢測器的集合,用來檢測微信息是否為待歸類信息。生物體中的自體對應微信息識別是指正常非待歸類微信息。根據(jù)對應關系,定義:
特異性蛋白集合:P={P1,P2,…Pn}; m,Pn Agm
抗原集合Ag={Ag1,Ag2,…Agn};
抗體集合Ab={Ab1,Ab2,…Abn};
自體集合B={B1,B2,…Bn}
2 抗原蛋白質(zhì)庫的組成
首先進原始微信息進行分類,并從分類的微信息中提取出特異性的蛋白,每一個這樣的蛋白都是檢測器,即抗原蛋白質(zhì)庫。
特異性蛋白的提呈:對已經(jīng)人工判定為垃圾信息的微信息進行字元提取工作,得到原始的抗原蛋白庫:P={P1,P2,….Pn}。
3 生成檢測器庫
由微信息的字元數(shù)量比較小,決定檢測器的長度使用固定值,用隨機使用字元的方法生成檢測器集合。
檢測器生成算法有多種,效率各有優(yōu)劣,這里使用骨髓模型[3],設檢測器的字元數(shù)量為Np,使用隨機函數(shù)從檢測器集合中隨機選擇。在不同的應用環(huán)境中,Np的取值有所不同,Np的值的大小與檢測器生成算法的復雜度有很大的關系,數(shù)值過大,檢測器生成算法時間復雜度高,檢測效率亦高,反之生成算法時間復雜度降低,但檢測效率亦相應降低,因此需要選擇合適的值。根據(jù)應用中抗原的特點,Np的取值設定為6。
檢測器的數(shù)量應該保持在較小的范圍,但又不能影響到錯誤否定率、錯誤肯定率。有學者提出初始檢測器與自體集合的大小是成指數(shù)關系的:
[4]
衡量匹配程序的值是Pm,衡量錯誤否定率的值是Pf,開始時,檢測器的數(shù)量為NR0,自身的集合用NS來表示。此外,檢測器的數(shù)量還要考慮實際因素進行調(diào)整。
檢測器生成后,需要進行自體耐受算法檢驗,保證不將正常微信息識別為待分類微信息,經(jīng)過耐受算法檢驗的檢測器才能成熟為抗體。
4 微信息的識別
對于待檢測微信息,應用親和力計算公式對檢測器集合中的元素逐一計算,當一個檢測器與微信息的親和力達到一定程度時,這個程度通常由匹配閥值Pf來決定,將該微信息歸類于已匹配信息,同時該微信息將作為下一輪特異性蛋白質(zhì)選擇時的候選對象。如微信息被匹配,則檢測器的生命周期值Tg變?yōu)?,如微信息未匹配檢測器,這個檢測器的Tg值則減去1,直到該值為零,則將該檢測器從集合中除去。因此,檢測器集合中的元素數(shù)量始終保持在適度內(nèi)。
在微信息識別應用中,根據(jù)生物體免疫系統(tǒng)二次應答的這種特性,使用匹配公式Affinity()對抗原與檢測器進行計算,衡量它們的匹配值,并根據(jù)該值進行排列,該算法的效率較高。
算法的實際應用表明,該算法具有較高的準確度和效率。
5 抗體庫更新
隨著系統(tǒng)的運行,抗原的數(shù)量會不斷擴充,抗體庫必須具有淘汰無用抗體,集成新抗體的能力才能保持較高的識別率。
當新的抗原的增加達到一定的數(shù)量時,有必要在將抗原的變化反應到特異性蛋白質(zhì)集合中。按照提取時的算法,對新抗原進行特異性蛋白提呈,提呈的結果將被補充到蛋白集合P中。然后按照隨機原則生成一定數(shù)量的新檢測器,使用成熟算法對新檢測器進行訓練,使得檢測器集合維持動態(tài)更新的狀態(tài)。
5.1 降低錯誤肯定率、錯誤否定率。檢測器的覆蓋集合超出待分類微信息集合時,發(fā)生錯誤肯定。對于此類檢測器,否認是否能與其它正確對象匹配,均就進行刪除操作。
5.2 檢測器集合中的所有對象均不能正確檢出目標微信息時,發(fā)生錯誤否定,有兩種方法能夠處理:一是加大檢測器集合數(shù)量,以系統(tǒng)運行效率來換取系統(tǒng)的正確率。二是實施人工干預,重新將被錯誤否定的微信息人工添加到已分類微信息集合中,稱之為人工協(xié)同刺激。
5.3 人工協(xié)同刺激。當錯誤否定發(fā)生時,手工在已分類微信息集合中加入目標微信息,并單獨對加入的新微信息進行基因提呈,由提呈產(chǎn)生的基因集合為元素,以隨機原則生成若干數(shù)量的檢測器,再依上述步驟重新進行檢測器的自體耐受的成熟訓練,生成準確的檢測器并加入檢測器集合中。這些檢測器對于這類的微信息及類似的待分類微信息具有極高的親和力。
算法的實際應用表明,該算法具有較高的準確度和效率。
參考文獻:
[1]Dasgupta D,Attoh—Okine N.Immunity based systems:A survey:IEEE International Conference on Systems,Man,and Cybernetics[C].Orlando,F(xiàn)lorida,1997:369-374.
[2]ETIS.ETS90301 Digital cellular telecommunications system(Phase 2+).Technical realization of the Short Message Service (SMS);Point-to-Point(PP)[S].Sophia Antipolice:European Telecommunications Standards Institute,1998.
[3]李濤.計算機免疫學[M].北京:電子工業(yè)出版社,2004:44+47.
[4]R J De Boer,A S Perelson.How diverse should the immune system be?:Proceedings of the royal Society London B, v. [C].London,S.N.,1993:252.
作者簡介:李倩(1978-),女,講師,本科,研究方向:人工智能、汽車電子;徐佳(1976-),男,副教授,碩士研究生,研究方向:人工智能、計算機網(wǎng)絡;章麗芳(1975-),女,講師,碩士研究生,研究方向:人工智能。
作者單位:浙江汽車職業(yè)技術學院,浙江臺州 317000;浙江廣播電視大學臨海學院,浙江臺州 317000