摘 要:互聯(lián)網(wǎng)的飛速發(fā)展的今天,如何判斷信息的真假,快速準確地查找到用戶所感興趣及更有價值的信息是本文的研究重點。根據(jù)砂的篩析試驗,對現(xiàn)有的篩選方法進行層層遞進,并結(jié)合用戶對信息的興趣度,信息的類別等查找用戶感興趣的和真實消息。同時類比愛情模型評分標準觀測用戶對信息的興趣度,分數(shù)越高表明興趣度越大及用戶感興趣的模型。
關鍵詞:過濾篩查;認知;信息流;興趣模型
1 篩析模型
互聯(lián)網(wǎng)時代的到來,人們每天都接收著數(shù)以萬計的信息。本文假設初始互聯(lián)網(wǎng)網(wǎng)絡節(jié)點都是可信的。信息的分享只需要足夠的數(shù)據(jù)包傳輸就行了。然而隨著互聯(lián)網(wǎng)的迅速 發(fā)展,網(wǎng)絡節(jié)點的可信度有待考慮從而產(chǎn)生了大量的虛假信息,并被廣泛傳播。為提升真實信息的辨識度,本文借鑒砂的篩析實驗對信息的選擇同樣采取從上到下層層篩選將有害信息及干擾信息的影響降到最小,從而達到降低信息雜質(zhì)并最大限度的得到最有價值。在信息流傳播的過程中,依次通過內(nèi)容過濾,社會過濾,以及關鍵詞過濾,從小到大,層層篩選。
1.1 內(nèi)容過濾
通過信息接受者和信息內(nèi)容的特征人工智能的將兩者進行匹配,它是通過信息潛在接受者對信息需求的匹配。基于內(nèi)容理解的過濾是對獲取的網(wǎng)絡信息內(nèi)容進行識別、判斷、分類確定其是否為需過濾的目標內(nèi)容并對已確定的目標內(nèi)容進行過濾等檢測控制的技術(shù)。
1.2 社會過濾
通過個體和群體之間的聯(lián)系進行過濾。其是在存在與目標用戶興趣相似的其他用戶的基礎下,將其他興趣相似用戶的內(nèi)容推薦給目標用戶。與基于內(nèi)容的過濾的方式不同,它不需要任何文檔內(nèi)容的信息數(shù)據(jù),它基于相似興趣用戶的使用模式而不需要其他任何文檔內(nèi)容的數(shù)據(jù)包傳輸。
所謂的興趣度指用戶對信息感興趣的程度。選擇0-10之間的整數(shù),0表示完全沒有興趣,10表示特別感興趣。把用戶感興趣的信息具體化為其對某一信息的評分向量。通過具體分數(shù)的大小協(xié)作過濾信息。其具體實現(xiàn)方法是利用系統(tǒng)匹配技術(shù)找到當前用戶的相似其他鄰居用戶,然后以鄰居評分標準產(chǎn)生相關推薦。
假設有M個用戶和N項資源,則一個用戶對資源的興趣可以表示為一個M×N的矩陣R。其中每一項Rmn=r表示用戶m對資源n的評分為r,如果Rmn=NULL,則代表用戶m對資源n沒有評分。
1.3 關鍵詞過濾[ 1 ]
從信息中選取具有二值邏輯的特征變量來描述信息。特征變量之間用邏輯詞與、或、非連接。若倆關鍵詞同時包含在過濾文檔中則可通過布爾操作生成特征變量的表達式。反之,若兩關鍵詞用布爾操作符相關聯(lián)則表示兩者之中有一個包含在過濾文檔中。布爾操作就是用一系列的差與和來完成。
假設規(guī)則關鍵字集合為H=(a1,a2,…,an),則擴充后可表示為H=(H(a1),H(a2),…,H(an)),其中H(ai)(i=1,2,…,n)是詞典中與具有與a1相同語義的詞語集合。增加擴充項就增加了同義詞匹配的機會有利于截獲同義不同形的相關文本從而提高查全率。
1.4 信息過濾
針對以上幾種信息過濾的優(yōu)缺點及信息可信度,為此我們結(jié)合幾種過濾方法即對過濾方式的權(quán)值求和。即:
N=α*I1+β*I2+γ*I3
其中I1是內(nèi)容過濾的興趣預測值,I2是社會過濾內(nèi)容預測值,I3關鍵字匹配預測值,其中α+β+γ=1。
其利用內(nèi)容過濾的優(yōu)點,使在沒有用戶或用戶很少的情況下,能夠向用戶推薦信息,同時也考慮社會過濾的優(yōu)點,當用戶數(shù)和評價級別數(shù)很多時,提高過濾結(jié)果的準確度,并結(jié)合布爾過濾的優(yōu)點對關鍵詞的內(nèi)在聯(lián)系進行了加強。這樣通過這種綜合過濾可以提高整個過濾系統(tǒng)的性能。由于幾種過濾技術(shù)之間沒有很強大的內(nèi)在的依賴性,尤其當某種過濾技術(shù)得到改進后,系統(tǒng)整體性能就會提高。另外,此方法具有健壯的擴展性,它綜合了傳統(tǒng)過濾系統(tǒng)的優(yōu)點,只需預測時在原來加權(quán)項的基礎上進行累加,使過濾更準確。此外結(jié)合基于價值的過濾,可以使預測時間縮短,實時的反映用戶需求[ 2 ]。
2 興趣信息
互聯(lián)網(wǎng)時代的到來,用戶每天都接收著數(shù)以萬計的信息?;ヂ?lián)網(wǎng)網(wǎng)絡節(jié)點在初始都是可信的。所以信息的分享只需要足夠的數(shù)據(jù)包傳輸就行了。然而隨著互聯(lián)網(wǎng)的迅速 發(fā)展,網(wǎng)絡節(jié)點的可信度有待考慮從而產(chǎn)生了大量的虛假信息。
英國心理學家、數(shù)學家和人際關系專家提出了一個終極戀愛數(shù)學模型,讓男女推算自己和心儀的對象是否能讓愛情開花并結(jié)出幸福之果。這個由專家推導的愛情模型是:
愛情=[(F+Ch+P)/2+3(C+I)/10]/[(5-SI)2+2]
其中,Q自己對對方的好感,W對方的魅力,E吸引異性的內(nèi)分泌物,C本人自信心,D親密度,H形象。
戀情測試者可對每個指標分別評分,自我形象SI評分為1至5,其它評分為1至10。將相應的值代入后,若總分介于8至10分之間,極有可能熱戀;6至7分感情平穩(wěn);4至5分感情冷淡;低于4分不大可能有愛情。
基于此,本文用愛情模型來模擬人類對信息興趣的模型,其中Q是信息的形式及種類,W是用戶初次印象,E用戶對其求知欲,C信息對用戶的重要度,D用戶與信息的關聯(lián)度,H是該地區(qū)或國家的的拓撲結(jié)構(gòu)和力量。其評分標準與愛情模型中各項分值相同,若總分介于8至10分之間,用戶對該信息興趣極高;6至7分對該信息興趣一般;4至5分代表興趣冷淡;低于4分則代表該信息不會引起人類的注意,即該信息不會傳播廣泛。
3 評價
互聯(lián)網(wǎng)的使用根植于社會的各個角落,人們每天接受數(shù)以萬計的網(wǎng)絡信息。因此網(wǎng)絡信息深刻的影響人們對社會的認同感。提高信息查找的準確度以及信息傳播的真實信刻不容緩。對于信息查找的準確度篩析模型雖然能夠結(jié)合幾種傳統(tǒng)模型的優(yōu)點,但其應用不夠靈活,極有可能過濾掉有效信息。而對于興趣信息的傳播,雖然類比了愛情模型,但是愛情模型是非線性的,兩者數(shù)據(jù)處理方法的差異太大。且該模型過于刻板,加權(quán)系數(shù)皆為整數(shù)。
參考文獻:
[1] 何靜,劉海燕,宮云戰(zhàn).內(nèi)容過濾中過濾模版的改進技術(shù)研究[D].2003,2:28.
[2] 王翠萍.基于用戶興趣度網(wǎng)絡信息過濾模型研究[D].2007:30-31.
作者簡介:吳娜(1995-),女,漢族,湖北黃岡人,西北民族大學數(shù)學與計算機科學學院,2104級本科生,研究方向:數(shù)學與應用數(shù)學。