• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于改進LDA-FCM 的UserCF 知識推薦研究

    2020-11-09 11:51:00張建華
    科技管理研究 2020年19期
    關(guān)鍵詞:散度文檔語義

    張建華,冉 佳,劉 柯

    (鄭州大學管理工程學院,河南鄭州 450001)

    知識庫作為組織獲取、存儲、傳播知識的重要載體,對組織發(fā)展和創(chuàng)新起著重要作用。然而隨著技術(shù)發(fā)展與環(huán)境演進,快速膨脹的知識庫規(guī)模使人們陷入了“知識過載”“知識迷航”困境。對知識使用者來說,從大量數(shù)據(jù)和信息中找到自己需要的知識變得越來越困難。將合適的知識在合適的時間、以合適的方式提供給需要它的用戶,提高用戶獲取知識的效率和有效性,成為知識庫建設的關(guān)鍵問題。知識推薦是解決這一問題的有效途徑,它將知識和用戶聯(lián)系在一起,把用戶需要的、感興趣的知識展示在用戶面前,緩解知識過載問題。許多學者對知識推薦進行了研究,大致分為以下幾類:(1)利用情境信息進行知識推薦。張發(fā)平等[1]建立了多維層次情境模型,首先通過情境相似度計算找到最相似的歷史情境,再通過情境-知識映射找到與用戶需要的知識。密阮建馳等[2]將用戶知識情境向量化,將知識推薦轉(zhuǎn)化為求目標函數(shù)最優(yōu)解的問題,并通過因子分解機求解目標函數(shù)得到待推薦的知識。Song 等[3]用甘特圖表示業(yè)務流程中知識項間的時序關(guān)系,為用戶推薦業(yè)務流程知識。(2)利用社會網(wǎng)絡分析進行知識推薦。Fan 等[4]將用戶所處的知識系統(tǒng)看作社會網(wǎng)絡,對用戶行為進行凝聚子群分析,得到推薦列表。黃微等[5]將用戶的隱性知識需求顯性化,并通過社會網(wǎng)絡分析目標用戶群,尋找需求相似的用戶,解決了隱性知識難以推送的問題。(3)基于規(guī)則的知識推薦。劉海濤等[6]采用Markov 模型和GSP 算法構(gòu)建知識推送規(guī)則,實現(xiàn)了序列知識的推送。胡小光等[7]利用人工免疫算法將知識與需求的匹配轉(zhuǎn)化為抗原抗體的識別,實現(xiàn)知識的推薦??梢?,當前知識推薦研究大都通過構(gòu)建模型將知識推薦問題轉(zhuǎn)化為知識與知識、知識與環(huán)境以及知識與用戶間的相似性計算問題,或?qū)⒅R推薦轉(zhuǎn)化為函數(shù),通過函數(shù)求解得到推薦列表。這些研究為改善知識推薦時機奠定了理論基礎,然而這些方法構(gòu)建的模型約束條件過多,導致模型求解的效率低、適用場景少。

    隨著計算機及網(wǎng)絡技術(shù)的發(fā)展,個性化推薦技術(shù)在電子商務[8]、音視頻網(wǎng)站[9]、個性化閱讀[10]、在線教育等領(lǐng)域得到了廣泛應用[11]。融合個性化推薦技術(shù)的知識推薦可以更好地滿足用戶需求。協(xié)同過濾是使用最廣泛的個性化推薦算法,許多學者將其應用到知識推薦中。Zhang S 等[12]基于協(xié)同過濾的思想,利用信任感知策略尋找近鄰用戶,利用項目聚類策略尋找近鄰知識,將兩近鄰融合進行知識推薦。房小可等[13]將情境語義與協(xié)同過濾相結(jié)合,針對虛擬學術(shù)社區(qū)的知識推薦構(gòu)建了情境語義層次模型,并將情境相似度轉(zhuǎn)化為節(jié)點間的語義相似度,實現(xiàn)了情境語義層次的知識推薦。丁夢曉等[14]在內(nèi)容推薦算法的基礎上引入用戶興趣,對推薦對象進行評分,實現(xiàn)了對學術(shù)資源的TOP-N 推薦。張喜征等[15]通過模糊概念格使用戶偏好顯性化,并結(jié)合協(xié)同過濾算法對創(chuàng)新社區(qū)中的領(lǐng)先用戶進行知識推薦。Rodrigo 等[16]將協(xié)同過濾和基于內(nèi)容的推薦相結(jié)合,針對虛擬學習社區(qū)進行知識推薦,提高了知識重用率。以上方法將協(xié)同過濾算法應用于知識推薦中,一定程度上提高了知識推薦的效率和有效性,但仍存在以下問題:(1)忽略了知識自身語義的作用。知識作為凝聚化、系統(tǒng)化的信息內(nèi)容,能夠指導人們的思想和行為的恰恰是其語義內(nèi)涵。因此,對語義的獲取與表示在知識推薦中至關(guān)重要,不應棄之不顧。(2)以上算法尋找近鄰用戶時需要遍歷所有用戶,降低了算法的實施效率。

    有鑒于此,本文以知識庫為應用背景,提出一種融合知識語義的推薦算法。該算法引入語義挖掘和用戶聚類思路與方法,利用LDA 模型挖掘知識的語義內(nèi)涵,表征用戶興趣;而后,利用FCM 算法對用戶進行聚類,縮小遍歷范圍;最后,基于用戶興趣相似度以及用戶協(xié)同過濾的思想,構(gòu)建有序的、符合用戶興趣的知識推薦列表。

    1 基于改進LDA 和FCM 的知識推薦原理

    1.1 基于改進LDA 的知識主題挖掘

    知識主題模型是處理知識譜線低端的非結(jié)構(gòu)化知識的常用方法。常用的主題模型有隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)、潛在語義索引(Latent Semantic Index,LSI)、概率隱語義分析(probabilistic Latent Semantic Analysis,pLSA)、詞匯鏈(Lexical Chains)等。其中,LDA 在所有知識主題建模算法中性能最好[17],它根據(jù)文檔和詞匯的概率分布,將高維的文本-詞匯矩陣分解為兩個低維的文檔-主題矩陣和主題-詞匯矩陣,從而得到文檔的主題分布,揭示文檔的語義信息,其概率模型如圖1 所示。

    圖1 LDA 概率模型圖

    其中陰影圓圈表示可觀測變量,非陰影圓圈表示隱變量,箭頭表示兩變量間的條件依賴,方框表示重復抽樣,右下角數(shù)字表示重復次數(shù)。為抽取的詞匯,為詞分布,為主題分布,為抽取的主題。根據(jù)圖1,可以將LDA 主題抽取看作以下兩個隨機過程:(1)對第m 篇文檔隨機抽取主題的過程(2)選取主題后隨機抽取詞匯的過程

    傳統(tǒng)LDA 是從大量異構(gòu)文本知識源中提取主題的一種無監(jiān)督學習算法,由文檔-主題-詞匯三層貝葉斯結(jié)構(gòu)組成。本文基于用戶導向思維,將每個用戶發(fā)表的內(nèi)容匯總成一個文檔,以用戶的合并文檔代替文檔層,LDA 矩陣如下[18]:

    語料庫為用戶合并文檔的集合,表示為M={U1,U2,U3Um}。D 為用戶-詞匯矩陣,矩陣中第i行表示第i個用戶的詞匯分布,記為Di={pui,w1,pui,w2,pui,w3, ,pui,wn}。U為用戶-主題矩陣,第i 行表示第i個用戶的主題分布,記為Ui={pui,z1,pui,z2,pui,z3, ,pui,zn}。Z 為主題-詞匯矩陣,第i行表示第i個主題下的詞匯分布,記為Zi={pzi,w1,pzi,w2,pzi,w3, ,pzi,wn}。假設語料庫中共有m個用戶合并文檔,所有的主題和詞匯分別表示為:

    文檔抽取主題和根據(jù)主題抽取詞匯是兩個相互獨立的過程,所以得到主題和詞匯的聯(lián)合分布為:

    最終得到LDA 模型的吉布斯抽樣公式[20]:

    根據(jù)LDA 模型定義以及吉布斯抽樣的過程可知,主題的個數(shù)k 會影響模型的降維能力和主題抽取能力,主題數(shù)量過多會導致主題間的辨識度低而相似性高,增加模型的復雜度;主題數(shù)量過少則無法體現(xiàn)語義,甚至導致語義缺失。因此在訓練LDA模型的過程中,主題個數(shù)的選擇至關(guān)重要,但目前仍沒有公認的較好的確定主題個數(shù)的方法。現(xiàn)有研究常用兩種方法確定主題個數(shù)k:(1)根據(jù)經(jīng)驗選取不同的主題個數(shù)進行調(diào)試,使模型評價指標(通常采用困惑度)達到最優(yōu)時的主題個數(shù)便為最優(yōu)主題個數(shù)。該方法操作簡便,但具有一定的主觀性,并且僅以模型的泛化能力作為評價,可能出現(xiàn)過擬合的情況,導致主題個數(shù)過多。(2)將主題數(shù)目進行非參數(shù)化處理,使模型不需要將主題個數(shù)顯性表述出來,常見的方法是采用層次狄利克雷過程(Hierarchical Dirichlet Processes,HDP) 對LDA 模型進行非參數(shù)化變形。該方法在LDA 模型的基礎上又建立新的HDP 模型,復雜性較高[21]。

    針對傳統(tǒng)LDA 模型的上述不足,本文對LDA模型中主題個數(shù)k 的選取進行了改進。LDA 建模是將語料庫中的詞匯劃分到不同主題下,與聚類的結(jié)果類似,一個主題可以看作聚類的一個簇,主題下的詞匯看作簇內(nèi)的樣本。鑒于LDA 與聚類的相似性,本文將主題個數(shù)的選取看作聚類結(jié)果的評價問題。聚類評價通常分為外部評價指標和內(nèi)部評價指標,外部指標需要人為進行判斷[22],在沒有外部信息可用時,用內(nèi)部指標進行判斷是評價聚類結(jié)果的唯一選項。內(nèi)部指標簡便易操作,通過設置目標函數(shù),在計算機上進行迭代即可找出最優(yōu)解,因此本文采用內(nèi)部指標進行判斷,構(gòu)建主題個數(shù)k 的自適應函數(shù)L(k),當L(k)最小時k 為最優(yōu)主題數(shù)。

    離散數(shù)據(jù)的概率分布常用KL 散度(Kullback-Leibler divergence,又稱KL 距離、相對熵)、JS 散度(Jensen-Shannon divergence,又稱JS 距離)等指標來衡量其差異性[23]。KL 散度越小表明兩個概率分布的相似度越大,但KL 散度具有不對稱性和非負性。JS 散度是KL 散度的變形,與其相比JS 散度具備兩個優(yōu)點:(1)JS 散度對相似度的判別更準確,其值域為[0,1],相似度越高則越接近0,反之越接近1。(2)JS 散度具有對稱性。因此選用JS 散度度量主題之間的距離,計算方法如下:

    其中JS(P||Q)表示概率分布P(x)和Q(x)的JS散度,KL(P||Q)為P(x)和Q(x)的KL 散度。主題個數(shù)K 的自適應函數(shù)為:

    其中Ki表示第i個主題,為主題-詞匯的概率分布均值,分子部分表示各個主題與均值之間JS散度的方差累加和,分母部分表示語料庫中所有主題之間JS散度的方差累加和。

    1.2 基于FCM 的用戶主題聚類

    基于訓練好的LDA 模型,可以得到用戶感興趣的知識主題及對應主題下詞匯的概率分布。在推薦之前對用戶進行聚類,可以縮小計算用戶相似度時的遍歷范圍,提高算法效率。傳統(tǒng)的聚類算法具有排他性,即一個對象只能劃分到一個類。但在實際中,有時無法將某個對象嚴格的劃分到某一類中,因此有學者提出了模糊聚類算法。在用戶的聚類中,用戶相似程度的界定也具有一定模糊性,因此本文用模糊聚類算法對用戶進行聚類。模糊C 均值(Fuzzy C-Means,F(xiàn)CM)是效果較好的模糊聚類算法,F(xiàn)CM中采用歐氏距離計算樣本與聚類中心的距離,此處需要將歐式距離替換為JS 散度[24],實現(xiàn)樣本到用戶之間的轉(zhuǎn)變。JS 散度與歐式距離的轉(zhuǎn)換公式為:

    替換后FCM 的目標函數(shù)變?yōu)椋?/p>

    通過拉格朗日乘子法求解得到:

    如果存在j、r使則令uij=1,且當i≠r時,令uij=0。通過FCM 得到用戶聚類矩陣,為后續(xù)的知識推薦做準備。

    1.3 基于LDA-FCM 的UserCF 算法

    協(xié)同過濾基于鄰域的思想,包括基于用戶的協(xié)同過濾(User-based Collaborative Filtering,UserCF)和基于項目的協(xié)同過濾(Item-based Collaborative Filtering,ItemCF)。兩種方法各有其優(yōu)缺點和適用場景,ItemCF 反映了用戶自己的興趣,更加個性化,但它只推薦用戶感興趣的內(nèi)容,容易使用戶陷入“信息繭房”困境。UserCF 體現(xiàn)了與用戶相似的小群體的關(guān)注熱點,更具社會性。知識作為引導個人、組織和社會成長發(fā)展的重要資源,具有社會屬性,因此在知識推薦中使用UserCF 顯然更適合。

    得到用戶聚類結(jié)果后,采用JS 散度計算用戶的相似程度,在用戶所在的簇中尋找興趣相近的用戶,將相似度高的用戶作為近鄰用戶。將近鄰用戶的知識主題進行合并,去除當前用戶已經(jīng)被推薦過或用戶已經(jīng)產(chǎn)生的知識主題,從而得到待推薦的知識主題。將知識庫中與用戶知識主題相似的知識推薦給用戶即可,用戶u對主題i的感興趣程度為:

    其中rvi表示用戶u的近鄰用戶v對主題i的感興趣程度。本文只使用單一行為,所以所有的rvi=1。計算得到用戶興趣指數(shù),按照興趣降序?qū)⒅R推薦給用戶。

    綜上,具體知識推薦流程如下:

    輸入:各用戶合并文檔

    輸出:各用戶知識推薦列表

    步驟1:對各個用戶合并文檔進行去停用詞和分詞處理,得到用戶-詞匯矩陣。

    步驟2:采用吉布斯抽樣求解模型參數(shù),訓練LDA 主題模型。

    步驟3:通過自適應函數(shù)得到最優(yōu)主題數(shù),根據(jù)最優(yōu)主題數(shù)得到用戶-主題矩陣和主題-詞匯矩陣,計算主題TOP-N 詞。

    步驟4:從用戶-主題矩陣中隨機生成初始化隸屬度矩陣。

    步驟5:根據(jù)公式(20)計算新的聚類中心。

    步驟6:根據(jù)公式(19)計算新的隸屬度矩陣。

    步驟7:當兩次隸屬度矩陣的矩陣范數(shù)小于終止閾值時停止迭代。

    步驟8:選取用戶所在簇內(nèi)TOP-N 用戶作為近鄰用戶,合并近鄰用戶主題得到用戶興趣主題集合。

    步驟9:根據(jù)公式(21)求推薦指數(shù)并構(gòu)建推薦列表。

    2 實驗分析

    中國知網(wǎng)包含期刊、學位論文、統(tǒng)計年鑒、專利等豐富知識資源,是重要的知識共享傳播平臺,因此將其選為實驗數(shù)據(jù)來源。本文爬取了不同層次、不同領(lǐng)域的25 所高校所發(fā)表的期刊論文共500 篇,爬取字段包括:標題、摘要、關(guān)鍵詞、作者、單位。把對每位作者的爬取字匯總后得到用戶知識文檔,再經(jīng)過分詞和去停用詞處理后得到支撐后續(xù)實驗研究的最終用戶知識文檔。

    本文實驗環(huán)境如表1 所示。

    表1 實驗主要配置

    對LDA 主題個數(shù)進行自適應求解得到最佳主題數(shù)為10, LDA 模型運行得到用戶-主題矩陣(前3個主題,前10 個用戶)如表2、主題-詞匯矩陣(前3 個主題,前20 個詞匯)如表3 所示。

    表2 用戶-主題矩陣(部分)

    表3 主題-詞匯矩陣(部分)

    表3 (續(xù))

    困惑度(Perplexity)是評估概率語言模型的指標,其數(shù)值越小表明模型的泛化能力和預測能力越強,表示為:

    本文的LDA 算法與傳統(tǒng)LDA 算法的對比結(jié)果如圖2 所示,可以看出改進后的LDA 算法困惑度低于傳統(tǒng)的LDA 算法。

    圖2 LDA 模型困惑度對比

    根據(jù)LDA 主題抽取結(jié)果并據(jù)FCM 算法將用戶劃分為10 個簇,各簇用戶數(shù)量如表4 所示。

    表4 FCM 聚類結(jié)果

    TOP-N 推薦中常用F1 值(F1-Measure)度量推薦準確率。其定義如下:

    其中P為準確率(precision),R為召回率(recall),其定義為:

    本文進行了4 組對比試驗,結(jié)果如表5 所示。

    表5 對比實驗結(jié)果

    從表5 的對比結(jié)果可以看出,本文算法的準確率、召回率和F1 值與其他算法相比均有明顯的提高。其中ILDA-FCM-UserCF 優(yōu)于ILDA-UserCF,說明引入用戶聚類的算法效果優(yōu)于僅使用LDA 模型的算法,同時 ILDA-UserCF 優(yōu)于LDA-UserCF,說明改進后的LDA 算法較傳統(tǒng)的LDA 算法具有優(yōu)越性。

    3 結(jié)語

    針對既有方法之不足,本文提出的算法從用戶產(chǎn)生的知識文檔出發(fā),通過LDA 模型挖掘用戶感興趣的知識主題,基于UserCF 思想構(gòu)建推薦列表;在計算用戶興趣相似度之前,先采用FCM 算法將用戶劃分為興趣相似的簇,從而縮小遍歷范圍、降低數(shù)據(jù)稀疏性。實驗結(jié)果表明本文的算法具有可行性和比較進步性。該方法對于知識需求延續(xù)性強、發(fā)展演進相對穩(wěn)定與緩和的知識推送領(lǐng)域,滿足長文本LDA 建模特征的活躍老用戶,具有較強的適用性和優(yōu)越性。

    不過,本文研究還存在如下不足:(1)由于LDA 模型在短文本上應用效果較差,本文采用了長文本進行LDA 建模,而在現(xiàn)實中新用戶或不活躍用戶通常會存在知識文本較短的問題,應考慮其他有效方法對這部分用戶進行推薦。(2)由于知識具有一定的時效性,用戶興趣也不斷變化,知識推薦的時間會影響用戶體驗。本文僅列出了用戶的推薦列表,尚未考慮推薦的時間問題。針對前述不足,不斷改進和完善算法以進一步提高其適用性,將是下一步的工作重點。

    猜你喜歡
    散度文檔語義
    帶勢加權(quán)散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
    有人一聲不吭向你扔了個文檔
    語言與語義
    具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計
    H型群上一類散度形算子的特征值估計
    H?rmander 向量場上散度型拋物方程弱解的Orlicz估計
    基于RI碼計算的Word復制文檔鑒別
    “上”與“下”語義的不對稱性及其認知闡釋
    Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
    認知范疇模糊與語義模糊
    双辽市| 中卫市| 武隆县| 镇坪县| 林甸县| 泽州县| 南丰县| 襄城县| 新巴尔虎右旗| 安义县| 新丰县| 郴州市| 正安县| 家居| 乌鲁木齐县| 开鲁县| 邮箱| 泾阳县| 武定县| 安岳县| 马关县| 吴堡县| 滁州市| 定襄县| 奉新县| 江川县| 井研县| 阳东县| 长泰县| 彰武县| 涿鹿县| 日喀则市| 柳州市| 仙居县| 报价| 济源市| 桃园市| 长垣县| 曲麻莱县| 阳江市| 井研县|