• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向健康問答社區(qū)的語義檢索技術(shù)研究與分析

    2017-03-15 12:30:47范橋青方鈺
    電子技術(shù)與軟件工程 2017年2期

    范橋青++方鈺

    摘 要 本文以Axiomatic檢索模型為基礎(chǔ),利用Word2Vec在健康問答數(shù)據(jù)集上訓(xùn)練出的詞向量來衡量詞語語義相似度,來實(shí)現(xiàn)對(duì)問答數(shù)據(jù)的語義檢索。此外,實(shí)驗(yàn)對(duì)比了不同的詞義相似度計(jì)算方法在不同數(shù)據(jù)集下的檢索效果,并分析了使用外部詞典作為詞義相似度計(jì)算方法時(shí)存在不足的原因,結(jié)果表明本文的檢索方法能夠有效地提升檢索準(zhǔn)確率。

    【關(guān)鍵詞】語義檢索 Word2Vec 詞向量 自動(dòng)問答

    1 概述

    健康問答社區(qū)中存在大量重復(fù)冗余的數(shù)據(jù),構(gòu)建自動(dòng)問答系統(tǒng)的第一步就是從這些眾多的問題中檢索出相關(guān)信息。目前工業(yè)中使用的基于詞形的檢索技術(shù)[1]在海量數(shù)據(jù)處理上存在諸多不足,尤其是在揭露信息的語義上存在局限性。比如在健康問答社區(qū)中,存在著許多義似而形不似的問題:“有什么減肥建議?”和“怎么瘦身?”,再加上用戶在提問時(shí)大量使用口語化的詞語,使得傳統(tǒng)的基于詞形的檢索技術(shù)在這類信息的檢索上略顯無力;另外又由于健康問答領(lǐng)域中的信息專業(yè)性強(qiáng),很多專業(yè)詞語在語義詞典[2-3]中并沒有編錄多少同義詞,甚至沒有被收錄。因此,一般的語義檢索技術(shù)使用在健康問答領(lǐng)域乏善可陳。

    2 相關(guān)工作

    目前,語義檢索領(lǐng)域的研究主要集中在本體技術(shù)、語義詞典和主題模型上:

    本體概念源自于哲學(xué)中的本體論,是對(duì)事物原樣及其自身的描述,而后被借鑒到計(jì)算機(jī)領(lǐng)域。Studer根據(jù)前人的研究將本體拆解成了四層含義:概念模型、明確、形式化和共享[2]。借此,諸多以本體技術(shù)為基礎(chǔ)的檢索技術(shù)出現(xiàn)[3-5]。然而本體知識(shí)庫的建立需要多位領(lǐng)域?qū)<业膮⑴c,面對(duì)海量的健康問答社區(qū)數(shù)據(jù)源構(gòu)建一套知識(shí)庫無疑是一件相當(dāng)巨大的工程。

    同義詞詞典為每一個(gè)被收錄的詞維護(hù)了相關(guān)的語義信息,代表有WordNet[6]和HowNet[7]。語義詞詞典對(duì)檢索時(shí)關(guān)鍵詞的拓展起到了重要的作用,同時(shí)劉群等人提出了以HowNet為基礎(chǔ)的詞語相似度計(jì)算方法[8],為中文詞義相似度的計(jì)算填補(bǔ)了空白。但同義詞詞典存在一個(gè)巨大的缺陷:收錄的詞有限。對(duì)于不存在于詞典中的詞,無法衡量它們的相似度,如上述問句中的“瘦身”,因?yàn)闆]有被收錄,所以就無法衡量“瘦身”和“減肥”之間的語義關(guān)系,從而兩個(gè)語義上相似的問句也因核心詞的不相似而變得不相關(guān)。

    主題模型是一種潛在語義分析技術(shù),利用統(tǒng)計(jì)學(xué)方法,可以識(shí)別出大規(guī)模文檔集中的主題信息。主題模型會(huì)訓(xùn)練得到兩個(gè)模型:文檔-主題模型和主題-詞模型,呂亞偉等人[9]就以此提出了利用主題信息作為特征的詞語相似度計(jì)算方法。但是,主題模型在面對(duì)文本的動(dòng)態(tài)增長時(shí),找到合適的主題投射緯數(shù)也愈顯困難。

    Word2Vec是由谷歌公司以Mikolov等人[10-11]的工作為基礎(chǔ)推出的詞向量訓(xùn)練工具。對(duì)于給定的語料庫,Word2Vec可以通過神經(jīng)網(wǎng)絡(luò)模型將文本中的詞映射到一定維度的向量上,訓(xùn)練出的詞向量由于捕獲了文本的上下文信息不僅能夠很好地反映詞義信息,而且解決了一詞多義的問題。所以,基于以分析本文將詞向量作為衡量語義的主要手段并展開工作。

    3 Word2Vec原理

    詞向量的概念源自于Hinton中的Distributed representation[12],被Bengio應(yīng)用于其所提的神經(jīng)概率語言模型中[13],是神經(jīng)網(wǎng)絡(luò)為了學(xué)習(xí)某個(gè)語言模型而得到的中間產(chǎn)物。最早的詞向量one-hot representation不僅會(huì)因語料庫的增大帶來維數(shù)災(zāi)難的問題,而且也不能很好的刻畫詞語間的關(guān)系。

    Word2Vec是一款詞向量訓(xùn)練工具,它有兩種訓(xùn)練模型:CBOW和Skip-gram。CBOW是通過上下文詞預(yù)測(cè)當(dāng)前詞,Skip-gram則是通過當(dāng)前詞來預(yù)測(cè)上下文,另外還有Hierarchical Softmax和Negative Sampling兩種訓(xùn)練方法。不同于Bengio的神經(jīng)概率語言模型的處理方式,Mikolov在映射層是采用向量相加的方式,而且輸出層采用了Huffman樹形結(jié)構(gòu)。以基于Hierarchical Softmax的CBOW為例,其結(jié)構(gòu)圖如圖1所示。

    Hierarchical Softmax的輸出層采用了上述的樹形結(jié)構(gòu),context(w)表示和詞w前后緊鄰的相關(guān)詞,v(context(w)k)表示相關(guān)詞k的詞向量,θkw是詞k的huffman樹編碼值1-0,如果Xw向量預(yù)測(cè)到詞3,則需要經(jīng)過三個(gè)分支,每次分支都是一次二分類。Word2Vec中編碼1被定義成負(fù)類,編碼0定義成正類,根據(jù)邏輯回歸,一個(gè)節(jié)點(diǎn)被分到正類中的概率是:

    Hierarchical Softmax算法對(duì)詞典中的每一個(gè)詞,算法輸出層必然存在一條導(dǎo)向這個(gè)詞的二分類路徑,用J表示整個(gè)路徑長度,則這個(gè)路徑中所有節(jié)點(diǎn)的分類概率連乘積即為語言模型需要求解的p(w|context(w)):

    映射層對(duì)所有的輸入向量進(jìn)行了合并,所以Word2Vec把向量的梯度變化貢獻(xiàn)到了每個(gè)向量分量上。

    所以從上述分析,可以看出Word2Vec在訓(xùn)練語言模型的過程中,是捕獲詞了語義信息的:通過周圍單詞預(yù)測(cè)目標(biāo)詞的訓(xùn)練方式很好地反應(yīng)了目標(biāo)詞的語義環(huán)境,并且以數(shù)學(xué)向量的形式承載這種語義信息。

    4 本文檢索方法

    文獻(xiàn)[1]拆解了三種具有代表性的文本檢索模型,并通過具體的實(shí)驗(yàn)數(shù)據(jù)誘導(dǎo)了若干檢索模型的權(quán)重函數(shù)和查詢?cè)鲩L函數(shù),提出了一種名為Axiomatic的最優(yōu)檢索模型:

    Q代表查詢?cè)~集,D是候選文本詞集,c(t,Q)表示t在Q中出現(xiàn)的次數(shù),df(t)是包含詞t的文本個(gè)數(shù),N是文檔總數(shù),c(t,D)是t 在文檔D中出現(xiàn)的次數(shù),avdl是所有文本詞集個(gè)數(shù)的平均值。

    上述檢索模型在實(shí)踐中取得了很好的效果,但由于該公式并沒有很好地刻畫查詢串和被檢索文檔的語義關(guān)系,于是黃承慧等人[14]基于以上公式提出了如下改進(jìn):

    Sim(t,D)表示候選文本詞集D中和目標(biāo)詞t相似的個(gè)數(shù), Sim_df(t)表示語料庫中包含和目標(biāo)詞t相似詞的文本個(gè)數(shù),黃承慧使用WordNet來衡量詞之間的相似性,相似的閾值通過實(shí)驗(yàn)來確定。

    WordNet和HowNet作為中英文領(lǐng)域的語義詞典,需要人工不斷完善和補(bǔ)充,在面向處理專業(yè)性很強(qiáng)的文本時(shí),會(huì)因大量專業(yè)詞匯沒有被收錄進(jìn)詞典而無法計(jì)算相似度,比如健康領(lǐng)域中的“alzheimer”和“dementia”、“阿爾茨海默病”和“癡呆”;此外,一詞多義的問題也無法得到很好的解決,比如說“男性”和女性在按照論文[8]實(shí)現(xiàn)的計(jì)算方式中有0.86的相似程度,而“woman”和“man”在WordNet的開源實(shí)現(xiàn)WS4J 中也有0.9的相似程度。從物種的角度來說它們確實(shí)是高度相似的,但是從性別的角度來說它們完全代表不同的人種,在本文應(yīng)用領(lǐng)域下只有“男性”有前列腺疾病,“女性”有婦科病,但按照上述計(jì)算模型,“男性”和包含“女性”關(guān)鍵詞的婦科疾病相關(guān)文檔也會(huì)得出很高的分?jǐn)?shù),這是不合理的。

    如果使用詞向量來衡量語義關(guān)系,那么在詞向量的訓(xùn)練過程中,詞向量捕獲了上下文關(guān)系,其承載的數(shù)據(jù)不僅可以綁定“女性”和婦科疾病的關(guān)系,而且很好地解決了因詞典收錄不足帶來的語義空白問題。

    所以基于以上分析,本文提出使用Word2Vec訓(xùn)練出的詞向量作為公式(7)衡量詞義相似度的方法:用Vecw=[v1,v2,……,vk]表示詞w的詞向量,k是詞向量的維度大小,那么兩個(gè)詞之間的語義距離可以通過余弦相似度計(jì)算得到:

    5 實(shí)驗(yàn)結(jié)果及分析

    5.1 實(shí)驗(yàn)結(jié)果

    本節(jié)實(shí)驗(yàn)數(shù)據(jù)來自于Reuters-21578和120ask。

    Ruters-21578是業(yè)界廣泛使用的英文文本分類數(shù)據(jù)集,它有兩種劃分:ModApte和ModWiener。本文采用的是ModApte劃分,訓(xùn)練集共9603篇文檔,測(cè)試集3299篇文檔,按主題信息對(duì)其進(jìn)行分類,主題詞總共135個(gè),測(cè)試集中主題詞共92個(gè),實(shí)驗(yàn)是對(duì)測(cè)試集中的主題詞進(jìn)行檢索。

    120ask是中文健康問答平臺(tái),筆者從中醫(yī)內(nèi)科、肝病、胃腸炎等十個(gè)類別下均勻抽取了1000條問答對(duì)來構(gòu)建測(cè)試文本集合,并針對(duì)每個(gè)類別人工構(gòu)建了10個(gè)問題,共計(jì)100個(gè)測(cè)試問題,通過人工標(biāo)注的方式為每個(gè)測(cè)試問題標(biāo)注了相關(guān)文本集合。此外,為了保證分詞的正確性,又從搜狗詞庫中搜集了132371條醫(yī)學(xué)專有名詞,涵蓋藥品名、疾病名、解剖學(xué)、藥企名等方面。Word2Vec訓(xùn)練詞向量使用的是基于Hierarchical Softmax的skip-gram模型,詞向量維度為50,窗口大小設(shè)置為5。

    Reuters-21578用來驗(yàn)證算法的普適性,120ask用來驗(yàn)證算法在本文應(yīng)用領(lǐng)域性下的有效性,分別對(duì)比公式(6)、公式(7)以及本文方法在搜索結(jié)果Top10下的準(zhǔn)確率。WordNet用于Reuters數(shù)據(jù)集,使用的是其WS4J實(shí)現(xiàn),Hownet用于120ask數(shù)據(jù)集,使用的是文獻(xiàn)[8]的開源實(shí)現(xiàn)xsimilaity,實(shí)驗(yàn)結(jié)果如表1所示。

    5.2 分析

    由上述實(shí)驗(yàn)結(jié)果可知,本文方法在兩個(gè)數(shù)據(jù)集上都取得比較好的效果。

    其中,在Reuters數(shù)據(jù)集上提升了0.3%,這主要受數(shù)據(jù)集大小影響,訓(xùn)練出的詞向量表述能力有限。另外從實(shí)驗(yàn)結(jié)果中得知,在“acq”這個(gè)關(guān)鍵詞上Axiomatic準(zhǔn)確率只有20%,而本文的方法的準(zhǔn)確率則高達(dá)60%,而且“acq”這個(gè)詞并沒有wordnet收錄,說明詞向量確實(shí)對(duì)算法起到了一定優(yōu)化作用。

    在120ask數(shù)據(jù)集上,本文的算法提升效果明顯,主要有以下兩個(gè)原因:

    (1)用于訓(xùn)練詞向量的語料庫豐富,訓(xùn)練出的詞向量表述能力強(qiáng)。

    (2)健康問答領(lǐng)域的數(shù)據(jù)集專業(yè)性強(qiáng),領(lǐng)域明顯,很多專業(yè)名詞有多種口語化表述,比如“痤瘡”和“青春痘”、“痘痘”等等,雖然“痤瘡”沒有被收錄進(jìn)語義詞典,但是通過訓(xùn)練出的詞向量,很容易找出和這些專業(yè)詞上下文相關(guān)的其它詞,這就大大提升檢索結(jié)果。

    此外,還可以注意到基于語義詞典的效果提升不是很明顯,甚至沒有經(jīng)典算法好。我們從公式(7)出發(fā),深入分析其子項(xiàng)Sim_df(t)(包含和詞t相似的詞的文檔數(shù)量),其結(jié)果如表2所示。

    發(fā)現(xiàn)基于HowNet的詞語相似度計(jì)算方式在本文的應(yīng)用背景下存在不合理性,這主要有以下兩個(gè)原因:

    (1)文獻(xiàn)[8]提出的詞義相似度計(jì)算方式是以HowNet的概念和義原為基礎(chǔ),一個(gè)詞可以由多個(gè)概念表征,即一詞多義,而且最大的概念相似度值會(huì)作為詞語相似度值返回。

    (2)概念相似度計(jì)算依賴義原,所以義原的相似度值作為主要部分制約著整個(gè)詞語的相似度值。以詞“全身”和“胸腔”為例,概念中都有基本義原“部件”,按照上述方式在其它義原、關(guān)系義原和關(guān)系符號(hào)為空的情況計(jì)算得到的相似度值為1.0,這是不合理的。雖然HowNet對(duì)“全身”和“胸腔”標(biāo)注了“部件”這一基本義原,但缺乏更細(xì)致的其它義原,即缺乏更細(xì)致的語義劃分,導(dǎo)致了在本文應(yīng)用背景下效果較差的原因,同樣這種原因也存在于WordNet中。

    所以綜上所述在本文應(yīng)用背景下,使用Word2Vec訓(xùn)練出的詞向量作為衡量詞語語義關(guān)系并融合進(jìn)公式(7)在語義檢索上是具有一定的可行性的。

    6 總結(jié)和展望

    本文一開始簡單介紹了當(dāng)前語義檢索的研究現(xiàn)狀,并以此引出本文的研究內(nèi)容;而后以Axiomatic檢索模型為基礎(chǔ),結(jié)合Word2Vec在健康問答數(shù)據(jù)集上訓(xùn)練出的詞向量來衡量詞語語義相似度,從而實(shí)現(xiàn)對(duì)問答數(shù)據(jù)的語義檢索;最后在不同的實(shí)驗(yàn)數(shù)據(jù)集上對(duì)本文算法的可行性就行了驗(yàn)證,并對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了詳細(xì)分析,特別是在使用語義詞典來計(jì)算詞義相似度時(shí)所帶來的問題。

    為進(jìn)一步提高實(shí)驗(yàn)結(jié)果,下一步將重點(diǎn)放在詞向量的訓(xùn)練上,擬通過更廣泛的數(shù)據(jù)集來訓(xùn)練得到一個(gè)更完備的詞向量,同時(shí)對(duì)檢索的時(shí)間進(jìn)行優(yōu)化。

    參考文獻(xiàn)

    [1]Fang H,Zhai C X.An exploration of axiomatic approaches to information retrieval[C]//SIGIR 2005: Proceedings of the,International ACM SIGIR Conference on Research and Development in Information Retrieval,Salvador, Brazil, August. 2005:201-243.

    [2]Studer R,Benjamins V R,F(xiàn)ensel D. Knowledge engineering:Principles and methods[J].Data & Knowledge Engineering,1998,25(1-2):161-197.

    [3]劉超,李偉.基于本體語義檢索技術(shù)研究[J].自動(dòng)化技術(shù)與應(yīng)用,2014,33(02):9-12.

    [4]付苓,崔新春,喬鴻.基于本體的語義檢索研究[J].情報(bào)科學(xué),2010(09):1384-1387.

    [5]陳泳,林世平.基于本體的語義檢索技術(shù)[C]//全國智能信息網(wǎng)絡(luò)學(xué)術(shù)會(huì)議,2006.

    [6]Miller G A.WordNet:a lexical database for English[J].Communications of the Acm,1995,38(11):39-41.

    [7]董振東,董強(qiáng).知網(wǎng)和漢語研究[J].當(dāng)代語言學(xué),2001,3(01):33-44.

    [8]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].中文計(jì)算語言學(xué),2002.

    [9]呂亞偉,李芳,戴龍龍.基于LDA的中文詞語相似度計(jì)算[J].北京化工大學(xué)學(xué)報(bào)自然科學(xué)版,2016,43(05):79-83.

    [10]Mikolov T,Chen K,Corrado G,et al.Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

    [11]Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems.2013:3111-3119.

    [12]Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors[M]// Neurocomputing:foundations of research.MIT Press,1986:533-536.

    [13]Bengio Y,Schwenk H,Senécal J,et al.Neural Probabilistic Language Models[J].Journal of Machine Learning Research,2003,3(06):1137-1155.

    [14]黃承慧,印鑒,陸寄遠(yuǎn).一種改進(jìn)的Lucene語義相似度檢索算法[J].中山大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,50(02):11-15.

    作者單位

    同濟(jì)大學(xué)電子與信息工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系 上海市 201804

    高州市| 华亭县| 峨山| 大竹县| 安顺市| 郑州市| 仁寿县| 曲沃县| 长葛市| 昔阳县| 双牌县| 长子县| 肇庆市| 芜湖县| 淅川县| 海原县| 闵行区| 武穴市| 类乌齐县| 吉林省| 运城市| 乌鲁木齐县| 徐州市| 介休市| 如东县| 普格县| 宝兴县| 阳春市| 新干县| 萝北县| 铁岭市| 莒南县| 土默特左旗| 呼玛县| 长顺县| 阳高县| 平罗县| 荥经县| 吴旗县| 巴中市| 仲巴县|