• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向文物類博物館的自動問答系統(tǒng)構(gòu)建

    2021-03-07 07:18:18齊特李思洋王亦芃陳甘雪沈嘉軼
    電子技術(shù)與軟件工程 2021年22期
    關(guān)鍵詞:分詞圖譜實(shí)體

    齊特 李思洋 王亦芃 陳甘雪 沈嘉軼

    (北京信息科技大學(xué) 北京市 100020)

    在很多的博物館中,對于很多文物的介紹并不是很充分,游客很難深入地了解一件文物的相關(guān)信息,比如歷史,價值,出處等。僅僅靠講解員的講解并不能完全滿足游客的所有需求,同時單純使用人力對于文物進(jìn)行講解有著很多的局限性,包括講解不能夠覆蓋所有人,聲音過小,只能固定時間進(jìn)行講解等。

    智能問答系統(tǒng)是一種類人工服務(wù),可以在一定程度上輔助或幫助一些特定領(lǐng)域的人處理相關(guān)問題,同時也能提高處理問題的效率。

    針對以上問題,本項(xiàng)目融合自然語言處理技術(shù)、信息檢索技術(shù)和語義分析,構(gòu)建面向博物館的問答系統(tǒng),能夠回答博物館相關(guān)知識,其次它具有較快的響應(yīng)速度。同時,它也能夠響應(yīng)同時多次的詢問,為游客提供沉浸式的參觀體驗(yàn),促進(jìn)傳統(tǒng)文化的傳播。本系統(tǒng)采取一問一答的形式,通過處理與分析輸入語句,自動生成準(zhǔn)確回復(fù),可以更快速有針對性地進(jìn)行文物介紹等信息普及,比起傳統(tǒng)的信息播報(bào)及文字閱讀或人工導(dǎo)游式的介紹更為新奇且節(jié)省人力物力,對于傳統(tǒng)文化故事的普及意義非凡。

    1 相關(guān)工作

    知識圖譜可以分為通用知識圖譜和領(lǐng)域知識圖譜。 典型的通用知識圖譜代表有 Freebase[1]、DBpedia[2]、Yago[3]、百度、谷歌等,主要以三元組事實(shí)型知識為主,對知識抽取的質(zhì)量有一定容忍度。典型的領(lǐng)域知識圖譜有電商、金融、醫(yī)療等。電商領(lǐng)域以阿里巴巴為例,它的知識圖譜已經(jīng)達(dá)到百億級別,可以廣泛支持商品搜索、商品導(dǎo)購、智能問答等。在金融領(lǐng)域,知識圖譜可以讓投資者和融資者更快速的了解投資行為,把握行情,張德亮針對金融圖譜缺乏問題,利用爬取到的金融股票及企業(yè)信息等結(jié)構(gòu)化數(shù)據(jù)構(gòu)建了一個小型金融知識圖譜[4]。目前知識圖譜在醫(yī)學(xué)上主要用于臨床治療決策支持、醫(yī)療智能語義搜索和醫(yī)療問答系統(tǒng)[5]等。

    在基于知識圖譜的問答系統(tǒng)方面,譚剛等人在基于知識圖譜的問答系統(tǒng)中使用了LSTM 模型來增強(qiáng)知識圖譜,并使用了啟發(fā)式的候選答案排序方法,最后通過實(shí)驗(yàn)驗(yàn)證了該系統(tǒng)具有較好性能[6];陳金菊等人提出了基于道路法規(guī)知識圖譜的多輪問答系統(tǒng),可以更好的識別用戶意圖[7];杜澤宇等人針對自然語言表達(dá)的復(fù)雜、不規(guī)范以及電商領(lǐng)域問題的特殊,使用知識圖譜作為數(shù)據(jù)庫支撐,設(shè)計(jì)了一個問答系統(tǒng),該系統(tǒng)基于電商領(lǐng)域,實(shí)現(xiàn)了問答、推理等功能[8];陳璟浩等人利用“一帶一路”投資相關(guān)信息構(gòu)建了知識圖譜,并實(shí)現(xiàn)了問答系統(tǒng)中預(yù)處理、問題分類、問題模板匹配以及答案生成功能[9]。上述所建立的問答系統(tǒng)都在各自領(lǐng)域得到了較好的實(shí)現(xiàn),并且在問答系統(tǒng)流程中都融合了領(lǐng)域的特色。在本次項(xiàng)目中,希望構(gòu)建一個關(guān)于博物館相關(guān)信息的智能問答系統(tǒng),并嘗試使用基于TextCNN匹配和規(guī)則匹配來提高匹配的精度和準(zhǔn)確度。

    2 問答系統(tǒng)設(shè)計(jì)

    2.1 問答系統(tǒng)的架構(gòu)設(shè)計(jì)

    問答系統(tǒng)與傳統(tǒng)的搜索引擎相比較,對于簡單的模板化問題更快,針對性更強(qiáng)、準(zhǔn)確率更高,用戶也更容易接受。系統(tǒng)主要包含4 個部分:數(shù)據(jù)獲取、圖譜構(gòu)建、問題理解、 用戶界面。系統(tǒng)的整體架構(gòu)如圖1所示。

    圖1:文物類博物館問答系統(tǒng)架構(gòu)

    本系統(tǒng)數(shù)據(jù)獲取模塊通過爬蟲技術(shù),基于Scrapy框架獲取網(wǎng)頁有關(guān)數(shù)據(jù)并結(jié)合開放數(shù)據(jù),再通過數(shù)據(jù)處理整理成結(jié)構(gòu)化數(shù)據(jù),使用Neo4j的python驅(qū)動py2neo進(jìn)行知識圖譜的構(gòu)建。問題理解模塊是將問句通過HanLP模型進(jìn)行分詞、詞性標(biāo)注等處理,問題分類并判斷其是否為基于規(guī)則的模板問題,最后根據(jù)問題復(fù)雜程度,將復(fù)雜問題經(jīng)過 word2vec 模型轉(zhuǎn)化為詞向量矩陣,輸入訓(xùn)練好的TextCNN 網(wǎng)絡(luò)模型中,進(jìn)行語義相似度計(jì)算來匹配問題模板并生成答案。簡單問題直接經(jīng)過問題模板的方式生成答案。用戶界面模塊是用戶的問句輸入與系統(tǒng)答案反饋。

    2.2 問答系統(tǒng)的處理流程

    問答系統(tǒng)應(yīng)用的具體流程如圖2所示,首先用戶輸入自然語言問題;接下來判斷問句中是否存在實(shí)體,若不存在實(shí)體,進(jìn)行基于倒排索引字典的實(shí)體校正,若校正失敗,需要用戶重新輸入問題;判斷問句中是否存在屬性,如文物的“長寬高”、“重量”等。若存在屬性可以直接使用基于規(guī)則的問題模板匹配,若不存在則使用基于TextCNN 的問題模板匹配。

    圖2:系統(tǒng)處理流程圖

    最后,將問題模板轉(zhuǎn)化為知識庫查詢語句,在實(shí)現(xiàn)構(gòu)建的知識圖譜中進(jìn)行答案檢索。最后輸出答案。

    本系統(tǒng)使用知識庫中所有實(shí)體和其別名屬性構(gòu)建實(shí)體詞典,使用所有實(shí)體的屬性名稱構(gòu)建屬性詞典,并增加擴(kuò)展詞,如為“后母戊鼎”“青銅方鼎”這一實(shí)體,添加“鼎”、“方鼎”,“大鼎”等別稱; 為“重量”這一屬性,添加“沉”等擴(kuò)展詞。將構(gòu)建的字典用于實(shí)體識別和屬性識別后,如輸入的問題為“鼎多沉?”,實(shí)體字典中存在“鼎”這一實(shí)體,屬性字典中存在“沉”這一屬性,即對于問句的識別成功。

    3 文物知識圖譜構(gòu)建

    構(gòu)架知識圖譜所需的數(shù)據(jù)通過網(wǎng)絡(luò)爬蟲技術(shù)在百度百科、油畫大全網(wǎng)站、故宮博物院官網(wǎng)等網(wǎng)站搜索,本數(shù)據(jù)共涵蓋從公元8世紀(jì)到20世紀(jì)的74位中外藝術(shù)家、326幅藝術(shù)作品、400條個人及作品介紹。

    三元組構(gòu)建是將數(shù)據(jù)整理成為實(shí)體-關(guān)系類型-實(shí)體的形式,通過關(guān)系字典創(chuàng)建節(jié)點(diǎn)關(guān)系邊建立三元組。在本文構(gòu)建的文物知識圖譜中,實(shí)體為作品名稱、博物館名稱、創(chuàng)作時間、作品種類,關(guān)系屬性包括相關(guān)博物館、作者、年代,屬性為長、寬、高、重量等。例如三元組:(萊昂納多·達(dá)·芬奇,MADE_BY,蒙娜麗莎的微笑)。使用Neo4j工具創(chuàng)建,包括實(shí)體、關(guān)系類型、屬性、三元組構(gòu)建、知識存儲五個部分,使用Neo4j的python驅(qū)動py2neo進(jìn)行知識圖譜的構(gòu)建[10],如圖3為使用Neo4j圖數(shù)據(jù)庫構(gòu)建的以萊昂納多·達(dá)·芬奇為中心的關(guān)系圖。

    圖3:已構(gòu)建的部分知識圖譜

    4 問題理解

    4.1 分詞處理

    本項(xiàng)目在目前用于分詞處理的主流工具Jieba,Hanlp進(jìn)行性能測試,測試流程如下,首先,人工選擇知乎上關(guān)于文物的問題20個;其次,由人工對這些材料進(jìn)行標(biāo)注并作為本次測試的真實(shí)值;最后,使用這兩種分詞工具對這20條數(shù)據(jù)進(jìn)行處理,統(tǒng)計(jì)其準(zhǔn)確率,選擇其中表現(xiàn)最優(yōu)的分詞工具,作為本次項(xiàng)目中用作分詞處理的工具。通過對這兩個工具的測試得知,HanLP的分詞效果在準(zhǔn)確率強(qiáng)于Jieba,所以將上述構(gòu)建的文物信息的字典導(dǎo)入到HanLP中,讓分詞的準(zhǔn)確率得到保障。兩種分詞工具在測試中的表現(xiàn)如表1所示。

    表1:兩種分詞工具在測試中的表現(xiàn)

    4.2 基于TextCNN的問答匹配

    設(shè)該模型的輸入是文本 T = (x1 x2,…,xn) ,含有 n 個詞,每個詞語都是一個 k 維的分布式表示,經(jīng)過式(1)的卷積操作:

    其中,+是卷積操作符; xi: i +j 表示對xi,xi +1,…,xi +j進(jìn)行卷積。

    假設(shè)卷積核 w 的長度是 k,寬度是 h,那么第 i 個詞語到第i+h-1個詞語的特征ci 如式(2)所示。

    其中,f 是一個非線性函數(shù);b是一個偏移量。經(jīng)過卷積層的卷積操作之后就可以得到每個詞語在不同窗口大小的特征矩陣 c,如式(3)所示。

    在訓(xùn)練階段,使用 python 工具庫 gensim 中word2vec 模型,將文本轉(zhuǎn)換成 n*k 的詞向量矩陣,其中 k 表示詞向量的維度,n 表示句子最大長度。之后利用 Python 深度學(xué)習(xí)庫 Keras 搭建 TextCNN網(wǎng)絡(luò)模型,并利用數(shù)據(jù)集進(jìn)行訓(xùn)練。TextCNN 模型中,卷積核和詞向量寬度一致,但高度不同,選用高度為3、4、5 的卷積核進(jìn)行操作。在池化層中,抽取每個特征向量的最大值表示該特征,然后將相同高度卷積核操作后形成的標(biāo)量進(jìn)行組合,形成特征向量。最后在全連接層,使用ReLU作為激活函數(shù),并使用softmax 函數(shù)得到屬于每個類的概率。整體使用 L2和 dropout 方法,采用梯度下降法進(jìn)行參數(shù)的更新和模型的優(yōu)化。

    在應(yīng)用階段,問句經(jīng)過實(shí)體識別后,由 word2vec 模型轉(zhuǎn)化為詞向量矩陣,輸入訓(xùn)練完成的 TextCNN 網(wǎng)絡(luò)模型中,即可輸出對應(yīng)的問題模板,轉(zhuǎn)化為 Cypher 查詢語句進(jìn)行圖數(shù)據(jù)庫的答案查詢。

    4.3 基于規(guī)則的問答匹配

    本次共設(shè)計(jì)的2條主模板,6條附屬模板。設(shè)計(jì)問題模板作為一種主流的問答系統(tǒng)匹配方式,好處在于邏輯簡單,當(dāng)用戶的問題不是很明確時,可以根據(jù)相似度的排名來對問題進(jìn)行分類。

    問題模板相似度計(jì)算是將用戶輸入的自然語言問句在去除停用詞后與問題模板相對比,計(jì)算相同字符數(shù)除以總字符數(shù)得分score1—公式(4),字符串與字符串之間的編輯距離得分score2—公式(5),用戶問句向量與模板向量的相似度得分score3—公式(6)。

    式中:sim_num 代表相同字符數(shù),c 代表總字符數(shù)。

    a 和b 代表兩個字符串的長度,edit(a,b)代表從一個字符串到另一個字符串的操作變次數(shù)。

    式中:A 和B 是兩個n 維向量,余弦值越大就表示越相似。

    求三個得分的加權(quán)平均值,選擇得分最高的問題模板來查找答案。

    5 系統(tǒng)成果評價

    為確定本項(xiàng)目中提出的采用兩種匹配模式的匹配方法所構(gòu)建的問答系統(tǒng)的性能,采取下述實(shí)驗(yàn)方法:

    (1)準(zhǔn)備50個關(guān)于博物館領(lǐng)域的問題,分別使用兩種匹配模式進(jìn)行問題的回答;

    (2)分別統(tǒng)計(jì)兩次試驗(yàn)中成功識別實(shí)體的次數(shù),和回答的正確次數(shù)。

    由表2可見,規(guī)則模板存在很多不能識別的情況,而TextCNN雖然表現(xiàn)更好,比如當(dāng)問題時“蒙娜麗莎的作者是誰?”,兩種方法都能夠很好回答答案為“達(dá)芬奇”,但是當(dāng)為題變成“蒙娜麗莎是誰畫的?”,規(guī)則模板不能夠識別出問句中的“?”對應(yīng)的關(guān)系是作者,而TextCNN則能夠很好的對問題進(jìn)行識別。從性能來看,規(guī)則模板的正確率為64%,TextCNN的正確率為82%。

    表2:不同匹配方法性能表現(xiàn)

    6 結(jié)語

    本文詳細(xì)介紹了面向博物館問答系統(tǒng)的構(gòu)建過程和相關(guān)實(shí)現(xiàn)的流程,本系統(tǒng)嘗試采用兩種匹配方式來提高系統(tǒng)的精度,并嘗試使用知識圖譜可視化的方式來展示文物和作者之間的關(guān)聯(lián)。構(gòu)建的系統(tǒng)能夠在一定程度上解決博物館人手不足,介紹不夠詳細(xì)的問題,同時也能夠給游客提供所需要的文物方面的介紹。

    猜你喜歡
    分詞圖譜實(shí)體
    繪一張成長圖譜
    前海自貿(mào)區(qū):金融服務(wù)實(shí)體
    中國外匯(2019年18期)2019-11-25 01:41:54
    結(jié)巴分詞在詞云中的應(yīng)用
    智富時代(2019年6期)2019-07-24 10:33:16
    實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
    補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
    中成藥(2017年3期)2017-05-17 06:09:01
    兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
    振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
    值得重視的分詞的特殊用法
    主動對接你思維的知識圖譜
    高考分詞作狀語考點(diǎn)歸納與疑難解析
    营口市| 萨迦县| 黑龙江省| 永修县| 滦平县| 合山市| 翁牛特旗| 定结县| 伽师县| 定远县| 江川县| 宁乡县| 汕尾市| 新兴县| 临武县| 常宁市| 汝阳县| 南陵县| 洛扎县| 合作市| 秀山| 宽城| 社会| 英吉沙县| 灵丘县| 泊头市| 山东省| 临泉县| 新晃| 安塞县| 旬阳县| 从江县| 三门峡市| 沁水县| 广河县| 阿拉善左旗| 牡丹江市| 开鲁县| 若尔盖县| 保康县| 察隅县|