• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識(shí)圖譜的電影自動(dòng)問(wèn)答系統(tǒng)

    2020-07-04 04:06:44徐宇晨
    科學(xué)與財(cái)富 2020年15期
    關(guān)鍵詞:知識(shí)圖譜

    摘 要: 為提高用戶(hù)獲取電影相關(guān)信息的效率和準(zhǔn)確性,設(shè)計(jì)并實(shí)現(xiàn)基于知識(shí)圖譜的電影自動(dòng)問(wèn)答系統(tǒng)。針對(duì)電影信息實(shí)體的特征,規(guī)范解析實(shí)體和實(shí)體之間的關(guān)系,構(gòu)建電影信息知識(shí)圖譜;通過(guò)對(duì)用戶(hù)輸入的問(wèn)題進(jìn)行實(shí)體識(shí)別與詞性標(biāo)注,進(jìn)行問(wèn)句分析,實(shí)現(xiàn)問(wèn)句語(yǔ)義理解;利用貝葉斯分類(lèi)器匹配問(wèn)句模板在知識(shí)圖譜上進(jìn)行查找,從大量的非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息,理解用戶(hù)對(duì)于電影信息的需求。本系統(tǒng)通過(guò)構(gòu)建電影的知識(shí)圖譜結(jié)構(gòu)對(duì)知識(shí)作了有效區(qū)分,實(shí)現(xiàn)更好的匹配效果。不僅簡(jiǎn)化了操作,還極大的提高了準(zhǔn)確度,省時(shí)省力更高效。

    關(guān)鍵詞:自動(dòng)問(wèn)答系統(tǒng);知識(shí)圖譜;問(wèn)句分析;貝葉斯分類(lèi)器

    Abstract: In order to improve the efficiency and accuracy of users' access to film-related information, an automatic question answering system based on knowledge map was designed and implemented. According to the characteristics of film information entities, the relationship between entities and entities is standardized and analyzed, and the map of film information knowledge is constructed. The semantic understanding of the question can be realized by entity recognition and part-of-speech tagging of the question input by the user. The Bayesian classifier matching question template is used to search on the knowledge map to obtain the required specific information from a large number of unstructured data and understand the user's demand for movie information. In this system, the knowledge map structure is constructed to distinguish the knowledge effectively and achieve better matching effect. Not only simplified the operation, but also greatly improved accuracy, saving time and labor more efficient.

    Keywords: automatic question answering system; Knowledge map; Question analysis; Bayes classifier

    引言

    自動(dòng)問(wèn)答是一種高級(jí)的信息檢索技術(shù),支持用戶(hù)針對(duì)事物屬性或聯(lián)系進(jìn)行提問(wèn),國(guó)內(nèi)外在自動(dòng)問(wèn)答系統(tǒng)上已經(jīng)研究了較長(zhǎng)時(shí)期,從上世紀(jì)60到70年代開(kāi)始,問(wèn)答系統(tǒng)就出現(xiàn)在人們的視線,主要依賴(lài)搜索技術(shù),對(duì)查詢(xún)相關(guān)的文檔進(jìn)行檢索,如Yahoo早期的answer and quora[1]。而到了上世紀(jì)70年代,自動(dòng)問(wèn)答系統(tǒng)開(kāi)始以結(jié)構(gòu)化知識(shí)庫(kù)為基礎(chǔ),通過(guò)搜索知識(shí)庫(kù)得到最終答案,如YAGO[2]、WordNet[3]、張克亮等人基于本體的航空領(lǐng)域問(wèn)答系統(tǒng)[4]。如今,隨著人工智能的發(fā)展,利用知識(shí)圖譜構(gòu)建信息結(jié)構(gòu)設(shè)計(jì)問(wèn)答系統(tǒng)成為一種必然的趨勢(shì),如IBM的Watson系統(tǒng)[5]、馬晨浩設(shè)計(jì)的基于甲狀腺知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[6]。基于知識(shí)圖譜提供的語(yǔ)義層面上支持的自動(dòng)問(wèn)答系統(tǒng),包含信息分析、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)領(lǐng)域的大量技術(shù)創(chuàng)新,能夠幫助用戶(hù)從大量非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息,是新一代信息檢索技術(shù)發(fā)展的必然趨勢(shì)[7]。

    知識(shí)圖譜,源自于Google的Knowledge Graph,其本質(zhì)是一種語(yǔ)義網(wǎng)絡(luò),結(jié)點(diǎn)代表實(shí)體或者概念,邊代表實(shí)體/概念之間的各種語(yǔ)義關(guān)系。隨著數(shù)據(jù)的結(jié)構(gòu)化發(fā)展,互聯(lián)網(wǎng)正從大量互相鏈接的網(wǎng)頁(yè)向包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的語(yǔ)義網(wǎng)演進(jìn)。

    目前,中國(guó)作為全球第二大電影市場(chǎng),同時(shí)也是增長(zhǎng)最快的市場(chǎng)之一,人們對(duì)電影產(chǎn)業(yè)需求尤為突出。人們?cè)陔娪暗倪x擇上,會(huì)經(jīng)常利用當(dāng)代主流搜索引擎對(duì)演員、劇情、導(dǎo)演等關(guān)鍵詞進(jìn)行搜索,如文獻(xiàn)文科和百科等形式,但是反饋的結(jié)果往往需要通過(guò)主觀上多次篩選,才能夠獲得自己真正想要的答案,并不能夠直接提供一個(gè)清晰明了的結(jié)果,時(shí)效性非常低。與國(guó)外的自動(dòng)問(wèn)答系統(tǒng)相比,由于中文本身的獨(dú)特屬性,系統(tǒng)在理解自然語(yǔ)言問(wèn)句上要比英文難。系統(tǒng)可以自動(dòng)解析用戶(hù)英文提出的問(wèn)題,不需要考慮問(wèn)句分詞和理解誤差,如Microsoft Concept Graph[7]。但是從中文角度,系統(tǒng)總是理解的模糊不清。國(guó)內(nèi)外現(xiàn)有的電影信息自動(dòng)問(wèn)答系統(tǒng),大多以SSH框架為基礎(chǔ)或利用tensorflow實(shí)現(xiàn)電影信息的問(wèn)答,如Google中國(guó)版電影onebox[8]、時(shí)光網(wǎng)等,基于知識(shí)圖譜實(shí)現(xiàn)的電影自動(dòng)問(wèn)答系統(tǒng)并不多。

    本文打算做的,即是電影信息領(lǐng)域的自動(dòng)問(wèn)答系統(tǒng),在對(duì)大量的電影信息做出有效的整理后,創(chuàng)建生成電影信息知識(shí)圖譜,基于該知識(shí)圖譜,在Java平臺(tái)上實(shí)現(xiàn)電影的自動(dòng)問(wèn)答系統(tǒng),用戶(hù)輸入問(wèn)題,系統(tǒng)對(duì)輸入的自然語(yǔ)言進(jìn)行問(wèn)句分析,匹配不同語(yǔ)義的不同模板,在知識(shí)圖譜內(nèi)進(jìn)行查詢(xún),獲取答案。該系統(tǒng)結(jié)合了多種自然語(yǔ)言處理技術(shù),能夠幫助使用者從大量的非結(jié)構(gòu)化數(shù)據(jù)中得到所需的具體信息,理解用戶(hù)對(duì)于電影信息的需求。

    1系統(tǒng)架構(gòu)

    整個(gè)系統(tǒng)主要分為數(shù)據(jù)獲取與存儲(chǔ)模塊、自動(dòng)問(wèn)答系統(tǒng)實(shí)現(xiàn)模塊、用戶(hù)交互模塊等三個(gè)模塊,具體描述如下:

    (1) 數(shù)據(jù)獲取與存儲(chǔ)模塊,主要是將分布在不同網(wǎng)站的爬蟲(chóng)文件獲取到的電影數(shù)據(jù)信息進(jìn)行整理存儲(chǔ)在MySql數(shù)據(jù)庫(kù)中,根據(jù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)構(gòu)建出電影信息的知識(shí)圖譜,供后期問(wèn)答業(yè)務(wù)的處理和實(shí)現(xiàn)使用。

    (2) 自動(dòng)問(wèn)答系統(tǒng)實(shí)現(xiàn)模塊,主要是以設(shè)計(jì)的電影信息知識(shí)圖譜為基礎(chǔ),系統(tǒng)將用戶(hù)輸入的問(wèn)題,進(jìn)行實(shí)體識(shí)別與詞性標(biāo)注,根據(jù)識(shí)別后的實(shí)體,對(duì)問(wèn)題進(jìn)行分類(lèi),匹配不同的問(wèn)句查詢(xún)模板,使用模板在知識(shí)圖譜上進(jìn)行查找,得到用戶(hù)問(wèn)題的最終答案并返回用戶(hù)。若問(wèn)題實(shí)體識(shí)別后,詞性標(biāo)注為實(shí)體本身,則直接在知識(shí)圖譜內(nèi)進(jìn)行搜索,返回用戶(hù)答案。

    (3) 用戶(hù)交互模塊,指用戶(hù)在使用時(shí)所看到的額人機(jī)交互界面,提供給用戶(hù)查詢(xún)問(wèn)題并獲取答案。具體系統(tǒng)模塊結(jié)構(gòu)圖如圖1所示。

    2電影信息知識(shí)圖譜的構(gòu)建

    本系統(tǒng)通過(guò)分布在不同網(wǎng)站的爬蟲(chóng)文件,聚合各大電影門(mén)戶(hù)網(wǎng)站的電影信息,存儲(chǔ)在MySql數(shù)據(jù)庫(kù)中,并提取文本中的命名實(shí)體,使數(shù)據(jù)結(jié)構(gòu)化,從而構(gòu)建電影信息的知識(shí)圖譜,這增強(qiáng)了文本的表示和組合模型[9],使用戶(hù)直接獲取電影信息之間的關(guān)系。同時(shí)利用知識(shí)圖譜能將問(wèn)句中實(shí)體和關(guān)系識(shí)別出,確定問(wèn)題意圖,映射對(duì)應(yīng)的問(wèn)題模板,形成對(duì)應(yīng)的語(yǔ)序圖,得到準(zhǔn)確的答案。從現(xiàn)有的研究成果來(lái)看,知識(shí)圖譜的技術(shù)還主要應(yīng)用在科技專(zhuān)業(yè)領(lǐng)域的研究,而對(duì)于非科技專(zhuān)業(yè)的領(lǐng)域,如搜索一些普通的資訊信息,還停留在普通的搜索引擎階段。因此,針對(duì)電影信息這類(lèi)非科技專(zhuān)業(yè)領(lǐng)域構(gòu)建知識(shí)圖譜,能夠?qū)?shù)據(jù)搜索范圍縮小,從而有利于提高知識(shí)搜索的準(zhǔn)確性和高效性。

    2.1數(shù)據(jù)獲取與處理

    數(shù)據(jù)獲取主要采取的途徑是利用網(wǎng)絡(luò)爬蟲(chóng)自動(dòng)獲取。

    網(wǎng)絡(luò)爬蟲(chóng)(Web crawler)又被稱(chēng)為網(wǎng)頁(yè)蜘蛛(Web spider),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或腳本。因?yàn)榛ヂ?lián)網(wǎng)上的頁(yè)面是由多個(gè)各大網(wǎng)站的URL相互鏈接起來(lái)的,所以首先從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在爬取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列,根據(jù)頁(yè)面標(biāo)簽的正則匹配算法,過(guò)濾與主題無(wú)關(guān)或無(wú)用的信息,保留有用的信息并建立索引,直到滿(mǎn)足系統(tǒng)的一定停止條件。

    電影信息的獲取是通過(guò)爬取各大電影門(mén)戶(hù)網(wǎng)站的數(shù)據(jù),如百度百科、豆瓣網(wǎng)、時(shí)光網(wǎng)、M1905、中國(guó)電影票房網(wǎng)等。自動(dòng)獲取的電影信息主要包括電影的基本信息,如電影類(lèi)型、劇情介紹、評(píng)分等;演員的基本信息,如姓名、角色、性別等。通過(guò)對(duì)頁(yè)面標(biāo)簽的正則匹配,抽取電影各類(lèi)實(shí)體關(guān)系的信息,整理存儲(chǔ)在MySql數(shù)據(jù)庫(kù)中,以備后續(xù)操作。

    2.2知識(shí)圖譜的構(gòu)建

    電影信息的表達(dá)形式,是該系統(tǒng)的一個(gè)重要組成部分。隨著計(jì)算機(jī)科學(xué)領(lǐng)域和人工智能領(lǐng)域的發(fā)展,自然語(yǔ)言處理在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的算法下取得了突破,比如語(yǔ)義解析、語(yǔ)言建模等[10]。2012年,Google通過(guò)將如語(yǔ)義解析、語(yǔ)言建模等系統(tǒng)化后,提出“知識(shí)圖譜”,從而越來(lái)越多的計(jì)算機(jī)領(lǐng)域研究學(xué)者和開(kāi)發(fā)設(shè)計(jì)者,將知識(shí)圖譜應(yīng)用在知識(shí)的表達(dá)形式上。融合知識(shí)圖譜,能夠使系統(tǒng)自動(dòng)給將問(wèn)題中實(shí)體和關(guān)系識(shí)別出來(lái),基于模板的方法對(duì)結(jié)構(gòu)化查詢(xún)進(jìn)行問(wèn)題的描述[11],形成對(duì)應(yīng)的語(yǔ)序圖,通過(guò)查詢(xún)知識(shí)圖譜中的三元組得到答案。

    本系統(tǒng)電影信息知識(shí)圖譜根據(jù)MySql數(shù)據(jù)庫(kù)中存儲(chǔ)的電影信息構(gòu)建,包括電影名稱(chēng)信息實(shí)體、電影類(lèi)別信息實(shí)體、演員信息實(shí)體等,實(shí)體之間存在多種聯(lián)系,規(guī)范解析實(shí)體和實(shí)體之間的關(guān)系,將數(shù)據(jù)庫(kù)中不同表內(nèi)的不同數(shù)據(jù),以三元組<實(shí)體,關(guān)系,實(shí)體>形式構(gòu)建電影信息知識(shí)圖譜的概念層設(shè)計(jì)。

    定義1 電影信息實(shí)體 包括電影名稱(chēng)實(shí)體、電影類(lèi)別實(shí)體、演員信息實(shí)體等。實(shí)體名稱(chēng)存放于根目錄,每個(gè)實(shí)體都包含一組屬性[12],在定義了電影信息實(shí)體之后,可以構(gòu)建電影信息知識(shí)圖譜概念層設(shè)計(jì)如圖2所示。

    定義2 電影基本信息關(guān)系實(shí)體 電影信息關(guān)系實(shí)體表示電影信息實(shí)體間產(chǎn)生的聯(lián)系,如<電影名稱(chēng),電影信息,演員>。其中,電影名稱(chēng)、演員都是電影信息的實(shí)體,而電影信息為電影基本信息關(guān)系實(shí)體。電影基本信息關(guān)系類(lèi)型主要包括內(nèi)容如下:

    (1)A is B關(guān)系:表示實(shí)體A有一個(gè)屬性實(shí)體B。

    (2)A actedin B關(guān)系:表示實(shí)體A出演實(shí)體B的關(guān)系。

    最后抽取實(shí)體和關(guān)系,綜合確定三元組,借助Neo4j服務(wù)中Cypher模板文件存儲(chǔ)數(shù)據(jù),將模糊的查詢(xún)條件轉(zhuǎn)化為精確的查詢(xún)區(qū)間[13],有效的管理每個(gè)節(jié)點(diǎn)的特定屬性,以及每條邊與實(shí)體之間存在的關(guān)系。知識(shí)圖譜設(shè)計(jì)模式圖如圖3所示。

    查詢(xún)語(yǔ)句[14],利用JDK提供的一些低級(jí)API,用基于圖的模式匹配,實(shí)現(xiàn)對(duì)數(shù)據(jù)的處理與擴(kuò)展。同時(shí),Neo4j能夠非常方便的融合到系統(tǒng)中進(jìn)行后續(xù)開(kāi)發(fā)。本系統(tǒng)使用Neo4j構(gòu)建的電影信息領(lǐng)域的知識(shí)圖譜可視化展示如圖4所示。

    本系統(tǒng)主要構(gòu)建以電影信息為核心的知識(shí)圖譜,以電影名稱(chēng)為根節(jié)點(diǎn),以此延伸出電影的名稱(chēng)、時(shí)間、劇情介紹、演員等信息,每一級(jí)的節(jié)點(diǎn)又可以延伸至下一節(jié)點(diǎn),如將章子怡節(jié)點(diǎn)進(jìn)行展開(kāi),可以看得到與章子怡相關(guān)的所有電影。電影信息知識(shí)圖譜的節(jié)點(diǎn)可視化展開(kāi)如圖5所示。

    3問(wèn)句分析

    問(wèn)句分析主要研究問(wèn)句的抽象以及問(wèn)句的分類(lèi)等自動(dòng)問(wèn)答系統(tǒng)所采用的對(duì)中文進(jìn)行自然語(yǔ)言處理的技術(shù),使系統(tǒng)對(duì)問(wèn)題的理解準(zhǔn)確度得到提升

    3.1問(wèn)句的抽象

    問(wèn)句的抽象是針對(duì)中文進(jìn)行自然語(yǔ)言處理的基礎(chǔ)步驟,也是實(shí)現(xiàn)數(shù)據(jù)標(biāo)注處理的基礎(chǔ)模型。與英文問(wèn)句相比,系統(tǒng)可以通過(guò)疑問(wèn)句中固定的疑問(wèn)詞自動(dòng)解析用戶(hù)英文提出的問(wèn)題,但中文具有本身的獨(dú)特屬性,中文提出的問(wèn)題無(wú)明顯詞性的界限,因此進(jìn)行中文問(wèn)句的自然語(yǔ)言處理時(shí),利用分詞技術(shù)實(shí)現(xiàn)問(wèn)句的抽象是第一步。

    將知識(shí)圖譜中的實(shí)體概念和屬性等詞加入領(lǐng)域詞庫(kù),標(biāo)注單詞的詞性,并添加部分人工標(biāo)注的命名實(shí)體,比如問(wèn)句中會(huì)涉及到的專(zhuān)有的電影名稱(chēng)、人名、劇情等實(shí)體,完成自定義帶有詞性的字典數(shù)據(jù)[13]。這相當(dāng)于提供給機(jī)器人一個(gè)習(xí)題集,所謂的標(biāo)注,就是將整個(gè)數(shù)據(jù)、正確答案作為習(xí)題集教給機(jī)器人,機(jī)器人在學(xué)習(xí)過(guò)程中,就會(huì)在做題過(guò)程中在習(xí)題集內(nèi)搜索答案。

    系統(tǒng)在收到用戶(hù)提出的問(wèn)題后,能夠自動(dòng)進(jìn)行問(wèn)句抽象,對(duì)問(wèn)句進(jìn)行分詞處理,將中文轉(zhuǎn)化成系統(tǒng)能夠理解的語(yǔ)義,更加貼合用戶(hù)的意圖。

    3.2問(wèn)句的分類(lèi)

    由于中文的獨(dú)特屬性,不像英語(yǔ)具有專(zhuān)屬的疑問(wèn)詞、時(shí)態(tài)與語(yǔ)法,用戶(hù)輸入的問(wèn)題具有隨意性,即表達(dá)相同意思的詞語(yǔ)可以被多種同義詞所替代,表達(dá)某一問(wèn)題的問(wèn)句可以被隨意組合成多種問(wèn)句。根據(jù)電影信息知識(shí)圖譜,自定義帶有詞性的字典數(shù)據(jù),將問(wèn)句定義成不同的類(lèi)別。問(wèn)句分類(lèi)如表1所示。

    3.3問(wèn)句的匹配

    對(duì)于輸入的自然語(yǔ)言,首先進(jìn)行問(wèn)句的分類(lèi),根據(jù)問(wèn)句類(lèi)別的關(guān)鍵詞,構(gòu)造出問(wèn)句類(lèi)別向量,進(jìn)行問(wèn)句匹配,映射其對(duì)應(yīng)的問(wèn)句模板,形成對(duì)應(yīng)的有向語(yǔ)序圖。問(wèn)句匹配是從概率學(xué)的角度進(jìn)行分類(lèi),如果將用戶(hù)輸入的問(wèn)句與知識(shí)庫(kù)中存在的問(wèn)題庫(kù)進(jìn)行最高程度的匹配,則系統(tǒng)反饋給用戶(hù)的答案也將更加準(zhǔn)確、快速。

    目前常用的分類(lèi)算法樸素貝葉斯分類(lèi)器(na?ve Bayes classifier)、支持向量機(jī)(support vector machine)與最大熵模型(maximum entropy model)等[15]。其中樸素貝葉斯分類(lèi)器能夠在復(fù)雜的場(chǎng)景中,使對(duì)文本訓(xùn)練集的速度較快且準(zhǔn)確。考慮到本系統(tǒng)的研究主要在于準(zhǔn)確和問(wèn)題樣本的特點(diǎn),需要從電影的名稱(chēng)這類(lèi)實(shí)體和人工標(biāo)注的問(wèn)題分類(lèi)兩個(gè)方面進(jìn)行匹配計(jì)算,所以選擇采用樸素貝葉斯分類(lèi)器。首先我們要清楚什么是貝葉斯定定理,當(dāng)事件B已經(jīng)發(fā)生,事件A發(fā)生的概率叫做事件B發(fā)生下事件A的條件概率,其基本求解公式為:

    現(xiàn)有事件B,則在事件A發(fā)生的條件下,事件B發(fā)生的概率,其基本求解公式為:

    樸素貝葉斯分類(lèi)器是基于貝葉斯定理,根據(jù)特征項(xiàng),選取預(yù)測(cè)類(lèi)別,再進(jìn)行概率計(jì)算的分類(lèi)方法,具體實(shí)現(xiàn)的數(shù)據(jù)模型可以表示如下:

    4答案生成

    本系統(tǒng)的答案生成主要就是通過(guò)樸素貝葉斯分類(lèi)器實(shí)現(xiàn)。答案可能是一個(gè)單詞、一個(gè)句子片段、一個(gè)結(jié)構(gòu)良好且有意義的句子或一組邏輯連貫的句子。答案類(lèi)型取決于問(wèn)句的抽象與匹配[16]。基于知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)通常包括為特定領(lǐng)域開(kāi)發(fā)問(wèn)答對(duì)數(shù)據(jù)庫(kù),然后根據(jù)用戶(hù)的問(wèn)題獲取答案。在用戶(hù)輸入問(wèn)題時(shí),此時(shí)問(wèn)句為原始句子,利用分詞器對(duì)原句子進(jìn)行抽象,將其中電影名稱(chēng)、人名等用自定義的詞典進(jìn)行替換,并與事先訓(xùn)練好的樸素貝葉斯分類(lèi)器中問(wèn)題樣本數(shù)據(jù)集進(jìn)行匹配問(wèn)題模板,判斷是否為匹配。若匹配,則直接返回模板中匹配的最終標(biāo)準(zhǔn)問(wèn)題給用戶(hù),并去圖形數(shù)據(jù)庫(kù)Neo4j中查找問(wèn)題的答案;反之,則將預(yù)測(cè)的結(jié)果反饋給用戶(hù),提示用戶(hù)輸入有效問(wèn)題。答案生成流程如圖6所示。

    根據(jù)之前自定義好的數(shù)據(jù)詞典,設(shè)計(jì)用戶(hù)可能會(huì)提出的問(wèn)題,將問(wèn)題詞匯集合成vocabulary數(shù)據(jù)集,之后按照數(shù)據(jù)集設(shè)置問(wèn)題集合,分類(lèi)Model標(biāo)簽號(hào),具體問(wèn)題集合如表2所示。

    對(duì)原始問(wèn)題進(jìn)行分詞,提取關(guān)鍵特征詞,如“評(píng)分”、“多少”等和數(shù)據(jù)集中關(guān)鍵特征進(jìn)行匹配,在貝葉斯分類(lèi)器中構(gòu)造向量,進(jìn)行詞匯數(shù)據(jù)集的比對(duì),若有則返回1,反之返回0。

    實(shí)現(xiàn)答案的查詢(xún)過(guò)程只要時(shí)將問(wèn)題有序語(yǔ)句轉(zhuǎn)換成Neo4j的查詢(xún)語(yǔ)句,在圖形數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún)。在結(jié)構(gòu)化查詢(xún)語(yǔ)言中,鍵值時(shí)完全匹配的,但是用戶(hù)輸入的是模糊查詢(xún),所以需要將用戶(hù)輸入的模糊查詢(xún),轉(zhuǎn)換為統(tǒng)一鍵值,再翻譯為Neo4j圖數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)查詢(xún)語(yǔ)句Cypher,從而再知識(shí)圖譜上進(jìn)行查詢(xún),如查詢(xún)某電影出演的演員有哪些,可以表示為“match(n:Person)-[:actedin]-(m:Movie) where m.title ={title} return n.name”。若遇到不相關(guān)的詞語(yǔ),則用貝葉斯分類(lèi)器進(jìn)行特征值和問(wèn)題模板的匹配,從而完成答案的生成。

    5實(shí)驗(yàn)結(jié)果與分析

    5.1 實(shí)驗(yàn)一 問(wèn)句詞性識(shí)別標(biāo)注為實(shí)體本身類(lèi)問(wèn)題

    輸入:<實(shí)體>

    實(shí)例輸入:章子怡

    預(yù)期結(jié)果:Beijing-China,人工查詢(xún)知識(shí)圖譜中章子怡對(duì)應(yīng)為Beijing-China。

    實(shí)驗(yàn)運(yùn)行結(jié)果如圖7所示。

    5.2 實(shí)驗(yàn)二 問(wèn)句識(shí)別為人工標(biāo)注的問(wèn)題-電影評(píng)分

    輸入:<實(shí)體>評(píng)分是多少?

    實(shí)例輸入:英雄的評(píng)分是多少?

    預(yù)期結(jié)果:7.3,人工查詢(xún)知識(shí)圖譜中英雄的評(píng)分對(duì)應(yīng)為7.3。

    實(shí)驗(yàn)運(yùn)行結(jié)果如圖8所示。

    5.2 實(shí)驗(yàn)三 問(wèn)句識(shí)別為人工標(biāo)注的問(wèn)題-演員電影作品

    輸入:<實(shí)體>出演了哪些電影?

    實(shí)例輸入:章子怡出演的冒險(xiǎn)電影有哪些?

    預(yù)期結(jié)果:Godzilla: King of Monsters, Godzilla vs. Kong, 臥虎藏龍, 英雄, TMNT, 十面埋伏。人工查詢(xún)知識(shí)圖譜中英雄的評(píng)分對(duì)應(yīng)為Godzilla: King of Monsters, Godzilla vs. Kong, 臥虎藏龍, 英雄, TMNT, 十面埋伏。

    實(shí)驗(yàn)運(yùn)行結(jié)果如圖8所示。

    6結(jié)束語(yǔ)

    隨著互聯(lián)網(wǎng)的不斷發(fā)展,自動(dòng)問(wèn)答系統(tǒng)正在日趨完善。以電影信息為數(shù)據(jù),構(gòu)建基于知識(shí)圖譜的電影自動(dòng)問(wèn)答系統(tǒng),在人工標(biāo)注和自動(dòng)化結(jié)合的方式下,構(gòu)建了電影知識(shí)圖譜和問(wèn)題詞匯數(shù)據(jù)集,并設(shè)計(jì)了多種可能的問(wèn)題模板,即幫助系統(tǒng)理解用戶(hù)意圖,利用知識(shí)圖譜獲取用戶(hù)想查詢(xún)問(wèn)題的準(zhǔn)確答案。可以存儲(chǔ)大量的數(shù)據(jù)的同時(shí),在后續(xù)數(shù)據(jù)應(yīng)用方面相比較傳統(tǒng)模式也占據(jù)了明顯優(yōu)勢(shì)。

    在未來(lái),本系統(tǒng)將會(huì)在已有基礎(chǔ)上,不斷擴(kuò)展電影信息的知識(shí)圖譜,使得自動(dòng)問(wèn)答系統(tǒng)能夠處理的問(wèn)題信息更多,并且不斷完善貝葉斯樸素分類(lèi)器模型,提升被提取特征值的準(zhǔn)確率和速率,保障在自動(dòng)問(wèn)答模塊上的穩(wěn)健性。

    參考文獻(xiàn):

    [1]劉乙蓉,劉蕓.問(wèn)答平臺(tái)中的答案聚合及其優(yōu)化[J].圖書(shū)館學(xué)研究,2017,6.

    [2]Suchanek F M, Kasneci G, Weikum G. Yago:a core of semantic knowledge.In:Proceedings of International Conference on World Wide Web,2007:697-706.

    [3]Miller G A. WordNet:a lexical database for English. Commun ACM,1995,38:39-41.

    [4]張克亮,李偉剛,王慧蘭.基于本體的航空領(lǐng)域問(wèn)答系統(tǒng)[J].中文信息學(xué)報(bào),2015.

    [5]孔鹿.IBM的Waton如何改善中國(guó)醫(yī)療[N].第一財(cái)經(jīng)日?qǐng)?bào),2016-08-30(A08).

    [6]馬晨浩.基于甲狀腺知識(shí)圖譜的自動(dòng)問(wèn)答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].智能計(jì)算機(jī)與應(yīng)用,2018,8(3):102-107.

    [7]孟明明,張坤,論兵.一種面向知識(shí)圖譜問(wèn)答的語(yǔ)義查詢(xún)擴(kuò)展方法[J/OL].計(jì)算機(jī)工程.

    [8]Google谷歌中國(guó)版電影onebox上線[C].CFan PE:軟件學(xué)用通.

    [9]安波,韓先培,孫樂(lè).基于知識(shí)表示的知識(shí)庫(kù)問(wèn)答系統(tǒng)[J].中國(guó)科學(xué):信息科學(xué),2018,48(11):1521-1532.

    [10]薛蕊,馬小寧.自然語(yǔ)言處理關(guān)鍵技術(shù)在智能鐵路中的應(yīng)用研究[J].計(jì)算機(jī)應(yīng)用,2018,27(10):40-48.

    [11]Dominic Seyler, Mohamed Yahya,Klaus Berberich.Knowledge Questions from Knowledge.Graphs arXiv:1610.09935v2 [cs.CL],1,Nov,2016.

    [12]Yuan Yang,Jingcheng Yu,Ye Hu,Xiaoyao Xu,Eric Nyberg.CMU LiveMedQA at TREC 2017 LiveQA: AConsumer Health Question Answering System,2017.

    [13]李雪.一種基于Neo4J圖數(shù)據(jù)庫(kù)的模糊查詢(xún)研究與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(11):16-21.

    [14]劉嶠,李楊,段宏,劉瑤,秦志光.知識(shí)圖譜構(gòu)建技術(shù)綜述[J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.

    [15]李文寬,劉培玉,朱振方,劉文鋒.基于卷積神經(jīng)網(wǎng)絡(luò)和貝葉斯分類(lèi)器的句子分類(lèi)模型[J/OL].計(jì)算機(jī)應(yīng)用研究.

    [16]Ashwini Jaya Kumar , Christoph Schmidt, Joachim K?hler .A knowledge graph based speech interface for question answering systems :Speech Communicatio 92(2017),1-12.

    作者簡(jiǎn)介:

    徐宇晨(1997-),女,民族: 漢 ,籍貫:江西景德鎮(zhèn),學(xué)歷 :大學(xué)本科,職稱(chēng):無(wú),畢業(yè)院校:無(wú),研究方向:軟件工程 飛行器控制技術(shù).

    猜你喜歡
    知識(shí)圖譜
    國(guó)內(nèi)外智庫(kù)研究態(tài)勢(shì)知識(shí)圖譜對(duì)比分析
    國(guó)內(nèi)信息素養(yǎng)研究的知識(shí)圖譜分析
    國(guó)內(nèi)圖書(shū)館嵌入式服務(wù)研究主題分析
    國(guó)內(nèi)外政府信息公開(kāi)研究的脈絡(luò)、流派與趨勢(shì)
    近十五年我國(guó)小學(xué)英語(yǔ)教學(xué)研究的熱點(diǎn)、問(wèn)題及對(duì)策
    基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
    基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
    國(guó)內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
    從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
    專(zhuān)家知識(shí)圖譜構(gòu)建研究
    乌苏市| 卢氏县| 南宫市| 黔东| 扬中市| 龙陵县| 镇远县| 民丰县| 甘德县| 石嘴山市| 深水埗区| 墨江| 横峰县| 海盐县| 绥芬河市| 罗城| 盐源县| 揭东县| 东兴市| 荥经县| 遂川县| 宿迁市| 教育| 镇坪县| 常德市| 奉节县| 嘉兴市| 乌鲁木齐市| 伊宁县| 浦北县| 衢州市| 汤阴县| 剑川县| 西城区| 鄂温| 孟村| 牡丹江市| 扎鲁特旗| 西乡县| 桂阳县| 玉林市|