• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于知識圖譜的新疆旅游自動問答系統(tǒng)設(shè)計(jì)

    2021-01-14 00:45:42孫晶郭成艷毛臣胡玉葉
    現(xiàn)代信息科技 2021年12期
    關(guān)鍵詞:知識圖譜

    孫晶 郭成艷 毛臣 胡玉葉

    摘 ?要:近年來,新疆旅游業(yè)發(fā)展趨勢越來越好,優(yōu)美的風(fēng)光,豐富的物產(chǎn),受到國內(nèi)外游客的喜愛。由于新疆地大物博,導(dǎo)致多數(shù)游客不能準(zhǔn)確找到目的地。建立了一個新疆旅游知識圖譜結(jié)構(gòu)描述和形態(tài)分析的可計(jì)算方法體系,提出將自動問答系統(tǒng)運(yùn)用于新疆旅游。創(chuàng)建新疆旅游知識圖譜并構(gòu)建基于新疆旅游知識圖譜的自動問答平臺,目的是使游客在存放著海量結(jié)構(gòu)化知識的圖譜上快速獲取正確答案,為游客游覽景區(qū)時減少不必要的時間消耗。

    關(guān)鍵詞:知識圖譜;Neo4j數(shù)據(jù)庫;自動問答系統(tǒng);新疆旅游

    中圖分類號:TP182 ? 文獻(xiàn)標(biāo)識碼:A 文章編號:2096-4706(2021)12-0026-04

    Abstract: In recent years, the development trend of Xinjiang tourism is getting better and better. The beautiful scenery and rich products are loved by tourists at home and abroad. Due to the vast territory and abundant resources in Xinjiang, most tourists can't find their destination accurately. A computable method system for structural description and morphological analysis of Xinjiang tourism knowledge graph is established, and the application of automatic question answering system in Xinjiang tourism is proposed. The purpose of creating Xinjiang tourism knowledge graph and constructing an automatic question answering platform based on Xinjiang tourism knowledge graph is to enable tourists to quickly obtain correct answers on the graph with a large amount of structured knowledge, so as to reduce unnecessary time consumption of tourists when they visiting scenic spots.

    Keywords: knowledge graph; Neo4j database; automatic question answering system; Xinjiang tourism

    0 ?引 ?言

    早期自動問答系統(tǒng)大都針對特定領(lǐng)域構(gòu)建,需要領(lǐng)域?qū)<易珜懘罅款I(lǐng)域相關(guān)的規(guī)則用于問題理解和答案生成,極大地限制了該類自動問答系統(tǒng)的規(guī)模和通用性。20世紀(jì)60年代,Green等人提出BASEBALL系統(tǒng),Woods提出使用自然語言檢索NASA數(shù)據(jù)庫,Winograd提出SHRDLU系統(tǒng)。自動問答內(nèi)容系統(tǒng)START是由MIT麻省理工學(xué)院1993年研究開發(fā)并發(fā)布使用的從此自動問答進(jìn)入開放領(lǐng)域問答時代。Evi是2005年上線的基于知識圖譜(knowledge graph)核心技術(shù)的問答型搜索引擎。斯坦福在2016年發(fā)布了SQUAD數(shù)據(jù)集。2018年3月百度發(fā)布了中文機(jī)器閱讀理解數(shù)據(jù)集DuReader,與中國中文信息學(xué)會和中國計(jì)算機(jī)學(xué)會共同舉辦了“2018機(jī)器閱讀理解技術(shù)賽”。新疆豐富的旅游資源吸引著全國的游客來觀光,但仍缺乏一個能夠隨時隨地解答新疆旅游問題的自動問答系統(tǒng)來幫助游客解決心中的疑惑。近年來,隨著人工智能的飛速發(fā)展,自動問答技術(shù)也取得了突飛猛進(jìn)的發(fā)展,如果將自動問答技術(shù)應(yīng)用于回答旅游愛好者在新疆旅游遇到的問題,新疆旅游將會有更好的發(fā)展前景。

    1 ?知識圖譜

    知識圖譜這個理論是以20世紀(jì)50年代末60年代初的語義網(wǎng)絡(luò)(semantic net)為原型提出來的。知識圖譜這個概念Google在2012年提出來的一個新概念。知識圖譜把一個叫做三元組(triple)的數(shù)據(jù)結(jié)構(gòu)作為知識存儲和表示的基本單元?,F(xiàn)在,國際上流行的的知識圖譜有Freebase、DBPedia,YAGO和Satori等等,他們的主要內(nèi)容還是源自于早期一些大型平臺Wikipedia、NNDB、Musicbrainz以及這些平臺的社區(qū)用戶的貢獻(xiàn)。2012年,從Google開始發(fā)布基于知識圖譜的語義搜索和自動問答服務(wù)以后,學(xué)術(shù)屆開始研究知識圖譜的典型應(yīng)用。慢慢的,業(yè)界學(xué)術(shù)研究團(tuán)隊(duì)對垂直知識圖譜進(jìn)行有針對性的研究,針對某些特定領(lǐng)域特定專業(yè)知識為基礎(chǔ)創(chuàng)建的垂直知識圖譜,其創(chuàng)建過程依賴特定專業(yè)領(lǐng)域的行業(yè)數(shù)據(jù)的依賴度非常高,在知識領(lǐng)域各專業(yè)的全領(lǐng)域覆蓋范圍較窄。當(dāng)前如何脫離專業(yè)領(lǐng)域數(shù)據(jù)庫使得知識圖譜能夠進(jìn)行自動獲取和實(shí)際應(yīng)用是目前各領(lǐng)域中最重要的兩個課題。

    2 ?知識圖譜語料庫創(chuàng)建

    本文研究多源異構(gòu)方式建立新疆旅游實(shí)體生成資源技術(shù),本文研究的數(shù)據(jù)從一開始的設(shè)計(jì)由百科網(wǎng)頁中用爬蟲來進(jìn)行爬取,由于爬蟲的設(shè)計(jì)和數(shù)據(jù)清洗技術(shù)熟練度好,所以在后續(xù)的應(yīng)用中沿用了爬蟲爬取百科網(wǎng)頁結(jié)構(gòu)化數(shù)據(jù),在爬蟲過程中主要應(yīng)用傳統(tǒng)方法就是Partial Page Rank策略,該策略的優(yōu)先度設(shè)計(jì)為重要程度較高的網(wǎng)頁爬取有限權(quán)重系數(shù)較高。爬取好網(wǎng)頁數(shù)據(jù)后,使用人工數(shù)據(jù)清洗的方法將爬取到的實(shí)體、屬性及相互關(guān)系等知識手工摘取出來,然后存儲到文本文件當(dāng)中,使用程序算法再輔以數(shù)據(jù)提取以三元組的形式儲存到圖數(shù)據(jù)庫中。這種爬蟲框架輔助人工篩選的方式可以非常有效的達(dá)到獲取新疆旅游詞條的目的,并且能夠極大的豐富數(shù)據(jù)庫資源。各數(shù)據(jù)資源名詞性對象會生產(chǎn)等實(shí)體,各實(shí)體間存在的位于和屬于關(guān)系,我們會以<實(shí)體1,關(guān)系,實(shí)體2>三元組形式進(jìn)行數(shù)據(jù)庫依存關(guān)系儲存。實(shí)體的屬性是我們數(shù)據(jù)庫中每個詞條中特定位置對應(yīng)的,這個詞條中實(shí)體屬性的表格能夠自動抽取出實(shí)體的屬性,生成<實(shí)體,屬性名稱,屬性值>三元組形式進(jìn)行數(shù)據(jù)庫儲存。本文為了構(gòu)建旅游知識圖譜從結(jié)構(gòu)化知識庫和垂直旅游信息數(shù)據(jù)庫及網(wǎng)站以及百度百科中抽取旅行景點(diǎn)信息,進(jìn)行旅游領(lǐng)域知識數(shù)據(jù)庫創(chuàng)建。本文研究的新疆旅游知識圖譜數(shù)據(jù)庫只要包括地區(qū)節(jié)點(diǎn)知識圖譜和景點(diǎn)知識圖譜兩部分構(gòu)建的關(guān)鍵技術(shù)。

    3 ?Neo4j數(shù)據(jù)庫

    本文使用Neo4j數(shù)據(jù)庫來創(chuàng)建知識圖譜,實(shí)現(xiàn)圖數(shù)據(jù)庫數(shù)據(jù)呈現(xiàn)。Neo4j是近年來非常流行的用于存儲知識圖譜節(jié)點(diǎn)和節(jié)點(diǎn)關(guān)系的NOSQL圖形數(shù)據(jù)庫。作為一個高性能的圖數(shù)據(jù)庫存儲和檢索的圖引擎,該數(shù)據(jù)庫引擎具有常用數(shù)據(jù)庫與專業(yè)數(shù)據(jù)庫所具備的所有成熟特性。使用Neo4j圖數(shù)據(jù)庫的一個優(yōu)勢就是在對數(shù)據(jù)進(jìn)行存儲的同時也是一個知識圖譜的構(gòu)建過程。通過對前面各種算法抽取的名詞性實(shí)體、名詞性實(shí)體的屬性以及名詞性實(shí)體間依存關(guān)系的存儲,就能夠生成一張知識圖譜。

    我們使用py2neo,python驅(qū)動引擎實(shí)現(xiàn)對數(shù)據(jù)庫的一系列操作。對新疆旅游知識圖譜數(shù)據(jù)庫中的區(qū)、市、縣、景點(diǎn)等層級節(jié)點(diǎn)數(shù)據(jù)進(jìn)行創(chuàng)建、讀取、更新、刪除的操作。然后在已創(chuàng)建的數(shù)據(jù)節(jié)點(diǎn)上創(chuàng)建下轄和位于等數(shù)據(jù)依存關(guān)系。Neo4j數(shù)據(jù)庫呈現(xiàn)的新疆旅游知識圖譜數(shù)據(jù)庫節(jié)點(diǎn)及其依存關(guān)系圖如圖1所示。

    Self.g = Graph(‘http://localhost:7474’,username = ‘neo4j,password=‘neo4j’)

    elif question_type == ‘city_have’:

    sql=[“MATCH ( m:‘縣市’)-[r1:‘下轄’]->(k:‘景區(qū)’) where m.name = ‘{0}’”\ “return m.name,k.name”.format(i) for i in entities]

    for query in queries:

    ress = self.g.run(query).data()

    在圖數(shù)據(jù)庫中,圖1中心部分表示的是哈密地級市的縣和市,與縣和市連接的是縣和市中的景區(qū),縣和市中的景區(qū)外側(cè)連接的是新疆維吾爾自治區(qū)對應(yīng)的各個地區(qū),數(shù)據(jù)庫中有地區(qū)位于縣(或市)和縣(或市)下轄地區(qū)兩種關(guān)系,如哈密市位于哈密地級市,哈密地級市下轄哈密市。景區(qū)與縣(或市)同樣也有位于和下轄兩種關(guān)系,如東天山位于哈密市,哈密市下轄東天山。如果想做多種關(guān)系,也可在數(shù)據(jù)庫中進(jìn)行添加。

    4 ?基于圖數(shù)據(jù)庫的自動問答設(shè)計(jì)

    本系統(tǒng)對新疆旅游知識圖譜數(shù)據(jù)庫當(dāng)中的區(qū)、市、縣、景點(diǎn)以及位置關(guān)系進(jìn)行抽象,歸納出概念間的體系結(jié)構(gòu),進(jìn)行本體三元組抽取,構(gòu)建知識圖譜。構(gòu)建知識圖譜圖數(shù)據(jù)庫,對用戶所提取的問題進(jìn)行命名實(shí)體識別、關(guān)系抽取,然后到圖數(shù)據(jù)庫中進(jìn)行答案匹配,如圖2所示。

    4.1 ?問題解析

    自動問答系統(tǒng)的問題處理流程有:

    (1)提前對問題分類。要對用戶的問句即系統(tǒng)接收到的問題進(jìn)行分類,如表1所示,提前將旅游中所有可能涉及的問題分為了九大類。

    (2)提取問題的關(guān)鍵詞。對用戶所提問題進(jìn)行關(guān)鍵詞提取,即地區(qū)名稱和主要問題,如東天山和通信地址,并過濾掉重復(fù)的、無用的信息:

    #問句疑問詞

    self.telephone_number_qwsd= [‘聯(lián)系電話’,‘咨詢電話’,‘電話號碼’,‘電聯(lián)’,‘電話號’]

    Self.leve_qwds=[‘級別’, ‘啥級別’, ‘幾A級’,‘幾a級’, ‘4A級’, ‘4a級’, ‘什么級別’]

    (3)確定問題的類型。將關(guān)鍵詞與問題的分類結(jié)果進(jìn)行匹配,確定問題的類型。if question_type == ‘a(chǎn)rea_have’:

    sql = [MATCH (m: ‘地區(qū)’)-[r1: ‘下轄’]->(n:‘縣市’)-[r2: ‘下轄’]->(k:‘景區(qū)’)”\

    “where m.name = ‘{0}’”\ “return m.name,k.name”.format(i) for i in entities]

    elif question_type == ‘telephone_number’:

    sql = [“MATCH (m: ‘景區(qū)’) where m.name = ‘{0} return m.name,”\

    “m.telephone”.format(i) ?for i in entities]

    elif question_type == ‘AAAA_fare’:

    sql = [“MATCH (m: ‘景區(qū)’) where m.name = ‘{0} return m.name,”\

    “m.name,m.off_season_fare,m.peak_season_fare”.format(i) ?for i in entities]

    4.2 ?答案抽取

    答案抽取作為自動問答系統(tǒng)的收尾步驟,但它卻是最關(guān)鍵的一步,針對用戶的問題類型屬性到數(shù)據(jù)庫中進(jìn)行二次匹配,生成問題的答案。經(jīng)過答案抽取這一過程后,用戶所提出的問題的答案將以最簡潔易懂的形式回答,如果答案抽取過程不能將正確答案準(zhǔn)確的抽取出來,那么將會嚴(yán)重影響整個自動問答系統(tǒng)的準(zhǔn)確性。在新疆旅游項(xiàng)目中,我們以模式匹配的形式進(jìn)行答案抽取。

    根據(jù)上文中問題解析的結(jié)果,我們將所確定的問題類型與圖數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行匹配,如果匹配成功,將反饋的內(nèi)容生成對應(yīng)的回答:

    '''根據(jù)對應(yīng)的qustion_type,調(diào)用相應(yīng)的回復(fù)模板'''\n",

    if question_type == 'area_have':

    desc = [i['k.name'] for i in answers]

    subject = answers[0]['m.name']

    final_answer = '{0}有如下4A級景點(diǎn):{1}'.format (subject, ';'.join(list(set(desc))[:]))

    5 ?程序結(jié)果驗(yàn)證

    最后我們根據(jù)用戶所提問題關(guān)鍵字查找圖數(shù)據(jù)庫中的數(shù)據(jù),根據(jù)反饋結(jié)構(gòu)生成對應(yīng)的回答,生成回答程序驗(yàn)證結(jié)果如圖3所示。

    6 ?結(jié) ?論

    隨著互聯(lián)網(wǎng)數(shù)據(jù)的海量增長、硬件計(jì)算能力的飛速提高以及自然語言處理和深度學(xué)習(xí)技術(shù)的長足進(jìn)步,自動問答方法的應(yīng)用也比以往任何一個歷史時期都更貼近人們的日常生活。本文設(shè)計(jì)和構(gòu)建了新疆維吾爾自治區(qū)旅游景點(diǎn)信息的知識圖譜,創(chuàng)建了Neo4j語料庫,針對新疆旅游業(yè)問答系統(tǒng)的不足,設(shè)計(jì)了自動問答系統(tǒng),并對自動問答系統(tǒng)中的問題解析和答案抽取方法進(jìn)行了研究,最后并進(jìn)行了結(jié)果驗(yàn)證。將自動問答系統(tǒng)應(yīng)用于新疆旅游領(lǐng)域,可以促進(jìn)新疆旅游信息的智能化管理發(fā)展,提升服務(wù)水平,這個價值是具有較大影響的。最近這幾年推薦系統(tǒng)不管是研究還是發(fā)展都愈發(fā)的得到社會的關(guān)注,知識圖譜建立的理論以及技術(shù)都愈發(fā)的完善,知識圖譜包含的語義信息可以在很大的程度上對旅游景點(diǎn)相關(guān)信息進(jìn)行健全,提高推薦系統(tǒng)的性能。

    參考文獻(xiàn):

    [1] 徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述 [J].電子科技大學(xué)學(xué)報,2016,45(4):589-606.

    [2] 劉知遠(yuǎn),孫茂松,林衍凱,等.知識表示學(xué)習(xí)研究進(jìn)展 [J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):247-261.

    [3] 劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述 [J].計(jì)算機(jī)研究與發(fā)展,2016,53(3):582-600.

    [4] ARTZI Y,LEE K,ZETTLEMOYER L. Broad-coverage CCG Semantic Parsing with AMR [C]//Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.Lisbon:Association for Computational Linguistics,2015:1-6.

    [5] LI J H,ZHU M H,LU W,et al. Improving Semantic Parsing with Enriched Synchronous Context-Free Grammars in Statistical Machine Translation [J].ACM transactions on Asian language information processing,2017,16(1):6.1-6.24.

    作者簡介:孫晶(1978—),女,回族,新疆新源縣人,講師,碩士,主要研究方向:機(jī)器學(xué)習(xí)、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;郭成艷(2002—),女,漢族,陜西延安人,本科在讀,主要研究方向:機(jī)器學(xué)習(xí)、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;毛臣(1999—),男,漢族,河南南陽人,本科在讀,主要研究方向:機(jī)器學(xué)習(xí)、最優(yōu)化算法、音頻信息處理、自然語言與信息處理;胡玉葉(2001—),女,漢族,新疆哈密人,本科在讀,主要研究方向:機(jī)器學(xué)習(xí)、最優(yōu)化算法、音頻信息處理、自然語言與信息處理。

    猜你喜歡
    知識圖譜
    國內(nèi)外智庫研究態(tài)勢知識圖譜對比分析
    國內(nèi)信息素養(yǎng)研究的知識圖譜分析
    國內(nèi)圖書館嵌入式服務(wù)研究主題分析
    國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
    近十五年我國小學(xué)英語教學(xué)研究的熱點(diǎn)、問題及對策
    基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
    智富時代(2016年12期)2016-12-01 16:28:41
    基于知識圖譜的智慧教育研究熱點(diǎn)與趨勢分析
    國內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
    從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
    專家知識圖譜構(gòu)建研究
    高青县| 东城区| 九江县| 砚山县| 佛学| 游戏| 鲜城| 故城县| 康保县| 馆陶县| 平定县| 昌黎县| 乳源| 乃东县| 抚顺县| 襄垣县| 宜宾市| 深圳市| 抚远县| 清徐县| 梧州市| 永泰县| 唐山市| 玉溪市| 临澧县| 盘锦市| 榕江县| 弋阳县| 出国| 讷河市| 甘洛县| 嘉定区| 南部县| 兴城市| 元谋县| 高唐县| 翁牛特旗| 乐至县| 准格尔旗| 乐清市| 安宁市|